ryg

php скрипт для проверки индексации сайта в Яндекс


Для вебмастера очень важно понимание, какие страницы были проиндексированы поисковой системой, а какие нет, а также наличие или отсутствие дублирующихся  страниц. Для упрощения поиска таких проблем я написал достаточно простой скрипт на php.
 
Скрипт написан под себя, и я не сильно старался его сделать универсальным, но если кому-то будет необходимо его доработать, то я не возражаю, если это будет сделано для себя, а не для продажи. Если вы найдете ошибки или будут необходимы доработки, пишите об этом в форуме.
Для правильной работы скрипта требуется файл настроек yandexindex.config, содержащий информацию о ваших сайтах, файл должен находиться в той же папке, что и сам скрипт. 
Для работы с выдачей Яндекс скрипт использует API YandexXML, поэтому необходимо зарегистрироваться на сайте http://xml.yandex.ru  и получить ключ key.

Файл yandexindex.config

Стандартный текстовый файл в каждой строке, которого записывается один ключ. Имя ключа и его значение отделяются между собой пробелом. Комментарии в файле не допускаются.

Первым ключом в блоке должен быть alias - это имя блока параметров передаваемого в скрипт. За ним должны идти следующие ключи
key, user, site. Все ключи обязательны. Далее может идти следующий блок, начинающийся с ключа alias. Пробелы в начале строки и в конце ее игнорируются.

alias - значение данного параметра передается скрипту при вызове и будет использовано при поиске в необходимого блока в файле настроек.
user - имя пользователя для входа в YandexXML. Его можно посмотреть в настройках Яндекс XML
key - ключ API YandexXML. Назначается при регистрации  и его можно посмотреть в настройках Яндекс XML.
site - url сайта без указания протокола и без наклонной черты в конце имени.

Пример файла

alias osx
user mmm-ru>
key 03.144444142:fe6fe667193ee444dcca145744bd
site osxh.ru
alias newsite
user mmm-ru
key 03.144444142:fe6fe667193ee444dcca145744bd
site mysite.ru

Вызов скрипта

Скрипт вызывается в браузере с параметром site указывающий на необходимый alias

http://localhost/yandexindex.php?site=newsite
или
http://localhost/yandexindex.php?site=osx

И конечно необходимо в настройках YandexXML указать IP компьютера с которого запускается скрипт.

Для работы скрипта требуется наличие в корневой папке сайта рабочего файла sitemap.xml.

Результат работы скрипта

Скрип выводит четыре блока информации

  • Первый блок это содержимое файла sitemap.xml (синий блок).
  • Второй блок - список проиндексированных страниц поисковой системе Яндекс. (зеленый блок)
  • Третий блок -список страниц, которые есть в Sitemap.xml, но отсутствуют в ПС Яндекс
  • Четвертый блок -список страниц, которые есть в выдаче ПС Яндекс, но отсутствуют в файле Sitemap.xml.

Скачать скрипт и образец файла настроек скрипта.

На данный момент существует новая версия, позволяющая собирать и хранить информацию об индексации сайта не только в Yandex, но и в Google.