Прежде чем сайт появится в результатах поиска, он должен быть проиндексирован поисковой системой. Индексация означает, что поисковый робот посетил ваш сайт, проанализировал его и занес информацию в базу данных поисковой системы.
Если некоторая страница занесена в индекс поисковика, то она может быть показана в результатах поиска. Если страница в индексе отсутствует, то поисковая система ничего не знает о ней, и, следовательно, никак не может использовать информацию с этой страницы.
Большинство сайтов среднего размера (то есть содержащих несколько десятков или сотен страниц) обычно не испытывают никаких проблем с правильной индексацией поисковыми системами. Однако, существует ряд моментов, которые стоит учитывать при работе над сайтом.
Поисковая система может узнать о вновь созданном сайте двумя путями:
- ручное добавление адреса сайта через соответствующую форму поисковой системы. В этом случае вы сами сообщаете поисковой системе о новом сайте и его адрес попадает в очередь на индексацию. Добавлять следует лишь главную страницу сайта, остальные будут найдены поисковым роботом по ссылкам;
- предоставить поисковому роботу самостоятельно найти ваш сайт. Если на ваш новый ресурс есть хотя бы одна внешняя ссылка с других ресурсов, уже проиндексированных поисковой системой, то поисковый робот в короткие сроки сам посетит и проиндексирует ваш сайт. В большинстве случаев рекомендуется использовать именно этот вариант, то есть получить несколько внешних ссылок на сайт и просто дождаться прихода робота. Ручное добавление сайта может даже удлинить время ожидания робота.
Время необходимое для индексации сайта составляет, как правило, от 2-3 дней до 2 недель, в зависимости от поисковой системы. Быстрее всех индексирует сайты поисковая система Google.
Старайтесь сделать сайт дружественным для поисковых роботов. Для этого учитывайте следующие факторы:
- старайтесь, чтобы любые страницы вашего сайта были доступны по ссылкам с главной страницы не более чем за 3 перехода. Если структура сайта этого не допускает, то сделайте так называемую карту сайта, которая позволит выполнять указанное правило;
- не повторяйте распространенных ошибок. Идентификаторы сессий затрудняют индексацию. Если вы используете навигацию через скрипты, то обязательно дублируйте ссылки обычным образом – поисковые системы не умеют читать скрипты (подробнее об этих и других ошибках рассказано в главе 2.3);
- помните, что поисковые системы индексируют не более 100-200 кб текста на странице. Для страниц большего объема будет проиндексировано только начало страницы (первые 100-200 кб.). Из этого следует правило – не используйте страницы размером более 100 кб, если хотите, чтобы они были проиндексированы полностью.
Управлять поведением поисковых роботов можно с помощью файла robots.txt, в нем можно явно разрешить или запретить для индексации те или иные страницы. Существует также специальный тег «NOINDEX», позволяющий закрыть для индексации отдельные части страницы, однако этот тег поддерживается только российскими поисковыми системами.
Базы данных поисковых систем постоянно обновляются, записи в базе могут подвергаться изменениям, исчезать и появляться снова, поэтому число проиндексированных страниц вашего сайта может периодически меняться.
Одной из наиболее частых причин исчезновения страницы из индекса является недоступность сервера, то есть поисковый робот при попытке индексации сайта не смог получить доступ к нему. После восстановления работоспособности сервера сайт должен появиться в индексе снова через некоторое время.
Следует также заметить, что чем больше внешних ссылок имеет ваш сайт, тем быстрее происходит его переиндексация.
Отследить процесс индексации сайта можно с помощью анализа лог-файлов сервера, в которых записываются все визиты поисковых роботов. В соответствующем разделе мы подробно расскажем о программах, которые позволяют это сделать.