Поисковые машины часто сканируют страницы веб-сайта, чтобы определить, какие из них проиндексированы. Посылаемые поисковыми системами краулеры, известные также как роботы или пауки, собирают, сохраняют и скачивают страницы, которые они считают важными, например главная страница сайта. Поисковые машины могут не скачивать страницы, которые они сочтут нерелевантными.
После сканирования поисковая система анализирует страницу, чтобы определить, является ли она достаточно значимой. Через некоторое время поисковая система продолжает запрашивать ранее загруженные страницы для проверки обновления контента. Для периодических посещений страниц выделяется определенная полоса пропускания на основе предполагаемой релевантности страницы. При каждой загрузке страницы используется часть полосы пропускания, и как только будет достигнут предел, сканирование страниц прекращается до следующего посещения роботом.
Поскольку количество выделяемой пропускной способности ограничено, крайне важно направлять роботов на контент, который должен быть проиндексирован поисковой машиной и устранить повторяющийся или ненужный контент.
Указывайте ботам нужное направление
Вы можете помочь роботам найти и сосредоточиться на нужном содержимом с помощью sitemap в формате XML или HTML. В sitemap должен содержаться наиболее важный контент. Чтобы блокировать сканирование контента поисковыми системами, используйте файл robots.txt или атрибут nofollow в ссылках на страницы, которые не должны быть проиндексированы, включая ссылки на форму авторизации, страницы условий пользования и политики безопасности.
Старайтесь не использовать редирект 302 для перенаправления несуществующих страниц на одну страницу 404. А еще лучше, установите редирект 301 со старых адресов страниц на связанный контент сайта. Ограничьте создание ссылок на стороне браузера в контенте на другие страницы сайта и избегайте ссылок на JavaScript, AJAX и Flash без HTML эквивалента.
Увеличьте важность страницы
Роботы начинают со страниц, которые считают важными и возвращаются на них более часто. Для увеличения важности страницы, уменьшите количество кликов, которое необходимо сделать, чтобы попасть с главной страницы на важный контент, который может находиться глубоко внутри сайта. Увеличьте число внутренних и внешних прямых ссылок на страницы и избегайте использования атрибута nofollow во внутренних ссылках на важный контент.
Избегайте дублированного контента
Несколько страниц на вашем сайте, содержащих один и тот же контент, не улучшат результатов поиска. Они будут только впустую расходовать пропускную способность. Во многих случаях существуют целые копии веб-сайта под различными доменными именами. У вас должна быть только одна версия домена в индексе поисковой системы, и перенаправление с других доменов должно выполняться с помощью редиректа 301. Если на главном домене есть дублирующие страницы, можно перенаправить запрос с помощью редиректа 301 на другую релевантную страницу или использовать канонический META тэг для указания источника. Наконец, замените любые переменные сессий в URL на куки, поскольку переменные сессий часто являются причиной сканирования роботами повторяющегося контента.
Внутренние факторы
Главным правилом является то что контент, который видит пользователь, должен содержаться в HTML-коде запрашиваемой страницы. Не используйте iframe и frame для загрузки контента, что может привести к тому что в индексе поисковой машины окажутся лишние фрагменты страницы. Избегайте использования Ajax и JavaScript для загрузки ссылок и контента, поскольку это затрудняет поиск ссылок для поисковых машин. Убедитесь что страницы, которые должны быть проиндексированы не содержат мета-тэги, запрещающие индексировать страницу.
Google & Ya Webmaster
Зарегистрируйте свой сайт в Ya & Google Webmaster Tools. Данные инструменты предоставляют отчет об обнаруженных проблемах сканирования, с которыми сталкивается поисковая система. Используйте эту информацию для внесения изменений, и убедитесь что проблема устранена.