Допустим, на сайте множество страниц. Но поисковая система добавляет в индекс не все, или даже меньшую часть. Например, робот обходит страницы, исправно посещает все 100 000, но в индекс попадает только 25 000. Здесь я попытаюсь порассуждать, почему такое может быть.
Механизм индексации
Чтобы страницы попали в индекс, робот должен их вначале увидеть. Для этого надо ему помочь, или хотя бы не мешать. Если хотите помочь роботу, включите генерацию карты сайта sitemap.xml (или разработайте сами, если у вас самописный движок сайта) и добавьте ее в средства для вебмастеров Яндекс и Google. Тогда вы сможете видеть, сколько страниц сайта из карты робот обработал, и сколько включил в индекс. Можно для верности добавить карту сайта в robots.txt в таком формате:
Sitemap: http://your-site.ru/sitemap.xml
Если хотите не мешать роботу, проверьте, что нужные вам страницы не заблокированы в robots.txt. Также зайдите на эти страницы, посмотрите их исходный код в браузере и убедитесь, что нет метатегов noindex. Вообще, noindex надо расставлять очень осторожно, об этом расскажу далее.
Уникальность
Текст на всех страницах сайта должен быть уникальным. Пишите его самостоятельно или нанимайте копирайтеров. Но бывает так, что страницы целиком состоят из стандартных описаний товаров, которые также массово продаются в других интернет-магазинах. Как тут быть? Ответ прост, оказывается не надо искусственно делать уникальными описания товаров, а особенно — технические данные. Поисковики прекрасно понимают, что перед ними страничка с техническим описанием. Вместо уникализации таких страниц можно делать дополнительный функционал, например, добавлять блоки комментариев и отзывов, в общем, добавлять полезности посетителю. Поисковые системы это также видят и ценят.
Дублирование контента тесно связано с уникальностью. Проверьте, нет ли у вас на сайте страниц с одинаковым title (если у вас вообще для всех страниц один title, срочно делайте их разными). Search Console от Google подсказывает такие ошибки, где слишком длинный или слишком короткий заголовок у страниц, а также где он дублируется. Вообще, старайтесь устранять все замечания в консолях Google и Яндекс.
Списки статей с аннотациями, разделенные постранично, являются основной причиной дублирования контента. Установите на такие страницы метатег:
<meta name="robots" content="noindex,follow"/>
noindex избавит вас от индексации этих страниц, а follow укажет поисковику, что по ссылкам надо переходить и смотреть их содержимое. А их содержимое — это и есть статьи, которые как раз должны попасть в индекс. Проверьте, чтобы они не были закрыты от робота.
Иногда бывает так, что на сайте очень много страниц, но отличаются они незначительно. Например, если вы продаете множество аккумуляторов, то страницы могут отличаться совсем незначительно, какой-то цифрой в технической характеристике. Поисковая система запросто может решить, что это дублирование, и оставить в индексе только одну из таких страниц. Разумеется, вас это не устроит, ведь товары-то разные. Попробуйте для таких страниц установить в раздел head свойство:
<link rel="canonical" href="http://your-site.ru/your-page.htm" />
Это свойство говорит поисковой системе, что каноническая страница для данной страницы находится по указанному адресу. Установите всем страницам товаров в качестве канонической саму себя, тогда поисковая система будет иметь меньше оснований, чтобы склеить похожие страницы. Вообще это свойство очень хорошо помогает, когда у страницы может быть много URL-параметров. Тогда есть риск, что поисковик проиндексирует одну и ту же страницу, но со множеством значений параметров, что скажется отрицательно на ранжировании.
Ссылки
Внешние ссылки хороши только тогда, когда люди их поставили искренне и самостоятельно. Никогда не покупайте ссылки! Поисковые системы легко понимают, какие ссылки вы купили. А также никогда не продавайте ссылки, это они тоже умеют определять автоматически (Минусинск, АГС — знакомо?)
Естественная ссылка на ваш сайт — это такая ссылка, по которой люди реально переходят и смотрят ваш материал. Поисковики это могут отследить через счетчики на сайтах: либо вашем, либо донора. Если по ссылке никто никогда не перешел, то чисто логически, она неестественная, а значит, купленная. За это ваш сайт будет хуже ранжироваться и индексироваться, а то и вовсе может выпасть из индекса в наказание.
Внутренние ссылки также важны. Проверьте в инструментах для вебмастеров, какие у вас есть внутренние ссылки. Если вы заметили, что есть внутренние ссылки на служебные страницы (логин, регистрация, корзина), сделайте такие ссылки nofollow. Устанавливайте логичные переходы между статьями на сайте с помощью внутренних ссылок. Естественность такой взаимосвязи страниц ценится роботами, потому что это также полезно для людей: они начинают переходить по страницам, получая все больше полезной информации. Иногда это называют внутренней перелинковкой, и часто это можно сделать автоматически без потери качества.