tgoop.com/amb_yasearch/33
Last Update:
Склеивать или запрещать к индексации? Логика решения и особенности методов для работы с ненужными в поиске страницами.
Есть много способов повлиять на поведение поискового робота - noindex, запрет в robots, clean-param и т.д. Часто вижу, что нет уверенного понимания, что и почему лучше использовать в конкретных случаях. Разберёмся вместе)
Во-первых, сразу определимся, что тут речь о каких-то ненужных в поиске страницах: технических дублях, пустых страницах без контента, etc. Если не ограничить индексирование таких страниц, они могут попадать в поиск, что может замедлять индексирование целевых, полезных страниц. Также обход дублей/мусора создаёт нагрузку на сайт, она может быть значительной. Кроме того, дубли могут показываться в поиске, что приведёт к размытию поисковых сигналов между несколькими страницами, что невыгодно ни сайту, ни поиску.
Разделим эти страницы на несколько когорт:
— нежелательные в поиске страницы с чувствительными данными (заказы пользователей, etc): к таким страницам стоит закрыть доступ авторизацией, чтобы ни поисковые роботы, ни случайные пользователи не смогли в принципе получить этот контент
— страницы без контента, какой-то технический мусор и пр. страницы без шансов показаться в поиске: такие лучше просто запретить к индексации
— страницы, являющиеся дублями (например, из-за добавления cgi-меток к урлу в рекламных системах): стоит подклеить их сигналы к основному (каноническому) урлу
Теперь разберёмся с инструментами, запрещающими индексацию.
Запрет через disallow в robots.txt полезен, если закрываемые страницы хорошо группируются какой-то маской на url. Ценная особенность метода в том, что не требуется обход роботом, и директива применится сразу ко всем урлам в поисковой базе.
Метатег или http-заголовок noindex даёт большую гибкость (страницы могут не иметь общего паттерна в url, и нет ограничения на число страниц), но при этом требуется обход роботом, поэтому потребуется больше времени.
Чтобы подклеить сигналы с дублирующих страниц к основным, используйте элемент rel=canonical, директиву clean-param в robots.txt или 301 редирект.
Атрибут rel=canonical или редирект позволяют реализовать гибкую логику, если нужно, но потребует обход страниц роботом. Если дубли порождаются незначащими cgi-параметрами, выгодно использовать clean-param - это подклеит сигналы к каноническому урлу, при этом роботу даже не потребуется обходить страницы заново. Замечу, что и атрибут canonical, и директива clean-param являются рекомендацией для робота и могут не сработать при существенных отличиях страниц.
Резюмируем: непубличные страницы лучше закрыть авторизацией, мусорные страницы и пустышки - запретить к индексации, содержательные дубли - подклеить к каноническим.
Выбирайте оптимальное решение в каждом конкретном случае.
BY Сливинский в поиске
Share with your friend now:
tgoop.com/amb_yasearch/33