Сливинский в поиске@amb

Сливинский в поиске

Склеивать или запрещать к индексации? Логика решения и особенности методов для работы с ненужными в поиске страницами.

Есть много способов повлиять на поведение поискового робота - noindex, запрет в robots, clean-param и т.д. Часто вижу, что нет уверенного понимания, что и почему лучше использовать в конкретных случаях. Разберёмся вместе)

Во-первых, сразу определимся, что тут речь о каких-то ненужных в поиске страницах: технических дублях, пустых страницах без контента, etc. Если не ограничить индексирование таких страниц, они могут попадать в поиск, что может замедлять индексирование целевых, полезных страниц. Также обход дублей/мусора создаёт нагрузку на сайт, она может быть значительной. Кроме того, дубли могут показываться в поиске, что приведёт к размытию поисковых сигналов между несколькими страницами, что невыгодно ни сайту, ни поиску.

Разделим эти страницы на несколько когорт:

— нежелательные в поиске страницы с чувствительными данными (заказы пользователей, etc): к таким страницам стоит закрыть доступ авторизацией, чтобы ни поисковые роботы, ни случайные пользователи не смогли в принципе получить этот контент
— страницы без контента, какой-то технический мусор и пр. страницы без шансов показаться в поиске: такие лучше просто запретить к индексации
— страницы, являющиеся дублями (например, из-за добавления cgi-меток к урлу в рекламных системах): стоит подклеить их сигналы к основному (каноническому) урлу

Теперь разберёмся с инструментами, запрещающими индексацию.

Запрет через disallow в robots.txt полезен, если закрываемые страницы хорошо группируются какой-то маской на url. Ценная особенность метода в том, что не требуется обход роботом, и директива применится сразу ко всем урлам в поисковой базе.

Метатег или http-заголовок noindex даёт большую гибкость (страницы могут не иметь общего паттерна в url, и нет ограничения на число страниц), но при этом требуется обход роботом, поэтому потребуется больше времени.

Чтобы подклеить сигналы с дублирующих страниц к основным, используйте элемент rel=canonical, директиву clean-param в robots.txt или 301 редирект.

Атрибут rel=canonical или редирект позволяют реализовать гибкую логику, если нужно, но потребует обход страниц роботом. Если дубли порождаются незначащими cgi-параметрами, выгодно использовать clean-param - это подклеит сигналы к каноническому урлу, при этом роботу даже не потребуется обходить страницы заново. Замечу, что и атрибут canonical, и директива clean-param являются рекомендацией для робота и могут не сработать при существенных отличиях страниц.

Резюмируем: непубличные страницы лучше закрыть авторизацией, мусорные страницы и пустышки - запретить к индексации, содержательные дубли - подклеить к каноническим.

Выбирайте оптимальное решение в каждом конкретном случае.

www.tgoop.com/amb_yasearch/33

3.7K viewsAug 20, 2024 at 19:00

tgoop.com/amb_yasearch/33

Create: 2024-08-20
Last Update: 2025-02-28 03:20:21

BY Сливинский в поиске

Share with your friend now:
tgoop.com/amb_yasearch/33

Telegram News

Склеивать или запрещать к индексации? Логика решения и особенности методов для работы с ненужными в поиске страницами.