Восстановление после HCU и мартовского апа
Я рассказывал уже, что попробовал перенести зафильтрованный сайт на новый домен. Собственно результаты на скрине.
Действительно , гугл наказал не за некачественный контент, не за поведенческое, а за то, что поведясь на красивое имя, не просмотрел историю домена. Вернее я видел, что лет 5 назад домен был перехвачен, потом брошен спустя год. Но кто мог подумать, что гугл такой злопамятный.
Итак, перенес на новый домен без истории, поставил 301, ничего более не делал и вот вам результат (на скрине). Теперь со спокойной душой можно его развивать (после переноса никак и ничего с ним не делал).
Выводы: Будьте внимательны при подборе домена. Проверяйте историю. Не юзайте дропы для новых проектов - крайне опасно!
#DrMax #CoreUp
Я рассказывал уже, что попробовал перенести зафильтрованный сайт на новый домен. Собственно результаты на скрине.
Действительно , гугл наказал не за некачественный контент, не за поведенческое, а за то, что поведясь на красивое имя, не просмотрел историю домена. Вернее я видел, что лет 5 назад домен был перехвачен, потом брошен спустя год. Но кто мог подумать, что гугл такой злопамятный.
Итак, перенес на новый домен без истории, поставил 301, ничего более не делал и вот вам результат (на скрине). Теперь со спокойной душой можно его развивать (после переноса никак и ничего с ним не делал).
Выводы: Будьте внимательны при подборе домена. Проверяйте историю. Не юзайте дропы для новых проектов - крайне опасно!
#DrMax #CoreUp
🔥22👍10❤2😁1
Второй домен решили восстановить заменой контента. Он неудачно перенес HCU, и в мартовский ап был благополучно зафильтрован.
Собственно поменяли, оптимизировали контент, но результата нет. Говорят что августовский Core Up кого то там "отпустил" и восстановил. Но не в этом случае.
Причина, наверняка, в проблемном красивом домене.
Собственно, теперь предстоит перенос на новый домен. С огромной долей вероятности это вернет сайт в строй.
Выводы теже
#DrMax #CoreUp
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍3❤2😁1
Собственно после окончания мартовского обновления, вырезавшего половину сайтов - конкурентов в моей тематике (бурж), в том числе и достаточно трастовых (много ссылочного), был заложен новый проект.
Поначитавшись сливов Гугла и проведя анализ судебных слушаний пришли к мнению, что нужно первым делом прокачать бренд нового проекта.
К слову, проект бурж, конкуренция сверхвысокая. Проект юзает движок "провайдера", который предоставляет на свои "товары" минимум описания. По сути получаем сайт с практически пустыми карточками.
По рассказам оного провайдера, у него в прошлом году было уже более 1000 партнеров, то есть конкуренция уже ясна. А поскольку товары - совсем не эксклюзив, то конкуренция заоблачная.
Понаблюдав за развитием оного сегмента рынка, увидел, как в HCU вылетели сотни прокачанных сайтов - конкурентов, в март-апдейт вылетели еще сотни подобных сайтов, не смотря на ссылочное.
Итак, стартовали в мае, весь июнь строили ссылки на морду с бренд анкорами (желтые страницы, фри блоги, профили микрософта и адобе и т.д и т.п). Всего было построено более 1000 ссылок, из них в GSC проникло штук 400.
Параллельно неспешно делали контент. Сейчас готово только 6-7% страниц.
Первая стрелка показывает рост после прокачки бренда
Вторая стрелка - рост после августовского Core UP
Что сказать, стратегия на развитие узнаваемости привела к хорошему результату. Сейчас достаточно много запросов в гугле по бренду.
Теперь можно вкладываться по полной и в контент и в анкорное ссылочное.
Выводы: прокачка бренда рулит.
#DrMax #CoreUp
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥36👍10❤4
Собственно говоря, ап получился недоделанный. И по времени они раньше его закончили и мусора полно в выдаче (как всегда после апов). Но не это интересно.
Вот смотрите, в результате августовского апа вылетела кучка страниц. Попали из проиндексированных в "сканировано - но не индексировано". То есть Гугл недоволен качеством контента (и/или отсутствием ссылочного веса на страницах, в результате, например, слишком глубокого расположения).
Попробовал руками в GSC подать такие страницы на переиндекс. Гугл радостно их скушал и проиндексил за пару минут. Таким образом, у Гугла наблюдается рассинхрон в той части алгоритма, которая отвечает за выкидывание страниц из индекса (определение плохого качества страниц) и той которая отвечает за определение качества страниц при индексации.
Ранее (до апа) вы могли сколько угодно раз переподавать вылетевшие страницы на переиндекс и гугл с 90% вероятностью отказался бы их индексировать. И это правильно. Бнз правки контента нечего таким страницам делать в индексе.
Отсюда вывод, что ядро алгоритмов будут подкручивать и очень скоро будет новый ап.
И второй вывод, раз уж гугл так расслабился, то можно ловко и быстро запихать через API все выпавшие страницы опять в индекс.
Более подробно проанализирую августовский ап позже, когда разгребусь с делами.
#DrMax #CoreUp
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27❤7🔥5😁2
В соответствии со сливами Гугла, Keto Score, похоже, является алгоритмом молниеносной предварительной оценки страницы сайта и её ранжирования без тщательного вычисления тысяч факторов ранжирования. Это позволяет Google крайне быстро начать ранжировать новую страницу (например для горячих новостей или чего подобного). В дальнейшем Keto Score заменяется на ординарные оценки, вычисленные по общим основаниям и ранжируется уже в обычном порядке. И скорей всего эта оценка и в дальнейшем будет как то влиять на позиции в органике.
contentEffort - LLM-based effort estimation for article pages
По всей видимости оная оценка рассчитывается с использованием ИИ
deltaLinkIncoming
deltaLinkOutgoing
deltaSubchunkAdjustment - Total deltaNSR adjustment based on subchunks
keto - Keto score
linkIncoming
linkOutgoing
numOffdomainAnchors - The total number of offdomain anchors seen by the NSR pipeline for this page
page2vecLq
predictedDefaultNsr - Predicted default NSR score computed in Goldmine via the NSR default predictor
rhubarb - Site-URL delta signals based quality score computed in Goldmine via the Rhubarb model
subchunkData
tofu - URL-level tofu prediction
unversionedRhubarb - The delta score of the URL-level quality predictor
Вероятно, они (алгоритмы Гугла) используют общую быструю статистику страницы, такую как количество слов, подзаголовков, изображений, ссылок и т. д. ( т.е. более длинный контент, вероятно, потребует больше усилий для его создания). И чем больше усилий вложено в контент, тем лучше оценка. При этом, по всей видимости, страницу оценивает именно ИИ.
Фишка: чтобы Keto Score было как можно выше, при условии оценки контента ИИ, можно написать во вступлении, что "на создание этого контента было потрачено много усилий".
Частично (не уверен), это подтверждается сайтом моих знакомых, про который я уже рассказывал. Будучи собранным на вордпрессе и имея несколько сотен странниц, он приносит прибыли более миллиона $ в месяц.
Так вот, я всё не мог понять, для чего они пишут на каждой страннице что то типа: На создание этой страницы ушло 150 человеко-часов и принимали участие в написании доцент Маша, аспирант Паша и кандидат наук Саша.
Вполне возможно, что наличие таких заявлений в шапке контента может повлиять на ИИ и улучшить ранжирование.
Надо отдать должное, что там действительно на сайте огромные лонгриды, насыщенные графикой и всяким прочим контентом.
Ну и делайте качественный контент с хорошим структурированием и насыщенный медиа, таблицами и пр.
То как Gemeni от Гугла оценивает страницы и как это использовать - смотрите тут, вот тут ну и вообще много писал про это.
#DrMax #SEO #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26😁15❤4
Все данные основаны на утечке Гугла и сведениях из судебных заседаний. Приводить исходники не буду – легко найдете сами в сливах.
Только сухие факты:
1. Околоанкорные тексты действительно учитываются.
2. Лучшие ссылки – с ранжирующихся по нужному анкору страниц
3. Внутренние и внешние ссылки обрабатываются крайне схожими алгоритмами
4. Удаленные ссылки работают еще какое то время (см мой пост про теневые ссылки)
5. Сквозные ссылки определяются и не имеют значительного веса
6. При оценке ссылок используются сущности (и их домены) – важность релевантности
7. Пейдж ранк (PR) по прежнему работает, но рассчитывается по иному
8. ———
9. Новым ссылкам временно присваивается некий средний PR
10. Если на странице есть несколько ссылок и одна из них открыта для индекса (нет тега nofollow), то и все иные ссылки становятся follow ссылками
11. Релевантность ссылки рассчитывается и имеет числовой показатель
12. Ссылки из новостей имеют несколько иной алгоритм рассчета
13. Каждый анкор принадлежит определенному кластеру
14. Ссылки на морду вызывают проверку «доверия» оной морды
15. Есть переменная SpamScore, которая определяет спамность ссылки и окружающего текста
16. Гугл оценивает вероятность попадания анкора в текст акцептора, т.е. осуществляет сверку сущностей. Это к вопросу спамности всяких говноанкоров типа: по ссылке, здесь, тут и пр.
17. Страница может не ранжироваться, но ссылка с неё может учитываться
18. Упоминания (без гиперссылки) работают
19. Google проверяет релевантность веб-сайта, на который ссылается листинг Google
20. Гугл оценивает анкоры, подсчитывая сколько их на странице, есть ли повторы анкоров, сколько анкоров использовано для внешних ссылок, для внутренних ссылок. После этого он объединяет данные и выставляет оценку анкору.
21. Фрагментированные анкоры (частичные) могут при расчете оценки признаваться основными анкорами.
22. Анкоры проверяются на спамность.
23. Осуществляется подсчет и контроль спамных анкоров
24. Хорошие анкоры становятся доверенными
25. Цель оценки анкоров – определить релевантность донора и акцептора
26. Страница может быть оштрафована из за плохих ссылок (badbacklinksPenalized)
27. Страница может быть оштрафована на уровне алгоритма Пингвин
28. Действительно, подсчитываются исходящие ссылки на домены с того же хоста (поиск сеток)
29. Проводиться расчет «отброшенных» анкоров для каждого кластера анкоров
30. Внутренние ссылки пингвином не обрабатываются
31. Существует ограничение на число анкорных текстов. Не более 5000 штук на 1 страницу.
32. Согласно сегменту качества анкоров, анкор с pagerank > 51000 является лучшим. Анкор с pagerank < 47000 - все одинаковы (напомню, что тулбарный PR рассчитывался логарифмически и приводился к PR10 max).
33. Определяется вероятность того, что этот набор анкоров будет демонстрировать спамное поведение
34. Рассчитывается всплеск спам-анкоров и осуществляются защитные действия для пострадавшего сайта
35. Если большинство входящих ссылок с морд сайтов, страница будет оштрафована
36. Для мощных ссылок выдается дополнительный фактор доверия.
37. Есть какие то флаги, которые выставляются для ссылок с дроп доменов
Это вот кратенько и может что то пропустил.
Живите теперь с этим ))))
#DrMax #SEO #Google #Links
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥104👍15👏15❤5
Сравнивали результаты ранжирования контента сгенерённого Клавдией с таким же контентом, сгенерённым Гемени. Обоим чатам сливался один и тот же исходный контент, использовался один и тот же промпт.
Так вот Кллавдия проигрывает вчистую. Если контент сгенеренный Клавдией болтается в десятке, а то и ниже, контент сгенеренный Гемени ловко становитс в ТОП 3.
Неоднократно проводились замеры, когда первоначальный контент, сгенеренный Клавдией менялся на контент от Гемени и наблюдался рост.
И наоборот, контент, сгенеренный Гемени менялся на контент от Клавдии и было заметно постепенное падение.
По всей видимости, после продажи Клавдии Амазону, развитие пошло куда то не туда. Контент стал еще более слезливым и мелодраматичным, не смотря на все грозные окрики в промпте.
Возможен и иной вариант, ведь Гемени генерит 3 варианта контента и, как правило, собирается результирующий контент как кадавр из 3-х различных вариантов.
В целом, Клавдией разочарован.
Но все эти наблюдения - на данный момент. Все эти штуки быстро развиваются и через месяц картина может быть совершенно иной.
Вот такие дела.
Зы: Гугл AI Studio позволяет заглянуть немного вперед с развитием Гемени. Сейчас, вроде как используется движок 1.5. Flash, а в студии есть куча интересных экспериментальных движков, которые уже можно использовать.
#DrMax #SEO #Клавдия
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34👍11🆒4👏3❤2
Давайте разберем, какое внимание Google уделяет сущностям.
entities - A list of entities detected on Document.text
entityRelations - Placeholder. Relationship among Document.entities
Изначально у гугла есть необработанный список сущностей в документе. Оные сущности играют центральную роль в том, что получаем в органической выдаче при каждом запросе. При этом сущности входят в домены сущностей, которые обеспечивают контекст связанными темами и помогают найти взаимосвязанные темы.
Multiple entities can be identified on a document or query. Each entity can be mentioned several times in different positions on the document or query. This message describes a single mention of the entity. Note that a mention can be either explicit or implicit mentions. All explicit mentions refer to exact range in the document where the entity occurred, but implicit mentions may or may not have corresponding range. Next available tag number: 40
Гугл определяет частоту и важность каждой найденной сущности. Чем чаще сущность встречается – тем она важней. Кроме того, гугл выявляет «неявные» сущности.
isImplicit - True if the entity is mentioned implicitly
Например, если описывается некий красный сапог в контенте, то гугл может предположить наличие сущности «обувь» в оном контенте. Таким образом isImplicit крайне полезен и позволяет ранжироваться по запросам, которых явно нет в контенте. Следовательно, нет никакой нужды использовать все 100500 вариаций ключевых слов в контенте, чтобы ранжироваться по ним.
confidenceScore - A probabilistic score describing how certain the annotator is that this exact range in the document or query refers to the entity
Важно понимать, что гугл не собирается ранжировать страницу, только из за наличия какой то там сущности на ней. Некий confidenceScore указывает, что Гугл оперирует только важнейшими сущностями контента.
SalientTermSet is a collection of terms (unigrams and bigrams) with associated weights that can describe something. The "salient terms"
docData - doc_data contain additional salient-term-set-level data
salientTerm - salient_term is the list of terms that are good descriptors, sorted in decreasing order of weight
version - version is the Salient Terms version used to create the SalientTermSet
Становится понятно, что гугл для каждой страницы ранжирует все наиболее важные сущности в обратном порядке - от самой важной к наименее ценной.
A list of entities that are latent given this entity. For example, "Lionel Messi" can have the latent entity "FC Barcelona". See go/refx-latent-entities for detailed description.
latentEntity - Latent entities with associated metadata including source of the relationship
Итак, в списке неявных, латентных сущностей будут присутствовать некие родственные ключи, связанные с главной сущностью. Следовательно, эти термины будут взаимосвязаны с главной сущностью и, возможно, контент будет ранжироваться по ним.
Следовательно, дабы улучшить ранжирование, необходимо использовать в контете не только основную сущность, но и связанные с ней неявные сущности.
Посмотрите, как я ранее описывал пытки Барда на предмет улучшения страниц и определения основной и вторичных сущностей и их доменов. Было написано 2-3 заметки ранее. Думается, в свете вскрывшихся обстоятельств они по прежнему ценны.
Лучшим приемом использования сущностей является набивка контента побочными, связанными сущностями, при этом нужно отслеживать, что центральная сущность доминирует – т.е., как минимум, встречается чаще (3-5 раз в контенте). При этом крайне важно пихать в контент те вторичные сущности, коих нет у ваших конкурентов. Именно так и получается оригинальный контент (а вовсе не рерайтом контента конкурентов).
Тут сразу возникает вопрос о том, что нужно быть в теме, нужно обладать ловими умениями по генерации (написанию) контента и иметь обширный словарный запас – т.е. опять мы приходим к необходимости профессиональных авторов или редакторов. Даже для подготовки промптов для чат ботов они нужны.
Далее…
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👍14❤4
Если понапихать контент разнообразными сущностями, то это, возможно, сработает. Но, как всегда, есть свои нюансы.
Как мы видим, гугл по прежнему использует концепцию IDF-TF (как ни странно) и меряет очередную «оригинальность» контента тем, что выискивает сущности, обсуждающиеся крайне редко. То есть они просматривают свой корпус докУментов (всеобщий нормализованный кэш) и смотрят, насколько редко встречается сущность в нем.
Думается пока закончим на этом, продолжим обсуждение сущностей позже.
#DrMax #SEO #entity #сливы
idf - idf of the original_term
label - label can be two things depending on where this message is
originalTerm - original_term are the different ways we found this normalized term in the signals
salience - salience is the importance of the term as a descriptor in [0, 1] (the higher the more important)
signalTerm - signal_term contains extra signal-specific (e.g., body, anchors, clicks) data for this term
virtualTf - virtual_tf is the accumulated corrected term frequency from all the signals
weight - weight is the importance of the term as a descriptor in [0, 100] (the higher the more important)
Как мы видим, гугл по прежнему использует концепцию IDF-TF (как ни странно) и меряет очередную «оригинальность» контента тем, что выискивает сущности, обсуждающиеся крайне редко. То есть они просматривают свой корпус докУментов (всеобщий нормализованный кэш) и смотрят, насколько редко встречается сущность в нем.
Думается пока закончим на этом, продолжим обсуждение сущностей позже.
#DrMax #SEO #entity #сливы
👍34🔥7
Если с отдельными сущностями всё понятно, то напомню, что все они входят в структуру более высокого уровня, называемого доменами сущностей.
Давайте всеж немного поиграем с определениями. Сущности в SEO – это, по сути, любые реальные или абстрактные объекты, о которых может идти речь в интернете. Это могут быть:
Домен сущности – это, по сути, группа связанных между собой сущностей. По идее, домены сущностей – это более широкие тематические области, объединяющие множество сущностей. Это как бы библиотеки, где хранятся все знания о конкретной теме или по другому, категории знаний.
Например:
Казалось бы, что домены сущностей это отдельные тематические категории. И, скорей всего, лет 10 назад так это и было. На это намекает и старый список NLP категорий Гугла и данные сливов:
We still allow legacy use case to exist (no forced migration), but we will not accept any new usage of WMA, incl. from existing clients. UDR has the same features and can be used similarly: - To consume the topical entities
categoryConfidenceE2 - The confidence of the category
categoryEncodedMid - See go/category-annotations-api about the story behind various types of category annotations that are provided using the catmid token and category_encoded_mid fields below
confidenceE2 - The confidence scores of all entities in the encoded_mid array
topicalityE2 - The topicality scores of all entities in the encoded_mid array
Но на самом деле домены сущностей далеко выходят за просто какие то там именованные категории.
Как гугл это использует и почему это так важно для SEO?
Ну и так далее…
Как использовать сущности и домены сущностей в SEO?
Пример №1: Представьте, что вы создаете сайт о путешествиях по России. Ваши сущности – это города России, достопримечательности, отели и т.д. Домен сущностей – "Туризм в России". Используя структурированные данные, вы можете указать, что ваш сайт посвящен путешествиям, и описать каждый город с указанием его достопримечательностей, отелей и т.д.
Пример №2 Как работать с доменами сущностей (мой опыт).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤4🔥4👻1
Есть у меня суперпромпт, описывающий отдельные категории. Помимо стандартных требований по профессионализму написания текста, наиболее полных данных, тональности текста и пр., он состоит из нескольких десятков вопросов.
Например, описываем какой-нибудь кувшин для очистки воды. Тогда вопросы будут Какой материал кувшина? Как часто надо менять фильтр? Какие фильтры есть на рынке? Какие производители выпускают фильтры для этого кувшина? Можно ли мыть кувшин в посудомойке? Какое наполнение фильтров? Какие дополнительные функции есть у кувшина (механический счетчик литража, анализ качества очистки и т.д.)? Ну и так далее – всего штук 20-30 вопросов.
Стандартно этот промпт скармливался Перплексити, а затем полировался результат Бардом.
Если мы начинаем оперировать доменами сущностей, то перед тем как скормить промпт Перплексити, вопрошаю у Барда/Гемени, мол нужно сделать описание пресловутого кувшина для очистки воды и будь добр проанализировать промпт и добавить в него больше вопросов для раскрытия связанных сущностей и их доменов в оном промпте.
В результате получаем переработанный промпт, в котором понапиханы совершенно неочевидные вопросы о сущностях оного кувшина. В результате получаем более всеобъемлющее описание и, что самое интересное, структура описания абсолютно разная для каждого пресловутого кувшина. Это очень важно.
Итак, понимание сущностей и доменов сущностей – это важный шаг для создания эффективной SEO-стратегии. Это позволяет вам не просто конкурировать за ключевые слова, а строить глубокое понимание вашей ниши и предоставлять пользователям действительно полезный контент.
#DrMax #SEO #сущности #Google
Например, описываем какой-нибудь кувшин для очистки воды. Тогда вопросы будут Какой материал кувшина? Как часто надо менять фильтр? Какие фильтры есть на рынке? Какие производители выпускают фильтры для этого кувшина? Можно ли мыть кувшин в посудомойке? Какое наполнение фильтров? Какие дополнительные функции есть у кувшина (механический счетчик литража, анализ качества очистки и т.д.)? Ну и так далее – всего штук 20-30 вопросов.
Стандартно этот промпт скармливался Перплексити, а затем полировался результат Бардом.
Если мы начинаем оперировать доменами сущностей, то перед тем как скормить промпт Перплексити, вопрошаю у Барда/Гемени, мол нужно сделать описание пресловутого кувшина для очистки воды и будь добр проанализировать промпт и добавить в него больше вопросов для раскрытия связанных сущностей и их доменов в оном промпте.
В результате получаем переработанный промпт, в котором понапиханы совершенно неочевидные вопросы о сущностях оного кувшина. В результате получаем более всеобъемлющее описание и, что самое интересное, структура описания абсолютно разная для каждого пресловутого кувшина. Это очень важно.
Итак, понимание сущностей и доменов сущностей – это важный шаг для создания эффективной SEO-стратегии. Это позволяет вам не просто конкурировать за ключевые слова, а строить глубокое понимание вашей ниши и предоставлять пользователям действительно полезный контент.
#DrMax #SEO #сущности #Google
👍58🔥10❤5
Хром сливает все данные о поведенческом Гуглу. Это достоверно выяснено в результате Гугло-сливов и в ходе судебных разбирательств. Наиболее ценными данными являются данные кликов посетителей и вот что Гугл использует при анализе поведенческого:
absoluteImpressions - Thus far this field is only used for host level unsquashed impressions
badClicks
clicks
goodClicks
impressions
lastLongestClicks
unicornClicks - The subset of clicks that are associated with an event from a Unicorn user
unsquashedClicks - This is not being populated for the current format instead two instances of CrapsClickSignals (squashed/unsquashed) are used
unsquashedImpressions - This is not being populated for the current format - instead two instances of CrapsClickSignals (squashed/unsquashed) are used
unsquashedLastLongestClicks
Из API гугла видно, что есть хорошие клики, есть плохие клики (вероятно это Pogo – клики, т.н. возврат к выдаче) и есть unicornClicks – т.е. клики от накрутчиков, которые представляют собой клики от одного пользователя, выполняющего значительное количество поисков/кликов в день.
Данные о кликах обрабатываются и сохраняются в отдельной базе/структуре API, а именно:
averageChanceTime - Weighted averged timestamps of the decayed chances
chances - Numbers below are all total in the decayed manner
clicksBad
clicksGood
clicksImage
clicksTotal
clicksUnclassified
coverageTimestamp - Epoch seconds at which this weighted coverage data was calculated
ctrWeightedImpressions
dwells - Dwells from KnowledgePanel and WebAnswers
firstBaseCoverageTimestamp- Epoch seconds at which this url first gets coverage in BASE
firstCoveragePagerankNs - The pagerank when the url was serving for the first time
firstCoverageTimestamp - Epoch seconds at which this url first gets coverage data
firstseen
impressions
intervalData - Interval Data to track the average time between clicks_total, clicks_good, and ctr_weighted_impression
и именно эти данные влияют как на ранжирование, так и являются причиной пессимизации страниц / сайтов – т.е. всевозможных штрафов.
Google измеряет клики по всему сайту. Отсюда можно сделать несколько интересных выводов:
Ну и еще
Ну и еще можно 100500 выводов сделать, но пока недосуг. Они на поверхности все, опираясь на знание как и что учитывает гугл при ранжировании.
#DrMax #SEO #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥58👍43❤13👏4😁1
Всем привет!
Поздравляю всех товарищей с прошедшими праздниками. К сожалению не смог сделать это вовремя по независящим от меня причинам. И огромное спасибо всем друзьям, что меня поддержали.
Попытаюсь начать работу. Для начала в канале буду публиковать наиболее интересные куски из книги, которая так и не увидела свет. Пока на новые исследования нет сил, но думается материалы всем понравятся. Начну прямо сегодня.
По задолженностям моим сегодня - завтра свяжусь и порешаем. Новые аудиты / анализы/ консультации брать не смогу, по очевидным причинам.
Накопившуюся почту/сообщения разобрать практически не возможно - более 1000 сообщений только в телеграмме, но постараюсь потихоньку осилить. Не обессудьте.
Еще раз всем спасибо, что читаете канал.
#DrMax
Поздравляю всех товарищей с прошедшими праздниками. К сожалению не смог сделать это вовремя по независящим от меня причинам. И огромное спасибо всем друзьям, что меня поддержали.
Попытаюсь начать работу. Для начала в канале буду публиковать наиболее интересные куски из книги, которая так и не увидела свет. Пока на новые исследования нет сил, но думается материалы всем понравятся. Начну прямо сегодня.
По задолженностям моим сегодня - завтра свяжусь и порешаем. Новые аудиты / анализы/ консультации брать не смогу, по очевидным причинам.
Накопившуюся почту/сообщения разобрать практически не возможно - более 1000 сообщений только в телеграмме, но постараюсь потихоньку осилить. Не обессудьте.
Еще раз всем спасибо, что читаете канал.
#DrMax
👏45👍25❤14🔥10
sdt3.py
8.4 KB
Сжатие данных (компрессия) — это уменьшение размера файла без потери важной информации. Поисковые системы могут применять сжатие для выявления некачественных страниц, в том числе дубликатов, дорвеев со схожим контентом и страниц со спамными ключевыми словами.
Микрософтовцы в 2006 году выкатили результаты исследования, согласно которому обнаружили, что избыточное количество повторяющихся слов приводит к более высокой степени сжатия. Они проверили, существует ли связь между высокой степенью сжатия и спамом. Результаты показали, что страницы со степенью сжатия 4,0 и выше в 70% случаев являлись спамом (об этом позже).
Выводы исследования таковы:
1. Дорвеи с дублирующимся контентом легко обнаружить, так как они сжимаются сильнее обычных страниц.
2. Группы страниц со степенью сжатия выше 4,0 преимущественно являлись спамом.
3. Использование только одного сигнала качества может привести к ложным срабатываниям.
4. Сигнал сжатия выявляет только спам, связанный с избыточностью, но не другие виды спама.
5. Комбинация сигналов качества повышает точность обнаружения спама и снижает количество ложных срабатываний.
Почитать это исследование и полюбоваться на графики можно вот тут.
В принципе, мы можем использовать данное исследования для определения недостаточного качества отдельных страниц с достаточно высокой достоверностью.
Теория оного действия незамысловата: алгоритмы сжатия, такие как gzip, уменьшают размер файлов, удаляя избыточные данные. Если страница сильно сжимается, то, вероятно, в ней много повторяющегося или шаблонного контента. Высокая степень сжатия может указывать на низкое качество или спамность страницы, поскольку такие страницы часто содержат повторяющиеся фразы, избыточное количество ключевых слов или просто "воду". Измеряя эту степень, мы можем выявить страницы, которые могут негативно влиять на общее качество сайта.
Реализация анализа крайне проста: можно использовать для расчетов хоть питон, хоть лягушку, хоть Гугл – шитсы – абсолютно не важно. Реализацию на лягушке я утерял, потому приведу реализацию на питоне.
Суть скрипта – скармливаем скрипту xml карту сайта. Скрипт выдирает значимый контент, сжимает его и делит одно на второе. Результаты отписывает в файл, который потом экспортируем в Эксель и сортируем по коэффициенту сжатия.
Повторюсь, в отрыве от иных оценочных методов, данный метод может сильно лажать. Но, тем не менее, оная метода позволяет без всяких усилий и достаточно быстро вычленить наиболее проблемные страницы сайта.
#DrMax #SEO
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥14❤6👏5
Сжатие данных как способ выявления некачественных страниц -2
Использование скрипта для тех, кто не знает что есть такое Питон:
1. Качаем питон вот здесь. Третью версию.
2. Ставим например на C диск в папку Python
3. Запускаем консоль Win+R и устанавливаем необходимые для работы пакеты:
Вводим вот такое:
жмем Энтер
Потом вводим вот такое:
пакеты установлены.
4. Скачиваем из прошлого поста скрипт sdt3. py и кидаем его в корень питона ( то есть C:\Python\ или куда там его вы поставили)
5. Запускаем скрипт (открываем консоль через WIN + R)
6. Вводим URL xml-карты сайта
7. Ждем
8. Получаем на выходе txt файл, который можем анализировать, загнав его в Excel
Собственно в скрипте все прокомментировано - можете переписать под себя
#DrMax #Python #SEO
Использование скрипта для тех, кто не знает что есть такое Питон:
1. Качаем питон вот здесь. Третью версию.
2. Ставим например на C диск в папку Python
3. Запускаем консоль Win+R и устанавливаем необходимые для работы пакеты:
Вводим вот такое:
c:\Python\python.exe -m pip install requests
жмем Энтер
Потом вводим вот такое:
c:\Python\python.exe -m pip install bs4
пакеты установлены.
4. Скачиваем из прошлого поста скрипт sdt3. py и кидаем его в корень питона ( то есть C:\Python\ или куда там его вы поставили)
5. Запускаем скрипт (открываем консоль через WIN + R)
c:\Python\python.exe sdt3.py
6. Вводим URL xml-карты сайта
7. Ждем
8. Получаем на выходе txt файл, который можем анализировать, загнав его в Excel
Собственно в скрипте все прокомментировано - можете переписать под себя
#DrMax #Python #SEO
🔥30👍9😁1
Еще один интересный признак, позволяющий легко найти некачественные страницы на сайте – это «Количество днейс момента последней индексации страниц». Этот признак вылез после летних обновлений, когда вместо помещения некачественной страницы в раздел «Страница просканирована, но пока не проиндексирована» , Гугл просто перестал обращать внимание на некачественные страницы. Формально, они остаются в индексе, но при этом такие страницы не имеют не то что кликов, а даже показов в выдаче. То есть Гугл не пихает их в органику, помещая (как это было давным - давно) в саплиментал индекс.
Как и любой метод определения некачественных страниц на сайте, он не гарантирует 100% точности и должен использоваться в совокупности с иными методами определения Thin-контента на сайте. Кроме того, необходимо учитывать еще 2 важных фактора для таких страниц – глубина вложения и число входящих ссылок. В принципе, все это детектится на автомате, например, используя лягушку.
Итак, берем лягушку, парсим сайт, не забывая подключить в API данные GSC, ну например за 2-3 месяца. После парсинга выгружаем в Excel все HTML страницы с данными и сортируем страницы по столбцу «Days Since Last Crawled». В среднем, количество дней не должно превышать 30 (крайне сильно зависит от структуры и размера проекта), все что больше – нуждается в инспектированию, анализе и правке.
Что интересно, показатель «Days Since Last Crawled» прямо коррелирует с количеством показов страницы в выдаче. Чем больше показов, тем показатель лучше (меньше).
Если страницы с плохим показателем «Days Since Last Crawled» расположены очень глубоко – то необходимо задуматься о том, чтобы сделать структуру проекта более плоской.
Если страницы с плохим показателем «Days Since Last Crawled» имеют меньше среднего входящих ссылок – стоит задуматься о внедрении внутренней перелинковки в том или ином виде.
Все остальные случаи, когда «Days Since Last Crawled» излишне велик – требуют правки контента. Самое паскудное здесь, что, не смотря на изменение Last Modified в XML картах сайтов, сейчас Гугл будет их переиндексировать весьма неспешно, возможно что и на год растянется такая переиндексация. То есть результаты правки будут учтены крайне не скоро.
Тут приходится или вручную подавать такие страницы на переиндекс (если их мало) или размещать ссылки на такие страницы на главной или иных авторитетных страницах сайта, которые достаточно часто переобходятся. Ну и ссылочное внешнее на эти страницы помогает.
Вот такой нехитрый способ поиска очередных говностраниц на сайте. Пользуйтесь.
#DrMax #SEO #ThinContent #Google #GSC
Please open Telegram to view this post
VIEW IN TELEGRAM
👍48🔥11
Цель данного анализа — обнаружить страницы, которые потеряли значительную часть трафика из Google, и определить возможные причины этой потери. Это позволит своевременно принять меры по восстановлению трафика и улучшению позиций сайта в поисковой выдаче. Для работы нам понадобится Google Search Console (GSC).
Шаг 1: Первичный анализ динамики трафика
1. Откройте раздел "Эффективность" в GSC.
2. Выберите вкладку "Поисковые запросы" или "Страницы". Рекомендую начать со вкладки "Страницы".
3. Установите диапазон дат. Выберите последние 28 дней (или другой период, соответствующий вашему циклу анализа, например, 90 дней) и сравните его с аналогичным предыдущим периодом. Для более точного сравнения учитывайте сезонность вашего бизнеса. Если ваш трафик сильно зависит от времени года, сравнивайте текущий период с аналогичным периодом прошлого года. Если сезонность не выражена, можно сравнивать с предыдущим периодом.
4. В большинстве случаев прошлый период (такой же по длительности) лучше выбирать не связанный с текущим, а, например, летний (июль).
5. Отсортируйте таблицу по столбцу "Клики - Разница" по возрастанию, чтобы увидеть страницы с наибольшей потерей кликов.
Шаг 2: Детальный анализ страниц с просадкой трафика
Всегда необходимо анализировать совокупно клики и показы страницы. Если клики упали, а количество показов сохранилось – то вы были вытеснены конкурентами с топовых позиций. Если клики упали и упало количество показов, то, возможно, страница недостаточно качественная и по ряду запросов её выбросили из ранжирования.
Особым случаем является ситуация, когда клики и показы упали до 0. Это явный признак недовольства Гуглом вашей страницей и необходимо принимать меры по устранению этой проблемы. Чтобы увидеть такие страницы – воспользуйтесь фильтром справа (см скрин) и установите количество текущих кликов равных 0. Скорей всего, данные страницы попали под фильтр Гугла (если не учитывать сезонность, устарелость контента и прочие факторы).
Итак:
• Клики: Значительное падение кликов — основной сигнал проблемы.
• Показы:
1. Снижение показов и кликов: Это может свидетельствовать о потере позиций по важным запросам или о том, что страница перестала ранжироваться по определенным запросам.
2. Показы остались на прежнем уровне, а клики упали: Это может указывать на проблемы с CTR (кликабельностью). Возможно, конкуренты предложили более привлекательные сниппеты, или изменились результаты поиска (появились новые элементы SERP, например, быстрые ответы).
3. Средняя позиция: Рост значения средней позиции означает, что страница опустилась в поисковой выдаче.
Особый случай: Клики и показы упали до нуля
Если клики и показы страницы упали до нуля, это тревожный сигнал. Возможные причины:
1. Фильтрация Гуглом, например HCU (вероятность 80- 90%)
2. Технические проблемы: Ошибка 404, проблемы с индексацией, неправильная настройка robots.txt, noindex, canonical.
3. Ручные санкции: Страница могла попасть под ручные санкции Google за нарушение правил качества. Проверьте раздел "Проблемы безопасности и меры, принятые вручную" в GSC (крайне низкая вероятность).
4. Устаревший или неактуальный контент: Страница может потерять релевантность для пользователей и перестать ранжироваться.
5. Сезонность: Для некоторых тематик падение трафика до нуля в определенные периоды может быть нормой.
6. Каннибализация запросов: Трафик мог "перетечь" на другую, более релевантную страницу вашего сайта.
Чтобы найти такие страницы:
1. В отчете "Эффективность" выберите вкладку "Страницы".
2. Нажмите "Создать фильтр" (кнопка справа - см скрин).
3. Выберите "Клики (текущий диапазон)", затем "Равно" и введите значение 0.
4. Примените фильтр.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37🔥8❤4
Продолжение
Шаг 3: Дополнительные методы поиска страниц с просадкой трафика в GSC:
1. Фильтрация по средней позиции.
Можно использовать фильтр "Средняя позиция" в отчете "Эффективность". Это позволит найти страницы которые резко потеряли позиции в поисковой выдаче.
Как это сделать:
1. В отчете "Эффективность" выберите вкладку "Страницы".
2. Нажмите кнопку "Создать фильтр".
3. Выберите "Средняя позиция", затем "Больше чем" и введите значение, например, 10 (то есть страницы, которые опустились ниже топ-10).
4. Установите диапазон дат как в первом методе.
5. Сравните полученные данные с предыдущим периодом, чтобы определить, какие страницы резко потеряли позиции.
2. Анализ поисковых запросов.
Перейдите на вкладку "Поисковые запросы" и проанализируйте, по каким запросам сайт потерял показы и клики. Это поможет понять, какие темы и ключевые слова стали менее релевантными.
3. Сравнение данных по разным типам поиска.
Используйте фильтр "Тип поиска" (Веб, Картинки, Видео, Новости), чтобы определить, в каком типе поиска произошла просадка трафика.
4. Анализ данных по странам и устройствам.
Фильтры "Страны" и "Устройства" помогут выявить проблемы, специфичные для определенного региона или типа устройства.
Шаг 4: Что делать со страницами с просадкой трафика?
После того как вы обнаружили страницы, потерявшие трафик, необходимо определить причину и принять соответствующие меры. Вот несколько общих рекомендаций:
1. Проверьте техническое состояние страницы: Убедитесь, что страница доступна для индексации, не имеет ошибок и корректно отображается на разных устройствах.
2. Обновите и дополните контент: Сделайте контент более актуальным, полезным и уникальным. Добавьте новую информацию, мультимедийные элементы, обновите статистику.
3. Проработайте метатеги: Оптимизируйте заголовки (title) и описания (description), чтобы они были более привлекательными и релевантными поисковым запросам.
4. Улучшите внутреннюю перелинковку: Убедитесь, что на проблемную страницу ведут ссылки с других релевантных страниц вашего сайта.
5. Проверьте внешние ссылки: Проанализируйте ссылочный профиль страницы. Возможно, она потеряла качественные внешние ссылки.
6. Проанализируйте конкурентов: Посмотрите, что делают ваши конкуренты, которые вытеснили вас из топа. Возможно, у них более качественный контент, лучше оптимизированы страницы или сильнее ссылочный профиль.
7. Полностью перепишите или удалите проблемный контент (если не помогли предыдущие меры)
Регулярный мониторинг трафика в Google Search Console — важная часть SEO-оптимизации. Используйте описанные выше методы, чтобы своевременно обнаруживать страницы с просадкой трафика и принимать меры по его восстановлению. Помните, что падение трафика не всегда связано с фильтрами Google. Причины могут быть разными, и важно провести комплексный анализ, чтобы найти и устранить проблему.
#DrMax #SEO #Google
Шаг 3: Дополнительные методы поиска страниц с просадкой трафика в GSC:
1. Фильтрация по средней позиции.
Можно использовать фильтр "Средняя позиция" в отчете "Эффективность". Это позволит найти страницы которые резко потеряли позиции в поисковой выдаче.
Как это сделать:
1. В отчете "Эффективность" выберите вкладку "Страницы".
2. Нажмите кнопку "Создать фильтр".
3. Выберите "Средняя позиция", затем "Больше чем" и введите значение, например, 10 (то есть страницы, которые опустились ниже топ-10).
4. Установите диапазон дат как в первом методе.
5. Сравните полученные данные с предыдущим периодом, чтобы определить, какие страницы резко потеряли позиции.
2. Анализ поисковых запросов.
Перейдите на вкладку "Поисковые запросы" и проанализируйте, по каким запросам сайт потерял показы и клики. Это поможет понять, какие темы и ключевые слова стали менее релевантными.
3. Сравнение данных по разным типам поиска.
Используйте фильтр "Тип поиска" (Веб, Картинки, Видео, Новости), чтобы определить, в каком типе поиска произошла просадка трафика.
4. Анализ данных по странам и устройствам.
Фильтры "Страны" и "Устройства" помогут выявить проблемы, специфичные для определенного региона или типа устройства.
Шаг 4: Что делать со страницами с просадкой трафика?
После того как вы обнаружили страницы, потерявшие трафик, необходимо определить причину и принять соответствующие меры. Вот несколько общих рекомендаций:
1. Проверьте техническое состояние страницы: Убедитесь, что страница доступна для индексации, не имеет ошибок и корректно отображается на разных устройствах.
2. Обновите и дополните контент: Сделайте контент более актуальным, полезным и уникальным. Добавьте новую информацию, мультимедийные элементы, обновите статистику.
3. Проработайте метатеги: Оптимизируйте заголовки (title) и описания (description), чтобы они были более привлекательными и релевантными поисковым запросам.
4. Улучшите внутреннюю перелинковку: Убедитесь, что на проблемную страницу ведут ссылки с других релевантных страниц вашего сайта.
5. Проверьте внешние ссылки: Проанализируйте ссылочный профиль страницы. Возможно, она потеряла качественные внешние ссылки.
6. Проанализируйте конкурентов: Посмотрите, что делают ваши конкуренты, которые вытеснили вас из топа. Возможно, у них более качественный контент, лучше оптимизированы страницы или сильнее ссылочный профиль.
7. Полностью перепишите или удалите проблемный контент (если не помогли предыдущие меры)
Регулярный мониторинг трафика в Google Search Console — важная часть SEO-оптимизации. Используйте описанные выше методы, чтобы своевременно обнаруживать страницы с просадкой трафика и принимать меры по его восстановлению. Помните, что падение трафика не всегда связано с фильтрами Google. Причины могут быть разными, и важно провести комплексный анализ, чтобы найти и устранить проблему.
#DrMax #SEO #Google
👍31🔥9💯4❤2😁1
Итак, жил-был буржуинский проект и внезапно он попал под HCU. Оный не совсем убил его (порезал траф вдвое), так что варианты быстрого вывода все ж были. И была на оном проекте очень важная страница, которая давала значительную долю конвертабельного трафа. И посколь HCU накладывается на весь сайт целиком, то оная страница также просела.
Именно, основываясь на идее, что фильтр накладывается на домен было принято решение вынести данную страницу за пределы этого домена. Попросту говоря - пихнуть на поддомен. Такой кандибобер срабатывал при разнесении страниц по признакам YMYL, Так что шанс на удачное восстановление был.
Отдельная эпопея возникла после переноса страницы на поддомен. Гугл ни в какую не хотел признавать новый поддомен со страницей и пихать его в индекс. Он ворчал что это дубли, указывал каноничной страницу на офф сайте (коей уже не было), долго страдал, но в конце - концов взял страницу в индекс.
Поначалу все шло не плохо. В течении месяца показы быстро росли, появились клики, но чуть позже фильтр догнал эту страницу и все обрезалось в 0. Причем это случилось не в период апов.
Таким образом, как оказалось, фильтр HCU накладывается не только на домен, но и на поддомены основного домена. Поэтому вывод из под фильтра выносом контента за пределы основного домена - не сработал.
Посмотрел как сейчас обстоят дела со страницей- поддоменом. Трафа на ней нет. Показов нет.
Ну чтож, негативный опыт - тоже опыт.
PS
из за особенности переиндекса пришлось ставить 301 редиректы со страницы на офф сайте на страницу - поддомен.
PPS
контент намеренно не изменялся.
#DrMax #SEO #Google #HCU #test
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23👻4❤2😁1