Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on null in /var/www/tgoop/function.php on line 65
94 - Telegram Web
Telegram Web
Где лучше расположить ключ в предложении?

Пишу этот пост по мотивам выступления у Михаила Шакина https://www.youtube.com/watch?v=I79BgjkFWFI.

Как я уже неоднократно писал и приводил примеры, нейросети трансформеры учитывают порядок слов. А, что если провести ряд экспериментов и выяснить как влияет, к примеру, расположение ключа в предложении?

Прежде чем начать, давайте оговорим условия и допущения, без которых ни один эксперимент не проводится.

1) Будем считать, что нейросети читают текст по предложениям, на самом деле это может быть не так, но следует отметить, что при обучении трансформеров, подаются тексты ограниченные специальными токенами ([CLS] в начале и, как правило [SEP] в конце) https://huggingface.co/learn/nlp-course/ru/chapter7/2 .
2) Для чистоты эксперимента, возьмем предложения состоящие из максимально нерелевантного слова, например английского слова “and”
3) Прицепим слева и справа ещё по предложению: prev_sent = 'Это самое обычное предложение состоящее из десяти слов русского языка.'
4) На вход буде подавать пары: ключ/текст
5) Длина предложения – 10 слов (средняя длина в русском языке 10.38 слов)
6) Результаты будем оценивать по механизму косинусной близости векторов пар, ключ/текст.
7) Векторы для пар ключ/текст будем брать из модели textEmbedding от Яндекса

Пример пар:
[ПВХ] / [ПВХ and and .. and]
[ПВХ] / [and ПВХ and .. and]
[ПВХ] / [and and ПВХ.. and]
………. / …………………………………
[ПВХ] / [and and and .. ПВХ]


Однословники. Подаем на вход, например пару: Ипотека / Это самое обычное предложение состоящее из десяти слов русского языка. Ипотека and and and and and and and and and. Это самое обычное предложение состоящее из десяти слов русского языка.
Результат: наблюдаем U-образные кривые с локальным максимумами если ключ стоит в начале либо в конце предложения

Двусловники. Подаем на вход биграммы с разными интентами (инфо и коммерческий)
Результат – те же локальные экстремумы релевантости при нахождении ключа в начале либо в конце предложения

Триграммы с разным интентом – результат схожий

Делаем выводы?
Результаты эксперимента как с одним предложением, так и с предложением окруженным с двух сторон другими текстами дают схожие результаты. Почти всегда наблюдаются локальные экстремумы релевантости если ключ находится либо в начале, либо в конце предложения.

PS Ждите пост про то, как расставлять LSI слова, будет интересно! Пошел пилить статью на habr.com. 😉
👍28🏆4🤔2
На каком расстояний должно быть SRW (LSI) слово от ключа? Или как я облажался у Шакина 🙈

Готовясь к эфиру с Михаилом Шакиным я провел массу тестов, и в один момент мне показалось, что чем ближе SRW слово к ключу, тем выше значение косинусной близости, поэтому мне захотелось провести более масштабный эксперимент и поделиться результатами.

ЗЫ: В этом посте и далее я буду употреблять термин SRW (семантически релевантное слово), LSI или то, как его понимают SEOшники, это устоявшееся выражение, примерно как «ксерокопия», но в LSI другая мат. модель, не имеющая ничего общего с моими экспериментами.

Условия и допущения:
1) Методология и подкапотная часть идентична исследованию порядка слов.
2) Ключ поместим в начале предложения и будем к нему цеплять SRW слово на определённом расстоянии.
3) SRW слова берем тут @vector_keywords_bot
4) В качестве нейтрального слова заполнителя используем ‘‘and’’

Пример пар:
[окна] / [окна стекло and and .. and]
[окна] / [окна and стекло and .. and]
[окна] / [окна and and стекло .. and]
………. / ………………………………’…..…
[окна] / [окна and and and .. стекло]

Как думаете, оправдались мои ожидания?
Результаты получились интересными и довольно неожиданными.
Итак, первое, SRW слова влияют на косинусную релевантность пар слово/текст. Как раз об этом я говорил у Михаила. Добавление SRW слов в предложение с ключом, как правило, увеличивает косинусную релевантность.

Второе, как бы не хотелось притянуть за уши теорию, о некоем «окне релевантности» в котором необходимо использовать SRW слова но это не так. Близость SRW слова к ключу не влияет на косинусную релевантность текста, ну или мне не удалось это заметить. Каюсь, поторопился с выводами на эфире у Шакина.

Третье, SRW слова влияют по разному, какие-то больше, какие-то меньше, причем степень влияния не всегда коррелирует если сравнивать в лоб cs(ключ, srw слово). Так например, стеклопакет – самое релевантное слово, оказало меньшее влияние чем уплотнитель, но, скорее всего это погрешность эксперимента.

Ну и совсем неожиданный результат!
Случайным образом выяснилось, что слова явно определяющие интент, например (купить, цена, стоимость, как, что, если, почему) в начале предложения, увеличивают косинусную релевантность пары слово/текст!

В данном эксперименте была использована модель textEmbedding от Яндекса. Хмм, а, что если взять и сделать то же самое для Google? Интересно 🤔 ?
🔥37👍4💯2
Рейтинг текстовых анализаторов (ТА)

Не так давно провел небольшое исследование ТА присутствующих на рынке и хочу поделиться результатами с любимой аудиторией моего канала.

Эксперимент: возьмем ключ «окна пвх» и сравним, 50 первых SRW(LSI) слов, которых они нам порекомендовали к использованию. Если ТА не предоставляет информацию по ключу, подадим на вход урлы по которым делался анализ ТОПов.

В качестве языковой модели возьмем textEmbedding от Yandex.

Критерии оценки:

1. Косинусная близость (CS) для корпуса из 50 SRW слов и ключа
2. Среднее значение CS для первых 50 SRW слов и ключа
3. Полнота результата (количество найденных слов)
4. Платный / бесплатный
5. Возможность посчитать SRW вхождения в документе
6. Юзабилити
7. Вера в инструмент 😇
8. Справочно: принцип действия

Цифры в табличке: чтобы не усложнять восприятие, переведены в проценты. За нулевую точку взят текст про Большой Театр, а за 100% наиболее релевантный корпус текста.

Результаты:
1. Оценка по CS, и здесь нас ждет сюрприз! ChatGPT 4o по довольно простому промпту выдал один из лучших результатов! Не факт что чат GPT будет показывать стабильно высокий результат в дальнейшем, но само по себе это довольно любопытно. Ещё один лидер @vector_keywords_bot и здесь в стабильности результата сомневаться не стоит, она заложена в алгоритме.
2. Бесплатных анализаторов у нас всего три это @vector_keywords_bot, miratext.ru и ChatGPT 4o1-mini. Второй значительно проигрывает по юзабилити, а получение доступ для чата GPT связано с определёнными трудностями. Кстати Megaindex можно тоже считать условно бесплатным.
3. GAR (Relevantus) разработчик Артур Корсаков, если не ошибаюсь, абсолютный лидер по юзабилити. Графики, таблицы, облака тегов, ТЗ на копирайтинг, подсчет вхождений по зонам документов, ни один из ТА не представляет настолько полный функционал
4. Полнота результатов, здесь проще выделить аутсайдеров, это Pixel Tools, Arsenkin и Megaindex
5. Подсчет вхождения по зонам документа, здесь 50х50
6. Ну и за веру в инструмент добавим баллы GAR (Relevantus) и just magic, поскольку в SEO два культа: один Антона Маркина, второй Алексея Чекушина, адептом которого является ваш покорный слуга))

Результаты исследования сведены в табличку.

Итоги и выводы: По сути нет особой разницы каким текстом анализатором вы пользуетесь, поскольку главный инструмент сеошника это не ТА, а мозг. Какой инструмент выбрать, зависит от ваших предпочтений, от удобства пользования и от привычки.

PS: как разработчик @vector_keywords_bot, я мог бы хвалить себя и бить пяткой в грудь, но я прекрасно понимаю, что мне ещё нужно докрутить. Но мой бот выигрывает по 5 критериям из 7 (я пока еще не обзавелся адептами 😂). А это согласитесь неплохо!
🔥16👍6👎2👏21
Channel name was changed to «SEO Python 2 Нейрона»
Список ТА из прошлого поста

Используют количественные метрики: https://tools.pixelplus.ru, https://miratext.ru/seo_analiz_text, https://www.rush-analytics.ru

Используют формулу tf-idf: https://artur2k.ru/, https://gar.pro/, https://seolemma.ru, https://ru.megaindex.com/a/textanalysis

Используют нейросети: https://neuronwriter.com, https://www.tgoop.com/vector_keywords_bot, https://chatgpt.com, https://arsenkin.ru/tools/ai-seo/

Используют магические методы ) https://justmagic.org

W2V - это ТА собственной разработки, ранняя версия @vector_keywords_bot, использует НКРЯ (национальный корпус русского языка) https://ruscorpora.ru/
👍10🔥2😁1
Выступаю спикером на Optimization 2024!

17.10.2024 в четверг с13:00 до 15:00 выступаю с докладом в секции HARD SEO. Расскажу про нейросети и текстовые факторы. Доклад на 40 с лишним слайдов 2 эксперимента, ну и финализируем голосование на лучшую LLM модель. И всё это нужно уложить в 20 минут! Аааа!!!!

Я, честно говоря фигею, от организации)) заявку подал в начале августа, ответили за 10 дней до конфы пришлось в пожарном порядке дописывать код и делать презентацию, но я справился)

PS Есть промокод SPEAKER30 со скидкой 30% на любой тип билета, забирайте!
👍14🔥21🙈1
Топ доклад от Олега Шестакова про ИИ копирайтинг!
👍20💯4
Optimization2024_презентация.pdf
2.6 MB
Optimization послевкусие

Если коротко, то на Опти я поехал закрывать Гештальт, был у меня такой пунктик, выступить на серьезной конфе с докладом в крутой секции.

Сказать, что доволен? Я просто офигел от того отклика, который получил! Когда к тебе на секцию приходят ТОПы и внимательно тебя слушают, а потом говорят «крутой доклад!» - это очень и очень мотивирует работать и проводить исследования дальше! Я не раз говорил, что мне очень важен отклик, причем любой, как положительный, так и отрицательный.

Спасибо пацаны! Честно, я не ожидал)

Теперь по поводу самой конфы и докладов. Я их почти не смотрел)) ну во первых они в записи будут, а во вторых, иногда 15 минут в курилке с … не буду называть фамилии, стоят как все доклады вместе взятые, потому как неформальные общение - бесценно!

А теперь интересное) как выяснилось многие делают и пытаются делать примерно то же, что и я, а значит нас ожидает прорывной год и смена всей парадигмы сеошных подходов. Кто меня удивил, так это Анвар Гайсин @anvarikum и команда Rush Analytics. Следите за ними, будет много интересного!

Ну и личный респект и благодарность Сергею Вирясову, Алексею Леонтьеву, Владимиру Сюткину, парням из ЦИАНа Дмитрию Канавину и многим с кем успел пообщаться, ну и респектеще моему другу Михаилу Шакину, было круто!

Презентация к докладу во вложении
15🔥14👍6👏1🏆1
Похоже начинается новое SEO направление, продвижение в Chat gpt😉. Буквально пару тройку часов назад в нем появился поиск.
👍13😁6🤯4👾2😱1
Расширение функционала в @vector_keywords_bot 02.11.2024!

@vector_keywords_bot постепенно превращается из инструмента для поиска семантически релевантных SRW слов в полноценный OnPage инструмент.

Итак, пробежимся по функционалу:
1) На вход можно подать как один запрос, так и кластер запросов (работает медленнее)
2) По умолчанию выдача берется по Москве, но если добавить другой топоним хотя бы в один из ключей кластера, будет анализироваться региональная выдача, например (окна, окна ПВХ, окна ПВХ Самара)
3) Если добавить свой url то бот посчитает вхождения SRW на вашу страницу, если написать «0» то просто выгрузит список униграмм и биграмм

Обновление от 02.11.2024:
1) Добавлена выгрузка тегов title и h1 урлов чемпионов (урлы которы чаще всего встречаются в ТОПе по кластеру)
2) Добавлен частотный словарик по тегу title (частота встречаемости слов в title сайтов из ТОПа)
🔥38👍2💩1
С пятницей всех и держите подарок!

Напитонил скрипт, который добавляет в файлик с кластеризаций дополнительный столбик с урлами конкурентов. Очень полезно бывает посмотреть на живых конкурентов, а не на цифру в графе "коммерциализация".

Как это работает?
1. Идёте сюда https://colab.research.google.com/drive/1_V1K39ZxLOad8PUsl5t--gVP7zgiqBPw?usp=sharing
2. Жмёте на Файл / Сохранить копию на Диске
3. Отсюда https://xmlproxy.ru/queries копируете user и api-key
4. Запускаете скрипт как на видео
5. Подгружаете свою эксельку
6. Скачиваете готовый файл

У меня довольно много всякого такого добра, если интересно залайкайте пост, буду дальше выкладывать автоматизации на python в таком формате.
👍105🔥139❤‍🔥2
Трансформеры на русском, наконец-то! Ну и немного новостей.

Давненько ничего не писал, поэтому у меня есть ряд новостей для вас:
1) На следующей неделе буду у моего друга Михаила Шакина на ютуб канале, с чем-то интересным!
2) Мне снова стало скучно и я вписался в очередной челлендж - Мастермайнд Антона Петроченкова, решил наконец-то разложить по полкам и упорядочить все бизнес процессы. Начал с того, что наконец-то блин поставил себе финучёт. Воот! Так скоро и к финансовой дисциплине можно прийти))
3) Вышел из Аномалии Гребенюка, идея хорошая, но всё на уровне кружочек треугольник, квадратик. Всё таки в диджитале уровень скиллов на порядок выше чем средний предпринимательский. Но, денег сильно меньше и океан кроваво красный, поэтому владелец сети шаурмичных не семи пядей во лбу кроет нас по доходу только так…

Ну и про трансформеры! Нарвался на отличный канал, где доступным русским языком объясняют как работает архитектура LLM.

Скидываю ссылку на видео https://youtu.be/eMlx5fFNoYc?feature=shared где объясняется на пальцах механизм Attention. Сложновато, но на русском, а то я задолбался слушать индусский и бангладешский английский. Приятного просмотра!
👍10🔥4
2025/10/27 03:16:31
Back to Top
HTML Embed Code: