SEO_PYTHON_2NEURON Telegram 66
Где лучше расположить ключ в предложении?

Пишу этот пост по мотивам выступления у Михаила Шакина https://www.youtube.com/watch?v=I79BgjkFWFI.

Как я уже неоднократно писал и приводил примеры, нейросети трансформеры учитывают порядок слов. А, что если провести ряд экспериментов и выяснить как влияет, к примеру, расположение ключа в предложении?

Прежде чем начать, давайте оговорим условия и допущения, без которых ни один эксперимент не проводится.

1) Будем считать, что нейросети читают текст по предложениям, на самом деле это может быть не так, но следует отметить, что при обучении трансформеров, подаются тексты ограниченные специальными токенами ([CLS] в начале и, как правило [SEP] в конце) https://huggingface.co/learn/nlp-course/ru/chapter7/2 .
2) Для чистоты эксперимента, возьмем предложения состоящие из максимально нерелевантного слова, например английского слова “and”
3) Прицепим слева и справа ещё по предложению: prev_sent = 'Это самое обычное предложение состоящее из десяти слов русского языка.'
4) На вход буде подавать пары: ключ/текст
5) Длина предложения – 10 слов (средняя длина в русском языке 10.38 слов)
6) Результаты будем оценивать по механизму косинусной близости векторов пар, ключ/текст.
7) Векторы для пар ключ/текст будем брать из модели textEmbedding от Яндекса

Пример пар:
[ПВХ] / [ПВХ and and .. and]
[ПВХ] / [and ПВХ and .. and]
[ПВХ] / [and and ПВХ.. and]
………. / …………………………………
[ПВХ] / [and and and .. ПВХ]


Однословники. Подаем на вход, например пару: Ипотека / Это самое обычное предложение состоящее из десяти слов русского языка. Ипотека and and and and and and and and and. Это самое обычное предложение состоящее из десяти слов русского языка.
Результат: наблюдаем U-образные кривые с локальным максимумами если ключ стоит в начале либо в конце предложения

Двусловники. Подаем на вход биграммы с разными интентами (инфо и коммерческий)
Результат – те же локальные экстремумы релевантости при нахождении ключа в начале либо в конце предложения

Триграммы с разным интентом – результат схожий

Делаем выводы?
Результаты эксперимента как с одним предложением, так и с предложением окруженным с двух сторон другими текстами дают схожие результаты. Почти всегда наблюдаются локальные экстремумы релевантости если ключ находится либо в начале, либо в конце предложения.

PS Ждите пост про то, как расставлять LSI слова, будет интересно! Пошел пилить статью на habr.com. 😉
👍28🏆4🤔2



tgoop.com/seo_python_2neuron/66
Create:
Last Update:

Где лучше расположить ключ в предложении?

Пишу этот пост по мотивам выступления у Михаила Шакина https://www.youtube.com/watch?v=I79BgjkFWFI.

Как я уже неоднократно писал и приводил примеры, нейросети трансформеры учитывают порядок слов. А, что если провести ряд экспериментов и выяснить как влияет, к примеру, расположение ключа в предложении?

Прежде чем начать, давайте оговорим условия и допущения, без которых ни один эксперимент не проводится.

1) Будем считать, что нейросети читают текст по предложениям, на самом деле это может быть не так, но следует отметить, что при обучении трансформеров, подаются тексты ограниченные специальными токенами ([CLS] в начале и, как правило [SEP] в конце) https://huggingface.co/learn/nlp-course/ru/chapter7/2 .
2) Для чистоты эксперимента, возьмем предложения состоящие из максимально нерелевантного слова, например английского слова “and”
3) Прицепим слева и справа ещё по предложению: prev_sent = 'Это самое обычное предложение состоящее из десяти слов русского языка.'
4) На вход буде подавать пары: ключ/текст
5) Длина предложения – 10 слов (средняя длина в русском языке 10.38 слов)
6) Результаты будем оценивать по механизму косинусной близости векторов пар, ключ/текст.
7) Векторы для пар ключ/текст будем брать из модели textEmbedding от Яндекса

Пример пар:
[ПВХ] / [ПВХ and and .. and]
[ПВХ] / [and ПВХ and .. and]
[ПВХ] / [and and ПВХ.. and]
………. / …………………………………
[ПВХ] / [and and and .. ПВХ]


Однословники. Подаем на вход, например пару: Ипотека / Это самое обычное предложение состоящее из десяти слов русского языка. Ипотека and and and and and and and and and. Это самое обычное предложение состоящее из десяти слов русского языка.
Результат: наблюдаем U-образные кривые с локальным максимумами если ключ стоит в начале либо в конце предложения

Двусловники. Подаем на вход биграммы с разными интентами (инфо и коммерческий)
Результат – те же локальные экстремумы релевантости при нахождении ключа в начале либо в конце предложения

Триграммы с разным интентом – результат схожий

Делаем выводы?
Результаты эксперимента как с одним предложением, так и с предложением окруженным с двух сторон другими текстами дают схожие результаты. Почти всегда наблюдаются локальные экстремумы релевантости если ключ находится либо в начале, либо в конце предложения.

PS Ждите пост про то, как расставлять LSI слова, будет интересно! Пошел пилить статью на habr.com. 😉

BY SEO Python 2 Нейрона







Share with your friend now:
tgoop.com/seo_python_2neuron/66

View MORE
Open in Telegram


Telegram News

Date: |

A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. Healing through screaming therapy “[The defendant] could not shift his criminal liability,” Hui said. Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value. Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place.
from us


Telegram SEO Python 2 Нейрона
FROM American