BUILDING_SINGULARITY Telegram 98
🔍 Selection bias или как собрать плохой датасет 💸

Популярный способ собрать хороший датасет для обучения модели: (1) найти большой разнообразный датасет сомнительного качества и (2) отфильтровать его, оставив только “лучшие” данные.

Что же на деле остаётся? Примеры, которые удовлетворяют фильтру. Разнообразия конечно же становится меньше.

Например: хотим из миллиона диалогов отобрать только те, что интересные, релевантные, безопасные и ещё несколько критериев.

Прогоняем примеры через gpt4. И оказывается, что сразу всем критериям удовлетворяют не так то много ответов. Ещё хуже: ответы, которые удовлетворяют, часто встречаются в похожих контекстах и имеют похожую структуру! 😬

Такой вот рецепт получения примитивного датасета, где пары [контекст диалога, ответ] не разнообразны и только сделают модель тупее. 🤪

Эта проблема называется selection bias, когда после семплинга / фильтра остаются нерепрезентативные данные.

Как можно пробовать исправить?

Можно не выбрасывать все “тяжелые” (те, ответ на который не прошел все критерии) контексты. А для каждого генерировать K кандидатов и уже из них оставлять только один, наилучший. Даже если он не прошел все фильтры. Про этот поход (generate-rank) я упоминал здесь, и здесь он есть в бейзлайнах.

Такие вот дела с этими фильтрами. Аккуратней надо быть! 🕵️

@building_singularity
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥32🤔2



tgoop.com/building_singularity/98
Create:
Last Update:

🔍 Selection bias или как собрать плохой датасет 💸

Популярный способ собрать хороший датасет для обучения модели: (1) найти большой разнообразный датасет сомнительного качества и (2) отфильтровать его, оставив только “лучшие” данные.

Что же на деле остаётся? Примеры, которые удовлетворяют фильтру. Разнообразия конечно же становится меньше.

Например: хотим из миллиона диалогов отобрать только те, что интересные, релевантные, безопасные и ещё несколько критериев.

Прогоняем примеры через gpt4. И оказывается, что сразу всем критериям удовлетворяют не так то много ответов. Ещё хуже: ответы, которые удовлетворяют, часто встречаются в похожих контекстах и имеют похожую структуру! 😬

Такой вот рецепт получения примитивного датасета, где пары [контекст диалога, ответ] не разнообразны и только сделают модель тупее. 🤪

Эта проблема называется selection bias, когда после семплинга / фильтра остаются нерепрезентативные данные.

Как можно пробовать исправить?

Можно не выбрасывать все “тяжелые” (те, ответ на который не прошел все критерии) контексты. А для каждого генерировать K кандидатов и уже из них оставлять только один, наилучший. Даже если он не прошел все фильтры. Про этот поход (generate-rank) я упоминал здесь, и здесь он есть в бейзлайнах.

Такие вот дела с этими фильтрами. Аккуратней надо быть! 🕵️

@building_singularity

BY Приближаем сингулярность


Share with your friend now:
tgoop.com/building_singularity/98

View MORE
Open in Telegram


Telegram News

Date: |

Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week. It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart. A new window will come up. Enter your channel name and bio. (See the character limits above.) Click “Create.” The Standard Channel In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members.
from us


Telegram Приближаем сингулярность
FROM American