BUILDING_SINGULARITY Telegram 103
LiveBench - честный замер LLM

ЛеКун и Abacus.ai зарелизили 960 примеров для объективной оценки LLM.

Полезно как для замера своих LLM'ок, так и для выбора лучшей из имеющихся для своих нужд.

Какие обычно есть проблемы у замеров?

🔹 Contamination - данные из бенчмарка присутствуют в обучающем датасете
🔹 LLM-as-a-judge неточен: GPT4 предпочитает ответы от других моделей OpenAI, аналогично с Claude и тд.
🔹Human-as-a-judge дорого и долго; а также неточно, потому что вопросы очень сложные

🔸Первую проблему LiveBench фиксит тем, что будет выкладывать новые сложные вопросы каждый месяц

🔸Последние две тем, что в LiveBench есть точные ответы, которые можно проверить на соответствие (типа Verifiable Instructions)

На скрине категории и лидерборд: OpenAI > Anthropic > Google, пока что.

💗 Всё в открытом доступе: данные и код для замера

@building_singularity
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥173👍2🤔1



tgoop.com/building_singularity/103
Create:
Last Update:

LiveBench - честный замер LLM

ЛеКун и Abacus.ai зарелизили 960 примеров для объективной оценки LLM.

Полезно как для замера своих LLM'ок, так и для выбора лучшей из имеющихся для своих нужд.

Какие обычно есть проблемы у замеров?

🔹 Contamination - данные из бенчмарка присутствуют в обучающем датасете
🔹 LLM-as-a-judge неточен: GPT4 предпочитает ответы от других моделей OpenAI, аналогично с Claude и тд.
🔹Human-as-a-judge дорого и долго; а также неточно, потому что вопросы очень сложные

🔸Первую проблему LiveBench фиксит тем, что будет выкладывать новые сложные вопросы каждый месяц

🔸Последние две тем, что в LiveBench есть точные ответы, которые можно проверить на соответствие (типа Verifiable Instructions)

На скрине категории и лидерборд: OpenAI > Anthropic > Google, пока что.

💗 Всё в открытом доступе: данные и код для замера

@building_singularity

BY Приближаем сингулярность




Share with your friend now:
tgoop.com/building_singularity/103

View MORE
Open in Telegram


Telegram News

Date: |

Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. Clear Some Telegram Channels content management tips Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you:
from us


Telegram Приближаем сингулярность
FROM American