NN_FOR_SCIENCE Telegram 2518
🔮📈 Prophet Arena

Бенчмарк на котором LLM предсказывают ещё не случившиеся события из prediction markets. Оценивают по 1−Brier (насколько честно калибрована вероятность) и по Average Return (сколько бы вы заработали при выбранном risk profile).

🤔 Зачем это нам
Обычные тесты - про прошлое. Prophet Arena про то, что происходит в реальном мире: модель ставит на вероятность события до того, как оно совершилось, а лидерборд обновляется по факту.

⚙️ Как устроено
Собирают новости и цены с рынков (контекст одинаковый для всех моделей) → модель выдаёт распределение вероятностей + краткое обоснование → после исхода событие оценивают и обновляют лидерборд.

📊 Две оси
1−Brier: выше = лучше калибровка/точность вероятностей (на сайте так и показывают - «1 минус классический Brier»).
Average Return: симуляция прибыли, если следовать вероятностям модели; на лидерборде можно крутить Risk Aversion (γ) и смотреть, как меняются места.

⚽️ Живой пример
Матч MLS San Diego FC — Toronto FC: o3-mini даёт 30% на Торонто, рынок — 11%. Edge ≈ 3× → ставка $1 превратилась в $9, когда Торонто реально выиграл. Отличная иллюстрация, почему высокий Return может прийти без топового Brier.

Итог
Prophet Arena позволяет смотреть на точность и деньги одновременно - так проще понять, когда модели реально полезны.

Ссылка

Расскажите в комментариях что еще могут предсказывать LLM?
🔥14👍86😱1



tgoop.com/nn_for_science/2518
Create:
Last Update:

🔮📈 Prophet Arena

Бенчмарк на котором LLM предсказывают ещё не случившиеся события из prediction markets. Оценивают по 1−Brier (насколько честно калибрована вероятность) и по Average Return (сколько бы вы заработали при выбранном risk profile).

🤔 Зачем это нам
Обычные тесты - про прошлое. Prophet Arena про то, что происходит в реальном мире: модель ставит на вероятность события до того, как оно совершилось, а лидерборд обновляется по факту.

⚙️ Как устроено
Собирают новости и цены с рынков (контекст одинаковый для всех моделей) → модель выдаёт распределение вероятностей + краткое обоснование → после исхода событие оценивают и обновляют лидерборд.

📊 Две оси
1−Brier: выше = лучше калибровка/точность вероятностей (на сайте так и показывают - «1 минус классический Brier»).
Average Return: симуляция прибыли, если следовать вероятностям модели; на лидерборде можно крутить Risk Aversion (γ) и смотреть, как меняются места.

⚽️ Живой пример
Матч MLS San Diego FC — Toronto FC: o3-mini даёт 30% на Торонто, рынок — 11%. Edge ≈ 3× → ставка $1 превратилась в $9, когда Торонто реально выиграл. Отличная иллюстрация, почему высокий Return может прийти без топового Brier.

Итог
Prophet Arena позволяет смотреть на точность и деньги одновременно - так проще понять, когда модели реально полезны.

Ссылка

Расскажите в комментариях что еще могут предсказывать LLM?

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2518

View MORE
Open in Telegram


Telegram News

Date: |

Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you: The Channel name and bio must be no more than 255 characters long How to Create a Private or Public Channel on Telegram? With the “Bear Market Screaming Therapy Group,” we’ve now transcended language.
from us


Telegram AI для Всех
FROM American