DATA_SECRETS Telegram 7630
Появился новый бенчмарк, который оценивает способность ИИ предсказывать будущее – Prophet Arena

Идея очень крутая. Во-первых, это в целом довольно занятный способ оценивать способности моделей. Тут тебе и вероятностное мышление, и стратегическое, и критическое, и способность улавливать причинно-следственные связи и закономерности.

Во-вторых, с точки зрения бенчмаркинга это прямо идеальный сетап. Такой тест не перенасыщается (потому что в мире что-то происходит постоянно), а еще тут совсем нет возможности лика данных: для предсказаний специально используются еще не произошедшие события.

Работает это так: агенты сами собирают новостной контекст и анализируют данные в Интернете, а затем на основе всего найденного выдвигают свои прогнозы.

Ну и как только событие случается в реальном мире, подсчитываются метрики. Две основные – это реальный средний доход от ставок на событие и обычная статистическая точность Брайера.

Пока лидерборд такой:
3 место – Gemini 2.5 Pro
2 место – o3
1 место – GPT-5
(Ну и гран-при – Симпсоны)

А по средней доходности, кстати, пока лидирует o3-mini. Интересно, что многие модели склонны демонстрировать какие-то определенные личностные байесы. Например, кто-то постоянно принимает более консервативные решения, а кто-то более рисковые.

Лидерборд полностью и актуальные ставки моделек на разные события (в том числе на спорт, естественно) смотрите тут: www.prophetarena.co/
2113👍45🔥24😁18



tgoop.com/data_secrets/7630
Create:
Last Update:

Появился новый бенчмарк, который оценивает способность ИИ предсказывать будущее – Prophet Arena

Идея очень крутая. Во-первых, это в целом довольно занятный способ оценивать способности моделей. Тут тебе и вероятностное мышление, и стратегическое, и критическое, и способность улавливать причинно-следственные связи и закономерности.

Во-вторых, с точки зрения бенчмаркинга это прямо идеальный сетап. Такой тест не перенасыщается (потому что в мире что-то происходит постоянно), а еще тут совсем нет возможности лика данных: для предсказаний специально используются еще не произошедшие события.

Работает это так: агенты сами собирают новостной контекст и анализируют данные в Интернете, а затем на основе всего найденного выдвигают свои прогнозы.

Ну и как только событие случается в реальном мире, подсчитываются метрики. Две основные – это реальный средний доход от ставок на событие и обычная статистическая точность Брайера.

Пока лидерборд такой:
3 место – Gemini 2.5 Pro
2 место – o3
1 место – GPT-5
(Ну и гран-при – Симпсоны)

А по средней доходности, кстати, пока лидирует o3-mini. Интересно, что многие модели склонны демонстрировать какие-то определенные личностные байесы. Например, кто-то постоянно принимает более консервативные решения, а кто-то более рисковые.

Лидерборд полностью и актуальные ставки моделек на разные события (в том числе на спорт, естественно) смотрите тут: www.prophetarena.co/

BY Data Secrets






Share with your friend now:
tgoop.com/data_secrets/7630

View MORE
Open in Telegram


Telegram News

Date: |

2How to set up a Telegram channel? (A step-by-step tutorial) Informative The creator of the channel becomes its administrator by default. If you need help managing your channel, you can add more administrators from your subscriber base. You can provide each admin with limited or full rights to manage the channel. For example, you can allow an administrator to publish and edit content while withholding the right to add new subscribers. Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms.
from us


Telegram Data Secrets
FROM American