NN_FOR_SCIENCE Telegram 2489
🤖 Что, если ИИ-модель реально знает, что случится завтра?

Большие языковые модели (LLM) давно научились пересказывать Википедию и писать код. Но в практических задачах ценится другое — способность видеть вперёд: успеет ли стартап закрыть раунд, снизит ли ФРС ставку, победит ли нужный кандидат.

Открытый проект FutureBench впервые измеряет это чутьё в цифрах. Вместо того чтобы спрашивать модель о прошлом, он спрашивает модель о будущем - о том, чего обучающих данных точно нет.

Как устроен этот «тонометр для предсказаний»
1. Каждую неделю скрипт берёт свежие новости и вопросы из prediction-рынков (например, Polymarket) и формирует десяток бинарных «будет / не будет» задач на ближайшие дни или недели.
2. Агентная модель с доступом к интернету собирает факты, сопоставляет аргументы и выдаёт вероятность.
3. Когда событие наступает, FutureBench автоматически фиксирует ✔️ или и обновляет публичную таблицу лидеров.

Получается прозрачный счётчик: у кого интуиция ближе к реальности тот и победил.

Что уже показал лидерборд:
Claude-3 Sonnet (2025c)67 % точных попаданий.
GPT-4.162 %.
DeepSeek-V3≈ 62 %.

Все три уверенно обыгрывают свои же «отключённые от сети» версии. Свежий контекст решает не меньше, чем размер модели.

Почему такой подход полезен
Никаких шпаргалок. Будущее нельзя украсть из тренировочного датасета — проверка честная по определению.
Быстрая обратная связь. Изменил агент или поиск — уже через неделю видно, стало ли лучше.
Метрика, понятная бизнесу. «67 % точности на реальных ставках» звучит убедительнее, чем «137 BLEU».
Площадка для роста. Результат открытый — можно соревноваться, выкладывать свои результаты и расти с каждой итерацией.

Как пощупать самому
1. Зайдите на живой лидерборд FutureBench
2. Посмотрите, какие вопросы стоят сейчас и как распределились ответы моделей.
3. Спросите у своего любимого чат-бота то же самое - и сравните вероятность с табло через пару недель.

Так вы на практике почувствуете, умеют ли LLM «думать вперёд» и как быстро эта способность улучшается.

Поделитесь постом с теми, кто до сих пор уверен, что ИИ годится лишь на пересказ прошлого - пусть заглянут в будущее вместе с нами! 🚀

🔗 Ссылка
28👍8🔥3



tgoop.com/nn_for_science/2489
Create:
Last Update:

🤖 Что, если ИИ-модель реально знает, что случится завтра?

Большие языковые модели (LLM) давно научились пересказывать Википедию и писать код. Но в практических задачах ценится другое — способность видеть вперёд: успеет ли стартап закрыть раунд, снизит ли ФРС ставку, победит ли нужный кандидат.

Открытый проект FutureBench впервые измеряет это чутьё в цифрах. Вместо того чтобы спрашивать модель о прошлом, он спрашивает модель о будущем - о том, чего обучающих данных точно нет.

Как устроен этот «тонометр для предсказаний»
1. Каждую неделю скрипт берёт свежие новости и вопросы из prediction-рынков (например, Polymarket) и формирует десяток бинарных «будет / не будет» задач на ближайшие дни или недели.
2. Агентная модель с доступом к интернету собирает факты, сопоставляет аргументы и выдаёт вероятность.
3. Когда событие наступает, FutureBench автоматически фиксирует ✔️ или и обновляет публичную таблицу лидеров.

Получается прозрачный счётчик: у кого интуиция ближе к реальности тот и победил.

Что уже показал лидерборд:
Claude-3 Sonnet (2025c)67 % точных попаданий.
GPT-4.162 %.
DeepSeek-V3≈ 62 %.

Все три уверенно обыгрывают свои же «отключённые от сети» версии. Свежий контекст решает не меньше, чем размер модели.

Почему такой подход полезен
Никаких шпаргалок. Будущее нельзя украсть из тренировочного датасета — проверка честная по определению.
Быстрая обратная связь. Изменил агент или поиск — уже через неделю видно, стало ли лучше.
Метрика, понятная бизнесу. «67 % точности на реальных ставках» звучит убедительнее, чем «137 BLEU».
Площадка для роста. Результат открытый — можно соревноваться, выкладывать свои результаты и расти с каждой итерацией.

Как пощупать самому
1. Зайдите на живой лидерборд FutureBench
2. Посмотрите, какие вопросы стоят сейчас и как распределились ответы моделей.
3. Спросите у своего любимого чат-бота то же самое - и сравните вероятность с табло через пару недель.

Так вы на практике почувствуете, умеют ли LLM «думать вперёд» и как быстро эта способность улучшается.

Поделитесь постом с теми, кто до сих пор уверен, что ИИ годится лишь на пересказ прошлого - пусть заглянут в будущее вместе с нами! 🚀

🔗 Ссылка

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2489

View MORE
Open in Telegram


Telegram News

Date: |

Deputy District Judge Peter Hui sentenced computer technician Ng Man-ho on Thursday, a month after the 27-year-old, who ran a Telegram group called SUCK Channel, was found guilty of seven charges of conspiring to incite others to commit illegal acts during the 2019 extradition bill protests and subsequent months. According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. SUCK Channel Telegram fire bomb molotov November 18 Dylan Hollingsworth yau ma tei “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group.
from us


Telegram AI для Всех
FROM American