tgoop.com/nn_for_science/2489
Last Update:
🤖 Что, если ИИ-модель реально знает, что случится завтра?
Большие языковые модели (LLM) давно научились пересказывать Википедию и писать код. Но в практических задачах ценится другое — способность видеть вперёд: успеет ли стартап закрыть раунд, снизит ли ФРС ставку, победит ли нужный кандидат.
Открытый проект FutureBench впервые измеряет это чутьё в цифрах. Вместо того чтобы спрашивать модель о прошлом, он спрашивает модель о будущем - о том, чего обучающих данных точно нет.
Как устроен этот «тонометр для предсказаний»
1. Каждую неделю скрипт берёт свежие новости и вопросы из prediction-рынков (например, Polymarket) и формирует десяток бинарных «будет / не будет» задач на ближайшие дни или недели.
2. Агентная модель с доступом к интернету собирает факты, сопоставляет аргументы и выдаёт вероятность.
3. Когда событие наступает, FutureBench автоматически фиксирует ✔️ или ❌ и обновляет публичную таблицу лидеров.
Получается прозрачный счётчик: у кого интуиция ближе к реальности тот и победил.
Что уже показал лидерборд:
• Claude-3 Sonnet (2025c) — 67 % точных попаданий.
• GPT-4.1 — 62 %.
• DeepSeek-V3 — ≈ 62 %.
Все три уверенно обыгрывают свои же «отключённые от сети» версии. Свежий контекст решает не меньше, чем размер модели.
Почему такой подход полезен
• Никаких шпаргалок. Будущее нельзя украсть из тренировочного датасета — проверка честная по определению.
• Быстрая обратная связь. Изменил агент или поиск — уже через неделю видно, стало ли лучше.
• Метрика, понятная бизнесу. «67 % точности на реальных ставках» звучит убедительнее, чем «137 BLEU».
• Площадка для роста. Результат открытый — можно соревноваться, выкладывать свои результаты и расти с каждой итерацией.
Как пощупать самому
1. Зайдите на живой лидерборд FutureBench
2. Посмотрите, какие вопросы стоят сейчас и как распределились ответы моделей.
3. Спросите у своего любимого чат-бота то же самое - и сравните вероятность с табло через пару недель.
Так вы на практике почувствуете, умеют ли LLM «думать вперёд» и как быстро эта способность улучшается.
Поделитесь постом с теми, кто до сих пор уверен, что ИИ годится лишь на пересказ прошлого - пусть заглянут в будущее вместе с нами! 🚀
🔗 Ссылка
BY AI для Всех

Share with your friend now:
tgoop.com/nn_for_science/2489