AI для Всех@nn_for

AI для Всех

🤖 Что, если ИИ-модель реально знает, что случится завтра?

Большие языковые модели (LLM) давно научились пересказывать Википедию и писать код. Но в практических задачах ценится другое — способность видеть вперёд: успеет ли стартап закрыть раунд, снизит ли ФРС ставку, победит ли нужный кандидат.

Открытый проект FutureBench впервые измеряет это чутьё в цифрах. Вместо того чтобы спрашивать модель о прошлом, он спрашивает модель о будущем - о том, чего обучающих данных точно нет.

Как устроен этот «тонометр для предсказаний»
1. Каждую неделю скрипт берёт свежие новости и вопросы из prediction-рынков (например, Polymarket) и формирует десяток бинарных «будет / не будет» задач на ближайшие дни или недели.
2. Агентная модель с доступом к интернету собирает факты, сопоставляет аргументы и выдаёт вероятность.
3. Когда событие наступает, FutureBench автоматически фиксирует ✔️ или ❌ и обновляет публичную таблицу лидеров.

Получается прозрачный счётчик: у кого интуиция ближе к реальности тот и победил.

Что уже показал лидерборд:
• Claude-3 Sonnet (2025c) — 67 % точных попаданий.
• GPT-4.1 — 62 %.
• DeepSeek-V3 — ≈ 62 %.

Все три уверенно обыгрывают свои же «отключённые от сети» версии. Свежий контекст решает не меньше, чем размер модели.

Почему такой подход полезен
• Никаких шпаргалок. Будущее нельзя украсть из тренировочного датасета — проверка честная по определению.
• Быстрая обратная связь. Изменил агент или поиск — уже через неделю видно, стало ли лучше.
• Метрика, понятная бизнесу. «67 % точности на реальных ставках» звучит убедительнее, чем «137 BLEU».
• Площадка для роста. Результат открытый — можно соревноваться, выкладывать свои результаты и расти с каждой итерацией.

Как пощупать самому
1. Зайдите на живой лидерборд FutureBench
2. Посмотрите, какие вопросы стоят сейчас и как распределились ответы моделей.
3. Спросите у своего любимого чат-бота то же самое - и сравните вероятность с табло через пару недель.

Так вы на практике почувствуете, умеют ли LLM «думать вперёд» и как быстро эта способность улучшается.

Поделитесь постом с теми, кто до сих пор уверен, что ИИ годится лишь на пересказ прошлого - пусть заглянут в будущее вместе с нами! 🚀

🔗 Ссылка

❤28👍8🔥3

www.tgoop.com/nn_for_science/2489

4.94K viewsedited Jul 18 at 07:35

tgoop.com/nn_for_science/2489

Create: 2025-07-18
Last Update: 2025-10-13 14:39:34

BY AI для Всех

Share with your friend now:
tgoop.com/nn_for_science/2489

Telegram News

🤖 Что