SEEALLOCHNAYA Telegram 1610
Что-то все модели выпускают, а от Mistral🇫🇷давно новостей не было. Сегодня они выпустили две модели, одна заточена на математику, другая — на написание кода.

MathΣtral — компактная модель размера 7B, по архитектуре эквивалентная ранним релизам компании. Её доучили на решение сложных математических задач, требующих комплексных, многосутпенчатых логических рассуждений.

На MMLU модель показывает прирост более чем в 10% в отдельных под-категориях, и целых 15% в элементарной математике, физических задачах старшей школы/колледжей и, внезапно, машинном обучении.

Модель справилась с 2мя задачами из 30 на American Invitational Mathematics Examination (AIME). Это второй из трёх этапов отбора команды на международную олимпиаду по математике в США — тут задачки уже поинтереснее, но всё ещё не как на финалах. Кажется, что 2 задачи это мало, но из моделей сопоставимого размера лишь китайский Qwen 2 7B тоже решает 2; большинство остальных — нуль.

Проценты решений задач других олимпиад можете увидеть на картинке

Модель уже доступна на HF (не торрент!). Её, кстати, делали совместно с Project Numina — это проект, члены которого также недавно выиграли соревнование AIMO по решению олимпиадных задач LLMками (писал тут). Там победное решение использовало DeepSeek Math 7B (вторая строчка в таблице). Так что при следующем запуске соревнования можно ожидать, что результат первого места ещё подскочит вверх — просто за счёт смены одной модели на другую, чуть более мощную.

Для справки: maj@16 означает, что модель независимо генерирует 16 решений на задачу, после чего проводится голосование большинством, и выбирается тот ответ, который чаще попадался. Важно понимать, что это не означает, что система даёт 16 ответов с 16 попыток — попытка одна, а maj позволяет выбрать один ответ, который модели кажется наиболее правильным.
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/seeallochnaya/1610
Create:
Last Update:

Что-то все модели выпускают, а от Mistral🇫🇷давно новостей не было. Сегодня они выпустили две модели, одна заточена на математику, другая — на написание кода.

MathΣtral — компактная модель размера 7B, по архитектуре эквивалентная ранним релизам компании. Её доучили на решение сложных математических задач, требующих комплексных, многосутпенчатых логических рассуждений.

На MMLU модель показывает прирост более чем в 10% в отдельных под-категориях, и целых 15% в элементарной математике, физических задачах старшей школы/колледжей и, внезапно, машинном обучении.

Модель справилась с 2мя задачами из 30 на American Invitational Mathematics Examination (AIME). Это второй из трёх этапов отбора команды на международную олимпиаду по математике в США — тут задачки уже поинтереснее, но всё ещё не как на финалах. Кажется, что 2 задачи это мало, но из моделей сопоставимого размера лишь китайский Qwen 2 7B тоже решает 2; большинство остальных — нуль.

Проценты решений задач других олимпиад можете увидеть на картинке

Модель уже доступна на HF (не торрент!). Её, кстати, делали совместно с Project Numina — это проект, члены которого также недавно выиграли соревнование AIMO по решению олимпиадных задач LLMками (писал тут). Там победное решение использовало DeepSeek Math 7B (вторая строчка в таблице). Так что при следующем запуске соревнования можно ожидать, что результат первого места ещё подскочит вверх — просто за счёт смены одной модели на другую, чуть более мощную.

Для справки: maj@16 означает, что модель независимо генерирует 16 решений на задачу, после чего проводится голосование большинством, и выбирается тот ответ, который чаще попадался. Важно понимать, что это не означает, что система даёт 16 ответов с 16 попыток — попытка одна, а maj позволяет выбрать один ответ, который модели кажется наиболее правильным.

BY Сиолошная




Share with your friend now:
tgoop.com/seeallochnaya/1610

View MORE
Open in Telegram


Telegram News

Date: |

Healing through screaming therapy Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. best-secure-messaging-apps-shutterstock-1892950018.jpg Click “Save” ;
from us


Telegram Сиолошная
FROM American