SEEALLOCHNAYA Telegram 2374
Сиолошная
https://cdn.openai.com/gpt-4-5-system-card.pdf
Пока первые впечатления (почитал чат + пролистал бумагу за 5 минут):

— как и ожидалось, модель хуже reasoner'ов: иногда даже уступает o1 и o3-mini.
— агентские навыки (использование инструментов) тоже уступает рассуждающим моделям, потому на этих бенчмарках оценки хоть и стабильно выше (иногда значимо), чем у 4o, но не такие приятные
— не так много разных оценок, как я ожидал, на мультимодальность, длинный контекст и разные языки (второго вообще нет)

Теперь к тому, что заметно выделяется.

Первое — надёжность и уменьшение галлюцинаций (первая картинка). Тут даже ризонеров порвали. Помните Денис @denissexy писал, что ответы o1 pro он почти не перепроверяет, потому что ошибок нет? Так вот ризонер на Orion видимо ошибаться будет ооочень редко. Правда ахаххаха почему-то не померили на своём же SimpleQA... Если честно, только одного этого (уменьшение галлюнов + надёжность) может хватить, чтобы AI начал входить в бизнес-процессы куда плотнее. Жаль, что нет сравнений с моделями конкурентов, большое упущение (это вообще ко всей статье применимо).

Второе — количество знаний. В доменах вроде ядерной физики моделька идёт нос к носу с ризонерами. Здорово, но хотелось куда больше замеров на то, насколько хорошо именно редкие знания в модели представлены. Картинки 2 и 3 к вашим услугам.

Третье — владение языком. Уже давно проводят бенчмарки на дебаты, переубеждение или вымогание (когда часть денег нужно пожертвовать). Модель тут оооочень хороша, владение языком везде выделяется. Картинки 4-5.

Четвёртое — всё же немного про мультимодальность напишу, показали один тест, связанный с медициной, тоже на уровне ризонеров. С другой стороны никаких других бенчмарков на картинки или видео, наверное если бы рвало — включили бы. Запишем карандашом, поставим звёздочку.

Для остального ждём официальной презентации!



tgoop.com/seeallochnaya/2374
Create:
Last Update:

Пока первые впечатления (почитал чат + пролистал бумагу за 5 минут):

— как и ожидалось, модель хуже reasoner'ов: иногда даже уступает o1 и o3-mini.
— агентские навыки (использование инструментов) тоже уступает рассуждающим моделям, потому на этих бенчмарках оценки хоть и стабильно выше (иногда значимо), чем у 4o, но не такие приятные
— не так много разных оценок, как я ожидал, на мультимодальность, длинный контекст и разные языки (второго вообще нет)

Теперь к тому, что заметно выделяется.

Первое — надёжность и уменьшение галлюцинаций (первая картинка). Тут даже ризонеров порвали. Помните Денис @denissexy писал, что ответы o1 pro он почти не перепроверяет, потому что ошибок нет? Так вот ризонер на Orion видимо ошибаться будет ооочень редко. Правда ахаххаха почему-то не померили на своём же SimpleQA... Если честно, только одного этого (уменьшение галлюнов + надёжность) может хватить, чтобы AI начал входить в бизнес-процессы куда плотнее. Жаль, что нет сравнений с моделями конкурентов, большое упущение (это вообще ко всей статье применимо).

Второе — количество знаний. В доменах вроде ядерной физики моделька идёт нос к носу с ризонерами. Здорово, но хотелось куда больше замеров на то, насколько хорошо именно редкие знания в модели представлены. Картинки 2 и 3 к вашим услугам.

Третье — владение языком. Уже давно проводят бенчмарки на дебаты, переубеждение или вымогание (когда часть денег нужно пожертвовать). Модель тут оооочень хороша, владение языком везде выделяется. Картинки 4-5.

Четвёртое — всё же немного про мультимодальность напишу, показали один тест, связанный с медициной, тоже на уровне ризонеров. С другой стороны никаких других бенчмарков на картинки или видео, наверное если бы рвало — включили бы. Запишем карандашом, поставим звёздочку.

Для остального ждём официальной презентации!

BY Сиолошная








Share with your friend now:
tgoop.com/seeallochnaya/2374

View MORE
Open in Telegram


Telegram News

Date: |

Step-by-step tutorial on desktop: In the next window, choose the type of your channel. If you want your channel to be public, you need to develop a link for it. In the screenshot below, it’s ”/catmarketing.” If your selected link is unavailable, you’ll need to suggest another option. A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. Telegram has announced a number of measures aiming to tackle the spread of disinformation through its platform in Brazil. These features are part of an agreement between the platform and the country's authorities ahead of the elections in October. Matt Hussey, editorial director at NEAR Protocol also responded to this news with “#meIRL”. Just as you search “Bear Market Screaming” in Telegram, you will see a Pepe frog yelling as the group’s featured image.
from us


Telegram Сиолошная
FROM American