Сиолошная
https://cdn.openai.com/gpt-4-5-system-card.pdf
Пока первые впечатления (почитал чат + пролистал бумагу за 5 минут):
— как и ожидалось, модель хуже reasoner'ов: иногда даже уступает o1 и o3-mini.
— агентские навыки (использование инструментов) тоже уступает рассуждающим моделям, потому на этих бенчмарках оценки хоть и стабильно выше (иногда значимо), чем у 4o, но не такие приятные
— не так много разных оценок, как я ожидал, на мультимодальность, длинный контекст и разные языки (второго вообще нет)
Теперь к тому, что заметно выделяется.
Первое — надёжность и уменьшение галлюцинаций (первая картинка). Тут даже ризонеров порвали. Помните Денис @denissexy писал, что ответы o1 pro он почти не перепроверяет, потому что ошибок нет? Так вот ризонер на Orion видимо ошибаться будет ооочень редко. Правда ахаххаха почему-то не померили на своём же SimpleQA... Если честно, только одного этого (уменьшение галлюнов + надёжность) может хватить, чтобы AI начал входить в бизнес-процессы куда плотнее. Жаль, что нет сравнений с моделями конкурентов, большое упущение (это вообще ко всей статье применимо).
Второе — количество знаний. В доменах вроде ядерной физики моделька идёт нос к носу с ризонерами. Здорово, но хотелось куда больше замеров на то, насколько хорошо именно редкие знания в модели представлены. Картинки 2 и 3 к вашим услугам.
Третье — владение языком. Уже давно проводят бенчмарки на дебаты, переубеждение или вымогание (когда часть денег нужно пожертвовать). Модель тут оооочень хороша, владение языком везде выделяется. Картинки 4-5.
Четвёртое — всё же немного про мультимодальность напишу, показали один тест, связанный с медициной, тоже на уровне ризонеров. С другой стороны никаких других бенчмарков на картинки или видео, наверное если бы рвало — включили бы. Запишем карандашом, поставим звёздочку.
Для остального ждём официальной презентации!
— как и ожидалось, модель хуже reasoner'ов: иногда даже уступает o1 и o3-mini.
— агентские навыки (использование инструментов) тоже уступает рассуждающим моделям, потому на этих бенчмарках оценки хоть и стабильно выше (иногда значимо), чем у 4o, но не такие приятные
— не так много разных оценок, как я ожидал, на мультимодальность, длинный контекст и разные языки (второго вообще нет)
Теперь к тому, что заметно выделяется.
Первое — надёжность и уменьшение галлюцинаций (первая картинка). Тут даже ризонеров порвали. Помните Денис @denissexy писал, что ответы o1 pro он почти не перепроверяет, потому что ошибок нет? Так вот ризонер на Orion видимо ошибаться будет ооочень редко. Правда ахаххаха почему-то не померили на своём же SimpleQA... Если честно, только одного этого (уменьшение галлюнов + надёжность) может хватить, чтобы AI начал входить в бизнес-процессы куда плотнее. Жаль, что нет сравнений с моделями конкурентов, большое упущение (это вообще ко всей статье применимо).
Второе — количество знаний. В доменах вроде ядерной физики моделька идёт нос к носу с ризонерами. Здорово, но хотелось куда больше замеров на то, насколько хорошо именно редкие знания в модели представлены. Картинки 2 и 3 к вашим услугам.
Третье — владение языком. Уже давно проводят бенчмарки на дебаты, переубеждение или вымогание (когда часть денег нужно пожертвовать). Модель тут оооочень хороша, владение языком везде выделяется. Картинки 4-5.
Четвёртое — всё же немного про мультимодальность напишу, показали один тест, связанный с медициной, тоже на уровне ризонеров. С другой стороны никаких других бенчмарков на картинки или видео, наверное если бы рвало — включили бы. Запишем карандашом, поставим звёздочку.
Для остального ждём официальной презентации!
tgoop.com/seeallochnaya/2374
Create:
Last Update:
Last Update:
Пока первые впечатления (почитал чат + пролистал бумагу за 5 минут):
— как и ожидалось, модель хуже reasoner'ов: иногда даже уступает o1 и o3-mini.
— агентские навыки (использование инструментов) тоже уступает рассуждающим моделям, потому на этих бенчмарках оценки хоть и стабильно выше (иногда значимо), чем у 4o, но не такие приятные
— не так много разных оценок, как я ожидал, на мультимодальность, длинный контекст и разные языки (второго вообще нет)
Теперь к тому, что заметно выделяется.
Первое — надёжность и уменьшение галлюцинаций (первая картинка). Тут даже ризонеров порвали. Помните Денис @denissexy писал, что ответы o1 pro он почти не перепроверяет, потому что ошибок нет? Так вот ризонер на Orion видимо ошибаться будет ооочень редко. Правда ахаххаха почему-то не померили на своём же SimpleQA... Если честно, только одного этого (уменьшение галлюнов + надёжность) может хватить, чтобы AI начал входить в бизнес-процессы куда плотнее. Жаль, что нет сравнений с моделями конкурентов, большое упущение (это вообще ко всей статье применимо).
Второе — количество знаний. В доменах вроде ядерной физики моделька идёт нос к носу с ризонерами. Здорово, но хотелось куда больше замеров на то, насколько хорошо именно редкие знания в модели представлены. Картинки 2 и 3 к вашим услугам.
Третье — владение языком. Уже давно проводят бенчмарки на дебаты, переубеждение или вымогание (когда часть денег нужно пожертвовать). Модель тут оооочень хороша, владение языком везде выделяется. Картинки 4-5.
Четвёртое — всё же немного про мультимодальность напишу, показали один тест, связанный с медициной, тоже на уровне ризонеров. С другой стороны никаких других бенчмарков на картинки или видео, наверное если бы рвало — включили бы. Запишем карандашом, поставим звёздочку.
Для остального ждём официальной презентации!
— как и ожидалось, модель хуже reasoner'ов: иногда даже уступает o1 и o3-mini.
— агентские навыки (использование инструментов) тоже уступает рассуждающим моделям, потому на этих бенчмарках оценки хоть и стабильно выше (иногда значимо), чем у 4o, но не такие приятные
— не так много разных оценок, как я ожидал, на мультимодальность, длинный контекст и разные языки (второго вообще нет)
Теперь к тому, что заметно выделяется.
Первое — надёжность и уменьшение галлюцинаций (первая картинка). Тут даже ризонеров порвали. Помните Денис @denissexy писал, что ответы o1 pro он почти не перепроверяет, потому что ошибок нет? Так вот ризонер на Orion видимо ошибаться будет ооочень редко. Правда ахаххаха почему-то не померили на своём же SimpleQA... Если честно, только одного этого (уменьшение галлюнов + надёжность) может хватить, чтобы AI начал входить в бизнес-процессы куда плотнее. Жаль, что нет сравнений с моделями конкурентов, большое упущение (это вообще ко всей статье применимо).
Второе — количество знаний. В доменах вроде ядерной физики моделька идёт нос к носу с ризонерами. Здорово, но хотелось куда больше замеров на то, насколько хорошо именно редкие знания в модели представлены. Картинки 2 и 3 к вашим услугам.
Третье — владение языком. Уже давно проводят бенчмарки на дебаты, переубеждение или вымогание (когда часть денег нужно пожертвовать). Модель тут оооочень хороша, владение языком везде выделяется. Картинки 4-5.
Четвёртое — всё же немного про мультимодальность напишу, показали один тест, связанный с медициной, тоже на уровне ризонеров. С другой стороны никаких других бенчмарков на картинки или видео, наверное если бы рвало — включили бы. Запишем карандашом, поставим звёздочку.
Для остального ждём официальной презентации!
BY Сиолошная





Share with your friend now:
tgoop.com/seeallochnaya/2374