tgoop.com/dlinnlp/1760
Last Update:
GPT4o
openai.com/index/hello-gpt-4o/
Буква o в GPT4o означает "omnimodel". Новая моделька, аналогично gemini, может принимать на вход текст, аудио, картинки (и видео?) и генерировать эти модальности (текст, аудио, картинки, простенькое 3D)
Например, модель может суммаризировать видео, редактировать изображения, генерировать комиксы итд
Но самое впечатляющее это конечно же аудио. Новый (слегка кринж) очень живой и эмоциональный голос, который можно просить менять стиль, например насколько он звучит драматично или роботично, можно просить петь итд. Очень круто то что модель может обрабатывать и аудио и видео (как бы) одновременно. То есть ChatGPT слушает вас, но может и смотреть на то что вы показывете на камере -- теперь можно скидывать не только фотографию но и включать видео стрим.
Моделька будет основной моделью в ChatGPT, включая и беслпатных юзеров. Из того что я понял разница между платными и беслпатными теперь будет только в лимите запросов в день.
По метрикам, чуть-чуть лучше чем GPT4-turbo. Возможно мы уже подходим к потолку этих бенчмарков и скоро надо будет делать другие.
Очень рекомендую посмотреть видео с новой моделью, картинки не передают то насколько аудио крутое. Например посмотрите вот эти два видоса: тык, тык
Из презентации очень сильное впечатление что OAI окончательно стали продуктовой компанией. И 100% они специально поставили свою презентацию за день до гугловой. Такое ощущение что они поставили перед собой цель -- уничтожить гугл.
В общем очень крутая презентация, посмотрим как другие компании будут использовать новые API
BY DL in NLP
Share with your friend now:
tgoop.com/dlinnlp/1760