Notice: file_put_contents(): Write of 3273 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 16384 of 19657 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
Kantor.AI@kantor_ai P.357
KANTOR_AI Telegram 357
Forwarded from Dealer.AI
Вы спросили —Дядя отвечает. Истина находится где-то по середине. Действительно на нашем рынке можно встретить множество решений вокруг открытых моделей с huggingface или же апи модных нынче Midjourney.  Это может работать по принципу перевел с ру на ен и вкинул в апиху, далее выдал результат. Обычно, на старте, это было уделом малых команд, стартапов и пр.

На самом деле, ничего в этом зазорного нет, те же ребята с Perplexity строить свое решение начали именно вокруг топовых апи LLM (OpenAI, Google, Anthropic и т.п.).  Но при этом perplexity имеют свою доп. логику с поиском, линковкой фактов и пр. Что делает ее решение аналогом поисковика "в кармане".  После, они еще и собственные тюны моделей Llama like завезли, благо лицензия открытая позволяет. И это имеет спрос.
Т.е. более крупные игроки, стараются использовать такие решения для холодного старта или во все опираясь на открытые сеты , модели или архитектуры делать собственные решения/тюны/модели. И я думаю, что крупные игроки нашего рынка достигли уже того уровня зрелости, когда могут позволить себе свои исследования, и как следствие, свои решения в виде моделей и сервисов.

Вопрос остается только в источниках данных. Такое поведение, как мы видим на видео, может быть обусловлено, влиянием сетов обучения. Т.к. на рынке множество открытых сетов на английском языке для задач text2image, а для русского языка примеров много меньше. Создание таких ру-ен данных требует затрат на написание/генерацию и чистку. А в открытых сетах для обучения может возникать дисбаланс по ру-ен паре и как следствие превалирование этики из сетов коих больше. Поэтому тот же native/родной после предобучения на таких примерах будет носить знания культуры того языка коего больше. Тк в основном это все переводы с ен языка на ру как есть, да ещё к релевантным для ен языка картинкам. Для того, чтобы решить проблему "перекоса", не достаточно балансировки знаний, надо писать/матчить именно опорные ру тексты с "правильными" картинками к ним,а также придется, скорее всего, прибегнуть к выравниванию поведения — привет alignment/ human feedback и тп. А далее, вооружившись всем этим, нужно будет решать вопросы тюна с эмбеддером text2image, чтобы для языковой пары запрос сводился к "правильной картинке". Именно его представления будут использоваться диффузией как базой генерации. И в тч над этим, думаю, работают исследовательские команды крупных игроков.

Но нет предела совершенству, это непрерывный процесс дообучения и отлова "черных лебедей". Вот как-то так.
👍17👎85😁1



tgoop.com/kantor_ai/357
Create:
Last Update:

Вы спросили —Дядя отвечает. Истина находится где-то по середине. Действительно на нашем рынке можно встретить множество решений вокруг открытых моделей с huggingface или же апи модных нынче Midjourney.  Это может работать по принципу перевел с ру на ен и вкинул в апиху, далее выдал результат. Обычно, на старте, это было уделом малых команд, стартапов и пр.

На самом деле, ничего в этом зазорного нет, те же ребята с Perplexity строить свое решение начали именно вокруг топовых апи LLM (OpenAI, Google, Anthropic и т.п.).  Но при этом perplexity имеют свою доп. логику с поиском, линковкой фактов и пр. Что делает ее решение аналогом поисковика "в кармане".  После, они еще и собственные тюны моделей Llama like завезли, благо лицензия открытая позволяет. И это имеет спрос.
Т.е. более крупные игроки, стараются использовать такие решения для холодного старта или во все опираясь на открытые сеты , модели или архитектуры делать собственные решения/тюны/модели. И я думаю, что крупные игроки нашего рынка достигли уже того уровня зрелости, когда могут позволить себе свои исследования, и как следствие, свои решения в виде моделей и сервисов.

Вопрос остается только в источниках данных. Такое поведение, как мы видим на видео, может быть обусловлено, влиянием сетов обучения. Т.к. на рынке множество открытых сетов на английском языке для задач text2image, а для русского языка примеров много меньше. Создание таких ру-ен данных требует затрат на написание/генерацию и чистку. А в открытых сетах для обучения может возникать дисбаланс по ру-ен паре и как следствие превалирование этики из сетов коих больше. Поэтому тот же native/родной после предобучения на таких примерах будет носить знания культуры того языка коего больше. Тк в основном это все переводы с ен языка на ру как есть, да ещё к релевантным для ен языка картинкам. Для того, чтобы решить проблему "перекоса", не достаточно балансировки знаний, надо писать/матчить именно опорные ру тексты с "правильными" картинками к ним,а также придется, скорее всего, прибегнуть к выравниванию поведения — привет alignment/ human feedback и тп. А далее, вооружившись всем этим, нужно будет решать вопросы тюна с эмбеддером text2image, чтобы для языковой пары запрос сводился к "правильной картинке". Именно его представления будут использоваться диффузией как базой генерации. И в тч над этим, думаю, работают исследовательские команды крупных игроков.

Но нет предела совершенству, это непрерывный процесс дообучения и отлова "черных лебедей". Вот как-то так.

BY Kantor.AI


Share with your friend now:
tgoop.com/kantor_ai/357

View MORE
Open in Telegram


Telegram News

Date: |

Activate up to 20 bots The Channel name and bio must be no more than 255 characters long On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression." Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police. Content is editable within two days of publishing
from us


Telegram Kantor.AI
FROM American