Forwarded from linkmeup
Напоминаю, что этот канал ведёт дед, начинавший с Pascal, и да, это был очень строгий и хороший язык. И строгость эта была исключительным преимуществом.
https://habr.com/ru/articles/958274/
https://habr.com/ru/articles/958274/
Хабр
Что потеряли вместе с Pascal: типобезопасность, которую мы недооценили
Когда я впервые вернулся к старому коду на Pascal, меня поразило, насколько спокойным и уверенным был этот язык. Без магии, без догадок, без самоуверенности динамической типизации. Pascal не прощал...
👍2🔥1🎉1🙏1
Forwarded from Python/ django
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 The Markovian Thinker: Революция в обучении LLM
The Markovian Thinker предлагает новый подход к обучению языковых моделей с использованием фиксированного размера состояния, что снижает вычислительные затраты. Метод Delethink разбивает генерацию на фиксированные части, позволяя модели эффективно продвигать мысли, сохраняя контекст.
🚀Основные моменты:
- Новый парадигма "Марковское мышление" для LLM.
- Метод Delethink использует фиксированные размеры контекста.
- Сравнение с LongCoT показывает лучшие результаты при меньших затратах.
- Поддержка масштабирования до 96K токенов.
- Применение в современных LLM, таких как GPT-OSS и Qwen3.
📌 GitHub: https://github.com/McGill-NLP/the-markovian-thinker
@pythonl
The Markovian Thinker предлагает новый подход к обучению языковых моделей с использованием фиксированного размера состояния, что снижает вычислительные затраты. Метод Delethink разбивает генерацию на фиксированные части, позволяя модели эффективно продвигать мысли, сохраняя контекст.
🚀Основные моменты:
- Новый парадигма "Марковское мышление" для LLM.
- Метод Delethink использует фиксированные размеры контекста.
- Сравнение с LongCoT показывает лучшие результаты при меньших затратах.
- Поддержка масштабирования до 96K токенов.
- Применение в современных LLM, таких как GPT-OSS и Qwen3.
📌 GitHub: https://github.com/McGill-NLP/the-markovian-thinker
@pythonl
👍8❤4😢2
Forwarded from ODS Events
Всем привет!
Представляем вашему вниманию семнадцатый выпуск подкаста "Капитанский мостик", в этом разговоре обсуждаются самые актуальные темы в области технологий. Ведущие выпуска - Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
Представляем вашему вниманию семнадцатый выпуск подкаста "Капитанский мостик", в этом разговоре обсуждаются самые актуальные темы в области технологий. Ведущие выпуска - Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
👍3❤1🥰1🤯1
Forwarded from Russian OSINT
Исследователи из Anomify решили задаться вопросом о наличии у LLM идеологических предубеждений. В ходе эксперимента, результаты которого были получены в период с 23 сентября по 2 октября 2025 года, были проанализированы ведущие большие языковые модели от
Для оценки предвзятости большие языковые модели многократно отвечали на вопросы, предлагающие выбор между двумя противоположными утверждениями из восьми идеологических категорий. Каждый из 24 уникальных запросов был отправлен в каждую модель 100 раз для получения репрезентативной выборки. Такой подход позволил объективно сравнить даже проприетарные ИИ-сервисы, рассматривая их как «черный ящик» и анализируя только конечный результат.
Результаты эксперимента показали, что большие языковые модели не являются идеологически однородными. Вместо простого деления на «правых» и «левых», анализ выявляет более сложные «личности» ИИ-сервисов. Ключевые различия проявляются в их отношении к власти, государственному регулированию и социальным вопросам, что делает выбор модели не только техническим, но и мировоззренческим решением.
ИИ-решения от Google (Gemini) и OpenAI (GPT) формируют условный лагерь «институционалистов». Эти модели чаще выражают доверие экспертам и политическим элитам, а также занимают глобалистскую позицию. При этом они также поддерживают прогрессивную повестку и государственное вмешательство в экономику, в частности, выступая за всеобщее здравоохранение. Однако модели Gemini показывают крайнюю осторожность, практически всегда уклоняясь от ответов на спорные темы, такие как регулирование абортов, тогда как GPT-5 более склонен занимать определённую позицию.
Таким образом, GPT и Gemini выступают как более мейнстримные, прогосударственные и глобалистские ИИ-модели, отражающие взгляды устоявшихся западных институтов.
ИИ-сервисы Grok от компании xAI представляют собой интересный дуализм. Младшая модель grok-3-mini в большинстве случаев придерживается центристских, институционалистских взглядов, схожих с позицией GPT и Gemini. В то же время старшая модель grok-4-fast-non-reasoning проявила себя как самая осторожная из всех, демонстрируя нулевой уровень соответствия по таким острым темам, как британская монархия и палестино-израильский конфликт. Её позицию практически невозможно определить.
Европейские большие языковые модели, такие как Mistral и Sonar, формируют условный прогрессивно-регуляторный лагерь. ИИшки последовательно выступают за сильное государственное регулирование бизнеса и социальных сетей, поддерживают международные институты и глобализацию. Их ответы отражают типичную европейскую левоцентристскую позицию, сочетающую прогрессивные социальные ценности с верой в эффективность наднациональных и государственных структур.
Менее крупные и открытые ИИ-решения, включая cogito, deepseek-r1 и smollm2 попали в отдельную категорию, чьей главной особенностью стала не идеология, а низкая надёжность ответов. Модели демонстрировали крайне низкие показатели соответствия, часто игнорируя инструкции или давая нерелевантные ответы. Их поведение указывает на то, что технические ограничения не позволяют им последовательно формулировать позицию, делая их идеологический профиль скорее хаотичным и непредсказуемым, чем осознанным.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍2🥰2🔥1
Forwarded from Machinelearning
⚡️ Glyph: масштабирование контекста через визуально-текстовую компрессию
В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель.
Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью.
Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста.
При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B.
При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM.
Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой.
📄 Подробности: arxiv.org/abs/2510.17800
🧩 Веса: huggingface.co/zai-org/Glyph
👉 Репозиторий: github.com/thu-coai/Glyph
@ai_machinelearning_big_data
#AI #LLM #Multimodal #Research #DeepLearning
В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель.
Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью.
Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста.
При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B.
При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM.
Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой.
📄 Подробности: arxiv.org/abs/2510.17800
🧩 Веса: huggingface.co/zai-org/Glyph
👉 Репозиторий: github.com/thu-coai/Glyph
@ai_machinelearning_big_data
#AI #LLM #Multimodal #Research #DeepLearning
❤9🔥3👍2😢1🙏1
Yandex Cloud удвоил выручку от ИИ-сервисов
За 9 месяцев 2025 года совокупная выручка облачных и on-premises ИИ-сервисов достигла 1,5 млрд ₽ — в два раза больше, чем за тот же период прошлого года.
Главный драйвер — генеративные модели и ML‑сервисы. В Yandex AI Studio компании создают собственного AI-агента за пару часов и интегрируют его в продукт. On-premises — YandexGPT, SpeechKit и SpeechSense — можно разворачивать прямо в инфраструктуре клиента.
ИБ-сервисы растут быстрее: выручка выросла в 2,5 раза, а каждый четвертый коммерческий клиент их использует. Чтобы усилить защиту, Yandex B2B Tech и SolidSoft создали совместное предприятие.
За 9 месяцев 2025 года совокупная выручка облачных и on-premises ИИ-сервисов достигла 1,5 млрд ₽ — в два раза больше, чем за тот же период прошлого года.
Главный драйвер — генеративные модели и ML‑сервисы. В Yandex AI Studio компании создают собственного AI-агента за пару часов и интегрируют его в продукт. On-premises — YandexGPT, SpeechKit и SpeechSense — можно разворачивать прямо в инфраструктуре клиента.
ИБ-сервисы растут быстрее: выручка выросла в 2,5 раза, а каждый четвертый коммерческий клиент их использует. Чтобы усилить защиту, Yandex B2B Tech и SolidSoft создали совместное предприятие.
❤3🔥2🤯1
Forwarded from ИСП РАН
Уважаемые коллеги!
Ближайший доклад на cеминаре «Математические основы искусственного интеллекта» в Математическом институте им. В.А. Стеклова РАН пройдет в очном формате, а также дистанционно в системе Контур Толк:
Место и время: МИАН (ул. Губкина 8), 9 этаж, конференц-зал + Контур Толк, среда, 05 ноября 2025 г., 17:00-18:00.
Д.А. Демин (МФТИ):
О замечательном классе сложности с алгоритмом обучения и его связи с нейронными сетями
Аннотация: Существует серия результатов, показывающих, что для различных архитектур неглубоких нейронных сетей множество решаемых ими задач совпадает с классом схемной сложности TC^0, который имеет удобные описания как в терминах логики, так и в терминах комбинаторных алгоритмов. Однако это не отвечает на вопрос о том, как найти набор параметров нейросети, решающий данную задачу. Более того, существование эффективного алгоритма обучения для всех задач из класса TC^0 означало бы, например, что криптографический протокол RSA ненадёжен.
Мы определяем принципиально новый класс сложности BPC^0, для которого не только сохраняется эквивалентность с неглубокими нейросетями (с дополнительным ограничением на нормы весов), но и существует полиномиальный алгоритм обучения. Для этого класса удаётся найти похожие описания в логических и комбинаторно-алгоритмических терминах. Также для каждой задачи из класса BPC^0 существуют примеры нейросетей полиномиального размера с одним скрытым слоем, для которых сходится обучение методом стохастического градиентного спуска, но степень полинома для этой нейросети велика и зависит от глубины.
Ссылка на подключение в Контур Толк:
https://mian.ktalk.ru/jy7i6n6xlooq?pinCode=6107
Пин-код: 6107
Ближайший доклад на cеминаре «Математические основы искусственного интеллекта» в Математическом институте им. В.А. Стеклова РАН пройдет в очном формате, а также дистанционно в системе Контур Толк:
Место и время: МИАН (ул. Губкина 8), 9 этаж, конференц-зал + Контур Толк, среда, 05 ноября 2025 г., 17:00-18:00.
Д.А. Демин (МФТИ):
О замечательном классе сложности с алгоритмом обучения и его связи с нейронными сетями
Аннотация: Существует серия результатов, показывающих, что для различных архитектур неглубоких нейронных сетей множество решаемых ими задач совпадает с классом схемной сложности TC^0, который имеет удобные описания как в терминах логики, так и в терминах комбинаторных алгоритмов. Однако это не отвечает на вопрос о том, как найти набор параметров нейросети, решающий данную задачу. Более того, существование эффективного алгоритма обучения для всех задач из класса TC^0 означало бы, например, что криптографический протокол RSA ненадёжен.
Мы определяем принципиально новый класс сложности BPC^0, для которого не только сохраняется эквивалентность с неглубокими нейросетями (с дополнительным ограничением на нормы весов), но и существует полиномиальный алгоритм обучения. Для этого класса удаётся найти похожие описания в логических и комбинаторно-алгоритмических терминах. Также для каждой задачи из класса BPC^0 существуют примеры нейросетей полиномиального размера с одним скрытым слоем, для которых сходится обучение методом стохастического градиентного спуска, но степень полинома для этой нейросети велика и зависит от глубины.
Ссылка на подключение в Контур Толк:
https://mian.ktalk.ru/jy7i6n6xlooq?pinCode=6107
Пин-код: 6107
mian.ktalk.ru
Математ. основы искусственного интеллекта
Подключиться к видеоконференции
❤3🤯2
Forwarded from Новости Linux
Уязвимость в ChatGPT Atlas позволяет внедрять вредоносные инструкции в память ИИ-помощника
ИБ-исследователи из компании LayerX обнаружили уязвимость в недавно вышедшем браузере ChatGPT Atlas компании OpenAI. Проблема позволяет злоумышленникам внедрять вредоносные инструкции в память ИИ-ассистента и выполнять произвольный код.
Читать полностью
#xakep
@linux_potok
ИБ-исследователи из компании LayerX обнаружили уязвимость в недавно вышедшем браузере ChatGPT Atlas компании OpenAI. Проблема позволяет злоумышленникам внедрять вредоносные инструкции в память ИИ-ассистента и выполнять произвольный код.
Читать полностью
#xakep
@linux_potok
❤3👍2🤯2
Forwarded from Spark in me
Время silero-tts v5 пришло!
🆕 Что добавилось / поменялось:
1️⃣ Модели в 3-4 раза быстрее
2️⃣ Добавилась автоматическая расстановка ударений в омографах;
3️⃣ Значительно повысилось качество звучания и стабильность генерации;
4️⃣ В моделях всё так же поддерживается SSML;
5️⃣ Список голосов:
6️⃣ Ставить модель можно через
7️⃣ Скрутили дебафф из
Список новых флагов:
Минимальный пример буквально:
Попробовать можно тут:
⭐️ Репозиторий
📔 Ноутбучек с примерами
⬆️ Статья на Хабре
🆕 Что добавилось / поменялось:
1️⃣ Модели в 3-4 раза быстрее
v3 и в 1.5 - 2 раза быстрее v4;2️⃣ Добавилась автоматическая расстановка ударений в омографах;
3️⃣ Значительно повысилось качество звучания и стабильность генерации;
4️⃣ В моделях всё так же поддерживается SSML;
5️⃣ Список голосов:
aidar, baya, kseniya, xenia, eugene;6️⃣ Ставить модель можно через
torch.hub, тупо выкачав локально, через pip;7️⃣ Скрутили дебафф из
v4;Список новых флагов:
put_accent=True,
put_yo=True,
put_stress_homo=True,
put_yo_homo=True
Минимальный пример буквально:
!pip install silero
from silero import silero_tts
model, example_text = silero_tts(language='ru',
speaker='v5_ru')
audio = model.apply_tts(text=example_text)
Попробовать можно тут:
⭐️ Репозиторий
📔 Ноутбучек с примерами
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤5😢1
Forwarded from Библиотека баз данных
Media is too big
VIEW IN TELEGRAM
🔥 Hugging Face снова выкатили полезные материалы.
Вышел бесплатный плейбук о том, как изнутри строят SOTA-модели.
Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.
Это полноценный мастеркласс на 214 страниц для тех, кто хочет понимать, как устроены современные LLM.
Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей
По первым страницам - уровень деталей как в Ultra-scale playbook.
Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
Видео: https://www.youtube.com/watch?v=LGzO-Mn0DJQ
#AI #LLM #MachineLearning #HuggingFace
@sql_lib - библиотека МЛ и ИИ книг
Вышел бесплатный плейбук о том, как изнутри строят SOTA-модели.
Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.
Это полноценный мастеркласс на 214 страниц для тех, кто хочет понимать, как устроены современные LLM.
Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей
По первым страницам - уровень деталей как в Ultra-scale playbook.
Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
Видео: https://www.youtube.com/watch?v=LGzO-Mn0DJQ
#AI #LLM #MachineLearning #HuggingFace
@sql_lib - библиотека МЛ и ИИ книг
🔥9👍5❤2🙏2🥰1😢1
Forwarded from Мой Компьютер
Первое в мире iVedro
По словам автора, он хотел сделать незаметное мусорное ведро для офиса и, похоже, у него это получилось.
Мой Компьютер
По словам автора, он хотел сделать незаметное мусорное ведро для офиса и, похоже, у него это получилось.
Мой Компьютер
🤣13🤡4❤3👍1🤯1🌚1
Forwarded from ODS Events
Всем привет!
Встречайте восемнадцатый выпуск подкаста "Капитанский мостик", в котором обсуждаем новости из мира ИИ за прошедшую неделю и не только. Ведущий подкаста - Дмитрий Колодезев. Приглашенный участник сегодняшнего выпуска - Пётр Ермаков.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
Встречайте восемнадцатый выпуск подкаста "Капитанский мостик", в котором обсуждаем новости из мира ИИ за прошедшую неделю и не только. Ведущий подкаста - Дмитрий Колодезев. Приглашенный участник сегодняшнего выпуска - Пётр Ермаков.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
❤3🎉2🙏2
Forwarded from Китай.AI
ИИ против крипторынка: Китайские модели одержали сокрушительную победу
Опубликованы результаты первого в мире конкурса AI-трейдеров, где шесть ведущих языковых моделей соревновались в торговле криптовалютой.
Суть события: Шесть ведущих AI-моделей получили по $10,000 для торговли на реальном рынке без вмешательства человека. Победителем стал тот, кто показал максимальную доходность при контролируемом риске.
«Это своего рода тест Тьюринга для криптотрейдинга» — так организаторы из Nof1.ai охарактеризовали свое мероприятие, проходившее с 17 октября по 3 ноября 2025 года.
📊 Ключевые результаты:
• 1 место: Alibaba Qwen — доходность свыше 20% 🥇
• 2 место: DeepSeek — стабильная прибыль 🥈
• Остальные модели: ушли в минус, особенно GPT-5 (потерял более 60%)
🔍 Как проходил конкурс?
• Каждая модель самостоятельно анализировала рынок
• Использовались идентичные исходные данные и условия
• Торговля велась на платформе Hyperliquid
• Запрещена любая внешняя помощь или коррекция стратегии
• Полная автономность — без человеческого вмешательства
• Все транзакции и решения публиковались в реальном времени
🧠 Технические детали:
🤖 Характеристики моделей:
• Qwen3 Max — агрессивный стиль, высокая доходность при умеренной частоте сделок
• DeepSeek — консервативный подход, лучший показатель Шарпа (0.359)
• GPT-5 — наименьшая эффективность (-62.66%) при высокой активности
💡 Что это значит для индустрии?
Победа Qwen демонстрирует не просто "знание", а способность применять сложные навыки в условиях реального финансового рынка — анализировать, принимать решения и управлять рисками автономно.
Подробнее о методике и результатах
#КитайскийИИ #КитайAI #Трейдинг #Alibaba #GPT5 #DeepSeek
Опубликованы результаты первого в мире конкурса AI-трейдеров, где шесть ведущих языковых моделей соревновались в торговле криптовалютой.
Суть события: Шесть ведущих AI-моделей получили по $10,000 для торговли на реальном рынке без вмешательства человека. Победителем стал тот, кто показал максимальную доходность при контролируемом риске.
«Это своего рода тест Тьюринга для криптотрейдинга» — так организаторы из Nof1.ai охарактеризовали свое мероприятие, проходившее с 17 октября по 3 ноября 2025 года.
📊 Ключевые результаты:
• 1 место: Alibaba Qwen — доходность свыше 20% 🥇
• 2 место: DeepSeek — стабильная прибыль 🥈
• Остальные модели: ушли в минус, особенно GPT-5 (
🔍 Как проходил конкурс?
• Каждая модель самостоятельно анализировала рынок
• Использовались идентичные исходные данные и условия
• Торговля велась на платформе Hyperliquid
• Запрещена любая внешняя помощь или коррекция стратегии
• Полная автономность — без человеческого вмешательства
• Все транзакции и решения публиковались в реальном времени
🧠 Технические детали:
Модели должны были:
- Выявлять альфа-возможности (шансы на сверхдоходность)
- Определять размер позиции
- Выбирать точки входа и выхода
- Управлять риском в реальном времени
🤖 Характеристики моделей:
• Qwen3 Max — агрессивный стиль, высокая доходность при умеренной частоте сделок
• DeepSeek — консервативный подход, лучший показатель Шарпа (0.359)
• GPT-5 — наименьшая эффективность (-62.66%) при высокой активности
💡 Что это значит для индустрии?
Победа Qwen демонстрирует не просто "знание", а способность применять сложные навыки в условиях реального финансового рынка — анализировать, принимать решения и управлять рисками автономно.
Подробнее о методике и результатах
#КитайскийИИ #КитайAI #Трейдинг #Alibaba #GPT5 #DeepSeek
Alpha Arena
Alpha Arena | AI Trading Benchmark
The first benchmark designed to measure AI's investing abilities. Watch AI models trade with real capital.
❤10😢2🎉2👍1🥰1😁1
Forwarded from Китай.AI
Kimi K2 Thinking: Китайский ИИ-гигант с открытым исходным кодом
Китайская компания MoonShot AI выпустила новую модель — Kimi K2 Thinking. Это не просто открытая языковая модель, а полноценная «модель-как-агент», способная самостоятельно мыслить и использовать инструменты без вмешательства человека.
Основные возможности:
• Многошаговое мышление: Может выполнять до 200-300 последовательных действий (поиск, программирование) без вмешательства человека
• Супер-поиск: Лучшая в своем классе по автономному веб-браузингу и сложному поиску
• Длинный контекст: 256K токенов для работы с объемными документами
🎯 Ключевые преимущества
В benchmark "Последний экзамен человечества" (HLE) с доступом к поиску, Python и браузеру модель показала результат 44.9%, обойдя GPT-5 и Claude Sonnet 4.5.
💻 Технические детали
INT4 квантование обеспечивает:
• 2x ускорение генерации
• Поддержку китайских AI-чипов
HuggingFace | Технический блог
#КитайскийИИ #КитайAI #KimiK2
Китайская компания MoonShot AI выпустила новую модель — Kimi K2 Thinking. Это не просто открытая языковая модель, а полноценная «модель-как-агент», способная самостоятельно мыслить и использовать инструменты без вмешательства человека.
Основные возможности:
• Многошаговое мышление: Может выполнять до 200-300 последовательных действий (поиск, программирование) без вмешательства человека
• Супер-поиск: Лучшая в своем классе по автономному веб-браузингу и сложному поиску
• Длинный контекст: 256K токенов для работы с объемными документами
🎯 Ключевые преимущества
В benchmark "Последний экзамен человечества" (HLE) с доступом к поиску, Python и браузеру модель показала результат 44.9%, обойдя GPT-5 и Claude Sonnet 4.5.
💻 Технические детали
Архитектура: Mixture-of-Experts (MoE)Параметры: 1 трлн общих, 32 млрд активныхКвантование: INT4 с Quantization-Aware TrainingКонтекст: 256K токеновINT4 квантование обеспечивает:
• 2x ускорение генерации
• Поддержку китайских AI-чипов
HuggingFace | Технический блог
#КитайскийИИ #КитайAI #KimiK2
huggingface.co
moonshotai/Kimi-K2-Thinking · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤2🔥2🤯1🙏1
