Forwarded from Machinelearning
LG AI Research опубликовала 3 новые инструктивные двуязычные (английский и корейский) модели EXAONE 3.5 с контекстным окном в 32 тыс. токенов:
Разработчики EXAONE 3.5 улучшили эффективность обучения моделей. На этапе предварительного обучения из наборов данных удалялись дубликаты и личная информация, что позволило повысить качество ответов моделей и оптимизировать использование ресурсов. На этапе постобработки применялись методы SFT и DPO, чтобы улучшить способность моделей понимать инструкции и предпочтения пользователей.
Для повышения надежности оценки производительности EXAONE 3.5 был проведен тщательный процесс деконтаминации. Метод деконтаминации был взят из глобальной модели, а его эффективность оценивалась путем многократного сравнения обучающих данных с тестовыми наборами данных.
К каждой модели, LG AI выпустил квантованные версии в форматах AWQ и GGUF.
⚠️ EXAONE 3.5 - инструктивные модели, поэтому рекомендуется использовать системные промпты, представленные в примере кода инференса.
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "%Prompt%"
messages = [
{"role": "system", "content": "You are EXAONE model from LG AI Research, a helpful assistant."},
{"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
)
output = model.generate(
input_ids.to("cuda"),
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=128,
do_sample=False,
)
print(tokenizer.decode(output[0]))
@ai_machinelearning_big_data
#AI #ML #LLM #EXAONE #LG
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤4🔥2💩2
Forwarded from Machinelearning
DeepSeek-VL2 - усовершенствованная серия VLM c Mixture-of-Experts (MoE), которая значительно превосходит DeepSeek-VL.
Модели семейства ориентированы на задачи визуальных ответов на вопросы, оптического распознавания символов, понимания документов/таблиц/схем и визуального обоснования.
DeepSeek-VL2 включает три основных модуля:
DeepSeek-VL2 обучается в три этапа: на первом этапе обучается MLP-соединитель, который связывает визуальный энкодер с языковой моделью, затем модель обучается на датасете из текста, изображений, аннотаций, QA и данных OCR и, в конце процесса, дообучается с учителем для улучшения ее способности понимать инструкции и вести диалог.
Модельная серия состоит из 3 вариантов c контекстом 4096:
DeepSeek-VL2 была протестирована на задачах DocVQA, ChartQA, InfoVQA, TextVQA, MMBench и показала лучшие результаты по сравнению с другими моделями MoE.
DeepSeek-VL2 эффективно использует архитектуру MoE и превосходит другие модели с аналогичным количеством активных параметров.
@ai_machinelearning_big_data
#AI #ML #VLM #DeepSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤4🔥2
Forwarded from Machinelearning
Преобразование Фурье – это математический метод, который широко применяется в науке и технике для анализа сигналов. Этот метод основан на представлении сигнала в виде суммы синусоидальных и косинусоидальных функций разных частот.
Анализ Фурье оказал значительное влияние на развитие математики, стимулируя развитие теории обобщенных функций. Применение преобразования Фурье основано на принципе линейности, который позволяет анализировать сложные сигналы путем разложения их на более простые составляющие.
Курс «EE 261 Преобразование Фурье и его приложения», предлагаемый онлайн-платформой Stanford Engineering Everywhere Университета Стэнфорда, посвящен изучению преобразования Фурье и его практическому применению.
Цель курса – научить студентов применять преобразование Фурье для решения практических задач в различных областях науки и техники. В рамках курса рассматриваются темы:
Курс состоит из 30 лекций, дополнительных материалов к ним и предназначен для студентов с разным уровнем подготовки, для тех, кто впервые знакомится с преобразованием Фурье, так и для тех, кто уже изучал его в других курсах.
@ai_machinelearning_big_data
#AI #ML #FourierTransform #Stanford #Course
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥5❤3🆒1
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:
МАШИННОЕ ОБУЧЕНИЕ: www.tgoop.com/ai_machinelearning_big_data
C++ www.tgoop.com/cpluspluc
Python: www.tgoop.com/pythonl
Linux: www.tgoop.com/linuxacademiya
Хакинг: www.tgoop.com/linuxkalii
Devops: www.tgoop.com/DevOPSitsec
АНАЛИЗ Данных: www.tgoop.com/data_analysis_ml
Javascript: www.tgoop.com/javascriptv
C#: www.tgoop.com/csharp_ci
Java: www.tgoop.com/javatg
Базы данных: www.tgoop.com/sqlhub
Python собеседования: www.tgoop.com/python_job_interview
Мобильная разработка: www.tgoop.com/mobdevelop
Docker: www.tgoop.com/DevopsDocker
Golang: www.tgoop.com/Golang_google
React: www.tgoop.com/react_tg
Rust: www.tgoop.com/rust_code
ИИ: www.tgoop.com/vistehno
PHP: www.tgoop.com/phpshka
Android: www.tgoop.com/android_its
Frontend: www.tgoop.com/front
Big Data: www.tgoop.com/bigdatai
Собеседования МЛ: www.tgoop.com/machinelearning_interview
МАТЕМАТИКА: www.tgoop.com/data_math
Kubernets: www.tgoop.com/kubernetc
Разработка игр: https://www.tgoop.com/gamedev
Haskell: www.tgoop.com/haskell_tg
💼 Папка с вакансиями: www.tgoop.com/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: www.tgoop.com/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: www.tgoop.com/addlist/eEPya-HF6mkxMGIy
Папка ML: https://www.tgoop.com/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://www.tgoop.com/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: www.tgoop.com/memes_prog
🇬🇧Английский: www.tgoop.com/english_forprogrammers
🧠ИИ: www.tgoop.com/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://www.tgoop.com/addlist/BkskQciUW_FhNjEy
МАШИННОЕ ОБУЧЕНИЕ: www.tgoop.com/ai_machinelearning_big_data
C++ www.tgoop.com/cpluspluc
Python: www.tgoop.com/pythonl
Linux: www.tgoop.com/linuxacademiya
Хакинг: www.tgoop.com/linuxkalii
Devops: www.tgoop.com/DevOPSitsec
АНАЛИЗ Данных: www.tgoop.com/data_analysis_ml
Javascript: www.tgoop.com/javascriptv
C#: www.tgoop.com/csharp_ci
Java: www.tgoop.com/javatg
Базы данных: www.tgoop.com/sqlhub
Python собеседования: www.tgoop.com/python_job_interview
Мобильная разработка: www.tgoop.com/mobdevelop
Docker: www.tgoop.com/DevopsDocker
Golang: www.tgoop.com/Golang_google
React: www.tgoop.com/react_tg
Rust: www.tgoop.com/rust_code
ИИ: www.tgoop.com/vistehno
PHP: www.tgoop.com/phpshka
Android: www.tgoop.com/android_its
Frontend: www.tgoop.com/front
Big Data: www.tgoop.com/bigdatai
Собеседования МЛ: www.tgoop.com/machinelearning_interview
МАТЕМАТИКА: www.tgoop.com/data_math
Kubernets: www.tgoop.com/kubernetc
Разработка игр: https://www.tgoop.com/gamedev
Haskell: www.tgoop.com/haskell_tg
💼 Папка с вакансиями: www.tgoop.com/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: www.tgoop.com/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: www.tgoop.com/addlist/eEPya-HF6mkxMGIy
Папка ML: https://www.tgoop.com/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://www.tgoop.com/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: www.tgoop.com/memes_prog
🇬🇧Английский: www.tgoop.com/english_forprogrammers
🧠ИИ: www.tgoop.com/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://www.tgoop.com/addlist/BkskQciUW_FhNjEy
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Преобразование Фурье
- Собственные функции и собственные значения уравнения колебания
- Собственные функции и собственные значения уравнения колебания
- Ортогональность и нормировка гармонических функций (синус, косинус)
- Дискретное преобразование Фурье
- Интегральное преобразование Фурь
- Теорема Парсеваля
- Линейность Преобразования Фурье
- Масштабирование Преобразования Фурье
- Функция Грина для одномерной линейной системы без начальных условий
📌 источник
@data_math
- Собственные функции и собственные значения уравнения колебания
- Собственные функции и собственные значения уравнения колебания
- Ортогональность и нормировка гармонических функций (синус, косинус)
- Дискретное преобразование Фурье
- Интегральное преобразование Фурь
- Теорема Парсеваля
- Линейность Преобразования Фурье
- Масштабирование Преобразования Фурье
- Функция Грина для одномерной линейной системы без начальных условий
📌 источник
@data_math
👍11🔥5🥰2❤1👎1
Forwarded from Machinelearning
Bamba-9B - модель, разработанная IBM, Princeton, CMU и UIUC на основе полностью открытых данных. Модель демонстрирует улучшение пропускной способности в 2.5 раза и снижение задержки инференса в 2 раза по сравнению с Transformers в vLLM. Bamba-9B доступна для использования в HF Transformers, vLLM, TRL и llama.cpp.
Bamba-9B использует уникальный распределенный, не сохраняющий состояние data loader, обеспечивающий бесшовное возобновление работы, автоматическое масштабирование, потоковую передачу данных с zero-overhead for shuffling.
Модель основана на архитектуре NVIDIA hybrid Mamba2, но с некоторыми изменениями. Bamba-9B имеет 32 слоя, из которых 3 полноценных слоя внимания и 29 слоев Mamba2, в то время как NVIDIA hybrid Mamba2 имеет 29 слоев, из которых 4 слоя внимания и 25 слоев Mamba2.
Bamba-9B была обучена на 2.2T токенов с датасетом Dolma v1.7 на первом этапе и FineWeb-edu и Cosmopedia на втором.
По проведенным замерам, средняя производительность Bamba-9B почти сравнима с Llama 3.1 8B (45.53 против 44.68), при том что Llama 3.1 8B была обучена на 7x большем объеме данных.
Bamba-9B превзошла Olmo 7B, обученную на идентичном количестве токенов и наборах данных. В сравнении с другими моделями на базе Mamba/Mamba2, Bamba-9B показывает хорошие результаты, при этом обеспечивая значительное улучшение (до 5x) эффективности логического вывода.
llm-compressor
версия Bamba 9Bllm-compressor
версия Bamba 9B 2Тllm-compressor
версия Bamba 9B 1.8Тfrom transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("ibm-fms/Bamba-9B")
tokenizer = AutoTokenizer.from_pretrained("ibm-fms/Bamba-9B")
message = ["Mamba is a snake with following properties "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
response = model.generate(**inputs, max_new_tokens=64)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])
@ai_machinelearning_big_data
#AI #ML #LLM #Bamba #IBM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
📌 Математика, машинное обучение и работа с данными на практике
Алексей Толстиков, руководитель Школы анализа данных Яндекса (ШАД), делится опытом, который будет полезен не только будущим ML- и DS-специалистам, но также их преподавателям – в подкасте Виктора Кантора на канале MLinside.
В видео разбирают:
🟡 Важность гибких методов преподавания. Как преподаватели-менторы помогают справиться с трудностями в обучении, которые возникают у студентов.
🟡 Главное в менторстве. В чем основная задача наставников и почему им не обязательно быть универсальными экспертами.
🟡 Путь к пониманию алгоритмов. Как не просто изучать теорию, но и научить видеть её практическую ценность – через задачи, соревнования и примеры из жизни.
@data_math
Алексей Толстиков, руководитель Школы анализа данных Яндекса (ШАД), делится опытом, который будет полезен не только будущим ML- и DS-специалистам, но также их преподавателям – в подкасте Виктора Кантора на канале MLinside.
В видео разбирают:
🟡 Важность гибких методов преподавания. Как преподаватели-менторы помогают справиться с трудностями в обучении, которые возникают у студентов.
🟡 Главное в менторстве. В чем основная задача наставников и почему им не обязательно быть универсальными экспертами.
🟡 Путь к пониманию алгоритмов. Как не просто изучать теорию, но и научить видеть её практическую ценность – через задачи, соревнования и примеры из жизни.
@data_math
👍9