Forwarded from Machinelearning
Факультет компьютерных наук НИУ ВШЭ расширяет сотрудничество с Яндексом для подготовки специалистов по ИИ и ML.
ФКН был основан ВШЭ совместно с Яндексом 10 лет назад. За время своего существования он стал одним из лидеров в подготовке разработчиков и специалистов по ИИ и ML, выпустив более 3 000 человек,
В следующие 10 лет Яндекс и ВШЭ:
- Увеличат количество выпускников факультета по программам Яндекса в 4 раза
- Откроют магистратуру по ИИ в маркетинге и продукте
- Создадут направления по генеративным технологиям на магистерской программе "Современные компьютерные науки"
- Запустят студенческий кемп по машинному обучению
Обратите внимание, если планируете стать студентом — ВШЭ занимает второе место среди российских университетов по количеству публикаций на конференциях A*.
▪Подробнее
@ai_machinelearning_big_data
ФКН был основан ВШЭ совместно с Яндексом 10 лет назад. За время своего существования он стал одним из лидеров в подготовке разработчиков и специалистов по ИИ и ML, выпустив более 3 000 человек,
В следующие 10 лет Яндекс и ВШЭ:
- Увеличат количество выпускников факультета по программам Яндекса в 4 раза
- Откроют магистратуру по ИИ в маркетинге и продукте
- Создадут направления по генеративным технологиям на магистерской программе "Современные компьютерные науки"
- Запустят студенческий кемп по машинному обучению
Обратите внимание, если планируете стать студентом — ВШЭ занимает второе место среди российских университетов по количеству публикаций на конференциях A*.
▪Подробнее
@ai_machinelearning_big_data
👍7
⚡️Новый метод, который позволяет удалить 40% слоев LLM без снижения точности.
Это делает их намного дешевле и быстрее.
Его протестировали это на различных моделях с открытым исходным кодом.
В каждом семействе моделей было максимальное количество слоев, которые можно было удалить без снижения точности:
- Mistral - 30%
- Lama 70B - 40%
- Lama 13B - 50%
Отличная статья.
https://arxiv.org/html/2403.17887v1
@bigdatai
Это делает их намного дешевле и быстрее.
Его протестировали это на различных моделях с открытым исходным кодом.
В каждом семействе моделей было максимальное количество слоев, которые можно было удалить без снижения точности:
- Mistral - 30%
- Lama 70B - 40%
- Lama 13B - 50%
Отличная статья.
https://arxiv.org/html/2403.17887v1
@bigdatai
👍13🔥3❤2🤔1
⚡️ Это шокирует.
Facebook* продает Netflix все ваши личные сообщения в Messenger в обмен на историю просмотров, при этом Netflix платит им более 100 миллионов долларов за рекламу.
* принадлежит Meta, признанной в РФ экстремистской и запрещённой на территории страны.
Компания продает ваши данные с целью получения прибыли.
Источник
@bigdatai
Facebook* продает Netflix все ваши личные сообщения в Messenger в обмен на историю просмотров, при этом Netflix платит им более 100 миллионов долларов за рекламу.
* принадлежит Meta, признанной в РФ экстремистской и запрещённой на территории страны.
Компания продает ваши данные с целью получения прибыли.
Источник
@bigdatai
🔥11😱5❤3👍2🥱2👎1🤡1
Forwarded from Анализ данных (Data analysis)
🔥 Сегодня выпущены два самых больших открытых набора данных для распознавания текста за всю историю 📜 📜
Набор данных содержит миллионы реальных документов, изображений и текстов для задач распознавания текста, анализа и разбора документов VQA.: https://huggingface.co/datasets/pixparse/idl-wds
Датасет дополнен аннотациями из проекта idl_data Бриттена и др. (https://arxiv.org/abs/2202.12985 )
PDFA: https://huggingface.co/datasets/pixparse/pdfa-eng-wds
@data_analysis_ml
Набор данных содержит миллионы реальных документов, изображений и текстов для задач распознавания текста, анализа и разбора документов VQA.: https://huggingface.co/datasets/pixparse/idl-wds
Датасет дополнен аннотациями из проекта idl_data Бриттена и др. (https://arxiv.org/abs/2202.12985 )
PDFA: https://huggingface.co/datasets/pixparse/pdfa-eng-wds
@data_analysis_ml
👍6
Одно из лучших видео с объяснением работы Трансформеров
На канале 3Blue1Brown недавно было опубликовано новое видео из серии о глубоком обучении. В этот раз авторы рассматривают вопрос "Что такое GPT" и представляют визуальное введение в Трансформеров.
Рекомендуем посмотреть.
📌 https://www.youtube.com/watch?v=wjZofJX0v4M&ab_channel=3Blue1Brown
@bigdatai
На канале 3Blue1Brown недавно было опубликовано новое видео из серии о глубоком обучении. В этот раз авторы рассматривают вопрос "Что такое GPT" и представляют визуальное введение в Трансформеров.
Рекомендуем посмотреть.
📌 https://www.youtube.com/watch?v=wjZofJX0v4M&ab_channel=3Blue1Brown
@bigdatai
YouTube
Transformers, the tech behind LLMs | Deep Learning Chapter 5
Breaking down how Large Language Models work, visualizing how data flows through.
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
---
Here are a few other relevant resources
Build a GPT from scratch…
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
---
Here are a few other relevant resources
Build a GPT from scratch…
👍5❤2🔥1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡ динамический 4D рендеринг человека ⚡️
Новая модель динамической 4D визуализации человека.
- Проект: https://taohuumd.github.io/projects/SurMo/
- Docs: https://arxiv.org/abs/2404.01225
- Код: https://github.com/TaoHuUMD/SurMo
@bigdatai
Новая модель динамической 4D визуализации человека.
- Проект: https://taohuumd.github.io/projects/SurMo/
- Docs: https://arxiv.org/abs/2404.01225
- Код: https://github.com/TaoHuUMD/SurMo
@bigdatai
👍5🔥3❤2
⚡️ ReFT: файнтюниг для больших языковых моделей
в 10-50 раз более эффективная настройка параметров, чем предыдущие современные методы точной настройки параметров
репозиторий: https://github.com/stanfordnlp/pyreft
abs: https://arxiv.org/abs/2404.03592
@bigdatai
в 10-50 раз более эффективная настройка параметров, чем предыдущие современные методы точной настройки параметров
репозиторий: https://github.com/stanfordnlp/pyreft
abs: https://arxiv.org/abs/2404.03592
@bigdatai
🔥5👍3❤2
3 популярыных библиотеки 𝗟𝗟𝗠𝘀 ↓
1️⃣ Ggml на C++, 7 тыс. ⭐ : https://github.com/ggerganov/ggml
2️⃣ Candle на Rust, 9 тыс. ⭐: https://github.com/huggingface/candle
3️⃣ Vllm на Python, 8 тыс. ⭐: https://github.com/vllm-project/vllm
@bigdatai
1️⃣ Ggml на C++, 7 тыс. ⭐ : https://github.com/ggerganov/ggml
2️⃣ Candle на Rust, 9 тыс. ⭐: https://github.com/huggingface/candle
3️⃣ Vllm на Python, 8 тыс. ⭐: https://github.com/vllm-project/vllm
@bigdatai
👍5🔥3❤2
⚡️ Большое обновление для бенчмарка Massive Text Embedding Benchmark (MTEB), призванное упростить поиск подходящей модели для эмбедингов!
Удобная фильтрация моделей, поиск, использование памяти, размер модели по параметрам.
Обновленный лидерборд: https://huggingface.co/spaces/mteb/leaderboard
@bigdatai
Удобная фильтрация моделей, поиск, использование памяти, размер модели по параметрам.
Обновленный лидерборд: https://huggingface.co/spaces/mteb/leaderboard
@bigdatai
👍4❤2🔥2
Нейросеть для генерации изображений YandexART стала доступна для тестирования внешним компаниям!
В режиме закрытого превью нейросеть уже попробовали несколько внешних компаний. Например, крупная e-com сеть тестирует YandexART для создания уникального дизайна подарочных карт. Клиенты сети смогут ввести текстовый запрос и самостоятельно выбрать собственное оформление для карты.
Теперь на облачной платформе Yandex Cloud с помощью YandexART компании смогут создавать визуалы для рекламы и социальных сетей, дизайн-макеты, иллюстрации для диджитала и книг. Нейросеть можно встроить через API в различные сервисы и веб-приложения.
В режиме закрытого превью нейросеть уже попробовали несколько внешних компаний. Например, крупная e-com сеть тестирует YandexART для создания уникального дизайна подарочных карт. Клиенты сети смогут ввести текстовый запрос и самостоятельно выбрать собственное оформление для карты.
Теперь на облачной платформе Yandex Cloud с помощью YandexART компании смогут создавать визуалы для рекламы и социальных сетей, дизайн-макеты, иллюстрации для диджитала и книг. Нейросеть можно встроить через API в различные сервисы и веб-приложения.
👍8❤2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤2🔥2🤝1🤗1
Бесплатный курс от сообщества ODS, который содержит лекции разных уровней сложности и глубины.
Все объяснения идут с кодом.
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍3❤2
🔥 Новый огромный многоязычный датасет для LLM" [Удалено дублирование ~5,6 трлн токенов]. 🔥
✨ Доступно 75 языков (22 ТБ необработанных файлов, 11 ТБ дедуплированных файлов и 8,4 ТБ чистых файлов), которые представлены в формате JSON, сжатых с помощью zstd.
Для удобства данные разделены на несколько сегментов по несколько ГБ каждый. Количество фрагментов для каждого языка зависит от размера конкретного корпуса.
✨ Формат - JSONL, в котором каждая строка представляет собой допустимое значение JSON и полный документ с метаданными.
- Статья: https://arxiv.org/abs/2403.14009
- Страница проекта: https://hplt-project.org
- Датасет: https://hplt-project.org/datasets/v1.2
@bigdatai
✨ Доступно 75 языков (22 ТБ необработанных файлов, 11 ТБ дедуплированных файлов и 8,4 ТБ чистых файлов), которые представлены в формате JSON, сжатых с помощью zstd.
Для удобства данные разделены на несколько сегментов по несколько ГБ каждый. Количество фрагментов для каждого языка зависит от размера конкретного корпуса.
✨ Формат - JSONL, в котором каждая строка представляет собой допустимое значение JSON и полный документ с метаданными.
- Статья: https://arxiv.org/abs/2403.14009
- Страница проекта: https://hplt-project.org
- Датасет: https://hplt-project.org/datasets/v1.2
@bigdatai
👍5🔥3❤1
🔥Подборка лучших обучающих каналов для программистов.
➡️ Делитесь с коллегами и сохраняйте себе, чтобы не потерять
⚡Машинное обучение
Machine Learning - запускаем лучшие ИИ модели, пишем код, погружаемся в нейросети
Ml Собеседование - подготовка к собесу по мл, алгоритмам, коду
Ml ru - актуальные статьи, новости, код и обучающие материалы
Ml Jobs - вакансии ML
ML Книги - актуальные бесплатные книги МО
ML чат
🏆 Golang
Golang - изучи один из самых перспективных языков на ит-рынке
Golang собеседование - разбор задач и вопросов с собесов
Golang вакансии -работа для Go разработчика
Golang книги библиотека книг
Golang задачи и тесты
Golang чат
Golang news - новости из мира go
Golang дайджест
💥 Linux /Этичный хакинг
Linux Academy - гайды, секреты и лучшие материалы по Linux
Kali linux - погрузись в мир этичного хакинга и кибербезопасности
linux_kal - kali чат
Информационная безопасность
🚀 Data Science
Анализ данных - полезные фишки, код, гайды и советы, маст-хэв датасаентиста
Data Jobs - ds вакансии
Аналитик данных
Data Science книги - актуальные бесплатные книги
Big data
🛢Базы данных
Sql базы данных - научим работе с базами данных профессионально
Библиотека баз данных
SQL чат
Вакансии Sql аналитик данных
#️⃣C#
С# академия - лучший канал по c#
С# заметки — код, лучшие практики, заметки программиста c#
С# задачи и тесты
С# библиотека - актуальные бесплатные книги
C# вакансии - работа
🐍 Python
Python/django - самый крупный обучающий канал по Python
Python Собеседование - подготовка к собеседовению python и разбор алгоритмов
Pro python - статьи, новости, код и обучающие материалы
Python Jobs - вакансии Python
Python чат
Python книги
☕ Java
Java академия - java от Senior разработчика
Java вакансии
Java чат
Java вопросы с собеседований
Java книги
💻 C++
C++ академия
С++ книги
C++ задачи - подготовка к собеседовению мл, алгоритмам
C++ вакансии
⚡️ Frontend
Javascript академия - крупнейший js канал
React - лучшие гайды и советы по работе с react
Frontend - тутрориалы, уроки, гайды, код
PHP
Книги frontend
Задачи frontend
🦀 Rust
Rust программирование
Rust чат
Rust книги для программистов
📲 Мобильная разработка
Android разработка
Мобильный разработчик гайды и уроки
🇬🇧 Английский для программистов
🧠 Искусственный интеллект
ИИ и технологии
Neural - нейросети для работы и жизни
Книги ИИ
Artificial Intelligence
🔥 DevOPs
Devops для программистов
Книги Devops
🌟 Docker/Kubernets
Docker
Kubernets
📓 Книги
Библиотеки Книг для программситов
💼 Папка с вакансиями:
Папка Go разработчика:
Папка Python разработчика:
Папка Data Science
Папка Java разработчика
Папка C#
Папка Frontend
➡️ Делитесь с коллегами и сохраняйте себе, чтобы не потерять
⚡Машинное обучение
Machine Learning - запускаем лучшие ИИ модели, пишем код, погружаемся в нейросети
Ml Собеседование - подготовка к собесу по мл, алгоритмам, коду
Ml ru - актуальные статьи, новости, код и обучающие материалы
Ml Jobs - вакансии ML
ML Книги - актуальные бесплатные книги МО
ML чат
🏆 Golang
Golang - изучи один из самых перспективных языков на ит-рынке
Golang собеседование - разбор задач и вопросов с собесов
Golang вакансии -работа для Go разработчика
Golang книги библиотека книг
Golang задачи и тесты
Golang чат
Golang news - новости из мира go
Golang дайджест
💥 Linux /Этичный хакинг
Linux Academy - гайды, секреты и лучшие материалы по Linux
Kali linux - погрузись в мир этичного хакинга и кибербезопасности
linux_kal - kali чат
Информационная безопасность
🚀 Data Science
Анализ данных - полезные фишки, код, гайды и советы, маст-хэв датасаентиста
Data Jobs - ds вакансии
Аналитик данных
Data Science книги - актуальные бесплатные книги
Big data
🛢Базы данных
Sql базы данных - научим работе с базами данных профессионально
Библиотека баз данных
SQL чат
Вакансии Sql аналитик данных
#️⃣C#
С# академия - лучший канал по c#
С# заметки — код, лучшие практики, заметки программиста c#
С# задачи и тесты
С# библиотека - актуальные бесплатные книги
C# вакансии - работа
🐍 Python
Python/django - самый крупный обучающий канал по Python
Python Собеседование - подготовка к собеседовению python и разбор алгоритмов
Pro python - статьи, новости, код и обучающие материалы
Python Jobs - вакансии Python
Python чат
Python книги
☕ Java
Java академия - java от Senior разработчика
Java вакансии
Java чат
Java вопросы с собеседований
Java книги
💻 C++
C++ академия
С++ книги
C++ задачи - подготовка к собеседовению мл, алгоритмам
C++ вакансии
⚡️ Frontend
Javascript академия - крупнейший js канал
React - лучшие гайды и советы по работе с react
Frontend - тутрориалы, уроки, гайды, код
PHP
Книги frontend
Задачи frontend
🦀 Rust
Rust программирование
Rust чат
Rust книги для программистов
📲 Мобильная разработка
Android разработка
Мобильный разработчик гайды и уроки
🇬🇧 Английский для программистов
🧠 Искусственный интеллект
ИИ и технологии
Neural - нейросети для работы и жизни
Книги ИИ
Artificial Intelligence
🔥 DevOPs
Devops для программистов
Книги Devops
🌟 Docker/Kubernets
Docker
Kubernets
📓 Книги
Библиотеки Книг для программситов
💼 Папка с вакансиями:
Папка Go разработчика:
Папка Python разработчика:
Папка Data Science
Папка Java разработчика
Папка C#
Папка Frontend
🔥4👍3❤1