Telegram Web
Forwarded from Machinelearning
Факультет компьютерных наук НИУ ВШЭ расширяет сотрудничество с Яндексом для подготовки специалистов по ИИ и ML.

ФКН был основан ВШЭ совместно с Яндексом 10 лет назад. За время своего существования он стал одним из лидеров в подготовке разработчиков и специалистов по ИИ и ML, выпустив более 3 000 человек,

В следующие 10 лет Яндекс и ВШЭ:

- Увеличат количество выпускников факультета по программам Яндекса в 4 раза
- Откроют магистратуру по ИИ в маркетинге и продукте
- Создадут направления по генеративным технологиям на магистерской программе "Современные компьютерные науки"
- Запустят студенческий кемп по машинному обучению

Обратите внимание, если планируете стать студентом — ВШЭ занимает второе место среди российских университетов по количеству публикаций на конференциях A*.

Подробнее

@ai_machinelearning_big_data
👍7
⚡️Новый метод, который позволяет удалить 40% слоев LLM без снижения точности.

Это делает их намного дешевле и быстрее.

Его протестировали это на различных моделях с открытым исходным кодом.

В каждом семействе моделей было максимальное количество слоев, которые можно было удалить без снижения точности:

- Mistral - 30%
- Lama 70B - 40%
- Lama 13B - 50%

Отличная статья.

https://arxiv.org/html/2403.17887v1

@bigdatai
👍13🔥32🤔1
⚡️ Это шокирует.

Facebook* продает Netflix все ваши личные сообщения в Messenger в обмен на историю просмотров, при этом Netflix платит им более 100 миллионов долларов за рекламу.

* принадлежит Meta, признанной в РФ экстремистской и запрещённой на территории страны.

Компания продает ваши данные с целью получения прибыли.

Источник

@bigdatai
🔥11😱53👍2🥱2👎1🤡1
🔥 Сегодня выпущены два самых больших открытых набора данных для распознавания текста за всю историю 📜 📜

Набор данных содержит миллионы реальных документов, изображений и текстов для задач распознавания текста, анализа и разбора документов VQA.: https://huggingface.co/datasets/pixparse/idl-wds
Датасет дополнен аннотациями из проекта idl_data Бриттена и др. (https://arxiv.org/abs/2202.12985 )

PDFA: https://huggingface.co/datasets/pixparse/pdfa-eng-wds

@data_analysis_ml
👍6
Одно из лучших видео с объяснением работы Трансформеров

На канале 3Blue1Brown недавно было опубликовано новое видео из серии о глубоком обучении. В этот раз авторы рассматривают вопрос "Что такое GPT" и представляют визуальное введение в Трансформеров.

Рекомендуем посмотреть.

📌 https://www.youtube.com/watch?v=wjZofJX0v4M&ab_channel=3Blue1Brown

@bigdatai
👍52🔥1
🔜 Intel планирует опередить TSMC в выпуске чипов 2 нм

Intel намерена обойти TSMC, став первопроходцем в производстве 2-нанометровых чипов. Однако возникают вопросы о сравнительном качестве их техпроцесса по сравнению с 3-нанометровым процессом TSMC. Несмотря на длительный период, когда Intel отставала от TSMC и Samsung в освоении новейших технологий производства, сейчас компания готовится к выпуску продукции на 2-нанометровом техпроцессе, опережая конкурентов.

Согласно последним отчетам, Intel планирует начать массовое производство своих процессоров Arrow Lake и Lunar Lake, используя новейшие технологии Intel 20A и 18A, уже до конца текущего года. Это сделает их первыми в мире чипами, изготовленными с использованием 2-нанометрового техпроцесса. В то время как TSMC, по всей видимости, начнет производство аналогичных чипов несколько позже.

По предварительным данным, TSMC планирует производить около 67 500 пластин в месяц, в то время как Intel сможет выпускать до 202 500 пластин. Однако стоит отметить, что, по имеющейся информации, Intel не будет производить все компоненты своих процессоров самостоятельно.

Некоторые источники утверждают, что процессорные плитки для Arrow Lake будут изготавливаться TSMC с использованием 3-нанометрового техпроцесса, что может указывать на то, что новейший техпроцесс Intel 20A все же уступает технологии конкурента, которая уже полгода присутствует на рынке.

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
динамический 4D рендеринг человека ⚡️

Новая модель динамической 4D визуализации человека.

- Проект: https://taohuumd.github.io/projects/SurMo/
- Docs: https://arxiv.org/abs/2404.01225
- Код: https://github.com/TaoHuUMD/SurMo

@bigdatai
👍5🔥32
⚡️ ReFT: файнтюниг для больших языковых моделей

в 10-50 раз более эффективная настройка параметров, чем предыдущие современные методы точной настройки параметров

репозиторий: https://github.com/stanfordnlp/pyreft
abs: https://arxiv.org/abs/2404.03592

@bigdatai
🔥5👍32
3 популярыных библиотеки 𝗟𝗟𝗠𝘀 ↓

1️⃣ Ggml на C++, 7 тыс. : https://github.com/ggerganov/ggml
2️⃣ Candle на Rust, 9 тыс. : https://github.com/huggingface/candle
3️⃣ Vllm на Python, 8 тыс. : https://github.com/vllm-project/vllm

@bigdatai
👍5🔥32
⚡️ Большое обновление для бенчмарка Massive Text Embedding Benchmark (MTEB), призванное упростить поиск подходящей модели для эмбедингов!

Удобная фильтрация моделей, поиск, использование памяти, размер модели по параметрам.

Обновленный лидерборд: https://huggingface.co/spaces/mteb/leaderboard

@bigdatai
👍42🔥2
Нейросеть для генерации изображений YandexART стала доступна для тестирования внешним компаниям!

В режиме закрытого превью нейросеть уже попробовали несколько внешних компаний. Например, крупная e-com сеть тестирует YandexART для создания уникального дизайна подарочных карт. Клиенты сети смогут ввести текстовый запрос и самостоятельно выбрать собственное оформление для карты.

Теперь на облачной платформе Yandex Cloud с помощью YandexART компании смогут создавать визуалы для рекламы и социальных сетей, дизайн-макеты, иллюстрации для диджитала и книг. Нейросеть можно встроить через API в различные сервисы и веб-приложения.
👍82
📌Spotify тестирует ИИ-плейлисты

Spotify запустила бета-версию ИИ-плейлистов для пользователей из Великобритании и Австралии. С её помощью можно генерировать плейлисты с помощью подсказок на естественном языке.

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥2
🖥 100 вопросов для подготовки к собесу Python

Держите супер полезную статью, которая поможет освежить в памяти самые основные концепции Python и во всеоружии предстать на собесе)
Детально разбираются все 100 вопросов, так что после прочтения всё должно уложиться по полочкам 🌟

📎 Статья

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍112🔥2🤝1🤗1
🎓 Курс квантового машинного обучения

Бесплатный курс от сообщества ODS, который содержит лекции разных уровней сложности и глубины.

Все объяснения идут с кодом.

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍32
🔥 Новый огромный многоязычный датасет для LLM" [Удалено дублирование ~5,6 трлн токенов]. 🔥

Доступно 75 языков (22 ТБ необработанных файлов, 11 ТБ дедуплированных файлов и 8,4 ТБ чистых файлов), которые представлены в формате JSON, сжатых с помощью zstd.

Для удобства данные разделены на несколько сегментов по несколько ГБ каждый. Количество фрагментов для каждого языка зависит от размера конкретного корпуса.

Формат - JSONL, в котором каждая строка представляет собой допустимое значение JSON и полный документ с метаданными.

- Статья: https://arxiv.org/abs/2403.14009
- Страница проекта: https://hplt-project.org
- Датасет: https://hplt-project.org/datasets/v1.2

@bigdatai
👍5🔥31
🔥Подборка лучших обучающих каналов для программистов.

➡️ Делитесь с коллегами и сохраняйте себе, чтобы не потерять

Машинное обучение

Machine Learning - запускаем лучшие ИИ модели, пишем код, погружаемся в нейросети
Ml Собеседование - подготовка к собесу по мл, алгоритмам, коду
Ml ru - актуальные статьи, новости, код и обучающие материалы
Ml Jobs - вакансии ML
ML Книги - актуальные бесплатные книги МО
ML чат

🏆 Golang
Golang - изучи один из самых перспективных языков на ит-рынке
Golang собеседование - разбор задач и вопросов с собесов
Golang вакансии -работа для Go разработчика
Golang книги библиотека книг
Golang задачи и тесты
Golang чат
Golang news - новости из мира go
Golang дайджест

💥 Linux /Этичный хакинг
Linux Academy - гайды, секреты и лучшие материалы по Linux
Kali linux - погрузись в мир этичного хакинга и кибербезопасности
linux_kal - kali чат
Информационная безопасность

🚀 Data Science

Анализ данных - полезные фишки, код, гайды и советы, маст-хэв датасаентиста
Data Jobs - ds вакансии
Аналитик данных
Data Science книги - актуальные бесплатные книги
Big data

🛢Базы данных
Sql базы данных - научим работе с базами данных профессионально
Библиотека баз данных
SQL чат
Вакансии Sql аналитик данных

#️⃣C#

С# академия - лучший канал по c#
С# заметки — код, лучшие практики, заметки программиста c#
С# задачи и тесты
С# библиотека - актуальные бесплатные книги
C# вакансии - работа

🐍 Python

Python/django - самый крупный обучающий канал по Python
Python Собеседование - подготовка к собеседовению python и разбор алгоритмов
Pro python - статьи, новости, код и обучающие материалы
Python Jobs - вакансии Python
Python чат
Python книги

Java

Java академия - java от Senior разработчика
Java вакансии
Java чат
Java вопросы с собеседований
Java книги

💻 C++

C++ академия
С++ книги
C++ задачи - подготовка к собеседовению мл, алгоритмам
C++ вакансии

⚡️ Frontend
Javascript академия - крупнейший js канал
React - лучшие гайды и советы по работе с react
Frontend - тутрориалы, уроки, гайды, код
PHP
Книги frontend
Задачи frontend

🦀 Rust
Rust программирование
Rust чат
Rust книги для программистов

📲 Мобильная разработка
Android разработка
Мобильный разработчик гайды и уроки

🇬🇧 Английский для программистов

🧠 Искусственный интеллект
ИИ и технологии
Neural - нейросети для работы и жизни
Книги ИИ
Artificial Intelligence

🔥 DevOPs
Devops для программистов
Книги Devops

🌟 Docker/Kubernets
Docker
Kubernets

📓 Книги
Библиотеки Книг для программситов

💼 Папка с вакансиями:
Папка Go разработчика:
Папка Python разработчика:
Папка Data Science
Папка Java разработчика
Папка C#
Папка Frontend
🔥4👍31
2025/07/14 16:56:18
Back to Top
HTML Embed Code: