Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение 5819

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑‍💻 Измеряем интеллект LLM: как построить метрики для оценки реальных умений языковых моделей

Новая статья на «Хабре» раскрывает важный нюанс в оценке языковых моделей: классические методы тестирования не отражают реальную ценность LLM в бизнес-задачах. Модели создаются не только для решения школьных тестов, а для практического применения — ведения диалогов, перевода, суммаризации и генерации идей. Универсального способа для оценки моделей не существует — наиболее эффективным себя показывает комплексный подход. Например, в Яндексе применяют несколько способов оценки:

▪️Специальные тесты на здравый смысл (COPA, PIQA, OpenBook, WinoGrande)
▪️Внутренние бенчмарки, разработанные под реальные бизнес-сценарии
▪️Экспертная оценка через систему AI-тренеров, которые проверяют практическую применимость модели

Так на практике оценка качества работы модели оказывается не менее сложной задачей, чем ее создание.

🔗 Читать статью

❤4👍1

2.32K views13:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤔🔥🪦 Беспощадный Frontend-тест: уволься сам, если не наберёшь 7 из 10!

DS и ML — это, как правило, не про фронтенд. Но везде бывают исключения.

А насколько хорошо ты разбираешься в CSS, JS и вот этом вот всём?

👉 Проверь себя

😁7

2.61K views18:14

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

📊 Системный и бизнес-аналитик: пошаговый гайд к востребованной профессии

Пару слов о еще одном безумном разделении во вселенной IT-специальностей: системный и бизнес-аналитик. Рассказываем в нашей статье, чем занимаются представители профессии, сколько зарабатывают и как войти в эту сферу деятельности.

🔗 Ссылка

Хочешь стать бизнес-аналитиком? У нас есть отличный курс, который поможет подтянуть математику:

🔵

Математика для Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4

2.16K views07:41

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖

Обзор новостей и сервисов в мире ИИ

👇Это небольшая выдержка из нашей еженедельной рассылки.

📰

Новости

🔘Компания Niantic, выпустившая игры Ingress и Pokémon Go, объявила о планах по использованию игровых данных для создания геопространственной модели — цифрового двойника реального мира.

🔘Китайские разработчики создали ИИ-симулятор реальности The Matrix. Симулятор может предсказывать поведение объектов в разных средах без предварительного обучения. Это дает ему возможность бесконечно генерировать гиперреалистичные видеосцены в разрешении 720p, поддерживая взаимодействие с пользователем в реальном времени.

🪚 Инструменты

🔘

Eraser — генератор и редактор диаграмм и схем.

🔘

PaperGen — генерирует объемные академические и бизнес-публикации с точными цитатами и ссылками на источники информации.

🔘

Image to Prompt — создаёт детальные промпты для Midjourney и Stable Diffusion, анализируя загруженное изображение-референс.

⚗️ Дистилляция знаний: как передать знания от одной модели другой

Разработчики PyTorch продемонстрировали пример использования техники дистилляции знаний для уменьшения объёма модели Llama 3.1* (8B параметров) до Llama 3.2* (1B параметров) с помощью инструмента torchtune.

Больше интересного — в нашей рассылке. Подписаться на неё можно по этой ссылке

👈

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

2.98K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Оценка смешанных байесовских моделей в R/Python

В этой статье автор знакомит с некоторыми полезными визуальными методами проверки и оценки для байесовских моделей (не ваши типичные RMSE) как в R, так и в Python.

Читать статью

👍1

2.37K views18:20

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

😁1

2.72K views20:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Как извлечь отдельные значения из столбца в SQL?

Используя ключевое слово DISTINCT в сочетании с командой SELECT, мы можем извлекать различные значения из столбца в SQL. Ключевое слово DISTINCT используется для фильтрации дубликатов значений и возврата только уникальных значений из указанного столбца.
#вопросы_с_собеседований

👍5🥱5👏1

2.98K views18:26

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Когда вы в последний раз проходили собеседование на позицию в другую компанию?
#интерактив

🎉5

2.74K views18:29

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Что такое learning rate?

Скорость обучения — это ключевой гиперпараметр, который определяет, с какой скоростью модель подстраивается под задачу в процессе обучения. Можно представить её как «размер шага» при обновлении параметров, то есть насколько далеко веса смещаются в сторону минимума нашей оптимизационной задачи.

👍3🎉2❤1

2.44K views18:37

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤔🔥🪦 Беспощадный Frontend-тест: уволься сам, если не наберёшь 7 из 10!

DS и ML — это, как правило, не про фронтенд. Но везде бывают исключения.

А насколько хорошо ты разбираешься в CSS, JS и вот этом вот всём?

👉 Проверь себя

2.44K views11:49

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😁6👍2

2.25K views18:33

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Что выведет код сверху?

Anonymous Quiz

👾15😢7😁3👍1

745 voters2.32K views18:33

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

↗️ О векторных базах данных простым языком

В статье рассказывается:
🔘что такое векторные базы данных,
🔘каковы их ключевые отличия от традиционных
🔘как они применяются в задачах, связанных с ИИ и обработкой данных.

Также автор описывает, как векторные базы данных помогают находить схожие объекты, например, для рекомендаций или поиска.

🔗

Читать по этой ссылке

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

2.43K views07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐍⚡ Python для перфекционистов: 10 способов писать идеальный код

Простота Python позволяет разработчикам быстро создавать рабочие программы, но более продвинутые техники могут сделать ваш код более эффективным, гибким и элегантным.

👉 Читать обо всех способах с примерами кода здесь

👍4🔥2🎉2

11.8K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Подготовься к собеседованию на позицию Data Scientist!

Профессия Data Scientist становится все более востребованной, и компании ищут специалистов, способных превращать данные в ценные инсайты. Но как успешно пройти техническое собеседование?

Мы собрали 10 типичных задач, которые могут встретиться на собеседовании, и эффективные подходы к их решению:

1. Внешнее и тензорное произведение

2. One-hot кодировка

3. Мониторинг осадков

4. Симуляция бросков кубиков в «Монополии»

5. Бурение скважин для добычи золота

6. Вычисление свертки

7. Бэктестинг торговой стратегии

8. Прогноз оттока клиентов с помощью логистической регрессии

9. Обнаружение спама с использованием дерева решений

10. Предсказание цен на квартиры с помощью линейной регрессии

Чтобы начать решать задачи, достаточно ответить на три простых вопроса по этой ссылке и получить доступ к вводным занятиям курса Алгоритмы и структуры данных и 10 задача

👍3🔥1

2.11K views07:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐼⛓️ Pandas Chaining — интересный подход к написанию Pandas-кода

Смысл подхода заключается в написании всего пайплайна по обработке данных в одном куске кода.

Почему это может быть полезно?

▪️Делает код более читаемым: вы можете видеть все операции, строка за строкой;
▫️Упрощает поддержку кода;
▪️Облегчает дебаггинг: можно проверить состояние данных в любой точке пайплайна с помощью .pipe() или временно закомментировать ненужные операции;
▫️Позволяет экономить память: не создаёт лишних промежуточных копий данных.

🔗 Репо с описанием подхода и примерами

👍3🔥2❤1

2.05K views10:00

2025/07/08 17:53:25
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>