tgoop.com »
United States »
Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
🧑💻 Измеряем интеллект LLM: как построить метрики для оценки реальных умений языковых моделей
Новая статья на «Хабре» раскрывает важный нюанс в оценке языковых моделей: классические методы тестирования не отражают реальную ценность LLM в бизнес-задачах. Модели создаются не только для решения школьных тестов, а для практического применения — ведения диалогов, перевода, суммаризации и генерации идей. Универсального способа для оценки моделей не существует — наиболее эффективным себя показывает комплексный подход. Например, в Яндексе применяют несколько способов оценки:
▪️Специальные тесты на здравый смысл (COPA, PIQA, OpenBook, WinoGrande)
▪️Внутренние бенчмарки, разработанные под реальные бизнес-сценарии
▪️Экспертная оценка через систему AI-тренеров, которые проверяют практическую применимость модели
Так на практике оценка качества работы модели оказывается не менее сложной задачей, чем ее создание.
🔗 Читать статью
Новая статья на «Хабре» раскрывает важный нюанс в оценке языковых моделей: классические методы тестирования не отражают реальную ценность LLM в бизнес-задачах. Модели создаются не только для решения школьных тестов, а для практического применения — ведения диалогов, перевода, суммаризации и генерации идей. Универсального способа для оценки моделей не существует — наиболее эффективным себя показывает комплексный подход. Например, в Яндексе применяют несколько способов оценки:
▪️Специальные тесты на здравый смысл (COPA, PIQA, OpenBook, WinoGrande)
▪️Внутренние бенчмарки, разработанные под реальные бизнес-сценарии
▪️Экспертная оценка через систему AI-тренеров, которые проверяют практическую применимость модели
Так на практике оценка качества работы модели оказывается не менее сложной задачей, чем ее создание.
🔗 Читать статью
🤔🔥🪦 Беспощадный Frontend-тест: уволься сам, если не наберёшь 7 из 10!
DS и ML — это, как правило, не про фронтенд. Но везде бывают исключения.
А насколько хорошо ты разбираешься в CSS, JS и вот этом вот всём?
👉 Проверь себя
DS и ML — это, как правило, не про фронтенд. Но везде бывают исключения.
А насколько хорошо ты разбираешься в CSS, JS и вот этом вот всём?
👉 Проверь себя
Forwarded from Proglib.academy | IT-курсы
📊 Системный и бизнес-аналитик: пошаговый гайд к востребованной профессии
Пару слов о еще одном безумном разделении во вселенной IT-специальностей: системный и бизнес-аналитик. Рассказываем в нашей статье, чем занимаются представители профессии, сколько зарабатывают и как войти в эту сферу деятельности.
🔗 Ссылка
Хочешь стать бизнес-аналитиком? У нас есть отличный курс, который поможет подтянуть математику:
🔵 Математика для Data Science
Пару слов о еще одном безумном разделении во вселенной IT-специальностей: системный и бизнес-аналитик. Рассказываем в нашей статье, чем занимаются представители профессии, сколько зарабатывают и как войти в эту сферу деятельности.
🔗 Ссылка
Хочешь стать бизнес-аналитиком? У нас есть отличный курс, который поможет подтянуть математику:
Please open Telegram to view this post
VIEW IN TELEGRAM
🪚 Инструменты
⚗️ Дистилляция знаний: как передать знания от одной модели другой
Разработчики PyTorch продемонстрировали пример использования техники дистилляции знаний для уменьшения объёма модели Llama 3.1* (8B параметров) до Llama 3.2* (1B параметров) с помощью инструмента torchtune.
Больше интересного — в нашей рассылке. Подписаться на неё можно по этой ссылке
Please open Telegram to view this post
VIEW IN TELEGRAM
Оценка смешанных байесовских моделей в R/Python
В этой статье автор знакомит с некоторыми полезными визуальными методами проверки и оценки для байесовских моделей (не ваши типичные RMSE) как в R, так и в Python.
Читать статью
В этой статье автор знакомит с некоторыми полезными визуальными методами проверки и оценки для байесовских моделей (не ваши типичные RMSE) как в R, так и в Python.
Читать статью
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Как извлечь отдельные значения из столбца в SQL?
Используя ключевое слово DISTINCT в сочетании с командой SELECT, мы можем извлекать различные значения из столбца в SQL. Ключевое слово DISTINCT используется для фильтрации дубликатов значений и возврата только уникальных значений из указанного столбца.
#вопросы_с_собеседований
Используя ключевое слово DISTINCT в сочетании с командой SELECT, мы можем извлекать различные значения из столбца в SQL. Ключевое слово DISTINCT используется для фильтрации дубликатов значений и возврата только уникальных значений из указанного столбца.
#вопросы_с_собеседований
Когда вы в последний раз проходили собеседование на позицию в другую компанию?
#интерактив
#интерактив
Что такое learning rate?
Скорость обучения — это ключевой гиперпараметр, который определяет, с какой скоростью модель подстраивается под задачу в процессе обучения. Можно представить её как «размер шага» при обновлении параметров, то есть насколько далеко веса смещаются в сторону минимума нашей оптимизационной задачи.
Скорость обучения — это ключевой гиперпараметр, который определяет, с какой скоростью модель подстраивается под задачу в процессе обучения. Можно представить её как «размер шага» при обновлении параметров, то есть насколько далеко веса смещаются в сторону минимума нашей оптимизационной задачи.
🤔🔥🪦 Беспощадный Frontend-тест: уволься сам, если не наберёшь 7 из 10!
DS и ML — это, как правило, не про фронтенд. Но везде бывают исключения.
А насколько хорошо ты разбираешься в CSS, JS и вот этом вот всём?
👉 Проверь себя
DS и ML — это, как правило, не про фронтенд. Но везде бывают исключения.
А насколько хорошо ты разбираешься в CSS, JS и вот этом вот всём?
👉 Проверь себя
↗️ О векторных базах данных простым языком
В статье рассказывается:
🔘 что такое векторные базы данных,
🔘 каковы их ключевые отличия от традиционных
🔘 как они применяются в задачах, связанных с ИИ и обработкой данных.
Также автор описывает, как векторные базы данных помогают находить схожие объекты, например, для рекомендаций или поиска.
🔗 Читать по этой ссылке
В статье рассказывается:
Также автор описывает, как векторные базы данных помогают находить схожие объекты, например, для рекомендаций или поиска.
Please open Telegram to view this post
VIEW IN TELEGRAM
🐍⚡ Python для перфекционистов: 10 способов писать идеальный код
Простота Python позволяет разработчикам быстро создавать рабочие программы, но более продвинутые техники могут сделать ваш код более эффективным, гибким и элегантным.
👉 Читать обо всех способах с примерами кода здесь
Простота Python позволяет разработчикам быстро создавать рабочие программы, но более продвинутые техники могут сделать ваш код более эффективным, гибким и элегантным.
👉 Читать обо всех способах с примерами кода здесь
Подготовься к собеседованию на позицию Data Scientist!
Профессия Data Scientist становится все более востребованной, и компании ищут специалистов, способных превращать данные в ценные инсайты. Но как успешно пройти техническое собеседование?
Мы собрали 10 типичных задач, которые могут встретиться на собеседовании, и эффективные подходы к их решению:
1. Внешнее и тензорное произведение
2. One-hot кодировка
3. Мониторинг осадков
4. Симуляция бросков кубиков в «Монополии»
5. Бурение скважин для добычи золота
6. Вычисление свертки
7. Бэктестинг торговой стратегии
8. Прогноз оттока клиентов с помощью логистической регрессии
9. Обнаружение спама с использованием дерева решений
10. Предсказание цен на квартиры с помощью линейной регрессии
Чтобы начать решать задачи, достаточно ответить на три простых вопроса по этой ссылке и получить доступ к вводным занятиям курса Алгоритмы и структуры данных и 10 задача
Профессия Data Scientist становится все более востребованной, и компании ищут специалистов, способных превращать данные в ценные инсайты. Но как успешно пройти техническое собеседование?
Мы собрали 10 типичных задач, которые могут встретиться на собеседовании, и эффективные подходы к их решению:
1. Внешнее и тензорное произведение
2. One-hot кодировка
3. Мониторинг осадков
4. Симуляция бросков кубиков в «Монополии»
5. Бурение скважин для добычи золота
6. Вычисление свертки
7. Бэктестинг торговой стратегии
8. Прогноз оттока клиентов с помощью логистической регрессии
9. Обнаружение спама с использованием дерева решений
10. Предсказание цен на квартиры с помощью линейной регрессии
Чтобы начать решать задачи, достаточно ответить на три простых вопроса по этой ссылке и получить доступ к вводным занятиям курса Алгоритмы и структуры данных и 10 задача
🐼⛓️ Pandas Chaining — интересный подход к написанию Pandas-кода
Смысл подхода заключается в написании всего пайплайна по обработке данных в одном куске кода.
Почему это может быть полезно?
▪️Делает код более читаемым: вы можете видеть все операции, строка за строкой;
▫️Упрощает поддержку кода;
▪️Облегчает дебаггинг: можно проверить состояние данных в любой точке пайплайна с помощью .pipe() или временно закомментировать ненужные операции;
▫️Позволяет экономить память: не создаёт лишних промежуточных копий данных.
🔗 Репо с описанием подхода и примерами
Смысл подхода заключается в написании всего пайплайна по обработке данных в одном куске кода.
Почему это может быть полезно?
▪️Делает код более читаемым: вы можете видеть все операции, строка за строкой;
▫️Упрощает поддержку кода;
▪️Облегчает дебаггинг: можно проверить состояние данных в любой точке пайплайна с помощью .pipe() или временно закомментировать ненужные операции;
▫️Позволяет экономить память: не создаёт лишних промежуточных копий данных.
🔗 Репо с описанием подхода и примерами