tgoop.com »
United States »
Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
Forwarded from Библиотека задач по Data Science | тесты, код, задания
This media is not supported in your browser
VIEW IN TELEGRAM
Нельзя не согласиться 😂
Разбираем тестовое задание на позицию Junior Аналитика в Яндекс.
Чтобы найти работу, мало пройти курс и сделать классное резюме. На практике, чтобы выделиться на собеседовании, нужно понимать, что лежит под капотом каждого инструмента, а не следовать конкретному заученному алгоритму.
Чтобы попрактиковаться в этом, приходите на бесплатный вебинар, где будем разбирать реальное тестовое задание, которое дают аналитикам в подразделении Яндекс Картинки.
Что будет на вебинаре:
• С помощью Python решим рутинные задачи - разархивировать файлы, прочитать большой json и т.д.
• С помощью Pandas проанализируем поисковые запросы Яндекс.Картинок
• С помощью Plotly построим интерактивные графики и сделаем выводы
• Найдем статистически значимую разницу в поведении пользователей на разных устройствах
Вебинар проведет Андрон Алексанян, CEO Simulative
🎁Обязательно приходите смотреть вебинар в прямом эфире - в лайве будут дарить подарки, которые сильно бустанут старт карьеры в аналитике!
Зарегистрироваться на бесплатный вебинар
Чтобы найти работу, мало пройти курс и сделать классное резюме. На практике, чтобы выделиться на собеседовании, нужно понимать, что лежит под капотом каждого инструмента, а не следовать конкретному заученному алгоритму.
Чтобы попрактиковаться в этом, приходите на бесплатный вебинар, где будем разбирать реальное тестовое задание, которое дают аналитикам в подразделении Яндекс Картинки.
Что будет на вебинаре:
• С помощью Python решим рутинные задачи - разархивировать файлы, прочитать большой json и т.д.
• С помощью Pandas проанализируем поисковые запросы Яндекс.Картинок
• С помощью Plotly построим интерактивные графики и сделаем выводы
• Найдем статистически значимую разницу в поведении пользователей на разных устройствах
Вебинар проведет Андрон Алексанян, CEO Simulative
🎁Обязательно приходите смотреть вебинар в прямом эфире - в лайве будут дарить подарки, которые сильно бустанут старт карьеры в аналитике!
Зарегистрироваться на бесплатный вебинар
🚀 Дональд Трамп анонсировал создание компании Stargate
💰 Инвестиции
- $500 миллиардов за 4 года на инфраструктуру ИИ для OpenAI в США.
- $100 миллиардов сразу.
🤝 Основные акционеры и партнеры
- Инвесторы: SoftBank, OpenAI, Oracle, MGX.
- Руководство: SoftBank (финансовая ответственность), OpenAI (операционная ответственность).
💻 Технологические партнеры
- Arm, Microsoft, NVIDIA, Oracle, OpenAI.
🔗 Сотрудничество
- OpenAI, Oracle и NVIDIA создадут вычислительную систему.
- Сотрудничество с Microsoft и Azure.
Источник
💰 Инвестиции
- $500 миллиардов за 4 года на инфраструктуру ИИ для OpenAI в США.
- $100 миллиардов сразу.
🤝 Основные акционеры и партнеры
- Инвесторы: SoftBank, OpenAI, Oracle, MGX.
- Руководство: SoftBank (финансовая ответственность), OpenAI (операционная ответственность).
💻 Технологические партнеры
- Arm, Microsoft, NVIDIA, Oracle, OpenAI.
🔗 Сотрудничество
- OpenAI, Oracle и NVIDIA создадут вычислительную систему.
- Сотрудничество с Microsoft и Azure.
Источник
🎯 Понимание T-теста
T-тест — это статистический метод для проверки гипотез, анализа значимости признаков и сравнения моделей машинного обучения.
Типы T-тестов
1️⃣ Одновыборочный:
Сравнивает среднее значение одного набора данных с известным средним значением в популяции.
Пример использования: Проверка, отличается ли средняя метрика производительности модели от заданного базового значения (baseline).
2️⃣ Независимый (двухвыборочный):
Сравнивает средние значения двух независимых групп, чтобы определить, есть ли статистически значимые различия.
Пример использования: Сравнение результатов двух разных моделей или методов предобработки данных.
3️⃣ Парный:
Сравнивает средние значения двух зависимых групп.
Пример использования: Оценка влияния изменений в модели, например, после настройки гиперпараметров или добавления новых признаков.
Ограничения
⚠️ Чувствителен к выбросам, которые могут исказить результаты.
⚠️ Требует предположения о нормальности распределения данных (если выборки малы).
T-тест — это статистический метод для проверки гипотез, анализа значимости признаков и сравнения моделей машинного обучения.
Типы T-тестов
1️⃣ Одновыборочный:
Сравнивает среднее значение одного набора данных с известным средним значением в популяции.
Пример использования: Проверка, отличается ли средняя метрика производительности модели от заданного базового значения (baseline).
2️⃣ Независимый (двухвыборочный):
Сравнивает средние значения двух независимых групп, чтобы определить, есть ли статистически значимые различия.
Пример использования: Сравнение результатов двух разных моделей или методов предобработки данных.
3️⃣ Парный:
Сравнивает средние значения двух зависимых групп.
Пример использования: Оценка влияния изменений в модели, например, после настройки гиперпараметров или добавления новых признаков.
Ограничения
⚠️ Чувствителен к выбросам, которые могут исказить результаты.
⚠️ Требует предположения о нормальности распределения данных (если выборки малы).
Forwarded from Библиотека задач по Data Science | тесты, код, задания
💡 Как получить от нейросети код, работающий в 100 раз быстрее
Интересный эксперимент провели с Claude 3.5 Sonnet: попытались улучшить простой алгоритм на Python, раз за разом прося ИИ «написать код лучше». Задача была несложная — найти разницу между максимальным и минимальным числами в массиве, сумма цифр которых равна 30.
Казалось бы, что тут можно улучшать?
👉 Подробнее в нашей статье
#CodeOptimization
Интересный эксперимент провели с Claude 3.5 Sonnet: попытались улучшить простой алгоритм на Python, раз за разом прося ИИ «написать код лучше». Задача была несложная — найти разницу между максимальным и минимальным числами в массиве, сумма цифр которых равна 30.
Казалось бы, что тут можно улучшать?
👉 Подробнее в нашей статье
#CodeOptimization
Самые обсуждаемые работы в мире ИИ
🗞️ «Eliza: A Web3 friendly AI Agent Operating System»
Eliza — это операционная система агентов ИИ для Web3.
🗞️ «Enhancing Retrieval-Augmented Generation: A Study of Best Practices»
Изучение влияния различных компонентов RAG на качество ответов LLM.
🗞️ «LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs»
LlamaV-o1 представляет комплексную структуру для visual reasoning в LLM.
🗞️ «MangaNinja: Line Art Colorization with Precise Reference Following»
Модель, которая раскрашивает штриховые рисунки.
🗞️ «Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains»
Новый подход к finetuning мультиагентных программ, улучшающий LLM.
🗞️ «OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking»
OmniThink — фреймворк, разработанный для повышения качества статей, создаваемых LLM.
🗞️ «VideoRAG: Retrieval-Augmented Generation over Video Corpus»
VideoRAG использует видео, чтобы сделать ответы ИИ более точными.
🗞️ «Eliza: A Web3 friendly AI Agent Operating System»
Eliza — это операционная система агентов ИИ для Web3.
🗞️ «Enhancing Retrieval-Augmented Generation: A Study of Best Practices»
Изучение влияния различных компонентов RAG на качество ответов LLM.
🗞️ «LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs»
LlamaV-o1 представляет комплексную структуру для visual reasoning в LLM.
🗞️ «MangaNinja: Line Art Colorization with Precise Reference Following»
Модель, которая раскрашивает штриховые рисунки.
🗞️ «Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains»
Новый подход к finetuning мультиагентных программ, улучшающий LLM.
🗞️ «OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking»
OmniThink — фреймворк, разработанный для повышения качества статей, создаваемых LLM.
🗞️ «VideoRAG: Retrieval-Augmented Generation over Video Corpus»
VideoRAG использует видео, чтобы сделать ответы ИИ более точными.