💡Новость дня: MongoDB создает партнёрскую экосистему ИИ
MongoDB активно адаптируется к вызовам развития искусственного интеллекта, представив улучшенную версию своей базы данных (8.0) и запустив MongoDB AI Application Program (MAAP). Эта программа нацелена на создание глобальной партнерской экосистемы, направленной на стандартизацию решений в сфере ИИ. Среди ключевых партнеров — крупные игроки облачных и консалтинговых сервисов, такие как Microsoft Azure, Google Cloud Platform, Amazon Web Services, Accenture, а также AI-компании Anthropic и Fireworks AI.
Обновления в MongoDB 8.0 обещают заметное повышение производительности:
✅Увеличение пропускной способности на 32%.
✅Ускорение пакетной записи на 56%.
✅Повышение скорости параллельной записи на 20%.
Это даёт возможность MongoDB лучше справляться с высокими нагрузками, которые часто встречаются при работе с большими данными и ИИ. Уже внедрены решения для крупных компаний, включая одного из ведущих автопроизводителей Франции и глобального производителя бытовой техники.
Таким образом, MongoDB, создавая MAAP и улучшая свои технологии, стремится стать ключевым игроком в AI-индустрии, поддерживая разработчиков и компании в их стремлении к инновациям.
Подробнее тут
MongoDB активно адаптируется к вызовам развития искусственного интеллекта, представив улучшенную версию своей базы данных (8.0) и запустив MongoDB AI Application Program (MAAP). Эта программа нацелена на создание глобальной партнерской экосистемы, направленной на стандартизацию решений в сфере ИИ. Среди ключевых партнеров — крупные игроки облачных и консалтинговых сервисов, такие как Microsoft Azure, Google Cloud Platform, Amazon Web Services, Accenture, а также AI-компании Anthropic и Fireworks AI.
Обновления в MongoDB 8.0 обещают заметное повышение производительности:
✅Увеличение пропускной способности на 32%.
✅Ускорение пакетной записи на 56%.
✅Повышение скорости параллельной записи на 20%.
Это даёт возможность MongoDB лучше справляться с высокими нагрузками, которые часто встречаются при работе с большими данными и ИИ. Уже внедрены решения для крупных компаний, включая одного из ведущих автопроизводителей Франции и глобального производителя бытовой техники.
Таким образом, MongoDB, создавая MAAP и улучшая свои технологии, стремится стать ключевым игроком в AI-индустрии, поддерживая разработчиков и компании в их стремлении к инновациям.
Подробнее тут
IT Europa
MongoDB builds AI partner ecosystem to reverse failures in the field
At least 30% of generative AI projects will be abandoned after proof of concept by the end of 2025, due to poor data quality, inadequate risk controls, escalating costs or unclear business value,
😎Оптимизация аналитики с Oracle
Oracle выложили статью у себя в блоге, где они рассказывают о том, как подключиться к кластеру BDS с помощью соединений Hive и Spark из Oracle Analytics Cloud (OAC).
Кластеры Oracle Big Data Service содержат распределённую файловую систему Hadoop (HDFS) и базу данных Hive, которые загружают и преобразуют данные из различных источников и в разных форматах (структурированные, полуструктурированные и неструктурированные).
Узнайте, как подключить Oracle Analytics Cloud к Oracle Big Data Service, используя Hive и Spark, для улучшения анализа данных. Объединение мощных инструментов поможет эффективно обрабатывать и визуализировать большие объемы информации.
Oracle выложили статью у себя в блоге, где они рассказывают о том, как подключиться к кластеру BDS с помощью соединений Hive и Spark из Oracle Analytics Cloud (OAC).
Кластеры Oracle Big Data Service содержат распределённую файловую систему Hadoop (HDFS) и базу данных Hive, которые загружают и преобразуют данные из различных источников и в разных форматах (структурированные, полуструктурированные и неструктурированные).
Узнайте, как подключить Oracle Analytics Cloud к Oracle Big Data Service, используя Hive и Spark, для улучшения анализа данных. Объединение мощных инструментов поможет эффективно обрабатывать и визуализировать большие объемы информации.
Oracle
Connect Oracle Analytics Cloud to Oracle Big Data Service with Hive and Spark for Enhanced Data Insights
😎Топ Pyhton-библиотек для оптимизации работы с данными
✅Pony ORM — это удобная и мощная библиотека для работы с объектно-реляционными базами данных, которая позволяет писать SQL-запросы, используя синтаксис Python. Она автоматически преобразует Python-код в SQL-запросы, что упрощает взаимодействие с базами данных, делая его более интуитивным и лаконичным. Pony ORM поддерживает основные СУБД, такие как PostgreSQL, MySQL, SQLite и другие, предоставляя гибкость и удобство при создании запросов и работе с моделями данных.
✅Pypika — это библиотека для создания SQL-запросов программным способом на Python, которая позволяет избегать ошибок ручного написания SQL-кода и защищает от SQL-инъекций. Она особенно полезна при построении динамических и параметризованных запросов, что делает её идеальным инструментом для приложений, работающих с базами данных. Pypika позволяет строить запросы с высокой степенью детализации и сложности, сохраняя при этом читаемость и безопасность кода.
✅EdgeDB — это современная база данных и клиентская библиотека для Python, которая упрощает управление схемами данных и написание запросов. Она предлагает более интуитивный и удобный подход по сравнению с традиционными SQL базами данных, предоставляя расширенные возможности работы с данными. Основные особенности EdgeDB включают автоматическую генерацию схем, работу с реляционными данными без необходимости написания сложных SQL-запросов, а также поддержку типобезопасности и более выразительный синтаксис для манипуляций с данными.
✅Tortoise ORM — это современный асинхронный ORM (Object-Relational Mapping), разработанный для работы с базами данных в асинхронных Python-приложениях. Он поддерживает различные реляционные базы данных, такие как PostgreSQL, MySQL, SQLite, и написан с упором на простоту и удобство использования. Tortoise ORM позволяет строить сложные SQL-запросы с использованием Python-кода, автоматически синхронизируя модели данных с базой данных. Поддержка асинхронности делает его особенно полезным в высоконагруженных или веб-приложениях, где важно эффективно управлять ресурсами и запросами к базе данных.
✅Polars — это высокопроизводительная библиотека для обработки и анализа данных на языке Python и Rust, ориентированная на работу с большими объемами данных. Благодаря многопоточности и оптимизированной архитектуре, Polars обеспечивает значительно более высокую скорость выполнения операций по сравнению с традиционными инструментами, такими как Pandas. Библиотека поддерживает широкий спектр операций над табличными данными (dataframes), предлагая интуитивно понятный интерфейс для фильтрации, агрегации и трансформации данных. Она идеально подходит для задач, требующих высокой производительности, особенно при работе с большими наборами данных.
✅Pony ORM — это удобная и мощная библиотека для работы с объектно-реляционными базами данных, которая позволяет писать SQL-запросы, используя синтаксис Python. Она автоматически преобразует Python-код в SQL-запросы, что упрощает взаимодействие с базами данных, делая его более интуитивным и лаконичным. Pony ORM поддерживает основные СУБД, такие как PostgreSQL, MySQL, SQLite и другие, предоставляя гибкость и удобство при создании запросов и работе с моделями данных.
✅Pypika — это библиотека для создания SQL-запросов программным способом на Python, которая позволяет избегать ошибок ручного написания SQL-кода и защищает от SQL-инъекций. Она особенно полезна при построении динамических и параметризованных запросов, что делает её идеальным инструментом для приложений, работающих с базами данных. Pypika позволяет строить запросы с высокой степенью детализации и сложности, сохраняя при этом читаемость и безопасность кода.
✅EdgeDB — это современная база данных и клиентская библиотека для Python, которая упрощает управление схемами данных и написание запросов. Она предлагает более интуитивный и удобный подход по сравнению с традиционными SQL базами данных, предоставляя расширенные возможности работы с данными. Основные особенности EdgeDB включают автоматическую генерацию схем, работу с реляционными данными без необходимости написания сложных SQL-запросов, а также поддержку типобезопасности и более выразительный синтаксис для манипуляций с данными.
✅Tortoise ORM — это современный асинхронный ORM (Object-Relational Mapping), разработанный для работы с базами данных в асинхронных Python-приложениях. Он поддерживает различные реляционные базы данных, такие как PostgreSQL, MySQL, SQLite, и написан с упором на простоту и удобство использования. Tortoise ORM позволяет строить сложные SQL-запросы с использованием Python-кода, автоматически синхронизируя модели данных с базой данных. Поддержка асинхронности делает его особенно полезным в высоконагруженных или веб-приложениях, где важно эффективно управлять ресурсами и запросами к базе данных.
✅Polars — это высокопроизводительная библиотека для обработки и анализа данных на языке Python и Rust, ориентированная на работу с большими объемами данных. Благодаря многопоточности и оптимизированной архитектуре, Polars обеспечивает значительно более высокую скорость выполнения операций по сравнению с традиционными инструментами, такими как Pandas. Библиотека поддерживает широкий спектр операций над табличными данными (dataframes), предлагая интуитивно понятный интерфейс для фильтрации, агрегации и трансформации данных. Она идеально подходит для задач, требующих высокой производительности, особенно при работе с большими наборами данных.
Какое из этих действий может нарушить распределение значений в данных при подготовке их для обучения модели?
Anonymous Poll
12%
Масштабирование данных с использованием стандартизации
45%
Применение логарифмической трансформации к положительным числам
6%
Перемешивание строк в выборке
37%
Удаление выбросов по среднеквадратическому отклонению
🔥Маленькая подборочка инструментов для разметки данных со всеми вытекающими подробностями
CVAT (Computer Vision Annotation Tool) — это один из самых популярных и востребованных инструментов для аннотации изображений, который используется для создания наборов данных в области компьютерного зрения.
Преимущества CVAT:
✅Кастомизация: CVAT, как open-source решение, предоставляет пользователям полную свободу в настройке платформы под свои нужды. Это делает инструмент гибким и адаптируемым, позволяя интегрировать его в различные рабочие процессы. В документации CVAT можно найти подробные инструкции по кастомизации, что делает процесс настройки более доступным даже для новичков.
✅Подробная документация: Документация CVAT включает в себя подробные описания функционала, примеры использования, лайфхаки и изображения. Регулярные обновления документации гарантируют, что пользователи всегда будут в курсе последних изменений и улучшений.
Недостатки CVAT:
✅Высокие требования к ресурсам: Одним из основных недостатков CVAT являются его высокие требования к серверным ресурсам, это может стать проблемой для некоторых команд.
Supervisely — это многофункциональная платформа для работы с проектами в области компьютерного зрения, предлагающая решения для всего жизненного цикла разработки ИИ-проектов, начиная с разметки данных и заканчивая обучением и развертыванием моделей.
Преимущества:
✅Развитая экосистема приложений: в Supervisely Apps уже представлено множество готовых виджетов, которые позволяют расширить функционал любой части платформы. Каждый из них имеет открытый исходный код и доступен на GitHub, что дает возможность не только изменять существующие приложения, но и создавать новые.
Недостатки:
✅Высокая стоимость: Несмотря на обширные возможности, Supervisely может оказаться менее выгодным выбором в финансовом плане по сравнению с другими инструментами.
Label Studio — это мощный и гибкий инструмент с открытым исходным кодом, предназначенный для аннотации данных в различных задачах машинного обучения, включая задачи компьютерного зрения, обработки текста и аудио. Он используется для разметки данных с целью последующего обучения моделей.
Преимущества:
✅Гибкость: Пользователи могут самостоятельно создавать разметку с помощью кода, что открывает новые возможности для кастомизации.
✅Расширяемость: Модульная структура позволяет легко добавлять новые функции и интегрировать дополнительные типы разметок.
Недостатки:
✅Высокие требования к ресурсам: Для полноценного использования Label Studio может потребоваться значительное количество ресурсов, что делает его менее удобным для пользователей с ограниченными возможностями.
✅Ограничения в разметке Bounding Boxes: В то время как, к примеру, CVAT предлагает более удобный и быстрый инструмент для разметки Bounding Boxes, Label Studio лучше подходит для разметки аудиоданных.
CVAT (Computer Vision Annotation Tool) — это один из самых популярных и востребованных инструментов для аннотации изображений, который используется для создания наборов данных в области компьютерного зрения.
Преимущества CVAT:
✅Кастомизация: CVAT, как open-source решение, предоставляет пользователям полную свободу в настройке платформы под свои нужды. Это делает инструмент гибким и адаптируемым, позволяя интегрировать его в различные рабочие процессы. В документации CVAT можно найти подробные инструкции по кастомизации, что делает процесс настройки более доступным даже для новичков.
✅Подробная документация: Документация CVAT включает в себя подробные описания функционала, примеры использования, лайфхаки и изображения. Регулярные обновления документации гарантируют, что пользователи всегда будут в курсе последних изменений и улучшений.
Недостатки CVAT:
✅Высокие требования к ресурсам: Одним из основных недостатков CVAT являются его высокие требования к серверным ресурсам, это может стать проблемой для некоторых команд.
Supervisely — это многофункциональная платформа для работы с проектами в области компьютерного зрения, предлагающая решения для всего жизненного цикла разработки ИИ-проектов, начиная с разметки данных и заканчивая обучением и развертыванием моделей.
Преимущества:
✅Развитая экосистема приложений: в Supervisely Apps уже представлено множество готовых виджетов, которые позволяют расширить функционал любой части платформы. Каждый из них имеет открытый исходный код и доступен на GitHub, что дает возможность не только изменять существующие приложения, но и создавать новые.
Недостатки:
✅Высокая стоимость: Несмотря на обширные возможности, Supervisely может оказаться менее выгодным выбором в финансовом плане по сравнению с другими инструментами.
Label Studio — это мощный и гибкий инструмент с открытым исходным кодом, предназначенный для аннотации данных в различных задачах машинного обучения, включая задачи компьютерного зрения, обработки текста и аудио. Он используется для разметки данных с целью последующего обучения моделей.
Преимущества:
✅Гибкость: Пользователи могут самостоятельно создавать разметку с помощью кода, что открывает новые возможности для кастомизации.
✅Расширяемость: Модульная структура позволяет легко добавлять новые функции и интегрировать дополнительные типы разметок.
Недостатки:
✅Высокие требования к ресурсам: Для полноценного использования Label Studio может потребоваться значительное количество ресурсов, что делает его менее удобным для пользователей с ограниченными возможностями.
✅Ограничения в разметке Bounding Boxes: В то время как, к примеру, CVAT предлагает более удобный и быстрый инструмент для разметки Bounding Boxes, Label Studio лучше подходит для разметки аудиоданных.
www.cvat.ai
Powerfull and efficient open source data annotation platform for computer vision datasets
💡🔥Эффективная работа с географическими данными
GeoPy — это библиотека Python, которая позволяет работать с географическими данными и предоставляет инструменты для выполнения таких задач, как геокодирование (преобразование адресов в координаты), обратное геокодирование (преобразование координат в адреса) и вычисление расстояний между географическими точками.
😎Основные возможности работы с геоданными через GeoPy:
✅Геокодирование: Превращает адреса или места в географические координаты (широта и долгота). Это полезно, когда вам нужно, например, визуализировать данные на карте.
✅Обратное геокодирование: Преобразует координаты в человеческий адрес. Это может быть полезно для создания более понятных данных или интерфейсов.
✅Обратное геокодирование: Преобразует координаты в человеческий адрес. Это может быть полезно для создания более понятных данных или интерфейсов.
🖥Подробнее узнать про анализ географических данных можно из этой статьи
GeoPy — это библиотека Python, которая позволяет работать с географическими данными и предоставляет инструменты для выполнения таких задач, как геокодирование (преобразование адресов в координаты), обратное геокодирование (преобразование координат в адреса) и вычисление расстояний между географическими точками.
😎Основные возможности работы с геоданными через GeoPy:
✅Геокодирование: Превращает адреса или места в географические координаты (широта и долгота). Это полезно, когда вам нужно, например, визуализировать данные на карте.
✅Обратное геокодирование: Преобразует координаты в человеческий адрес. Это может быть полезно для создания более понятных данных или интерфейсов.
✅Обратное геокодирование: Преобразует координаты в человеческий адрес. Это может быть полезно для создания более понятных данных или интерфейсов.
🖥Подробнее узнать про анализ географических данных можно из этой статьи
Medium
Handling Location Features Effectively with GeoPy
In most machine learning tasks, cleaning and standardizing data before modeling is crucial, especially when working with location features…
😎Nvidia опубликовали новый датасет для обучения файнтюн-моделей
HelpSteer2 — это англоязычный набор данных, разработанный NVIDIA и размещённый на платформе Hugging Face. Он включает 21 362 строки и предназначен для обучения reward-моделей, которые помогают улучшать полезность, фактическую точность и связность ответов, генерируемых большими языковыми моделями (LLM).
Каждая строка в наборе данных содержит запрос, ответ и пять аннотированных человеком атрибутов ответа:
✅Полезность (usefulness)
✅Правильность (correctness)
✅Связность (coherence)
✅Сложность (complexity)
✅Многословность (verbosity)
Набор данных может использоваться для тонкой настройки LLM, чтобы они генерировали более релевантные и качественные ответы на пользовательские запросы.
HelpSteer2 — это англоязычный набор данных, разработанный NVIDIA и размещённый на платформе Hugging Face. Он включает 21 362 строки и предназначен для обучения reward-моделей, которые помогают улучшать полезность, фактическую точность и связность ответов, генерируемых большими языковыми моделями (LLM).
Каждая строка в наборе данных содержит запрос, ответ и пять аннотированных человеком атрибутов ответа:
✅Полезность (usefulness)
✅Правильность (correctness)
✅Связность (coherence)
✅Сложность (complexity)
✅Многословность (verbosity)
Набор данных может использоваться для тонкой настройки LLM, чтобы они генерировали более релевантные и качественные ответы на пользовательские запросы.
huggingface.co
nvidia/HelpSteer2 · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Что из нижеперечисленного может считаться признаком многоколлинеарности?
Anonymous Poll
10%
Высокое значение дисперсии переменных
29%
Слабая корреляция между независимыми переменными
57%
Высокое значение коэффициента VIF
4%
Различие в средних значениях категориальных переменных
🌎ТОП ноябрьских ивентов в Data Science
5 ноября - AvitoTech ML cup 2024 - Онлайн - https://ods.ai/competitions/avitotechmlcup2024
5 ноября - Alfa Analyze IT 3 - Москва, Россия - https://digital.alfabank.ru/events/analyzeit3
7 ноября - CNews Forum 2024 - Москва, Россия - https://forum.cnews.ru/
7-8 ноября - Матемаркетинг 2024 - Москва, Россия - https://matemarketing.ru/
8 ноября - I'ML 2024 - Онлайн - https://imlconf.com/
13 ноября - ScorFest 2024 - Москва, Россия - https://scoring-forum.ru/
15 ноября - Merge 2024. Сколково - Москва, Россия - https://skolkovo2024.mergeconf.ru/
23 ноября - IT LINK Осень - Чебоксары, Россия - https://it-link.pro/
28 ноября - T-Meetup: System Analysis - Екатеринбург, Россия - https://meetup.tbank.ru/event/t-meetup-po-sistemnomu-analizu/
5 ноября - AvitoTech ML cup 2024 - Онлайн - https://ods.ai/competitions/avitotechmlcup2024
5 ноября - Alfa Analyze IT 3 - Москва, Россия - https://digital.alfabank.ru/events/analyzeit3
7 ноября - CNews Forum 2024 - Москва, Россия - https://forum.cnews.ru/
7-8 ноября - Матемаркетинг 2024 - Москва, Россия - https://matemarketing.ru/
8 ноября - I'ML 2024 - Онлайн - https://imlconf.com/
13 ноября - ScorFest 2024 - Москва, Россия - https://scoring-forum.ru/
15 ноября - Merge 2024. Сколково - Москва, Россия - https://skolkovo2024.mergeconf.ru/
23 ноября - IT LINK Осень - Чебоксары, Россия - https://it-link.pro/
28 ноября - T-Meetup: System Analysis - Екатеринбург, Россия - https://meetup.tbank.ru/event/t-meetup-po-sistemnomu-analizu/
digital.alfabank.ru
Alfa Analyze IT #3
Искусственный интеллект и его использование в работе системного аналитика. Лучший работодатель России по версии HeadHunter в 2023 году.
💡Маленькая подборка полезностей для работы с Big Data
postgres-backup-local — это Docker-инструмент для создания резервных копий баз данных PostgreSQL, сохраняя их в локальной файловой системе с возможностью гибкого управления копиями. С его помощью можно выполнять резервное копирование нескольких баз данных с одного сервера, задав их названия через переменную окружения POSTGRES_DB (разделенные запятой или пробелом).
Инструмент поддерживает выполнение вебхуков до и после резервного копирования, автоматически управляет ротацией и удалением старых копий, а также доступен для архитектур Linux, включая amd64, arm64, arm/v7, s390x, и ppc64le.
EfCore.SchemaCompare — это инструмент для сравнения схем баз данных в Entity Framework Core (EF Core), позволяющий находить и анализировать различия между текущей базой данных и миграциями. Он предоставляет удобный способ отслеживания изменений в структурах данных, что помогает предотвратить ошибки, вызванные несовпадениями в схемах при разработке приложений.
Подходит для управления версиями баз данных, особенно полезен при разработке и обновлении приложений на основе EF Core.
Greenmask — это инструмент с открытым исходным кодом для PostgreSQL, предназначенный для маскировки, обфускации и логического резервного копирования данных. Он позволяет анонимизировать конфиденциальную информацию в дампах баз данных, что делает его полезным для подготовки данных к использованию в непродукционных средах, таких как разработка и тестирование.
Поддержка Greenmask помогает защитить данные, соответствуя требованиям конфиденциальности и снижая риск утечек в процессе разработки.
postgres-backup-local — это Docker-инструмент для создания резервных копий баз данных PostgreSQL, сохраняя их в локальной файловой системе с возможностью гибкого управления копиями. С его помощью можно выполнять резервное копирование нескольких баз данных с одного сервера, задав их названия через переменную окружения POSTGRES_DB (разделенные запятой или пробелом).
Инструмент поддерживает выполнение вебхуков до и после резервного копирования, автоматически управляет ротацией и удалением старых копий, а также доступен для архитектур Linux, включая amd64, arm64, arm/v7, s390x, и ppc64le.
EfCore.SchemaCompare — это инструмент для сравнения схем баз данных в Entity Framework Core (EF Core), позволяющий находить и анализировать различия между текущей базой данных и миграциями. Он предоставляет удобный способ отслеживания изменений в структурах данных, что помогает предотвратить ошибки, вызванные несовпадениями в схемах при разработке приложений.
Подходит для управления версиями баз данных, особенно полезен при разработке и обновлении приложений на основе EF Core.
Greenmask — это инструмент с открытым исходным кодом для PostgreSQL, предназначенный для маскировки, обфускации и логического резервного копирования данных. Он позволяет анонимизировать конфиденциальную информацию в дампах баз данных, что делает его полезным для подготовки данных к использованию в непродукционных средах, таких как разработка и тестирование.
Поддержка Greenmask помогает защитить данные, соответствуя требованиям конфиденциальности и снижая риск утечек в процессе разработки.
GitHub
GitHub - prodrigestivill/docker-postgres-backup-local: Backup PostgresSQL to local filesystem with periodic backups and rotate…
Backup PostgresSQL to local filesystem with periodic backups and rotate backups. - prodrigestivill/docker-postgres-backup-local
😎Как в Spotify ускорялась разметка данных для ML в 10 раз
Spotify поделился, как ускорил разметку данных для моделей машинного обучения, используя крупные языковые модели (LLM) совместно с работой аннотаторов. Автоматическая первичная разметка LLM значительно сократила время обработки, позволяя аннотаторам фокусироваться на сложных или неоднозначных случаях. Это комбинированное решение увеличило производительность процесса в три раза и позволило снизить затраты. Такое масштабируемое решение особенно актуально для быстро растущей платформы и используется для мониторинга соблюдения правил и политик сервиса.
💡Стратегия разметки данных в Spotify основана на трех основных принципах:
✅Масштабирование человеческой экспертизы: аннотаторы проверяют и уточняют результаты, чтобы повысить точность данных.
✅Инструменты для аннотации: создание эффективных инструментов, которые упрощают работу аннотаторов и позволяют быстрее интегрировать модели в процесс.
✅Фундаментальная инфраструктура и интеграция: платформа разработана так, чтобы обрабатывать большие объемы данных параллельно и запускать десятки проектов одновременно.
Этот подход позволил Spotify запускать множество проектов одновременно, снизить затраты и сохранить высокую точность.
Более подробную информацию о решении Spotify можно найти в их официальной статье.
Spotify поделился, как ускорил разметку данных для моделей машинного обучения, используя крупные языковые модели (LLM) совместно с работой аннотаторов. Автоматическая первичная разметка LLM значительно сократила время обработки, позволяя аннотаторам фокусироваться на сложных или неоднозначных случаях. Это комбинированное решение увеличило производительность процесса в три раза и позволило снизить затраты. Такое масштабируемое решение особенно актуально для быстро растущей платформы и используется для мониторинга соблюдения правил и политик сервиса.
💡Стратегия разметки данных в Spotify основана на трех основных принципах:
✅Масштабирование человеческой экспертизы: аннотаторы проверяют и уточняют результаты, чтобы повысить точность данных.
✅Инструменты для аннотации: создание эффективных инструментов, которые упрощают работу аннотаторов и позволяют быстрее интегрировать модели в процесс.
✅Фундаментальная инфраструктура и интеграция: платформа разработана так, чтобы обрабатывать большие объемы данных параллельно и запускать десятки проектов одновременно.
Этот подход позволил Spotify запускать множество проектов одновременно, снизить затраты и сохранить высокую точность.
Более подробную информацию о решении Spotify можно найти в их официальной статье.
Spotify Engineering
How We Generated Millions of Content Annotations
How We Generated Millions of Content Annotations - Spotify Engineering
This media is not supported in your browser
VIEW IN TELEGRAM
😂Радикальное решение от ИИ
Каждый день тысячи программистов могут вздохнуть с облегчением, когда ИИ выполняет за них задачи вроде запросов, форматирования данных или других рутинных задач😁
🖥ChatGPT попросили написать SQL запросы для базы данных магазина. Ответ просто убил
😎Иногда взгляды ИИ на решение той или иной задачи несколько отличаются от человеческих
Каждый день тысячи программистов могут вздохнуть с облегчением, когда ИИ выполняет за них задачи вроде запросов, форматирования данных или других рутинных задач😁
🖥ChatGPT попросили написать SQL запросы для базы данных магазина. Ответ просто убил
😎Иногда взгляды ИИ на решение той или иной задачи несколько отличаются от человеческих
Что происходит с данными после применения стандартизации?
Anonymous Poll
35%
Они получают минимальное значение 0 и максимальное 1
64%
Среднее значение становится равным 0, а стандартное отклонение — 1
1%
Все данные округляются до целых значений
0%
Данные сортируются по возрастанию
Отличная новость для Data Analyst, Data Engineer и Data Scientist!
16 ноября у вас есть возможность за один день пройти все этапы интервью и получить оффер 🚀
А самое интересное – в One Day Offer примут участие сразу несколько команд Сбера: Сеть Продаж, Стратегия и развитие, Финансы, Marketing AI, блок В2С, Департамент «Занять и сберегать» и СберНадежность. Такое нельзя пропустить ✅
Команды разрабатывают DS-решения для обслуживания клиентов, поддержки банковских операций, рекламных программ, чат-ботов, умных ассистентов и не только.
Регистрируйтесь, и до встречи 16 ноября
16 ноября у вас есть возможность за один день пройти все этапы интервью и получить оффер 🚀
А самое интересное – в One Day Offer примут участие сразу несколько команд Сбера: Сеть Продаж, Стратегия и развитие, Финансы, Marketing AI, блок В2С, Департамент «Занять и сберегать» и СберНадежность. Такое нельзя пропустить ✅
Команды разрабатывают DS-решения для обслуживания клиентов, поддержки банковских операций, рекламных программ, чат-ботов, умных ассистентов и не только.
Регистрируйтесь, и до встречи 16 ноября
😎Сила в данных: анализ квартального роста выручки для достижения успеха в бизнесе
💡Недавно нашел статью, в которой автор рассказывает про анализ квартального роста выручки. Он утверждает, что ориентация только на годовые данные может скрывать тенденции и замедлить принятие решений. Квартальный анализ позволяет лучше понять текущие результаты бизнеса и выявить возможные проблемы, такие как снижение доходов в определённом периоде. Такая детализация помогает быстрее определить причины (например, сезонные колебания или недостатки маркетинга) и оперативно принять меры, чем при анализе только годовых данных. Квартальные данные создают основу для оптимизации стратегий роста, переходя от реактивного к более эффективному управлению на основе данных.
Автор также выделяет ключевые метрики для анализа квартального роста выручки:
✅Стоимость привлечения клиентов (CAC): Важно понимать расходы на привлечение новых клиентов для оптимизации маркетинговых и продажных усилий, что помогает увеличить рентабельность инвестиций и рост выручки.
✅Пожизненная ценность клиента (CLTV): Этот показатель показывает общий доход, который клиент приносит за всё время взаимодействия с компанией, помогая выделить высокодоходные сегменты для таргетинга и удержания.
✅Конверсия продаж: Анализ конверсии на каждом этапе воронки позволяет выявить узкие места и повысить общую эффективность продаж, что способствует росту выручки.
🖥Ссылка на статью
💡Недавно нашел статью, в которой автор рассказывает про анализ квартального роста выручки. Он утверждает, что ориентация только на годовые данные может скрывать тенденции и замедлить принятие решений. Квартальный анализ позволяет лучше понять текущие результаты бизнеса и выявить возможные проблемы, такие как снижение доходов в определённом периоде. Такая детализация помогает быстрее определить причины (например, сезонные колебания или недостатки маркетинга) и оперативно принять меры, чем при анализе только годовых данных. Квартальные данные создают основу для оптимизации стратегий роста, переходя от реактивного к более эффективному управлению на основе данных.
Автор также выделяет ключевые метрики для анализа квартального роста выручки:
✅Стоимость привлечения клиентов (CAC): Важно понимать расходы на привлечение новых клиентов для оптимизации маркетинговых и продажных усилий, что помогает увеличить рентабельность инвестиций и рост выручки.
✅Пожизненная ценность клиента (CLTV): Этот показатель показывает общий доход, который клиент приносит за всё время взаимодействия с компанией, помогая выделить высокодоходные сегменты для таргетинга и удержания.
✅Конверсия продаж: Анализ конверсии на каждом этапе воронки позволяет выявить узкие места и повысить общую эффективность продаж, что способствует росту выручки.
🖥Ссылка на статью
Medium
The Power of Data: Analyzing Quarterly Revenue Growth for Business Success
Beyond the Numbers: Drive Business Growth with Quarterly Revenue Analysis
Forwarded from Алексей Чернобровов
🔥Новости и события за неделю
✅Samsung представила обновленную версию виртуального ассистента Bixby
Компания Samsung представила обновленную версию виртуального ассистента Bixby на базе крупной языковой модели (LLM). Новая версия Bixby, доступная на эксклюзивных для китайского рынка складных смартфонах Samsung W25 и W25 Flip, способна воспринимать сложные инструкции, извлекать информацию с экрана (например, с карт или фотографий) и запоминать контекст предыдущих диалогов. В ходе демонстрации Bixby порекомендовал одежду, учитывая текущую погоду, и объяснил, как добавить водяной знак на изображение, пошагово.
✅ Суд в Нью-Йорке отклонил иск СМИ к OpenAI по авторскому праву.
Федеральный суд Южного округа Нью-Йорка отклонил иск изданий Raw Story и AlterNet против компании OpenAI, обвинявших её в нарушении Закона об авторском праве в цифровую эпоху (DMCA). СМИ утверждали, что OpenAI намеренно удаляла сведения об авторских правах, такие как названия статей и имена авторов, из текстов, использованных для обучения ChatGPT.
✅ Google открыла доступ к Gemini через библиотеку OpenAI.
Разработчики теперь могут использовать модели Gemini от Google через библиотеку OpenAI и REST API. Поддерживаются API завершения чата и API эмбедингов. В ближайшие недели Google планирует расширить совместимость.
Google рекомендует разработчикам, не использующим библиотеки OpenAI, обращаться к Gemini API напрямую.
✅Samsung представила обновленную версию виртуального ассистента Bixby
Компания Samsung представила обновленную версию виртуального ассистента Bixby на базе крупной языковой модели (LLM). Новая версия Bixby, доступная на эксклюзивных для китайского рынка складных смартфонах Samsung W25 и W25 Flip, способна воспринимать сложные инструкции, извлекать информацию с экрана (например, с карт или фотографий) и запоминать контекст предыдущих диалогов. В ходе демонстрации Bixby порекомендовал одежду, учитывая текущую погоду, и объяснил, как добавить водяной знак на изображение, пошагово.
✅ Суд в Нью-Йорке отклонил иск СМИ к OpenAI по авторскому праву.
Федеральный суд Южного округа Нью-Йорка отклонил иск изданий Raw Story и AlterNet против компании OpenAI, обвинявших её в нарушении Закона об авторском праве в цифровую эпоху (DMCA). СМИ утверждали, что OpenAI намеренно удаляла сведения об авторских правах, такие как названия статей и имена авторов, из текстов, использованных для обучения ChatGPT.
✅ Google открыла доступ к Gemini через библиотеку OpenAI.
Разработчики теперь могут использовать модели Gemini от Google через библиотеку OpenAI и REST API. Поддерживаются API завершения чата и API эмбедингов. В ближайшие недели Google планирует расширить совместимость.
Google рекомендует разработчикам, не использующим библиотеки OpenAI, обращаться к Gemini API напрямую.
This media is not supported in your browser
VIEW IN TELEGRAM
🧐Интервью CEO Anthropic Дарио Амодеи с Лексом Фридманом
😎Основные моменты:
✅Дарио выразил оптимизм относительно скорого появления ИИ, способного достигнуть уровня человека. Он отметил, что в ближайшие годы затраты на разработку и обучение будут расти, и к 2027 году, вероятно, будут создаваться кластеры стоимостью около $100 млрд — значительно больше, чем нынешние крупнейшие суперкомпьютеры, которые стоят около $1 млрд.
✅Амодеи считает, что масштабирование моделей продолжится, несмотря на отсутствие теоретического объяснения этому процессу — в нём, по его словам, есть некая "магия".
✅Сейчас модели ИИ улучшаются с поразительной скоростью, особенно в таких областях, как программирование, физика и математика. На тесте SWE-bench их успех в начале года был лишь 2-3%, а теперь достигает около 50%. Основная причина для беспокойства в этих условиях — возможная монополия на ИИ, когда контроль над ним окажется у небольшого числа крупных компаний, что может угрозу
🖥Интервью можно посмотреть здесь
😎Основные моменты:
✅Дарио выразил оптимизм относительно скорого появления ИИ, способного достигнуть уровня человека. Он отметил, что в ближайшие годы затраты на разработку и обучение будут расти, и к 2027 году, вероятно, будут создаваться кластеры стоимостью около $100 млрд — значительно больше, чем нынешние крупнейшие суперкомпьютеры, которые стоят около $1 млрд.
✅Амодеи считает, что масштабирование моделей продолжится, несмотря на отсутствие теоретического объяснения этому процессу — в нём, по его словам, есть некая "магия".
✅Сейчас модели ИИ улучшаются с поразительной скоростью, особенно в таких областях, как программирование, физика и математика. На тесте SWE-bench их успех в начале года был лишь 2-3%, а теперь достигает около 50%. Основная причина для беспокойства в этих условиях — возможная монополия на ИИ, когда контроль над ним окажется у небольшого числа крупных компаний, что может угрозу
🖥Интервью можно посмотреть здесь
Почему в методе "T-SNE" результат визуализации может отличаться при каждом запуске?
Anonymous Poll
79%
Используется стохастический подход при оптимизации
4%
Алгоритм чувствителен к размерам входных данных
9%
Алгоритм зависит от выборки тестовых данных
9%
Отображение результатов основано на линейных преобразованиях
🔎Оптимизация поиска в MongoDB
MongoDB — это нереляционная база данных, которая отличается от SQL-баз, таких как PostgreSQL или MySQL, своей структурой. Вместо таблиц с колонками и строками MongoDB использует коллекции.
Поиск текста в MongoDB предполагает использование специальных операторов запросов для работы с текстовыми данными. Он позволяет искать текстовые фразы в коллекциях и возвращать документы, содержащие указанные слова. Это часто применяется для сложных операций, где данные группируются по общим признакам, таким как цена, авторы или возраст.
В данной статье автор также делится опытом работы с MongoDB, включая сложности при создании оптимальных поисковых запросов, чтобы упростить их понимание для новичков.
В статье также упоминается про Mongoose — популярный инструмент ORM (объектно-реляционное отображение), который упрощает взаимодействие между MongoDB и языками программирования, такими как Node.js/JavaScript. Он предоставляет функции моделирования данных, разработки схем, аутентификации моделей и управления данными.
MongoDB — это нереляционная база данных, которая отличается от SQL-баз, таких как PostgreSQL или MySQL, своей структурой. Вместо таблиц с колонками и строками MongoDB использует коллекции.
Поиск текста в MongoDB предполагает использование специальных операторов запросов для работы с текстовыми данными. Он позволяет искать текстовые фразы в коллекциях и возвращать документы, содержащие указанные слова. Это часто применяется для сложных операций, где данные группируются по общим признакам, таким как цена, авторы или возраст.
В данной статье автор также делится опытом работы с MongoDB, включая сложности при создании оптимальных поисковых запросов, чтобы упростить их понимание для новичков.
В статье также упоминается про Mongoose — популярный инструмент ORM (объектно-реляционное отображение), который упрощает взаимодействие между MongoDB и языками программирования, такими как Node.js/JavaScript. Он предоставляет функции моделирования данных, разработки схем, аутентификации моделей и управления данными.
MongoDB
MongoDB: The Developer Data Platform
Get your ideas to market faster with a developer data platform built on the leading modern database. MongoDB makes working with data easy.
😎💡AlphaQubit от Google: новый стандарт точности в квантовых вычислениях.
Google DeepMind и Google Quantum AI представили AlphaQubit, декодер, который значительно улучшает точность коррекции ошибок в квантовых вычислениях. Основанный на нейронной сети, обученной на синтетических и реальных данных с процессора Sycamore, AlphaQubit использует архитектуру Transformers для анализа ошибок.
Тесты показали, что AlphaQubit снижает ошибки на 6% по сравнению с тензорными сетями и на 30% — с корреляционным сопоставлением. Однако, несмотря на высокий уровень точности, проблемы с реальной скоростью работы и масштабируемостью остаются.
✅Ссылка на блог
Google DeepMind и Google Quantum AI представили AlphaQubit, декодер, который значительно улучшает точность коррекции ошибок в квантовых вычислениях. Основанный на нейронной сети, обученной на синтетических и реальных данных с процессора Sycamore, AlphaQubit использует архитектуру Transformers для анализа ошибок.
Тесты показали, что AlphaQubit снижает ошибки на 6% по сравнению с тензорными сетями и на 30% — с корреляционным сопоставлением. Однако, несмотря на высокий уровень точности, проблемы с реальной скоростью работы и масштабируемостью остаются.
✅Ссылка на блог
Google
AlphaQubit tackles one of quantum computing’s biggest challenges
AlphaQubit is an AI-based decoder that identifies quantum computing errors with state-of-the-art accuracy.