Telegram Web
💡Новость дня: MongoDB создает партнёрскую экосистему ИИ

MongoDB активно адаптируется к вызовам развития искусственного интеллекта, представив улучшенную версию своей базы данных (8.0) и запустив MongoDB AI Application Program (MAAP). Эта программа нацелена на создание глобальной партнерской экосистемы, направленной на стандартизацию решений в сфере ИИ. Среди ключевых партнеров — крупные игроки облачных и консалтинговых сервисов, такие как Microsoft Azure, Google Cloud Platform, Amazon Web Services, Accenture, а также AI-компании Anthropic и Fireworks AI.

Обновления в MongoDB 8.0 обещают заметное повышение производительности:

Увеличение пропускной способности на 32%.
Ускорение пакетной записи на 56%.
Повышение скорости параллельной записи на 20%.

Это даёт возможность MongoDB лучше справляться с высокими нагрузками, которые часто встречаются при работе с большими данными и ИИ. Уже внедрены решения для крупных компаний, включая одного из ведущих автопроизводителей Франции и глобального производителя бытовой техники.

Таким образом, MongoDB, создавая MAAP и улучшая свои технологии, стремится стать ключевым игроком в AI-индустрии, поддерживая разработчиков и компании в их стремлении к инновациям.

Подробнее тут
😎Оптимизация аналитики с Oracle

Oracle выложили статью у себя в блоге, где они рассказывают о том, как подключиться к кластеру BDS с помощью соединений Hive и Spark из Oracle Analytics Cloud (OAC).

Кластеры Oracle Big Data Service содержат распределённую файловую систему Hadoop (HDFS) и базу данных Hive, которые загружают и преобразуют данные из различных источников и в разных форматах (структурированные, полуструктурированные и неструктурированные).

Узнайте, как подключить Oracle Analytics Cloud к Oracle Big Data Service, используя Hive и Spark, для улучшения анализа данных. Объединение мощных инструментов поможет эффективно обрабатывать и визуализировать большие объемы информации.
😎Топ Pyhton-библиотек для оптимизации работы с данными

Pony ORM — это удобная и мощная библиотека для работы с объектно-реляционными базами данных, которая позволяет писать SQL-запросы, используя синтаксис Python. Она автоматически преобразует Python-код в SQL-запросы, что упрощает взаимодействие с базами данных, делая его более интуитивным и лаконичным. Pony ORM поддерживает основные СУБД, такие как PostgreSQL, MySQL, SQLite и другие, предоставляя гибкость и удобство при создании запросов и работе с моделями данных.

Pypika — это библиотека для создания SQL-запросов программным способом на Python, которая позволяет избегать ошибок ручного написания SQL-кода и защищает от SQL-инъекций. Она особенно полезна при построении динамических и параметризованных запросов, что делает её идеальным инструментом для приложений, работающих с базами данных. Pypika позволяет строить запросы с высокой степенью детализации и сложности, сохраняя при этом читаемость и безопасность кода.

EdgeDB — это современная база данных и клиентская библиотека для Python, которая упрощает управление схемами данных и написание запросов. Она предлагает более интуитивный и удобный подход по сравнению с традиционными SQL базами данных, предоставляя расширенные возможности работы с данными. Основные особенности EdgeDB включают автоматическую генерацию схем, работу с реляционными данными без необходимости написания сложных SQL-запросов, а также поддержку типобезопасности и более выразительный синтаксис для манипуляций с данными.

Tortoise ORM — это современный асинхронный ORM (Object-Relational Mapping), разработанный для работы с базами данных в асинхронных Python-приложениях. Он поддерживает различные реляционные базы данных, такие как PostgreSQL, MySQL, SQLite, и написан с упором на простоту и удобство использования. Tortoise ORM позволяет строить сложные SQL-запросы с использованием Python-кода, автоматически синхронизируя модели данных с базой данных. Поддержка асинхронности делает его особенно полезным в высоконагруженных или веб-приложениях, где важно эффективно управлять ресурсами и запросами к базе данных.

Polars — это высокопроизводительная библиотека для обработки и анализа данных на языке Python и Rust, ориентированная на работу с большими объемами данных. Благодаря многопоточности и оптимизированной архитектуре, Polars обеспечивает значительно более высокую скорость выполнения операций по сравнению с традиционными инструментами, такими как Pandas. Библиотека поддерживает широкий спектр операций над табличными данными (dataframes), предлагая интуитивно понятный интерфейс для фильтрации, агрегации и трансформации данных. Она идеально подходит для задач, требующих высокой производительности, особенно при работе с большими наборами данных.
🔥Маленькая подборочка инструментов для разметки данных со всеми вытекающими подробностями

CVAT (Computer Vision Annotation Tool) — это один из самых популярных и востребованных инструментов для аннотации изображений, который используется для создания наборов данных в области компьютерного зрения.

Преимущества CVAT:
Кастомизация: CVAT, как open-source решение, предоставляет пользователям полную свободу в настройке платформы под свои нужды. Это делает инструмент гибким и адаптируемым, позволяя интегрировать его в различные рабочие процессы. В документации CVAT можно найти подробные инструкции по кастомизации, что делает процесс настройки более доступным даже для новичков.
Подробная документация: Документация CVAT включает в себя подробные описания функционала, примеры использования, лайфхаки и изображения. Регулярные обновления документации гарантируют, что пользователи всегда будут в курсе последних изменений и улучшений.

Недостатки CVAT:
Высокие требования к ресурсам: Одним из основных недостатков CVAT являются его высокие требования к серверным ресурсам, это может стать проблемой для некоторых команд.

Supervisely — это многофункциональная платформа для работы с проектами в области компьютерного зрения, предлагающая решения для всего жизненного цикла разработки ИИ-проектов, начиная с разметки данных и заканчивая обучением и развертыванием моделей.

Преимущества:
Развитая экосистема приложений: в Supervisely Apps уже представлено множество готовых виджетов, которые позволяют расширить функционал любой части платформы. Каждый из них имеет открытый исходный код и доступен на GitHub, что дает возможность не только изменять существующие приложения, но и создавать новые.
Недостатки:
Высокая стоимость: Несмотря на обширные возможности, Supervisely может оказаться менее выгодным выбором в финансовом плане по сравнению с другими инструментами.

Label Studio — это мощный и гибкий инструмент с открытым исходным кодом, предназначенный для аннотации данных в различных задачах машинного обучения, включая задачи компьютерного зрения, обработки текста и аудио. Он используется для разметки данных с целью последующего обучения моделей.

Преимущества:
Гибкость: Пользователи могут самостоятельно создавать разметку с помощью кода, что открывает новые возможности для кастомизации.
Расширяемость: Модульная структура позволяет легко добавлять новые функции и интегрировать дополнительные типы разметок.

Недостатки:
Высокие требования к ресурсам: Для полноценного использования Label Studio может потребоваться значительное количество ресурсов, что делает его менее удобным для пользователей с ограниченными возможностями.
Ограничения в разметке Bounding Boxes: В то время как, к примеру, CVAT предлагает более удобный и быстрый инструмент для разметки Bounding Boxes, Label Studio лучше подходит для разметки аудиоданных.
💡🔥Эффективная работа с географическими данными

GeoPy — это библиотека Python, которая позволяет работать с географическими данными и предоставляет инструменты для выполнения таких задач, как геокодирование (преобразование адресов в координаты), обратное геокодирование (преобразование координат в адреса) и вычисление расстояний между географическими точками.

😎Основные возможности работы с геоданными через GeoPy:

Геокодирование: Превращает адреса или места в географические координаты (широта и долгота). Это полезно, когда вам нужно, например, визуализировать данные на карте.
Обратное геокодирование: Преобразует координаты в человеческий адрес. Это может быть полезно для создания более понятных данных или интерфейсов.
Обратное геокодирование: Преобразует координаты в человеческий адрес. Это может быть полезно для создания более понятных данных или интерфейсов.

🖥Подробнее узнать про анализ географических данных можно из этой статьи
😎Nvidia опубликовали новый датасет для обучения файнтюн-моделей

HelpSteer2 — это англоязычный набор данных, разработанный NVIDIA и размещённый на платформе Hugging Face. Он включает 21 362 строки и предназначен для обучения reward-моделей, которые помогают улучшать полезность, фактическую точность и связность ответов, генерируемых большими языковыми моделями (LLM).

Каждая строка в наборе данных содержит запрос, ответ и пять аннотированных человеком атрибутов ответа:
Полезность (usefulness)
Правильность (correctness)
Связность (coherence)
Сложность (complexity)
Многословность (verbosity)

Набор данных может использоваться для тонкой настройки LLM, чтобы они генерировали более релевантные и качественные ответы на пользовательские запросы.
🌎ТОП ноябрьских ивентов в Data Science
5 ноября - AvitoTech ML cup 2024 - Онлайн - https://ods.ai/competitions/avitotechmlcup2024
5 ноября - Alfa Analyze IT 3 - Москва, Россия - https://digital.alfabank.ru/events/analyzeit3
7 ноября - CNews Forum 2024 - Москва, Россия - https://forum.cnews.ru/
7-8 ноября - Матемаркетинг 2024 - Москва, Россия - https://matemarketing.ru/
8 ноября - I'ML 2024 - Онлайн - https://imlconf.com/
13 ноября - ScorFest 2024 - Москва, Россия - https://scoring-forum.ru/
15 ноября - Merge 2024. Сколково - Москва, Россия - https://skolkovo2024.mergeconf.ru/
23 ноября - IT LINK Осень - Чебоксары, Россия - https://it-link.pro/
28 ноября - T-Meetup: System Analysis - Екатеринбург, Россия - https://meetup.tbank.ru/event/t-meetup-po-sistemnomu-analizu/
💡Маленькая подборка полезностей для работы с Big Data

postgres-backup-local — это Docker-инструмент для создания резервных копий баз данных PostgreSQL, сохраняя их в локальной файловой системе с возможностью гибкого управления копиями. С его помощью можно выполнять резервное копирование нескольких баз данных с одного сервера, задав их названия через переменную окружения POSTGRES_DB (разделенные запятой или пробелом).
Инструмент поддерживает выполнение вебхуков до и после резервного копирования, автоматически управляет ротацией и удалением старых копий, а также доступен для архитектур Linux, включая amd64, arm64, arm/v7, s390x, и ppc64le.

EfCore.SchemaCompare — это инструмент для сравнения схем баз данных в Entity Framework Core (EF Core), позволяющий находить и анализировать различия между текущей базой данных и миграциями. Он предоставляет удобный способ отслеживания изменений в структурах данных, что помогает предотвратить ошибки, вызванные несовпадениями в схемах при разработке приложений.
Подходит для управления версиями баз данных, особенно полезен при разработке и обновлении приложений на основе EF Core.

Greenmask — это инструмент с открытым исходным кодом для PostgreSQL, предназначенный для маскировки, обфускации и логического резервного копирования данных. Он позволяет анонимизировать конфиденциальную информацию в дампах баз данных, что делает его полезным для подготовки данных к использованию в непродукционных средах, таких как разработка и тестирование.
Поддержка Greenmask помогает защитить данные, соответствуя требованиям конфиденциальности и снижая риск утечек в процессе разработки.
😎Как в Spotify ускорялась разметка данных для ML в 10 раз

Spotify поделился, как ускорил разметку данных для моделей машинного обучения, используя крупные языковые модели (LLM) совместно с работой аннотаторов. Автоматическая первичная разметка LLM значительно сократила время обработки, позволяя аннотаторам фокусироваться на сложных или неоднозначных случаях. Это комбинированное решение увеличило производительность процесса в три раза и позволило снизить затраты. Такое масштабируемое решение особенно актуально для быстро растущей платформы и используется для мониторинга соблюдения правил и политик сервиса.

💡Стратегия разметки данных в Spotify основана на трех основных принципах:

Масштабирование человеческой экспертизы: аннотаторы проверяют и уточняют результаты, чтобы повысить точность данных.

Инструменты для аннотации: создание эффективных инструментов, которые упрощают работу аннотаторов и позволяют быстрее интегрировать модели в процесс.

Фундаментальная инфраструктура и интеграция: платформа разработана так, чтобы обрабатывать большие объемы данных параллельно и запускать десятки проектов одновременно.

Этот подход позволил Spotify запускать множество проектов одновременно, снизить затраты и сохранить высокую точность.
Более подробную информацию о решении Spotify можно найти в их официальной статье.
This media is not supported in your browser
VIEW IN TELEGRAM
😂Радикальное решение от ИИ

Каждый день тысячи программистов могут вздохнуть с облегчением, когда ИИ выполняет за них задачи вроде запросов, форматирования данных или других рутинных задач😁

🖥ChatGPT попросили написать SQL запросы для базы данных магазина. Ответ просто убил

😎Иногда взгляды ИИ на решение той или иной задачи несколько отличаются от человеческих
Отличная новость для Data Analyst, Data Engineer и Data Scientist!

16 ноября у вас есть возможность за один день пройти все этапы интервью и получить оффер 🚀

А самое интересное – в One Day Offer примут участие сразу несколько команд Сбера: Сеть Продаж, Стратегия и развитие, Финансы, Marketing AI, блок В2С, Департамент «Занять и сберегать» и СберНадежность. Такое нельзя пропустить

Команды разрабатывают DS-решения для обслуживания клиентов, поддержки банковских операций, рекламных программ, чат-ботов, умных ассистентов и не только.

Регистрируйтесь, и до встречи 16 ноября
😎Сила в данных: анализ квартального роста выручки для достижения успеха в бизнесе

💡Недавно нашел статью, в которой автор рассказывает про анализ квартального роста выручки. Он утверждает, что ориентация только на годовые данные может скрывать тенденции и замедлить принятие решений. Квартальный анализ позволяет лучше понять текущие результаты бизнеса и выявить возможные проблемы, такие как снижение доходов в определённом периоде. Такая детализация помогает быстрее определить причины (например, сезонные колебания или недостатки маркетинга) и оперативно принять меры, чем при анализе только годовых данных. Квартальные данные создают основу для оптимизации стратегий роста, переходя от реактивного к более эффективному управлению на основе данных.

Автор также выделяет ключевые метрики для анализа квартального роста выручки:

Стоимость привлечения клиентов (CAC): Важно понимать расходы на привлечение новых клиентов для оптимизации маркетинговых и продажных усилий, что помогает увеличить рентабельность инвестиций и рост выручки.
Пожизненная ценность клиента (CLTV): Этот показатель показывает общий доход, который клиент приносит за всё время взаимодействия с компанией, помогая выделить высокодоходные сегменты для таргетинга и удержания.
Конверсия продаж: Анализ конверсии на каждом этапе воронки позволяет выявить узкие места и повысить общую эффективность продаж, что способствует росту выручки.

🖥Ссылка на статью
🔥Новости и события за неделю

Samsung представила обновленную версию виртуального ассистента Bixby

Компания Samsung представила обновленную версию виртуального ассистента Bixby на базе крупной языковой модели (LLM). Новая версия Bixby, доступная на эксклюзивных для китайского рынка складных смартфонах Samsung W25 и W25 Flip, способна воспринимать сложные инструкции, извлекать информацию с экрана (например, с карт или фотографий) и запоминать контекст предыдущих диалогов. В ходе демонстрации Bixby порекомендовал одежду, учитывая текущую погоду, и объяснил, как добавить водяной знак на изображение, пошагово.

Суд в Нью-Йорке отклонил иск СМИ к OpenAI по авторскому праву.

Федеральный суд Южного округа Нью-Йорка отклонил иск изданий Raw Story и AlterNet против компании OpenAI, обвинявших её в нарушении Закона об авторском праве в цифровую эпоху (DMCA). СМИ утверждали, что OpenAI намеренно удаляла сведения об авторских правах, такие как названия статей и имена авторов, из текстов, использованных для обучения ChatGPT.

Google открыла доступ к Gemini через библиотеку OpenAI.


Разработчики теперь могут использовать модели Gemini от Google через библиотеку OpenAI и REST API. Поддерживаются API завершения чата и API эмбедингов. В ближайшие недели  Google планирует расширить совместимость. 
Google рекомендует разработчикам, не использующим библиотеки OpenAI, обращаться к Gemini API напрямую.
This media is not supported in your browser
VIEW IN TELEGRAM
🧐Интервью CEO Anthropic Дарио Амодеи с Лексом Фридманом

😎Основные моменты:

Дарио выразил оптимизм относительно скорого появления ИИ, способного достигнуть уровня человека. Он отметил, что в ближайшие годы затраты на разработку и обучение будут расти, и к 2027 году, вероятно, будут создаваться кластеры стоимостью около $100 млрд — значительно больше, чем нынешние крупнейшие суперкомпьютеры, которые стоят около $1 млрд.

Амодеи считает, что масштабирование моделей продолжится, несмотря на отсутствие теоретического объяснения этому процессу — в нём, по его словам, есть некая "магия".

Сейчас модели ИИ улучшаются с поразительной скоростью, особенно в таких областях, как программирование, физика и математика. На тесте SWE-bench их успех в начале года был лишь 2-3%, а теперь достигает около 50%. Основная причина для беспокойства в этих условиях — возможная монополия на ИИ, когда контроль над ним окажется у небольшого числа крупных компаний, что может угрозу

🖥Интервью можно посмотреть здесь
🔎Оптимизация поиска в MongoDB

MongoDB — это нереляционная база данных, которая отличается от SQL-баз, таких как PostgreSQL или MySQL, своей структурой. Вместо таблиц с колонками и строками MongoDB использует коллекции.

Поиск текста в MongoDB предполагает использование специальных операторов запросов для работы с текстовыми данными. Он позволяет искать текстовые фразы в коллекциях и возвращать документы, содержащие указанные слова. Это часто применяется для сложных операций, где данные группируются по общим признакам, таким как цена, авторы или возраст.

В данной статье автор также делится опытом работы с MongoDB, включая сложности при создании оптимальных поисковых запросов, чтобы упростить их понимание для новичков.

В статье также упоминается про Mongoose — популярный инструмент ORM (объектно-реляционное отображение), который упрощает взаимодействие между MongoDB и языками программирования, такими как Node.js/JavaScript. Он предоставляет функции моделирования данных, разработки схем, аутентификации моделей и управления данными.
😎💡AlphaQubit от Google: новый стандарт точности в квантовых вычислениях.

Google DeepMind и Google Quantum AI представили AlphaQubit, декодер, который значительно улучшает точность коррекции ошибок в квантовых вычислениях. Основанный на нейронной сети, обученной на синтетических и реальных данных с процессора Sycamore, AlphaQubit использует архитектуру Transformers для анализа ошибок.

Тесты показали, что AlphaQubit снижает ошибки на 6% по сравнению с тензорными сетями и на 30% — с корреляционным сопоставлением. Однако, несмотря на высокий уровень точности, проблемы с реальной скоростью работы и масштабируемостью остаются.

Ссылка на блог
2024/11/23 00:43:27
Back to Top
HTML Embed Code: