Big Data AI

🖼

AutoVFX — инструмент, позволяющий создавать видео с потрясающими эффектами с помощью ИИ, используя для этого только одно фото и инструкции на человеческом языке!

🔐 Лицензия: MIT

🖥

Github

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2🔥2

2.05K views16:00

Big Data AI

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: www.tgoop.com/ai_machinelearning_big_data
C++ www.tgoop.com/cpluspluc
Python: www.tgoop.com/pythonl
Linux: www.tgoop.com/linuxacademiya
Хакинг: www.tgoop.com/linuxkalii
Devops: www.tgoop.com/DevOPSitsec
Data Science: www.tgoop.com/datascienceiot
Javascript: www.tgoop.com/javascriptv
C#: www.tgoop.com/csharp_ci
Java: www.tgoop.com/javatg
Базы данных: www.tgoop.com/sqlhub
Python собеседования: www.tgoop.com/python_job_interview
Мобильная разработка: www.tgoop.com/mobdevelop
Docker: www.tgoop.com/DevopsDocker
Golang: www.tgoop.com/Golang_google
React: www.tgoop.com/react_tg
Rust: www.tgoop.com/rust_code
ИИ: www.tgoop.com/vistehno
PHP: www.tgoop.com/phpshka
Android: www.tgoop.com/android_its
Frontend: www.tgoop.com/front
Big Data: www.tgoop.com/bigdatai
Собеседования МЛ: www.tgoop.com/machinelearning_interview
МАТЕМАТИКА: www.tgoop.com/data_math
Kubernets: www.tgoop.com/kubernetc
Разработка игр: https://www.tgoop.com/gamedev

💼 Папка с вакансиями: www.tgoop.com/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: www.tgoop.com/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: www.tgoop.com/addlist/eEPya-HF6mkxMGIy
Папка ML: https://www.tgoop.com/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://www.tgoop.com/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: www.tgoop.com/memes_prog
🇬🇧Английский: www.tgoop.com/english_forprogrammers
🧠ИИ: www.tgoop.com/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://www.tgoop.com/addlist/BkskQciUW_FhNjEy

👍1

2.11K views09:36

Big Data AI

🔍

Эта статья исследует API-ориентированных веб-агентов, предлагая новые подходы к автоматизации взаимодействий с веб-сайтами.

⭐️ Вместо классического веб-скрейпинга авторы предлагают использование открытых и полузакрытых API, создавая агентов, которые могут выполнять сложные задачи, такие как бронирование билетов или составление расписаний, с высокой точностью и эффективностью. Подход улучшает надежность и совместимость агентов, особенно при изменениях интерфейсов сайтов.

📖 Читать: *клик*

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤5⚡3

2.33K views11:00

Big Data AI

🖥

Activepieces — это ИИ платформа для автоматизации и построения рабочих процессов с поддержкой no-code и open-source, предназначенная для упрощения интеграций между различными сервисами и приложениями, такими как Google Sheets, OpenAI, Discord и другие!

🌟 Она предоставляет пользователям визуальный редактор для построения процессов с использованием условных ветвлений, циклов и перетаскивания элементов.

💡 Пользователи могут воспользоваться готовыми шаблонами для создания своих процессов, а также добавлять собственные «кусочки» кода в TypeScript, чтобы расширять функциональность. Activepieces также поддерживает развертывание как в облаке, так и на собственных серверах, предлагая гибкость в настройке и масштабировании автоматизаций, что особенно удобно для малых и средних компаний, а также разработчиков и технических команд, стремящихся к улучшению производительности и сокращению затрат на интеграцию внешних сервисов.

🖥

Github

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥2👌1

2.76K views13:00

Big Data AI

🔥 firecrawl-simple — урезанная и оптимизированная версия библиотеки firecrawl! Она позволяет вам быстро конвертировать веб-сайты в готовый для чтения LLM текст.

🔐 Лицензия: AGPL-3.0

🖥

GitHub

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤3🔥2👌1

2.44K views14:00

Big Data AI

📖

Эта статья описывает новую методику повышения безопасности крупных языковых моделей (LLM) для быстрой адаптации к новым типам атак!

🌟 Вместо стремления к полной устойчивости к всем возможным атакам, предлагается метод "быстрого ответа" на новые попытки обхода защиты. Система адаптируется после изучения нескольких примеров атак, а затем блокирует аналогичные обходы. Представленный инструмент RapidResponseBench помогает оценить эффективность подхода, уменьшая успех атак в сотни раз даже после одного примера обхода.

🔗

Arxiv

🖥

Github

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2🔥1

1.96K views10:01

Big Data AI

Forwarded from Machinelearning

🌟 LAION-DISCO-12M: большой датасет музыки с Youtube.

Набор данных LAION-DISCO-12M состоит из 12 млн ссылок на общедоступные треки YouTube с метаданными. Он собран для поддержки фундаментальных исследований в области машинного обучения, созданию базовых моделей обработки звука, извлечения музыкальной информации, анализа наборов данных аудио и обучение рекомендательных систем и приложений.

Метод создания LAION-DISCO-12M основан на рекурсивном поиске исполнителей на платформе YouTube Music. Начиная с начального списка исполнителей топ-чартов разных стран, новые артисты обнаруживались путем анализа раздела "Похожие исполнители".

Для каждого исполнителя извлекались метаданные: имя, количество подписчиков и список всех песен и музыкальных клипов. Каждая песня или музыкальный клип были связаны с URL-адресом YouTube.

Размер датасета составляет 250 516 исполнителей и 12 648 485 треков.

Поля метаданных:

🟢song_id - идентификатор трека;
🟢title - название;
🟢artist_names - имя исполнителя;
🟢artist_ids - идентификатор исполнителя;
🟢album_name - название альбома;
🟢album_id - идентификатор альбома;
🟢isExplicit - признак наличия ненормативной лексики;
🟢views - количество просмотров;
🟢duration - продолжительность трека.

📌Лицензирование: Apache 2.0 License.

🟡

Страница проекта

🟡

Датасет

@ai_machinelearning_big_data

#AI #ML #LAION #Audio #Dataset

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤2

1.91K views13:32

Big Data AI

Новая открытая версия от Apple - AIMv2 - крупномасштабные визуальные кодеры 🔥

> > Превосходит CLIP и SigLIP по основным показателям мультимодального понимания
> Превосходит DINOv2 по обнаружению объектов
> Высокая эффективность распознавания с помощью AIMv2-3B, достигающая 89,5% на ImageNet
> Интегрированные трансформаторы (пользовательский код)

▪HF: https://huggingface.co/collections/apple/aimv2-6720fe1558d94c7805f7688c
▪Paper: https://huggingface.co/papers/2411.14402

@bigdatai

👍3❤1👎1🔥1💩1🤡1

2.57K views14:47

Big Data AI

🔥

Selective Context — полезный инструмент, который сжимает ваш запрос и контекст, позволяя LLM (например, ChatGPT) обрабатывать в 2 раза больше контента. Это особенно полезно при работе с длинными документами и поддержании длительных разговоров без ущерба для производительности при выполнении различных задач!

🖥

Github

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤3👌2🥰1

2.43K views12:01

Big Data AI

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 LogoCreator — приложение с открытым исходным кодом, которое использует Flux 1.1 для генерации разнообразных логотипов по вашему запросу!

🖥

Github

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3🔥2👌1

2.22K views13:01

Big Data AI

🖥

SQLFluff — это инструмент для статического анализа SQL-кода (SQL-linter), который помогает проверять и форматировать SQL-запросы в соответствии с определёнными стилевыми правилами!

🌟 Этот проект поддерживает гибкость за счёт настройки под разные диалекты SQL, такие как ANSI SQL, PostgreSQL, MySQL, BigQuery, Snowflake и многие другие.

🌟 Он особенно полезен в проектах ETL и ELT, а также совместим с такими инструментами, как Jinja и dbt (Data Build Tool), поддерживая шаблонизированные SQL-запросы. SQLFluff может автоматически исправлять большинство ошибок форматирования, экономя время разработчиков и позволяя сосредоточиться на задачах высокой важности. Для удобства пользователей доступно расширение для Visual Studio Code и подробная документация.

🔐 Лицензия: MIT

🖥

Github

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤3😍3👌2

2.26K views13:01

Big Data AI

Forwarded from Machinelearning

🌟 SmolTalk: синтетический англоязычный датасет для обучения LLM.

SmolTalk - это синтетический датасет, разработанный HuggingFace для обучения SmolTalk: новый синтетический набор данных для обучения больших языковых моделей LLM с учителем. Он состоит из 2 млн. строк и был использован для создания семейства моделей SmolLM2-Instruct. SmolTalk включает в себя как новые, так и существующие наборы данных.

Новые наборы данных:

🟢Smol-Magpie-Ultra (400 тыс. строк);
🟢Smol-constraints (36 тыс. строк);
🟢Smol-rewrite (50 тыс. строк);
🟢Smol-summarize (101 тыс. строк).

Существующие общедоступные наборы данных:

🟠OpenHermes2.5 (100 тыс. строк);
🟠MetaMathQA (50 тыс. строк);
🟠NuminaMath-CoT (1120 тыс. строк);
🟠Self-Oss-Starcoder2-Instruct (1120 тыс. строк);
🟠SystemChats2.0 (30 тыс. строк);
🟠LongAlign (примеры на английском языке с менее 16 тыс. токенов);
🟠Everyday-conversations (50 тыс. строк);
🟠APIGen-Function-Calling (80 тыс. строк);
🟠Explore-Instruct-Rewriting (30 тыс. строк).

SmolTalk сравнили недавно выпущенным набором данных Orca AgentInstruct 1M, обучив SmolLM2 на обоих наборах данных с использованием одинаковой конфигурации обучения.

Результаты показали, что SmolTalk показал значительные улучшения в производительности модели, особенно в задачах математики, программирования и следованию системным промптам. Наблюдались также значительные улучшения в масштабе 7B при обучении Mistral-7B на SmolTalk, особенно по показателям IFEval, BBH, GS8Mk и MATH.

▶️Загрузка датасета для трейна:

from datasets import load_dataset

ds = load_dataset("HuggingFaceTB/smoltalk", "all", split="train")
# to load the train split of a specific subset such as smol-magpie-ultra, you can do
ds = load_dataset("HuggingFaceTB/smoltalk", "smol-magpie-ultra", split="train")

📌Лицензирование: Apache 2.0 License.

🟡

Датасет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #HuggingFace #Dataset

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2

2.23K views21:24

Big Data AI

📝

LLM Graph Builder — инструмент для создания графов знаний на базе базы данных Neo4j, преобразуя неструктурированные данные (например, текстовые файлы, PDF-документы, видео с YouTube, веб-страницы) в структурированные графы!

🌟 Он использует возможности ИИ-моделей, от OpenAI и LangChain, для извлечения сущностей, их связей и атрибутов из данных.

🔍 Основные функции:

🌟 Генерация графов знаний на основе предоставленных данных.

🌟 Возможность работы с собственными схемами данных или готовыми шаблонами.

🌟 Просмотр графов через Neo4j Bloom и взаимодействие с ними с помощью запросов.

🌟 Интеграция с локальными файлами, S3, YouTube и другими источниками данных.

🔐 Лицензия: Apache-2.0

🖥

Github

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🔥2👌2

1.94K views12:00

Big Data AI

🔥Интересная дискуссия на reddit о 4-битном квантовании без потерь для Qwen2.5 от Intel AutoRound!

🎯Полный текст: https://reddit.com/r/LocalLLaMA/comments/1h0aev6/lossless_4bit_quantization_for_large_models_are/?rdt=60370

@bigdatai

From the LocalLLaMA community on Reddit: Lossless 4-bit quantization for large models, are we there?

Explore this post and more from the LocalLLaMA community

❤4👍2🔥2

1.89K views17:27

Big Data AI

🔥

Garak — инструмент от NVIDIA для автоматизированного тестирования безопасности и надежности крупных языковых моделей!

🌟 Он позволяет выявлять уязвимости, проблемы с устойчивостью и некорректные ответы моделей, применяя различные методики тестирования. Это помогает разработчикам и исследователям совершенствовать модели и повышать их качество.

🌟 Инструмент также поддерживает расширение функциональности: пользователи могут добавлять свои собственные тесты, создавая кастомные модули.

🔐 Лицензия: Apache-2.0

🖥

Github

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥3👍2

2.25K views09:00

Big Data AI

0:56

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ ERPoT: Эффективное и надежное отслеживание движения мобильных роботов на основе легких и компактных полигональных карт

https://github.com/ghm0819/ERPoT

@bigdatai

👎2💩2🤡2❤1👍1🔥1

2.12K views12:01

Big Data AI

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: www.tgoop.com/ai_machinelearning_big_data
C++ www.tgoop.com/cpluspluc
Python: www.tgoop.com/pythonl
Linux: www.tgoop.com/linuxacademiya
Хакинг: www.tgoop.com/linuxkalii
Devops: www.tgoop.com/DevOPSitsec
АНАЛИЗ Данных: www.tgoop.com/data_analysis_ml
Javascript: www.tgoop.com/javascriptv
C#: www.tgoop.com/csharp_ci
Java: www.tgoop.com/javatg
Базы данных: www.tgoop.com/sqlhub
Python собеседования: www.tgoop.com/python_job_interview
Мобильная разработка: www.tgoop.com/mobdevelop
Docker: www.tgoop.com/DevopsDocker
Golang: www.tgoop.com/golang_interview
React: www.tgoop.com/react_tg
Rust: www.tgoop.com/rust_code
ИИ: www.tgoop.com/vistehno
PHP: www.tgoop.com/phpshka
Android: www.tgoop.com/android_its
Frontend: www.tgoop.com/front
Big Data: www.tgoop.com/bigdatai
Собеседования МЛ: www.tgoop.com/machinelearning_interview
МАТЕМАТИКА: www.tgoop.com/data_math
Kubernets: www.tgoop.com/kubernetc
Разработка игр: https://www.tgoop.com/gamedev

💼 Папка с вакансиями: www.tgoop.com/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: www.tgoop.com/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: www.tgoop.com/addlist/eEPya-HF6mkxMGIy
Папка ML: https://www.tgoop.com/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://www.tgoop.com/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: www.tgoop.com/memes_prog
🇬🇧Английский: www.tgoop.com/english_forprogrammers
🧠ИИ: www.tgoop.com/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://www.tgoop.com/addlist/BkskQciUW_FhNjEy

👍2❤1🔥1

2.03K views10:49

Big Data AI

📖

Эта статья описывает подход для улучшения процесса отладки кода, сгенерированного LLM!

🌟 Исследователи представляют метод MGDebugger, который использует иерархическую стратегию отладки. Этот метод включает разбиение кода на древовидную структуру подфункций и их независимую проверку. Это позволяет находить ошибки на различных уровнях детализации: от синтаксических до алгоритмических.

🌟 MGDebugger использует симуляцию выполнения кода внутри LLM для выявления и исправления ошибок. Он генерирует тесты для подфункций на основе публичных тестов основной функции, а затем анализирует их выполнение. В процессе исправления исправленный код обновляет всю структуру. Такой подход упрощает отладку сложных функций и делает процесс более систематичным и эффективным.

🔗 Читать: *клик*

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤4👌2👎1🥰1

2.23K views13:01

2025/07/09 19:20:02
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>