Telegram Web
📖 Эта статья описывает подход для улучшения процесса отладки кода, сгенерированного LLM!

🌟 Исследователи представляют метод MGDebugger, который использует иерархическую стратегию отладки. Этот метод включает разбиение кода на древовидную структуру подфункций и их независимую проверку. Это позволяет находить ошибки на различных уровнях детализации: от синтаксических до алгоритмических.

🌟 MGDebugger использует симуляцию выполнения кода внутри LLM для выявления и исправления ошибок. Он генерирует тесты для подфункций на основе публичных тестов основной функции, а затем анализирует их выполнение. В процессе исправления исправленный код обновляет всю структуру. Такой подход упрощает отладку сложных функций и делает процесс более систематичным и эффективным.

🔗 Читать: *клик*

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84👌2👎1🥰1
🔍 fast-graphrag — инструмент, предназначенный для оптимизации работы Retrieval-Augmented Generation (RAG) с использованием графовых структур знаний!

🌟 Он расширяет возможности GraphRAG, добавляя поддержку алгоритма PageRank для улучшения поиска и обработки данных. Этот подход позволяет быстрее находить ключевую информацию, улучшать точность на 20% и снижать затраты на обработку данных примерно в 6 раз по сравнению с традиционными методами RAG.

🔐 Лицензия: MIT

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84👌31🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Все инструменты Flux.1 теперь находятся на HuggingFace Spaces!

🖌 Fill
🖼 Redux
Canny
🩻 Depth

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥54🥰2👍1👌1
🔥 nsfw_detector — инструмент для автоматического распознавания NSFW-контента (неподходящего или откровенного)!

💡 Он основан на модели Google ViT, обеспечивает точную классификацию файлов и поддерживает обработку изображений, видео, PDF-документов и файлов в архиве.

🔍 Основные особенности:

🌟 Поддержка работы на CPU, без необходимости использования GPU, что делает его универсальным для большинства серверов.

🌟 Локальная обработка данных для защиты конфиденциальности.

🌟 Легкая интеграция через API и возможность развертывания через Docker.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54🔥1😁1👌1
🪐 Multimodal Universe: Свежий датасет 100 ТБ научных астрономических данных

Мультимодальный набор данных Universe - это крупномасштабная коллекция мультимодальных астрономических данных, включая изображения, спектры и кривые блеска, предназначеный для проведения исследований в области астрономии и астрофизики.


python
from datasets import load_dataset

dset = load_dataset('MultimodalUniverse/plasticc',
split='train', streaming=True)

example = next(iter(dset))


Github: https://github.com/MultimodalUniverse/MultimodalUniverse
Colab: https://colab.research.google.com/github/MultimodalUniverse/MultimodalUniverse/blob/main/notebooks/getting_started.ipynb
HF: huggingface.co/MultimodalUniverse

@bigdatai
6👍4🔥2👎1🤡1
Forwarded from Machinelearning
⚡️ PaliGemma 2: Новое семейство VLMs от Google.

PaliGemma 2 - обновление open-sorce VLM PaliGemma, основанное на семействе LLM Gemma 2. Семейство сочетает в себе кодировщик изображений SigLIP-So400m с спектром моделей Gemma 2, от 2B до 27B параметров. Модели PaliGemma 2 обучались в 3 этапа на трех разрешениях (224px², 448px² и 896px²).

PaliGemma 2 демонстрирует впечатляющие результаты в распознавании музыкальных нот, молекулярных структур и медицинских изображений. Модели справляются с распознаванием табличной структуры и созданием отчетов по рентгенограммам.

В задачах генерации длинных, детализированных аннотаций к изображениям PaliGemma 2 превосходит многие популярные VLM, несмотря на то, что она обучалась на значительно меньших наборах данных.

Для развертывания на устройствах без GPU могут использоваться квартованные версии PaliGemma 2. Тесты показали, что переход от 32-битной разрядности (f32) к 16-битной (bf16) или квантованным весам не приводит к заметному снижению качества.

В релиз вошли предварительно обученные модели 3B, 10B и 28B с разрешениями 224px, 448px, 896px, модели, настроенные на наборе данных DOCCI для создания аннотаций к изображениям и их версии для JAX/FLAX.

Процесс файнтюна PaliGemma 2 такой же, как и у предыдущей версии. Разработчики предоставляют скрипт и ipynb-блокнот для тонкой настройки модели или создания LoRA/QLoRA.

Создание LoRA модели PaliGemma 2 на половине валидационного сплита VQAv2 заняло полчаса на 3-х A100 с 80 ГБ VRAM. Результат можно найти здесь, а это ее демо.

▶️Пример инференса модели paligemma2-10b-ft-docci-448 на Transformers:

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests

model_id = "google/paligemma2-10b-ft-docci-448"
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id)
model = model.to("cuda")
processor = AutoProcessor.from_pretrained(model_id)

prompt = "<image>caption en"
image_file = "% link_to_target_file%"
raw_image = Image.open(requests.get(image_file, stream=True).raw).convert("RGB")

inputs = processor(prompt, raw_image, return_tensors="pt").to("cuda")
output = model.generate(**inputs, max_new_tokens=20)

print(processor.decode(output[0], skip_special_tokens=True)[len(prompt):])


📌Лицензирование: Gemma License.


🟡Статья
🟡Коллекция на HF
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #VLM #Google #PaliGemma
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 MagicQuill — исследовательский проект, разработанный для интерактивного редактирования изображений с использованием моделей машинного обучения!

🌟 Этот инструмент позволяет выполнять такие задачи, как модификация цвета и структуры изображения, использование масок для выборочного редактирования и обработка изображений на основе подсказок (prompts). В основе проекта лежат технологии PyTorch и интеграция с Gradio для удобного интерфейса взаимодействия.

🔐 Лицензия: CC BY-NC 4.0

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🥰1
📖 Эта статья рассматривает вопрос создания контрфактуальных данных с использованием языковых моделей!

💡 Контрфактуальные данные позволяют понять, как бы выглядело предложение, если бы оно было создано при определенных изменениях в модели. В статье авторы подчеркивают, что контрфактуальное рассуждение отличается от стандартных интервенционных подходов, таких как манипуляция представлениями моделей, поскольку основано на других концепциях причинности.

🌟 Авторы предлагают новый подход для генерации контрфактов, который основывается на формулировке языковых моделей как обобщенных структурных уравнений и использовании трюка Gumbel-max. Этот метод позволяет моделировать совместное распределение исходных строк и их контрфактуальных версий, что обеспечивает более точное понимание воздействия интервенций. Эксперименты показывают, что их алгоритм генерирует значимые контрфакты и демонстрирует, что традиционные методы интервенции имеют нежелательные побочные эффекты.

🔗 Ссылка: *клик*

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥1
Forwarded from Machinelearning
📎 ML в медицине: дайджест за 1 - 7 декабря 2024 г.


▶️Модели, бенчмарки и датасеты

🔘SOAR: бенчмарк для оценки LLM в задачах аннотации типов клеток.
Тест, который проверяет, насколько хорошо модели могут понимать и анализировать сложные данные о клетках.

🔘Повышение точности диагностики рентгенограмм грудной клетки с помощью анализа направления взгляда врачей.
Система 2-х нейросетей, которая помогает диагностировать заболевания по рентгенограммам грудной клетки и предсказывает, на какие области изображения врачи обращают внимание.

🔘EchoONE: унифицированная модель для сегментации множества плоскостей эхокардиографии.
Модель, которая помогает врачам более точно анализировать снимки сердца, сделанные с помощью ультразвука, даже если снимки сделаны под разными углами.


▶️Фреймворки и методологии

🔘RARE: RAG-ризонинг.
Метод для улучшения способности рассуждать и давать точные ответы, используя комбинацию генерации и поиска информации для обогащения своих знаний.

🔘STORM: cтратегия организации модальностей для классификации редких событий.
Алгоритм, который помогает выбрать лучшие источники информации для решения сложных медицинских задач.

🔘TransFair: прогноз прогрессирования глазных заболеваний.
Модель классификации, которая помогает сделать прогнозы о глазных заболеваниях более справедливыми и точными.

🔘PePR: оценка эффективности моделей с учетом потребления ресурсов.
Показатель, который помогает оценить, насколько эффективно модель использует ресурсы.

🔘Оценка качества рентгенологических заключений с помощью сопоставления клинических данных с изображением.
Метод оценки качества автоматически сгенерированных рентгенологических отчетов, который учитывает точность описания патологических изменений, их локализации и степени выраженности.


▶️Медицинские LLM-приложения

🔘MedChain: LLM-агент и бенчмарк для принятия клинических решений.
Набор данных и система для имитации реальной клинической практики, где каждый случай включает подробную информацию о пациенте и требует активного сбора информации и принятия решений на основе предыдущих шагов.

🔘QG-Summ: автореферирование медицинских записей с самоконтролем, управляемое запросами.
Метод, который помогает создавать краткие и точные отчеты о состоянии пациентов в электронных медкартах, используя запросы, связанные с пациентом, для руководства процессом.

🔘CLINICSUM: генерация медицинских заключений из диалогов врача и пациента.
Фреймворк, который может автоматически создавать медицинские заключения на основе разговоров между врачом и пациентом, используя специальную архитектуру.


▶️Исследования и обзоры

*️⃣Проблемы производительности LLM для здравоохранения с учетом демографической справедливости.
Исследование проблемы демографической предвзятости популярных современных LLM в различных медицинских задачах.

*️⃣Применение эмбединг-моделей для классификации медицинских текстов.
Статья о том, как использовать эмбединги для классификации медицинских текстов без необходимости обучения на медицинских данных.

*️⃣BlockMedCare: блокчейн, ИИ и IoT для здравоохранения будущего.
Концепция системы для безопасного и эффективного управления электронными медицинскими картами, позволяя пациентам, врачам и администраторам взаимодействовать с системой на различных устройствах.



🔜 Читать полный дайджест


@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93🔥2
🔥 OuteTTS-0.2-500M — модель, которая предназначена для задач синтеза речи (Text-to-Speech)!

🌟 Она имеет 500 миллионов параметров и обучена для создания естественного звучания голоса, поддерживая высокое качество аудиовыхода. Основное применение — преобразование текстового ввода в реалистичную речь, что может быть полезно для создания виртуальных ассистентов, озвучивания текста и других сценариев, связанных с генерацией речи.

🔗 Ссылка: *клик*

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
Media is too big
VIEW IN TELEGRAM
📹 OpenAI представила Sora: новую модель для создания видеороликов по текстовому описанию.

Компания OpenAI на онлайн-стриме анонсировала запуск Sora – инструмента для создания видео по текстовому запросу. Sora доступна подписчикам ChatGPT Plus и Pro, с ограничениями по региону (недоступна на территории ЕС и Великобритании), количеству генераций и качеству видео. Plus-пользователи смогут создавать до 5 видео в месяц длиной до 5 секунд в разрешении до 720p.

Pro-подписка позволяет сгенерировать до 500 коротких видео длиной до 20 секунд в разрешении до 1080p. Sora предлагает различные инструменты для редактирования и управления процессом создания видео: Storyboard для покадровой режиссуры и функции для добавления начала, концовки и объединения нескольких видео.
openai.com
👍43💩2🔥1🤡1🙉1
Forwarded from Machinelearning
📌 Пятидневный интенсивный курс по GenAI от Google и Kaggle.

Google совместно с Kaggle представили пятидневный интенсивный курс по генеративному искусственному интеллекту, который доступен в формате самостоятельного обучения.

Курс, который проходил в прямом эфире с 11 по 15 ноября 2024 года, охватывает базовые технологии и методы генеративного ИИ. Программа включает изучение базовых моделей, инженерии промптов, векторных баз данных и эмбедингов, ИИ-агентов, специализированных моделей для конкретных областей и MLOps для GenAi.

Каждый день курса посвящен определенной теме и включает теоретические материалы, практические задания и возможность взаимодействия с экспертами Google.

Участники изучат развитие LLM, начиная с трансформеров и заканчивая техниками тонкой настройки и ускорения инференса. Познакомятся с методами инженерии промптов для оптимизации взаимодействия с LLM.

В рамках курса будут рассмотрены концепции эмбедингов и векторных баз данных, алгоритмы векторного поиска и научатся создавать ИИ-агентов, понимая их основные компоненты и итеративный процесс разработки.

Курс включает создание и применение специализированных LLM: SecLM и Med-PaLM, с комментариями разработчиков. Участники узнают, как адаптировать практики MLOps для генеративного ИИ и использовать инструменты Vertex AI для базовых моделей и приложений генеративного ИИ.

В рамках практических занятий на платформе Kaggle участники смогут применить полученные знания, создавая системы вопросов и ответов на основе извлечения информации, нейронные сети классификации и агентные системы заказа.

Курс разработан экспертами Google: Анантой Навалгарией, Марком Макдональдом, Пейдж Бейли и другими.

⚠️ Для доступа к коду курса необходимы аккаунты на Kaggle (c верификацией номера телефона), Google Ai Studio (для создания API KEY).


🟡Страница курса
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #ML #LLM #GenAI #Course
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3🔥2
🔥 LaVague — это фреймворк для разработки AI-агентов, способных автоматизировать веб-процессы!

🌟 Агенты анализируют данную веб-страницу, определяют шаги для выполнения задач и реализуют их с помощью встроенных инструментов, таких как Selenium или Playwright. Подходит для разных задач автоматизации, от навигации по сайтам до тестирования!

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥2
🔍 RAGLite — это инструмент для работы с Retrieval-Augmented Generation (RAG), подходом, который улучшает качество генерации текстов с помощью поиска релевантной информации!

🌟 RAGLite упрощает интеграцию поиска и генерации, предоставляя средства для работы с векторным поиском, поиском по ключевым словам и гибридными методами. Его функционал включает внедрение документов, извлечение фрагментов, ранжирование и создание ответов на основе найденных данных.

🌟 Инструмент поддерживает использование различных моделей машинного обучения для поиска и генерации, интеграцию с базами данных и настройку пользовательского интерфейса в стиле ChatGPT. RAGLite может быть развернут локально или на платформах, таких как Slack или Microsoft Teams, что делает его полезным для приложений, требующих адаптивной генерации текста, как, например, интеллектуальные чат-боты или системы поиска знаний.

🔐 Лицензия: MPL-2.0

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍3🔥3
🔥 Курс по Ollama — создавайте ИИ-приложения локально!

🌟 C такими инструментами, как Ollama, вы можете привнести передовые возможности ИИ прямо в свою локальную среду. Изучение того, как использовать локальные большие языковые модели (LLM), может открыть целый мир возможностей. Локальные LLM обеспечивают больший контроль, настройку и конфиденциальность данных по сравнению с облачными системами ИИ.

🕞 Продолжительность: 2:57:23

🔗 Ссылка: *клик*

#курс #ollama #machinelearning


@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥21👎1
Forwarded from Machinelearning
✔️ OpenAI представила функцию «Проекты» для ChatGPT.

OpenAI анонсировала новую функцию «Проекты» для своего чат-бота ChatGPT. Эта функция позволит пользователям группировать чаты и данные, упрощая использование ChatGPT для конкретных задач.

Пользователи смогут объединять в проекты пользовательские данные, разговоры, GPT и простые чаты. Каждый чат в проекте будет иметь доступ ко всей информации внутри него. OpenAI продемонстрировала "Проекты" на седьмом по счету стриме цикла анонсов "12 Days of OpenAI"
openai.com

✔️ Anthropic разработала платформу для анализа использования больших языковых моделей.

Anthropic создала платформу Clio для изучения особенностей применения больших языковых моделей в реальных условиях. Clio использует LLM для анализа миллионов диалогов, выявляя общие закономерности использования без нарушения конфиденциальности пользователей. Платформа группирует диалоги по схожести, создаёт обобщённые описания тем и определяет возможные нарушения правил использования. В отличие от традиционных методов, Clio не предполагает просмотра диалогов людьми.

Anthropic применяет Clio для повышения безопасности Claude. Clio помогает выявлять скоординированные злоупотребления и отслеживать неизвестные угрозы, особенно в важные периоды запуска новых функций. Компания планирует сделать Clio доступной для общественности с целью формирования культуры прозрачности в сфере ИИ.
anthropic.com

✔️ NVIDIA QUEEN: алгоритм потоковой передачи видео с произвольной точкой обзора.

QUEEN (QUantized Efficient ENcoding) - это новый алгоритм, разработанный NVIDIA для эффективного кодирования и потоковой передачи видео с произвольной точкой обзора. QUEEN использует динамические гауссианы для представления сцены, что позволяет достичь высокого качества изображения при минимальном размере модели.

Алгоритм способен сократить размер модели до 0,7 МБ на кадр, обеспечивая при этом быстрое обучение (менее 5 секунд) и высокую скорость рендеринга (около 350 кадров в секунду). QUEEN основан на квантовании и разрежении атрибутов гауссиан и использует адаптивную маскирующую технику для разделения статического и динамического контента.
research.nvidia.com

✔️ Microsoft представила новую модель Phi-4.

Новая языковая модель Phi-4 от Microsoft Research демонстрирует производительность, сравнимую с гораздо более крупными моделями, используя всего 14 миллиардов параметров. Phi-4 превосходит свою обучающую модель, GPT-4, в ответах на вопросы по науке и технике и демонстрирует особую эффективность в математике: 56,1% правильных ответов на вопросы университетского уровня и 80,4% на задачи из математических олимпиад.

Phi-4 уже доступна в рамках ограниченного превью на платформе Azure AI Foundry для исследовательских целей. В открытый доступ Phi-4 будет опубликована на следующей неделе.
techcommunity.microsoft.com

✔️ Cadbury борется с искусственным интеллектом, засоряя обучающие данные бессмыслицей.

Индийский филиал кондитерской компании Cadbury начал рекламную кампанию под названием «Сделаем ИИ посредственным снова», целью которой является замедлить развитие искусственного интеллекта путем внесения искажений в обучающие данные.

Компания создала «первую в мире серверную ферму», генерирующую тысячи синтетических веб-сайтов, заполненных бессмысленным текстом. Цель состоит в том, чтобы «загрязнить» данные, которые модели искусственного интеллекта собирают из Интернета, вызывая ошибки, требующие постоянного вмешательства человека.
techspot.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3🔥2👎1
2025/07/09 19:20:03
Back to Top
HTML Embed Code: