DSPROGLIB Telegram 6830
🔥 FineVision: открытый датасет для Vision-Language моделей

Большинство датасетов для Vision-Language моделей остаются закрытыми и недоступными для сообщества.

👍 FineVision решает эту проблему: объединяет 200+ источников, чистит данные от дублей и шума, нормализует форматы, добавляет недостающие домены (например, GUI).

FineVision — огромный мультимодальный датасет:
— 24 млн сэмплов
— 17M изображений
— 89M QA-диалогов
— 10B токенов ответов
— Оценка качества с помощью 32B VLM по 4 метрикам

Для дата-сайентистов это полезно, потому что:
➡️ можно строить собственные state-of-the-art VLM, не завися от закрытых датасетов,
➡️ легко тестировать гипотезы на чистом и сбалансированном корпусе,
➡️ доступна стриминговая загрузка через datasets, что удобно при работе с большими объёмами данных.

🔗 Ссылка на датасет

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2🔥1



tgoop.com/dsproglib/6830
Create:
Last Update:

🔥 FineVision: открытый датасет для Vision-Language моделей

Большинство датасетов для Vision-Language моделей остаются закрытыми и недоступными для сообщества.

👍 FineVision решает эту проблему: объединяет 200+ источников, чистит данные от дублей и шума, нормализует форматы, добавляет недостающие домены (например, GUI).

FineVision — огромный мультимодальный датасет:
— 24 млн сэмплов
— 17M изображений
— 89M QA-диалогов
— 10B токенов ответов
— Оценка качества с помощью 32B VLM по 4 метрикам

Для дата-сайентистов это полезно, потому что:
➡️ можно строить собственные state-of-the-art VLM, не завися от закрытых датасетов,
➡️ легко тестировать гипотезы на чистом и сбалансированном корпусе,
➡️ доступна стриминговая загрузка через datasets, что удобно при работе с большими объёмами данных.

🔗 Ссылка на датасет

🐸 Библиотека дата-сайентиста

#буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tgoop.com/dsproglib/6830

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture. 1What is Telegram Channels? Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment.
from us


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM American