Warning: file_put_contents(aCache/aDaily/post/bigdatai/-1354-1355-1356-1357-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Big Data AI@bigdatai P.1355
BIGDATAI Telegram 1355
🚀 Новинка от Hugging Face — FineWeb‑2: огромный высококачественный веб‑датасет на базе CommonCrawl!

📊 Основные характеристики:
- ~8 ТБ сжатого текста (~3 трлн слов) из 96 дампов CommonCrawl (2013–2024)
- Более 1000 языков и почти 1900 языковых-скриптовых пар
- Высокое качество: извлечён только основной текст, проведена фильтрация и дедупликация
- Лицензия ODC‑By 1.0 — можно использовать в коммерческих и исследовательских целях

📝 Зачем это нужно:
- Даёт открытому ИИ доступ к качеству, сравнимому с закрытыми наборами (как у LLaMA 3 или Mixtral)
- Существенно улучшает результаты на бенчмарках вроде MMLU и ARC, особенно при обучении с FineWeb‑Edu

🔧 Где применить FineWeb‑2:
- Обучение LLM с нуля
- Дообучение на редких языках
- Синтетическая генерация, RAG и пр.

📥 Скачать: https://huggingface.co/datasets/HuggingFaceFW/fineweb-2
👍63🔥3



tgoop.com/bigdatai/1355
Create:
Last Update:

🚀 Новинка от Hugging Face — FineWeb‑2: огромный высококачественный веб‑датасет на базе CommonCrawl!

📊 Основные характеристики:
- ~8 ТБ сжатого текста (~3 трлн слов) из 96 дампов CommonCrawl (2013–2024)
- Более 1000 языков и почти 1900 языковых-скриптовых пар
- Высокое качество: извлечён только основной текст, проведена фильтрация и дедупликация
- Лицензия ODC‑By 1.0 — можно использовать в коммерческих и исследовательских целях

📝 Зачем это нужно:
- Даёт открытому ИИ доступ к качеству, сравнимому с закрытыми наборами (как у LLaMA 3 или Mixtral)
- Существенно улучшает результаты на бенчмарках вроде MMLU и ARC, особенно при обучении с FineWeb‑Edu

🔧 Где применить FineWeb‑2:
- Обучение LLM с нуля
- Дообучение на редких языках
- Синтетическая генерация, RAG и пр.

📥 Скачать: https://huggingface.co/datasets/HuggingFaceFW/fineweb-2

BY Big Data AI







Share with your friend now:
tgoop.com/bigdatai/1355

View MORE
Open in Telegram


Telegram News

Date: |

Write your hashtags in the language of your target audience. Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN. With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings. Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019. Invite up to 200 users from your contacts to join your channel
from us


Telegram Big Data AI
FROM American