@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1
This media is not supported in your browser
VIEW IN TELEGRAM
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍2👌2
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🔥3🤡3
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍4
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤3🔥1
— API для извлечения и обработки данных из PDF-документов с использованием современных OCR моделей и поддержкой Ollama для обработки на основе больших языковых моделей!
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥4🥰3🤮1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2👏2
Forwarded from Machinelearning
Hugging Face представила SmolLM2, новую серию SLM, оптимизированных для работы на устройствах c ограниченными ресурсами и предназначенных для выполнения задач генерации и обобщения текста на английском языке и вызова функций.
Модели SmolLM2 были обучены на миксе из наборов данных FineWeb-Edu, DCLM и Stack. Тестирование после обучения показало превосходство старшей модели SmolLM2-1.7B над Meta Llama 3.2 1B и Qwen2.5-1.5B.
Модели доступны в трёх конфигурациях: 135М, 360М и 1.7B параметров, каждая модель имеет свою Instruct-версию, а 1.7B и 360М еще и официальные квантованные версии GGUF:
from transformers import AutoModelForCausalLM, AutoTokenizer
checkpoint = "HuggingFaceTB/SmolLM2-1.7B"
device = "cuda" # for GPU usage or "cpu" for CPU usage
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)
inputs = tokenizer.encode("Gravity is", return_tensors="pt").to(device)
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))
@ai_machinelearning_big_data
#AI #ML #SLM #Huggingface #SmolLM2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤3👍3
#курс #machinelearning #ai
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥3👍2
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤4🥰2
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍3❤2
Forwarded from Machinelearning
Туториал ориентируется на нетехническую аудиторию, которая имеет опыт взаимодействия с большими языковыми моделями.
В первой половине представлены ментальные конструкции природы посттренинга и промптов. Вторая половина содержит более конкретные предписания и высокоуровневую процедуру промпт-инжиниринга.
Авторы, Varun Godbole и Ellie Pavlick подчеркивают, что поиск «идеальной» подсказки — это итеративный процесс, аналогичный настройке модели, который в лучшем случае является эмпирическим, а в худшем - алхимическим.
@ai_machinelearning_big_data
#AI #ML #LLM #Prompt #Github #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥2
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2👏2
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥2
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3🔥2🕊1🌭1👨💻1
Forwarded from Machinelearning
В исследовании, опубликованном к International Semantic Web Conference, Google Research проанализировал связи между датасетами, доступными в Интернет. Целью исследования заявлена стремление улучшить возможности поиска и использования данных, учитывая их сложные взаимоотношения.
Исследователи выделили 4 ключевые задачи, с которыми сталкиваются пользователи при работе с датасетами:
Чтобы классифицировать отношения между датасетами были использованы 2 основных типа связей: основанные на происхождении (например, версии и подмножества) и не связанные с происхождением (например, тематически похожие).
Для автоматического определения отношений между датасетами применяли 4 метода:
Schema.org - это семантическая разметка метаданных для поисковых ботов на веб-страницах.
Набор правил, разработанных для каждого типа отношений.
Метод машинного обучения, основанный на классификации.
Генеративная модель, также используемая для классификации.
Результаты исследования показали, что методы машинного обучения, GBDT и T5, превзошли эвристический подход в точности определения отношений. GBDT продемонстрировал наилучшие показатели F1 в различных категориях, T5 тоже
Однако, даже самые эффективные методы столкнулись с ограничениями из-за недостаточной полноты метаданных. Вывод - необходимость улучшения стандартов метаданных и более широкого использования schema.org для описания связей между датасетами.
@ai_machinelearning_big_data
#AI #ML #Google #Datasets #Search
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥2