This media is not supported in your browser
VIEW IN TELEGRAM
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍2👌2
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🔥3🤡3
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍4
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤3🔥1
— API для извлечения и обработки данных из PDF-документов с использованием современных OCR моделей и поддержкой Ollama для обработки на основе больших языковых моделей!
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥4🥰3🤮1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2👏2
Forwarded from Machinelearning
Hugging Face представила SmolLM2, новую серию SLM, оптимизированных для работы на устройствах c ограниченными ресурсами и предназначенных для выполнения задач генерации и обобщения текста на английском языке и вызова функций.
Модели SmolLM2 были обучены на миксе из наборов данных FineWeb-Edu, DCLM и Stack. Тестирование после обучения показало превосходство старшей модели SmolLM2-1.7B над Meta Llama 3.2 1B и Qwen2.5-1.5B.
Модели доступны в трёх конфигурациях: 135М, 360М и 1.7B параметров, каждая модель имеет свою Instruct-версию, а 1.7B и 360М еще и официальные квантованные версии GGUF:
from transformers import AutoModelForCausalLM, AutoTokenizer
checkpoint = "HuggingFaceTB/SmolLM2-1.7B"
device = "cuda" # for GPU usage or "cpu" for CPU usage
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)
inputs = tokenizer.encode("Gravity is", return_tensors="pt").to(device)
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))
@ai_machinelearning_big_data
#AI #ML #SLM #Huggingface #SmolLM2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤3👍3
#курс #machinelearning #ai
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥3👍2
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤4🥰2
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍3❤2
Forwarded from Machinelearning
Туториал ориентируется на нетехническую аудиторию, которая имеет опыт взаимодействия с большими языковыми моделями.
В первой половине представлены ментальные конструкции природы посттренинга и промптов. Вторая половина содержит более конкретные предписания и высокоуровневую процедуру промпт-инжиниринга.
Авторы, Varun Godbole и Ellie Pavlick подчеркивают, что поиск «идеальной» подсказки — это итеративный процесс, аналогичный настройке модели, который в лучшем случае является эмпирическим, а в худшем - алхимическим.
@ai_machinelearning_big_data
#AI #ML #LLM #Prompt #Github #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥2
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2👏2
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥2
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3🔥2🕊1🌭1👨💻1
Forwarded from Machinelearning
В исследовании, опубликованном к International Semantic Web Conference, Google Research проанализировал связи между датасетами, доступными в Интернет. Целью исследования заявлена стремление улучшить возможности поиска и использования данных, учитывая их сложные взаимоотношения.
Исследователи выделили 4 ключевые задачи, с которыми сталкиваются пользователи при работе с датасетами:
Чтобы классифицировать отношения между датасетами были использованы 2 основных типа связей: основанные на происхождении (например, версии и подмножества) и не связанные с происхождением (например, тематически похожие).
Для автоматического определения отношений между датасетами применяли 4 метода:
Schema.org - это семантическая разметка метаданных для поисковых ботов на веб-страницах.
Набор правил, разработанных для каждого типа отношений.
Метод машинного обучения, основанный на классификации.
Генеративная модель, также используемая для классификации.
Результаты исследования показали, что методы машинного обучения, GBDT и T5, превзошли эвристический подход в точности определения отношений. GBDT продемонстрировал наилучшие показатели F1 в различных категориях, T5 тоже
Однако, даже самые эффективные методы столкнулись с ограничениями из-за недостаточной полноты метаданных. Вывод - необходимость улучшения стандартов метаданных и более широкого использования schema.org для описания связей между датасетами.
@ai_machinelearning_big_data
#AI #ML #Google #Datasets #Search
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥2
Forwarded from Machinelearning
Forge Reasoning API позволяет улучшить возможности популярных LLM, добавив интерпретатор кода и расширенные возможности рассуждений. API использует три архитектуры: поиск по древу Монте-Карло (MCTS), цепочка кода (CoC) и смесь агентов (MoA).
Forge совместим с Hermes 3, Claude Sonnet 3.5, Gemini и GPT 4 и может комбинировать несколько языковых моделей для повышения разнообразия выходных данных. Beta-тестирование API будет сосредоточено на тестировании архитектуры системы рассуждений.
nousresearch.com
Уязвимости, обнаруженные Palo Alto Networks Unit 42, позволяли злоумышленникам получать несанкционированный доступ к данным и извлекать корпоративные модели из системы.
Первая уязвимость, связанная с функцией "пользовательские задания", позволяла повышать привилегии и получать доступ ко всем сервисам данных в проекте. Вторая уязвимость, связанная с функцией "вредоносные модели", позволяла развертывать вредоносные модели и получать доступ ко всем другим настроенным моделям, что создавало серьезный риск утечки конфиденциальных данных.
Google уже установила исправления для устранения этих уязвимостей.
darkreading.com
AI Assistant 2024.3 теперь поддерживает модели Gemini, предоставляя пользователям возможность выбирать между моделями Gemini, OpenAI или локальными моделями. Ассистент также предлагает улучшенное автозавершение кода, расширенное управление контекстом и встроенную генерацию подсказок.
Обновления коснулись IDE JetBrains: PyCharm (добавлена функция AI-внутристроковых подсказок) , WebStorm (реализована улучшенная навигация по компонентам), GoLand (добавлены многострочное завершение, новая функция встроенной подсказки и новые языковые возможности из последних релизов Go), PhpStorm( новые проверки и быстрые исправления для обновления до PHP 8.4) и RubyMine(поддержка Rail 8, более быстрое завершение кода с учетом контекста и улучшенная интеграция модульных тестов).
sdtimes.com
Red Hat объявила о намерении приобрести Neural Magic, разработчика проекта vLLM с открытым исходным кодом. Цель приобретения в том, чтобы Red Hat и ее материнская компания IBM могли снизить барьер для входа организаций, желающих запускать рабочие нагрузки машинного обучения без необходимости развертывания серверов, оснащенных GPU.
Neural Magic разработала способ запуска алгоритмов машинного обучения без GPU. Вместо этого компания методы обрезки и квантования для оптимизации моделей, позволяя им работать на доступных процессорах без ущерба для производительности.
computerweekly.com
Французский разработчик Франсуа Шолле, создатель Keras, покидает Google после почти 10 лет работы. Keras лежит в основе ряда технологических продуктов: беспилотные автомобили Waymo, рекомендательные системы на YouTube, Netflix и Spotify.
В 2019 году Шолле опубликовал тест Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI), который измеряет способность систем ИИ решать новые задачи на рассуждение. Шолле неоднократно утверждал, что подход, принятый многими крупными лабораториями, разрабатывающими ИИ (внедрение все большего количества данных и вычислительных ресурсов в модели), не позволит достичь ИИ, который будет таким же «умным», как люди.
34-летний Франсуа сообщил в посте X, что он создает новую компанию вместе с «другом», но отказался раскрывать подробности.
techcrunch.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥4❤2