Telegram Web
Линейная регрессия. Основная идея, модификации и реализация с нуля на Python.
https://habr.com/ru/articles/804135/
🤖Определение линейной регрессии
🤖Полиномиальная регрессия
🤖Регуляризация линейной регрессии (Ridge, Lasso, ElasticNet)
🤖Преимущества и недостатки линейной регрессии
Линейный дискриминантный анализ (LDA). Принцип работы и реализация с нуля на Python.

LDA — алгоритм классификации и понижения размерности, позволяющий производить разделение классов наилучшим образом.

Некоторые мысли из статьи:
LDA может быть предпочтительнее логистической регрессии в ряде случаев.
Алгоритм LDA включает расчет априорных вероятностей и средних значений признаков, а также нахождение собственных векторов и значений.
Существуют другие подходы к решению задач через нахождение собственных векторов, такие как сингулярное разложение и метод наименьших квадратов.
Модификации LDA, такие как квадратичный дискриминантный анализ (QDA), гибкий дискриминантный анализ (FDA) и ядерный дискриминантный анализ (KDA), улучшают качество модели и увеличивают количество задач, в которых его можно применить.
Регуляризация поддерживается в LDA и его модификациях через степень сжатия ковариационной матрицы.

https://habr.com/ru/articles/802511/
​​Реши одну из предложенных задач и выиграй до 1 млн рублей!

💥Заманчиво, правда? Тогда подавай заявку на международный хакатон Мэра Москвы «Лидеры цифровой трансформации»! Участвовать можно онлайн.

Например, ты можешь разработать сервис генерации маркетинговых изображений для Газпромбанк.Тех (задача №13) и внедрить свое решение в работу крупной коммерческой компании!

Что еще интересного будет в этом году?
🔴25 задач от города и бизнеса
🔴рекордный призовой фонд в 50 млн рублей
🔴возможность пилотирования своего решения, в том числе у международных партнеров

🟩А заключительный этап конкурса пройдет 28-29 июня в формате масштабного IT-фестиваля в кластере Ломоносов, где будет много полезного нетворкинга, IT-активностей и продуктивной атмосферы!

Тебя ждут реальные задачи от столичных департаментов, регионов России и крупных компаний: Сбербанк, Банк России, Росатом, Роспатент, «Северсталь», Газпромбанк.Тех, RUTUBE, Yappy, «Самолет», «Рексофт», Холдинг Т1, Sitronics Group, DDX TECH, «Автономные технологии».

Подавай заявку сейчас на сайте и вступай в чат лидеров, чтобы не пропустить важную информацию!
Поддержите нашу команду:
https://productradar.ru/product/fractalgpt-docs-qa/
Сервис Product Radar - это площадка, где пользователи выбирают лучшие стартапы РФ.

FractalGPT Docs QA - это сервис, который позволяет вам загружать документы и получать по ним очень точные, генеративные ответы на базе современных LLM, по сути это RAG-как-сервис.

Преимущества: собственная технология уменьшения % галлюцинаций в ответах, и главное - Ai агенты внутри. Один агент, позволяющий автоматически подбирать нужное число документов для полного ответа уже встроен, на подходе и другие: для ответов по табличным данным, картинкам, графикам и пр типам данных, которые могут быть в документации вашей компании + дешевле, чем если бы вы взяли просто GPT-4.
Прими участие в блокчейн-хакатоне Сбера DeFi Hack 2024.
💰 Призовой фонд – 1 000 000 рублей

Мы ждем как соло-разработчиков, так и команды до 5 человек, строго совершеннолетних (от 18 лет), из России и других стран.

📌 Зарегистрироваться можно здесь, принимаем заявки и решения до 16 июня!

Финалисты конкурса смогут лицом к лицу презентовать свои проекты опытному жюри и топ-менеджменту Сбера на международной блокчейн-конференции, которая состоится в Москве.

📌 Если вам потребуется прояснить какой-либо технический или организационный вопрос вы можете задать его нам по адресу [email protected] или в чате участников и организаторов ComUnity.
Вакансия Middle/Senior Data Scientist в команде Lamoda Tech

Создаем продукты, которые делают шопинг удобным и вдохновляющим. Результат — 17 млн. довольных пользователей ежемесячно и звание крупнейшей fashion & lifestyle платформы в России по версии Data Insight.

Ищем специалистов с опытом промышленной разработки моделей.

Стек технологий: Big data (Hadoop, PySpark, Hive), Python, Catboost, Airflow, Docker, SQL, PyTorch.

Как работаем: квартальное планирование по OKR, двухнедельные спринты, регулярные проектные встречи; развитое DS-сообщество; полный жизненный цикл разработки data-driven продуктов с применением ML. В части разработки онлайн-сервисов и деплоя моделей помогает команда инженеров.

Что еще интересного: гибрид; офис в Москве и коворкинг в СПб; организуем внутренние и внешние митапы; помогаем развивать личный бренд шопинг на Lamoda со скидками до 40%

Подробнее о вакансии

Реклама. ООО «Ламода Тех». ИНН 7734461512. erid:LjN8KJsXL
​​Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis.

Kolors — это масштабная модель генерации изображений из текста на основе латентной диффузии, разработанная командой Kuaishou Kolors. Обученная на миллиардах пар текст-изображение, Kolors демонстрирует значительные преимущества по качеству визуализации, точности сложных семантических конструкций и рендерингу текста как для китайских, так и для английских символов.

Сама модель тут:
https://huggingface.co/spaces/gokaygokay/Kolors

Читаем тут:
https://huggingface.co/Kwai-Kolors/Kolors

Код:
https://github.com/Kwai-Kolors/Kolors

Галерея:
https://kolors.kuaishou.com/

Нода для Комфи:
https://github.com/kijai/ComfyUI-KwaiKolorsWrapper

Дока:
https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf
Новая модель Claude 3.5 Sonnet которая в некоторых моментах лучше GPT4o — можете бесплатно играть с ней тут https://www.anthropic.com/
This media is not supported in your browser
VIEW IN TELEGRAM
Сравнение генераций sora от OpenAI и китайского kling. Местами kling вообще не уступает sora, как по мне.

1)Видео от первого лица, на котором муравей перемещается по муравейнику.

2)Исторические кадры Калифорнии во время золотой лихорадки.

3)Молодой человек сидит на облаке в небе и читает книгу

4)В анимационной сцене крупным планом показан невысокий пушистый монстр, стоящий на коленях рядом с тающей красной свечой.

5)Фотореалистичное видео крупным планом, на котором два пиратских корабля сражаются друг с другом, плавая в чашке кофе

6)Бело-оранжевый полосатый бродячий кот мечется по переулку под проливным дождем в поисках убежища.

7)Гамбургер
AI Image to Video Free Generator

📹 Бесплатный генератор AI видео из изображений
Ищете способ преобразовать ваши изображения в потрясающие видео? Попробуйте этот бесплатный генератор! 🚀
Просто загрузите свои фото, и ИИ создаст из них увлекательное видеоповествование. Идеально подходит для соцсетей, презентаций и личных проектов. 🎬
Попробуйте сейчас и откройте для себя новые возможности визуального творчества! 🌟

🔥https://creatus.ai/image-animation-image-to-video

#AI #Видеогенератор #ИскусственныйИнтеллект #Технологии
​​CyberYozh выпускает новую партию бесплатных курсов про анонимность

Материал, как обычно, ходит по краю, но точно стоит вашего внимания. Вот список новинок:

😎 Proxy для Анонимности — громко заявляя, что сервисы и самодельные VPN — это дыра в вашей анонимности, ребята покажут и расскажут альтернативные варианты, как повысить приватность с помощью цепочек из Proxy, Tor и Whonix в разных комбинациях.

🔒 Компьютерная криминалистика (форензика) — курс, в котором вы узнаете, как можно получить удаленные файлы с защищённых или уничтоженных устройств и носителей.

😉 Шпионские устройства — расскажут про вооружение современных охотников за ублюдками. Дроны, глушилки и другие увлекательные девайсы нацеленные на слежку за целью.

Доступ откроют уже *24 июля*, одновременно с бесплатным онлайн-ивентом, где будут выступать хакеры, детективы и бывшие киберпреступники. Веселые ребята…
🚀 Новая IDE на Rust: Zed теперь доступен для Linux! 🐧

Zed — это мощная среда IDE, разработанная авторами Atom и Tree-sitter, и распространяемая по лицензии GPL. Основываясь на языке Rust, Zed предлагает пользователям:

🔹 Поддержка множества языков
🔹 Подсветка синтаксиса
🔹 Автоматическое выравнивание кода
🔹 Просмотр структуры кода
🔹 Автодополнение
🔹 Инструменты для совместной работы в реальном времени
🔹 Встроенный терминал
🔹 Режим Vim
🔹 Темы оформления

🔍 Уникальные функции Zed:

1. GPU-ускорение с Vulkan: Быстрая загрузка, мгновенное открытие больших файлов и низкая задержка ввода.
2. Интеграция с ChatGPT от OpenAI: Генерация кода, рефакторинг и устранение проблем с помощью ИИ.
3. Ненавязчивая ИИ-интеграция: Взаимодействие с ИИ в отдельной панели, не мешая основной работе.

✒️ Zed — отличный инструмент как для опытных разработчиков, так и для тех, кто только начинает свой путь в программировании. Однако, несмотря на удобства, помните, что ИИ не заменит человеческую изобретательность — GPT предлагает лишь решения, основанные на уже известных данных.

🔗 Подробнее и скачать: https://zed.dev/

#ZedIDE #Rust #Linux #Programming #OpenSource #IDE #ChatGPT
🚀 Языки программирования для Machine Learning: что выбрать? 🤖

Machine Learning (ML) стремительно преобразует множество сфер нашей жизни. Но какой язык программирования выбрать, чтобы максимально эффективно работать в этой области? Давайте рассмотрим наиболее популярные варианты.

1. Python 🐍

Пожалуй, самый популярный язык для ML благодаря огромному количеству библиотек и фреймворков:
- TensorFlow, Keras, PyTorch: для создания и обучения моделей.
- Pandas, NumPy, Scikit-learn: для работы с данными и их предварительной обработки.

🔹 Почему Python? Прост в изучении, множество открытых ресурсов и сообществ.

2. R 📊

Специализирован для статистики и визуализации данных. Отлично подходит для исследователей и аналитиков:
- Caret, randomForest: для создания моделей.
- ggplot2, Shiny: для визуализации и разработки интерактивных приложений.

🔹 Почему R? Идеален для анализа данных и построения моделей с мощными инструментами визуализации.

3. Java

Широко используется в корпоративных решениях и обладает высокой производительностью:
- Weka, Deeplearning4j: библиотеки для ML.
- Apache Spark MLlib: распределенные вычисления для анализа данных.

🔹 Почему Java? Отличается стабильностью, масштабируемостью и хорош для больших корпоративных проектов.

4. C++ 💻

Изначально используется для проектов, требующих высокой производительности:
- CNTK: фреймворк для обучения глубоких нейронных сетей от Microsoft.
- FastAI: интерфейс к PyTorch для быстрого построения ML-моделей.

🔹 Почему C++? Высокая скорость выполнения и контроль над ресурсами.

5. Julia 📈

Относительно новый язык, который набирает популярность в ML благодаря своей скорости и простоте:
- Flux.jl, MLJ.jl: фреймворки для Machine Learning.
- DataFrames.jl: работа с данными.

🔹 Почему Julia? Высокая производительность и простота синтаксиса, удобство для научных вычислений.

А каким языком программирования пользуетесь вы для проектов в ML? Делитесь в комментариях!👇

#MachineLearning #Python #R #Java #C++ #Julia #DataScience #AI #Programming
🚀 julius.ai | Новая степень автоматизации EDA!

Условно бесплатная нейронка на видео демонстрирует потрясающие возможности: обрабатывает таблицу с 6,5K (!) кандидатами с HeadHunter, фильтрует неразработчиков и создает группированные столбчатые диаграммы по грейдам (Junior, Middle, Senior) и языкам (Go, PHP, Python и др.).

👉 Хотите увидеть это в действии?
https://www.youtube.com/@Julius-AI
#llm #gpt
​​Факт-чекинг для LLM: Может ли дообучение на новых данных вызвать галлюцинации?

📚 Основные моменты:
- Дообучение больших языковых моделей (LLM) на новых фактических данных может привести к генерации фактически неверных ответов, известных как галлюцинации.
- Контролируемые исследования в задачах вопросов и ответов (QA) показывают, что LLM сложно быстро усваивать новую информацию через дообучение.
- Примеры новых данных усваиваются значительно медленнее, чем те, которые соответствуют уже известным модели знаниям.

🔍 Результаты:
- По мере постепенного усвоения новой информации через дообучение, склонность LLM к галлюцинациям линейно возрастает.
- Лучшие результаты достигаются, когда модель усваивает большинство известных примеров, но только несколько новых.
- Введение слишком большого количества новой информации во время дообучения может снизить общую точность модели.

⚠️ Выводы:
- Необходимо тщательно балансировать количество новых данных при дообучении, чтобы предотвратить галлюцинации.
- LLM в основном приобретают фактические знания через предобучение, а дообучение оптимизирует использование этих знаний.

🤖 Детали исследования:
- Исследование включает смесь известных и новых примеров во время дообучения.
- Точная категоризация примеров на известные и новые с помощью структуры SliCK помогает оценить поведение модели при обучении.

#LLM #МашинноеОбучение #AIResearch #Дообучение #Галлюцинации

🔗 Читать полную статью
2025/07/14 01:59:34
Back to Top
HTML Embed Code: