Открытый код ФКН ВШЭ
Вебинары по разработке кода для всех Приглашаем вас на серию открытых вебинаров по разработке кода. Мы обсудим командную работу над проектами на платформе Github, научимся создавать воспроизводимые и качественные проекты, а также публиковать их на известных…
Forwarded from ODS Events
Привет!
VK RecSys Challenge: запустили соревнование с AI VK 🔥
To like or not to like? Вот в чем вопрос!
Приглашаем принять участие всех, кто занимается рексистемами и хочет еще лучше прокачать свои навыки в построении моделей на реальной задаче компании 😎
Соревнование длится до 22 декабря, можно участвовать как индивидуально, так и объединяться в команды.
Чтобы узнать все детали и стать участником — переходите на страницу соревнования ⬅️👀
🦜 Хаб VK на ods.ai
VK RecSys Challenge: запустили соревнование с AI VK 🔥
To like or not to like? Вот в чем вопрос!
Приглашаем принять участие всех, кто занимается рексистемами и хочет еще лучше прокачать свои навыки в построении моделей на реальной задаче компании 😎
Соревнование длится до 22 декабря, можно участвовать как индивидуально, так и объединяться в команды.
Чтобы узнать все детали и стать участником — переходите на страницу соревнования ⬅️👀
Please open Telegram to view this post
VIEW IN TELEGRAM
Бесплатный онлайн-курс по Git
Центр непрерывного образования факультета компьютерных приглашает присоединиться к бесплатному онлайн-курсу «Введение в GIT» тех, кто начинает свой путь в программировании и разработке.
Курс состоит из 5 уроков:
- Что такое Git?
- Добавление изменений в коммит и загрузка на удалённый репозиторий
- Управление изменениями, отмена операций, выбор определённого коммита
- Работа с ветками в репозитории
- Слияние веток, merge и rebase, политики работы с ветками
В Центре непрерывного образования в онлайн-формате можно освоить и другие навыки, необходимые для входа в IT: Python, SQL, инструменты бизнес-аналитики. У курсов есть бесплатные модули, к которым вы можете присоединиться уже сейчас. Подробная информация: в телеграм-канале Центра.
Присоединиться и начать изучать Git
Центр непрерывного образования факультета компьютерных приглашает присоединиться к бесплатному онлайн-курсу «Введение в GIT» тех, кто начинает свой путь в программировании и разработке.
Курс состоит из 5 уроков:
- Что такое Git?
- Добавление изменений в коммит и загрузка на удалённый репозиторий
- Управление изменениями, отмена операций, выбор определённого коммита
- Работа с ветками в репозитории
- Слияние веток, merge и rebase, политики работы с ветками
В Центре непрерывного образования в онлайн-формате можно освоить и другие навыки, необходимые для входа в IT: Python, SQL, инструменты бизнес-аналитики. У курсов есть бесплатные модули, к которым вы можете присоединиться уже сейчас. Подробная информация: в телеграм-канале Центра.
Присоединиться и начать изучать Git
Truth-O-Meter
Разработанный на Python проект, позволяющий проверять достоверность сгенерированного большими языковыми моделями текста. Авторы приложения утверждают, что их метод позволяет детектировать галлюцинации и фактологические ошибки, производя веб-поиск по сгенерированному LLM тексту. После чего пользователь может получить скорректированный программой текст, подсвечивающий неточности и приводящий ссылки на достоверные источники в интернете. В серии работ авторы рассказывают о различных аспектах проекта, а так же проверяют состоятельность метода на датасете FEVER. Работа может быть полезна исследователям, работающими с генеративными и большими языковыми моделями, инженерам и Data Science специалистам.
статья|код|демо
Разработанный на Python проект, позволяющий проверять достоверность сгенерированного большими языковыми моделями текста. Авторы приложения утверждают, что их метод позволяет детектировать галлюцинации и фактологические ошибки, производя веб-поиск по сгенерированному LLM тексту. После чего пользователь может получить скорректированный программой текст, подсвечивающий неточности и приводящий ссылки на достоверные источники в интернете. В серии работ авторы рассказывают о различных аспектах проекта, а так же проверяют состоятельность метода на датасете FEVER. Работа может быть полезна исследователям, работающими с генеративными и большими языковыми моделями, инженерам и Data Science специалистам.
статья|код|демо
GitHub
GitHub - bgalitsky/Truth-O-Meter-Making-ChatGPT-Truthful: fact checking of GPT and other LLMs
fact checking of GPT and other LLMs. Contribute to bgalitsky/Truth-O-Meter-Making-ChatGPT-Truthful development by creating an account on GitHub.
Открытый код ФКН ВШЭ
Вебинары по разработке кода для всех Приглашаем вас на серию открытых вебинаров по разработке кода. Мы обсудим командную работу над проектами на платформе Github, научимся создавать воспроизводимые и качественные проекты, а также публиковать их на известных…
Guide-and-rescale
Код, позволяющий тренировать и инференсить диффузионную модель, способную редактировать изображение по текстовому запросу. В своей работе авторы исследуют метод гайденса для модели, благодаря которой траектория, вдоль которой семплируюется шум в диффузионной модели, не выходит из реального распределения данных. Это, в свою очередь, позволяет получить качественные и реалистичные изображения. Для достижения результата авторы вводят специальные энергетические функции, сохраняющие локальные свойства объектов на изображениях. Исследователи утверждают, что их подход эффективен с точки зрения вычислений, а так же показывают в ряде экспериментов его состоятельность. Код может быть полезен DL-исследователям, Data Science специалистам и ML-инженерам.
статья | код
Код, позволяющий тренировать и инференсить диффузионную модель, способную редактировать изображение по текстовому запросу. В своей работе авторы исследуют метод гайденса для модели, благодаря которой траектория, вдоль которой семплируюется шум в диффузионной модели, не выходит из реального распределения данных. Это, в свою очередь, позволяет получить качественные и реалистичные изображения. Для достижения результата авторы вводят специальные энергетические функции, сохраняющие локальные свойства объектов на изображениях. Исследователи утверждают, что их подход эффективен с точки зрения вычислений, а так же показывают в ряде экспериментов его состоятельность. Код может быть полезен DL-исследователям, Data Science специалистам и ML-инженерам.
статья | код
GitHub
GitHub - MACderRu/Guide-and-Rescale: Official Implementation for "Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning…
Official Implementation for "Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing" - MACderRu/Guide-and-Rescale
Открытый код ФКН ВШЭ
Вебинары по разработке кода для всех Приглашаем вас на серию открытых вебинаров по разработке кода. Мы обсудим командную работу над проектами на платформе Github, научимся создавать воспроизводимые и качественные проекты, а также публиковать их на известных…
Привет!
Сегодня мы отдыхаем и вебинара не будет. Следующий будет 1 ноября.
Зато записи предыдущих можно посмотреть здесь!
Сегодня мы отдыхаем и вебинара не будет. Следующий будет 1 ноября.
Зато записи предыдущих можно посмотреть здесь!
Truck
Проект с открытым исходным кодом, посвященный созданию и развитию 2.5D автономного транспортного средства на основе модели рулевого управления Аккермана, рассчитанного на пользование внутри помещения. Для перемещения робот использует систему лидаров, данные с которых затем обрабатываются нейросетями на микрокомпьютере Jetson для точной и быстрой навигации. Для управления всей системой авторы сконструировали и запрограммировали контроллеры и микропроцессоры, учитывая кинематические и электротехнические особенности своего робота. Проект может быть интересен программистам микроконтроллеров, специалистам по робототехнике, инженерам-разработчикам беспилотного транспорта, специалистам по машинному и глубокому обучению, а так же студентам, заинтересованным в изучении этих дисциплин.
код
Проект с открытым исходным кодом, посвященный созданию и развитию 2.5D автономного транспортного средства на основе модели рулевого управления Аккермана, рассчитанного на пользование внутри помещения. Для перемещения робот использует систему лидаров, данные с которых затем обрабатываются нейросетями на микрокомпьютере Jetson для точной и быстрой навигации. Для управления всей системой авторы сконструировали и запрограммировали контроллеры и микропроцессоры, учитывая кинематические и электротехнические особенности своего робота. Проект может быть интересен программистам микроконтроллеров, специалистам по робототехнике, инженерам-разработчикам беспилотного транспорта, специалистам по машинному и глубокому обучению, а так же студентам, заинтересованным в изучении этих дисциплин.
код
GitHub
GitHub - robotics-laboratory/truck: Self-driving truck
Self-driving truck. Contribute to robotics-laboratory/truck development by creating an account on GitHub.
Открытый код ФКН ВШЭ
Вебинары по разработке кода для всех Приглашаем вас на серию открытых вебинаров по разработке кода. Мы обсудим командную работу над проектами на платформе Github, научимся создавать воспроизводимые и качественные проекты, а также публиковать их на известных…
TensorNorm
Код на python, позволяющий считать и контролировать спектральную норму матрицы Якоби. Задача естественным образом возникает в обучении больших сверточных моделей. В своей работе авторы предлагают использовать тензоную спектральную норму для вычисления нормы всего сверточного слоя. Код вычисления нормы инвариантен к входному разрешению картинки и может быть эффективно вычислен во время обучения. В работе авторы выводят теоретическую верхнюю границу нормы, а в серии экспериментов показывают состоятельность метода, демонстрирую лучшую обобщающую способность моделей, регуляризированных с помощью данного подхода. Авторы также показывают, что их алгоритм показывает компромисс между точностью и скоростью вычисления. Код может быть полезен DL-исследователям разных областей и data-science специалистам.
код | статья
Код на python, позволяющий считать и контролировать спектральную норму матрицы Якоби. Задача естественным образом возникает в обучении больших сверточных моделей. В своей работе авторы предлагают использовать тензоную спектральную норму для вычисления нормы всего сверточного слоя. Код вычисления нормы инвариантен к входному разрешению картинки и может быть эффективно вычислен во время обучения. В работе авторы выводят теоретическую верхнюю границу нормы, а в серии экспериментов показывают состоятельность метода, демонстрирую лучшую обобщающую способность моделей, регуляризированных с помощью данного подхода. Авторы также показывают, что их алгоритм показывает компромисс между точностью и скоростью вычисления. Код может быть полезен DL-исследователям разных областей и data-science специалистам.
код | статья
GitHub
GitHub - GrishKate/conv_norm
Contribute to GrishKate/conv_norm development by creating an account on GitHub.
Forwarded from Yandex for Developers
Please open Telegram to view this post
VIEW IN TELEGRAM
DAIseg
Код, реализующий точный метод DAIseg для определения участков генома с древним происхождением, унаследованных современными людьми от неандертальцев и денисовцев. Новизной метода является одновременное использование “внешней группы” - неперемешанной популяции и образцов известных древних геномов в одной модели. Авторы утверждают, что их методы превосходят ранее разработанные аналоги, такие как метод HMMMix. Работа может быть полезна для дата аналитиков, data science специалистов и исследователей популяционной генетики.
статья | код
Код, реализующий точный метод DAIseg для определения участков генома с древним происхождением, унаследованных современными людьми от неандертальцев и денисовцев. Новизной метода является одновременное использование “внешней группы” - неперемешанной популяции и образцов известных древних геномов в одной модели. Авторы утверждают, что их методы превосходят ранее разработанные аналоги, такие как метод HMMMix. Работа может быть полезна для дата аналитиков, data science специалистов и исследователей популяционной генетики.
статья | код
GitHub
GitHub - Genomics-HSE/DAIseg: DAIseg method
DAIseg method. Contribute to Genomics-HSE/DAIseg development by creating an account on GitHub.
Привет!
Мы собрали для вас материалы по прошедшим вебинарам по разработке кода от Павла Ахтямова.
❣️ Записи всех вебинаров можно посмотреть здесь.
ℹ️ Слайды вебинаров можно скачать здесь.
👩💻 А еще у нас есть репозиторий, который Павел использовал для демонстраций.
Смотрите и прокачивайтесь!
Мы собрали для вас материалы по прошедшим вебинарам по разработке кода от Павла Ахтямова.
Смотрите и прокачивайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
Приглашаем всех на открытый семинар LAMBDA
Тема:
Linguacodus — фреймворк для генерации кода из текстовых описаний задач машинного обучения
Докладчик:
Трофимова Екатерина Алексеевна,
младший научный сотрудник LAMBDA
В статье представлен Linguacodus — фреймворк, разработанный для преобразования описаний задач машинного обучения на естественном языке в исполняемый код. Linguacodus использует динамический пайплайн, поэтапно переводя описания задач в высокоуровневые инструкции и затем в код.
Основой фреймворка является крупная языковая модель, дообученная для выбора наиболее подходящих решений для конкретных задач. В статье описаны этапы дообучения и подходы к переводу текстовых описаний в функциональный код. В ходе экспериментов на наборе кода с Kaggle мы продемонстрировали возможности Linguacodus для автоматизации задач в разных областях.
🔜 Когда: 18.11 в 14:40 МСК
🖥 Где: zoom
Если вам нравится код Linguacodus, ставьте свои⭐️ на GitHub!
Тема:
Linguacodus — фреймворк для генерации кода из текстовых описаний задач машинного обучения
Докладчик:
Трофимова Екатерина Алексеевна,
младший научный сотрудник LAMBDA
В статье представлен Linguacodus — фреймворк, разработанный для преобразования описаний задач машинного обучения на естественном языке в исполняемый код. Linguacodus использует динамический пайплайн, поэтапно переводя описания задач в высокоуровневые инструкции и затем в код.
Основой фреймворка является крупная языковая модель, дообученная для выбора наиболее подходящих решений для конкретных задач. В статье описаны этапы дообучения и подходы к переводу текстовых описаний в функциональный код. В ходе экспериментов на наборе кода с Kaggle мы продемонстрировали возможности Linguacodus для автоматизации задач в разных областях.
🖥 Где: zoom
Если вам нравится код Linguacodus, ставьте свои
Please open Telegram to view this post
VIEW IN TELEGRAM
GNN-Tox
Код, позволяющий выполнить предобучение для графовой модели для прогноза свойств молекул. Предлагаемый авторами метод - Descriptor-base Graph Self-Supervised Learning - позволяет включать центры дескрипторов в задачу предобучения на уровне узлов, решая основные проблемы предшественников: отсутствие информации о домене во вспомогательных задачах на уровне узлов и высокая вычислительная сложность одновременного обучения для методов на основе мотивов и на уровне узлов. В серии экспериментов исследователи сравнивают свой подход с существующими бейзлайнами предобучения, демонстрируя существенно возросшее качество прогноза. Код может быть полезен исследователям графовых нейронных сетей, молекулярной биологии, DL-исследователям и DS-специалистам.
статья | код
Код, позволяющий выполнить предобучение для графовой модели для прогноза свойств молекул. Предлагаемый авторами метод - Descriptor-base Graph Self-Supervised Learning - позволяет включать центры дескрипторов в задачу предобучения на уровне узлов, решая основные проблемы предшественников: отсутствие информации о домене во вспомогательных задачах на уровне узлов и высокая вычислительная сложность одновременного обучения для методов на основе мотивов и на уровне узлов. В серии экспериментов исследователи сравнивают свой подход с существующими бейзлайнами предобучения, демонстрируя существенно возросшее качество прогноза. Код может быть полезен исследователям графовых нейронных сетей, молекулярной биологии, DL-исследователям и DS-специалистам.
статья | код
GitHub
GitHub - li-xinze/GNN-Tox: Pytorch implementation of paper "Predicting Molecule Toxicity via Graph Neural Networks"
Pytorch implementation of paper "Predicting Molecule Toxicity via Graph Neural Networks" - li-xinze/GNN-Tox
understanding-largre-lrs
Репозиторий содержит код для обучения различных моделей компьютерного зрения в режиме предобучения с увеличенным learning rate (LR). Авторы работы исследуют влияние такого предобучения на финальное качество модели. Исследователи приходят к выводу, что предварительное обучение с умеренно большими LR, немного выше порога сходимости, позволяет получать наилучшие чекпоинты для последующего файнтюна или усреднения веса. С точки зрения геометрии обучение с этими значениями LR находит бассейн хорошо обобщающих решений в ландшафте функции потерь; с точки зрения обучения признаков эти решения соответствуют разреженному набору изученных признаков, которые наиболее полезны для задачи. Использование других значений LR может привести к неоптимальным результатам: либо нестабильным локальным минимумам, соответствующим плотному набору изученных признаков с меньшими LR, либо обширным областям с разнообразными минимумами и ухудшенным обучением признаков с большими LR. Код может быть полезен DL-исследователям, DS-специалистам и аналитикам данных.
статья | код
Репозиторий содержит код для обучения различных моделей компьютерного зрения в режиме предобучения с увеличенным learning rate (LR). Авторы работы исследуют влияние такого предобучения на финальное качество модели. Исследователи приходят к выводу, что предварительное обучение с умеренно большими LR, немного выше порога сходимости, позволяет получать наилучшие чекпоинты для последующего файнтюна или усреднения веса. С точки зрения геометрии обучение с этими значениями LR находит бассейн хорошо обобщающих решений в ландшафте функции потерь; с точки зрения обучения признаков эти решения соответствуют разреженному набору изученных признаков, которые наиболее полезны для задачи. Использование других значений LR может привести к неоптимальным результатам: либо нестабильным локальным минимумам, соответствующим плотному набору изученных признаков с меньшими LR, либо обширным областям с разнообразными минимумами и ухудшенным обучением признаков с большими LR. Код может быть полезен DL-исследователям, DS-специалистам и аналитикам данных.
статья | код
GitHub
GitHub - isadrtdinov/understanding-large-lrs: Source code for NeurIPS-2024 paper "Where Do Large Learning Rates Lead Us"
Source code for NeurIPS-2024 paper "Where Do Large Learning Rates Lead Us" - isadrtdinov/understanding-large-lrs
Indecies-kmeans
Репозиторий содержит код для поиска оптимального количества кластеров К для алгоритма кластеризации k-средних. В своей работе авторы исследуют метод инерции, основанным на новом Elbow индексе для определения числа кластеров, валидируя результат по метрике Силуэт. Исследователи отмечают, что инерциальные индексы работают лучше всего при усреднении результатов нескольких запусков кластеризации, а не при выборе лучшего, как считалось ранее. В конце авторы замечают, что однозначно лучшего индекса для определения количества кластеров выявить не удалось. Индекс SW (ширина силуэта) обычно приводит к наиболее сбалансированным решениям. Тем не менее, индекс XU превосходит SW на синтетических данных с большими кластерными смесями, особенно для данных меньшей размерности. Код может быть полезен дата аналитикам и DS-специалистам, а так же исследователям в области машинного обучения.
статья | код
Репозиторий содержит код для поиска оптимального количества кластеров К для алгоритма кластеризации k-средних. В своей работе авторы исследуют метод инерции, основанным на новом Elbow индексе для определения числа кластеров, валидируя результат по метрике Силуэт. Исследователи отмечают, что инерциальные индексы работают лучше всего при усреднении результатов нескольких запусков кластеризации, а не при выборе лучшего, как считалось ранее. В конце авторы замечают, что однозначно лучшего индекса для определения количества кластеров выявить не удалось. Индекс SW (ширина силуэта) обычно приводит к наиболее сбалансированным решениям. Тем не менее, индекс XU превосходит SW на синтетических данных с большими кластерными смесями, особенно для данных меньшей размерности. Код может быть полезен дата аналитикам и DS-специалистам, а так же исследователям в области машинного обучения.
статья | код
tabgraphs
Бенчмарк для обучения на графах для табличных данных с гетерогенными признаками-вершинами. Авторы оценивают большое количество моделей, включая стандартные бейзлайны и нейросетевые модели для графовых и табличных задач. В экспериментальной части исследователи показывают, что несколько ранее упускаемых из виду модификаций моделей, таких как аугментация признаков-вершин на основе соседства графа для графонезависимых табличных моделей или числовые эмебддинги признаков для GNN, позволяют достичь наилучшей производительности на таких данных. Работа может быть полезна DS-специалистам, а так же ML-исследователям, фокусирующимся на табличных данных или графовых моделях.
статья | код
Бенчмарк для обучения на графах для табличных данных с гетерогенными признаками-вершинами. Авторы оценивают большое количество моделей, включая стандартные бейзлайны и нейросетевые модели для графовых и табличных задач. В экспериментальной части исследователи показывают, что несколько ранее упускаемых из виду модификаций моделей, таких как аугментация признаков-вершин на основе соседства графа для графонезависимых табличных моделей или числовые эмебддинги признаков для GNN, позволяют достичь наилучшей производительности на таких данных. Работа может быть полезна DS-специалистам, а так же ML-исследователям, фокусирующимся на табличных данных или графовых моделях.
статья | код
GitHub
GitHub - yandex-research/tabgraphs: A benchmark of meaningful graph datasets with tabular node features
A benchmark of meaningful graph datasets with tabular node features - yandex-research/tabgraphs
reparameterized-volume-sampling
Имплементация end-to-end дифференцируемого метода по семплированию точек луча для задачи синтеза новых сцен из набора изображений. Метод основан на оценках Монте-Карло и позволяет улучшать иерархическую схему рендеринга, представленную в ставшей уже классической статье NeRF. В серии экспериментов авторы показывают превосходство подхода на этапе инференса, используя предобученную модель. Те же эксперименты выявляют проблемы метода при использовании во врем обучения модели. Исследователи утверждают, что их алгоритм семплинга улучшает реконструкцию сцен для иерархических моделей и упрощает процедуру обучения, позволяя избавиться от дополнительных слагаемых в функции потерь. Работа может быть полезна дизайнерам и DL-исследователям.
статья | код
Имплементация end-to-end дифференцируемого метода по семплированию точек луча для задачи синтеза новых сцен из набора изображений. Метод основан на оценках Монте-Карло и позволяет улучшать иерархическую схему рендеринга, представленную в ставшей уже классической статье NeRF. В серии экспериментов авторы показывают превосходство подхода на этапе инференса, используя предобученную модель. Те же эксперименты выявляют проблемы метода при использовании во врем обучения модели. Исследователи утверждают, что их алгоритм семплинга улучшает реконструкцию сцен для иерархических моделей и упрощает процедуру обучения, позволяя избавиться от дополнительных слагаемых в функции потерь. Работа может быть полезна дизайнерам и DL-исследователям.
статья | код
GitHub
GitHub - GreatDrake/reparameterized-volume-sampling: Official code for Differentiable Rendering with Reparameterized Volume Sampling…
Official code for Differentiable Rendering with Reparameterized Volume Sampling (AISTATS 2024) - GreatDrake/reparameterized-volume-sampling
TabM
Репозиторий, содержащий имплементацию TabM — модели, эффективно имитирующей ансамбль многослойных перцептронов для решения задач на табличных данных. Для этого вводятся специальные адаптеры - матрицы, чьи элементы равны ± 1. Эти адаптеры эффективно создают уникальные версии матрицы весов, за счет чего и имитируется ансамбль. В итоговой архитектуре такой адаптер применяется только ко всем копиям одного входа, которые затем подаются в линейные слои. В серии экспериментов авторы показывают существенное превосходство метода для задач на табличных данных по сравнению с другими классическими и нейросетевыми подходами, в том числе использующие механизм внимания. Модель также демонстрирует лучшую скорость обучения и инференса, уступая лишь стандартному MLP и XGBoost. Работа может быть полезна аналитикам, DS-специалистам и DL-исследователям.
статья | код
Репозиторий, содержащий имплементацию TabM — модели, эффективно имитирующей ансамбль многослойных перцептронов для решения задач на табличных данных. Для этого вводятся специальные адаптеры - матрицы, чьи элементы равны ± 1. Эти адаптеры эффективно создают уникальные версии матрицы весов, за счет чего и имитируется ансамбль. В итоговой архитектуре такой адаптер применяется только ко всем копиям одного входа, которые затем подаются в линейные слои. В серии экспериментов авторы показывают существенное превосходство метода для задач на табличных данных по сравнению с другими классическими и нейросетевыми подходами, в том числе использующие механизм внимания. Модель также демонстрирует лучшую скорость обучения и инференса, уступая лишь стандартному MLP и XGBoost. Работа может быть полезна аналитикам, DS-специалистам и DL-исследователям.
статья | код
GitHub
GitHub - yandex-research/tabm: TabM: Advancing Tabular Deep Learning With Parameter-Efficient Ensembling
TabM: Advancing Tabular Deep Learning With Parameter-Efficient Ensembling - yandex-research/tabm