Forwarded from kosmonozhka
"Я просил Бога о каком-то чуде. Да-да, надо чудо. Все равно какое чудо. Я зажёг лампу и посмотрел вокруг. Все было по-прежнему. Но ничего и не должно было измениться в моей комнате. Должно измениться что-то во мне". (Хармс)
У меня на самом деле очень хармсовское отношение к чудесам и их необходимости. Вот и этот комикс он тоже про чудо, про ожидание, про одиночество. Календарь этого года про одиночество и чудо. Старый комикс, который я публикую каждый раз 31 декабря — про одиночество и чудо. Каждый раз в комментарии приходят люди, полные сил и жизни, и рекомендуют не ныть и взять всё в свои руки (как будто это что-то гарантирует). Но я рисую не совсем для них, им и помимо меня есть кому обеспечить веселье. Я рисую в основном для тех, кому плохо, особенно кому плохо уже долго, несмотря на честные попытки взять в свои руки и вот это всё. Комикс для тех, кому в новогоднюю ночь одиноко. Для вас, для себя. Напоминание.
#kosmonozhka
У меня на самом деле очень хармсовское отношение к чудесам и их необходимости. Вот и этот комикс он тоже про чудо, про ожидание, про одиночество. Календарь этого года про одиночество и чудо. Старый комикс, который я публикую каждый раз 31 декабря — про одиночество и чудо. Каждый раз в комментарии приходят люди, полные сил и жизни, и рекомендуют не ныть и взять всё в свои руки (как будто это что-то гарантирует). Но я рисую не совсем для них, им и помимо меня есть кому обеспечить веселье. Я рисую в основном для тех, кому плохо, особенно кому плохо уже долго, несмотря на честные попытки взять в свои руки и вот это всё. Комикс для тех, кому в новогоднюю ночь одиноко. Для вас, для себя. Напоминание.
#kosmonozhka
Forwarded from DLStories
С Новым Годом! Желаю всем не продолбать этот новый год. А если вам скучно на январских, то у меня для вас есть новый выпуск подкаста Deep Learning Stories!
Гость этого выпуска — Лаида Кушнарева, выпускница мехмата МГУ, старший академический консультант в компании Хуавей и автор телеграмм канала "Техножрица". А еще Лаида — первый автор нашей совместной статьи "Boundary detection in mixed AI-human texts", которая получила outstanding paper award на COLM в октябре.
Обсудили с Лаидой в подкасте:
- Путь Лаиды в рисерче;
- Задачу fake text detection: почему она сложная, что там интересного, как сейчас обстоят дела, и что насчет будущего этой задачи;
- Устройство процесса ревью и принятия научных статей. Как остаться честным в этом всем;
- Как Лаида использует математику в работе, и помогает ли ей математическое образование.
Ссылки:
🔊YouTube
🔊VK
🔊Apple Podcasts
🔊Spotify
🔊Яндекс.Музыка
------------------
Школа DLSchool и подкаст живут во многом благодаря вашей поддержке. Поддержать нас можно на Boosty, мы будем очень рады❤️
Гость этого выпуска — Лаида Кушнарева, выпускница мехмата МГУ, старший академический консультант в компании Хуавей и автор телеграмм канала "Техножрица". А еще Лаида — первый автор нашей совместной статьи "Boundary detection in mixed AI-human texts", которая получила outstanding paper award на COLM в октябре.
Обсудили с Лаидой в подкасте:
- Путь Лаиды в рисерче;
- Задачу fake text detection: почему она сложная, что там интересного, как сейчас обстоят дела, и что насчет будущего этой задачи;
- Устройство процесса ревью и принятия научных статей. Как остаться честным в этом всем;
- Как Лаида использует математику в работе, и помогает ли ей математическое образование.
Ссылки:
🔊YouTube
🔊VK
🔊Apple Podcasts
🔊Spotify
🔊Яндекс.Музыка
------------------
Школа DLSchool и подкаст живут во многом благодаря вашей поддержке. Поддержать нас можно на Boosty, мы будем очень рады❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
И ещё немного на тему #подкасты .
Появился вот такой новогодний выпуск любимого мною ML подкаста с гостем, который уже известен существенной части подписчиков по своему учебнику про глубокое обучение, а также различным докладам и статьям (некоторые из которых были написаны в соавторстве со мной), Сергеем Николенко:
https://www.tgoop.com/toBeAnMLspecialist/920
Выпуск заинтересовал меня своей тематикой - обсуждалось то, как AI помогает исследованиям в математике и в других науках, так что слушать было интересно.
И раз уж я рассказала про этот выпуск, заодно поделюсь ещё одной новостью: Сергей наконец-то завел свой канал -
https://www.tgoop.com/sinecor
Пока что там только пара вводных постов. Посмотрим, что будет дальше🍿
Появился вот такой новогодний выпуск любимого мною ML подкаста с гостем, который уже известен существенной части подписчиков по своему учебнику про глубокое обучение, а также различным докладам и статьям (некоторые из которых были написаны в соавторстве со мной), Сергеем Николенко:
https://www.tgoop.com/toBeAnMLspecialist/920
Выпуск заинтересовал меня своей тематикой - обсуждалось то, как AI помогает исследованиям в математике и в других науках, так что слушать было интересно.
И раз уж я рассказала про этот выпуск, заодно поделюсь ещё одной новостью: Сергей наконец-то завел свой канал -
https://www.tgoop.com/sinecor
Пока что там только пара вводных постов. Посмотрим, что будет дальше
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Стать специалистом по машинному обучению
С Наступающим Новым годом, друзья!
В эфире праздничный выпуск 🙂 В гостях Сергей Николенко - доктор физико-математических наук, старший научный сотрудник ПОМИ РАН, доцент ФМКН СПбГУ, Head of AI компании Synthesis AI, исследователь в области машинного обучения…
В эфире праздничный выпуск 🙂 В гостях Сергей Николенко - доктор физико-математических наук, старший научный сотрудник ПОМИ РАН, доцент ФМКН СПбГУ, Head of AI компании Synthesis AI, исследователь в области машинного обучения…
Forwarded from какая-то библиотека
Этот материал поможет вам эффективно работать с научной литературой, начиная от постановки цели и поиска источников до их анализа и систематизации.
- Зачем нужна научная литература?
- Поиск информации для научной работы
- Использование сетей цитирования и ИИ-инструментов
- Международные базы (Scopus, Web of Science, BASE)
- Тематические ресурсы для гуманитарных, естественных и технических наук
- Российские базы данных: РИНЦ, КиберЛенинка, НЭБ
- Легальные и альтернативные способы получения статей
- Как выбрать релевантные источники
- Оценка качества изданий, авторов и контекста цитирования.
- Библиографические менеджеры
Для студентов, которые хотят писать курсовые и дипломные работы быстро и качественно. Для тех, кто ищет оптимальные способы работы с научной информацией.
Скачайте гайд и начните свой путь к научным успехам!
Please open Telegram to view this post
VIEW IN TELEGRAM
Google Docs
Гайд для студентов
Гайд для студентов по поиску и анализу научной информации Подписывайтесь на наш телеграм-канал [https://www.tgoop.com/selfmadeLibrary] и поддержите нас на Бусти [https://boosty.to/newsinserity/donate] Оглавление Оглавление
2 Введение
3 Зачем нужна научная литература?…
2 Введение
3 Зачем нужна научная литература?…
161821.gif
1.2 MB
Атмосфера в комментариях любого ML паблика без автоматической модерации через 0.0001 наносекунду после поста в последние несколько дней
Forwarded from Проветримся!
This media is not supported in your browser
VIEW IN TELEGRAM
К вопросу о том, как выглядит безопасный искусственный интеллект by design:
Моделька для генерации видео по картинке Kling v1.6, получив на выход проблему вагонетки, сгенерировала трамвай медленно пятящийся подальше от прикрученнных к рельсам людей.
Моделька для генерации видео по картинке Kling v1.6, получив на выход проблему вагонетки, сгенерировала трамвай медленно пятящийся подальше от прикрученнных к рельсам людей.
Forwarded from Artem Khrapov
This media is not supported in your browser
VIEW IN TELEGRAM
Ещё такое решение мне нравится)
В стиле доктора Манхеттена какого-нибудь
В стиле доктора Манхеттена какого-нибудь
Похвастаюсь продуктивно проведенным последним днём каникул: этот красавец вчера убил ТРЁХ космодесов-саламандр 😈 😈 😈 (киллтим)
Please open Telegram to view this post
VIEW IN TELEGRAM
Полтора года назад я упоминала в паблике статью "Representation Engineering: A Top-Down Approach to AI Transparency" ( пост: https://www.tgoop.com/tech_priestess/974 , статья: https://arxiv.org/abs/2310.01405 ).
Напомню основной прикол: авторы этой статьи находили такие направления в пространстве эмбеддингов языковой модели, которые соответствуют определенным концептам / аспектам поведения этой модели. Например, нашли направление, соответствующее концепции "Truthfulness": если сдвинуть эмбеддинг последнего слоя вдоль этого направления в положительную сторону (т.е. прибавить к нему вектор "Truthfulness" с положительным коэффициентом), то модель станет наукоботом - начнет отрицать псевдонауку, высказывать сентенции, соответствующие общепринятым представлениям о критическом мышлении и даже более правильно отвечать на некоторые фактические вопросы. И наоборот, если сдвинуться в сторону отрицательного "Truthfulness", то модель станет шизом - начнет верить в теории заговоров, лечение методами доктора Попова и инопланетян в зоне 51. Проверялась наукоботность / шизовость модели на датасете TruthfulQA ( https://arxiv.org/abs/2109.07958 ), который, может быть, немного спорен, но основную суть улавливает. Находили и многие другие прикольные направления в пространстве эмбеддингов, которые делают модель более честной / нечестной, моралфагом / психопатом, меняют ее настроение на хорошее / плохое и т.п.
Так вот. Я время от времени вспоминала эту статью в связи с разными обсуждениями вопросов интерпретируемости и alignment, а недавно мне на глаза попалась ещё пара препринтов, продолжающих ту же тему и более свежих. Так что я решила сегодня написать о них пару слов.
#объяснения_статей
Напомню основной прикол: авторы этой статьи находили такие направления в пространстве эмбеддингов языковой модели, которые соответствуют определенным концептам / аспектам поведения этой модели. Например, нашли направление, соответствующее концепции "Truthfulness": если сдвинуть эмбеддинг последнего слоя вдоль этого направления в положительную сторону (т.е. прибавить к нему вектор "Truthfulness" с положительным коэффициентом), то модель станет наукоботом - начнет отрицать псевдонауку, высказывать сентенции, соответствующие общепринятым представлениям о критическом мышлении и даже более правильно отвечать на некоторые фактические вопросы. И наоборот, если сдвинуться в сторону отрицательного "Truthfulness", то модель станет шизом - начнет верить в теории заговоров, лечение методами доктора Попова и инопланетян в зоне 51. Проверялась наукоботность / шизовость модели на датасете TruthfulQA ( https://arxiv.org/abs/2109.07958 ), который, может быть, немного спорен, но основную суть улавливает. Находили и многие другие прикольные направления в пространстве эмбеддингов, которые делают модель более честной / нечестной, моралфагом / психопатом, меняют ее настроение на хорошее / плохое и т.п.
Так вот. Я время от времени вспоминала эту статью в связи с разными обсуждениями вопросов интерпретируемости и alignment, а недавно мне на глаза попалась ещё пара препринтов, продолжающих ту же тему и более свежих. Так что я решила сегодня написать о них пару слов.
#объяснения_статей
Telegram
Техножрица 👩💻👩🏫👩🔧
Интересный рассказ с картинками про то, как приноровились менять поведение предтренированной модели, воздействуя непосредственно на её эмбеддинги:
https://www.tgoop.com/seeallochnaya/682
https://www.tgoop.com/seeallochnaya/685
https://www.tgoop.com/seeallochnaya/687
(Три последовательных…
https://www.tgoop.com/seeallochnaya/682
https://www.tgoop.com/seeallochnaya/685
https://www.tgoop.com/seeallochnaya/687
(Три последовательных…
Так, в статье "Analyzing the Generalization and Reliability of Steering Vectors" ( https://arxiv.org/abs/2407.12404 ) анализируют проблемы с обобщаемостью одного, очень простого метода нахождения таких вот концептуальных векторов (их здесь называют "steering vectors", так как с их помощью можно контролировать модель, как бы рулить ею).
Суть метода такова: модели задают вопрос, связанный с определенным концептом, например, тем же Truthfulness, и перечисляют два варианта ответа: например, под буквой A предлагают наукоботный ответ, а под B - шизовый. В общем, делают обычный Multi-Choice Question Answering. Далее берут представление токена буквы А и представление токена буквы B, отнимают одно от другого. Повторяют то же самое для всех вопросов из целевого датасета, усредняют и получают векторшизы Truthfulness.
Авторы статьи показали, что steering vectors, найденные таким методом и хорошо работающие на одном датасете, часто существенно хуже работают на другом. Кроме того, эти steering vectors как бы сплетаются с "шумными", ненужными нам свойствами эмбеддинга. В общем, конкретный steering vector может сильно зависеть от деталей реализации алгоритма, с помощью которого он получен и от данных, на которых он получен.
—
Что же касается второй статьи, "Beyond Single Concept Vector: Modeling Concept Subspace in LLMs with Gaussian Distribution" ( https://arxiv.org/abs/2410.00153 ), тут авторы решили искать вместо одного вектора-концепта целое подпространство-концепт. Для этого они разбивали датасет с примерами на большое количество под-датасетов, и для каждого под-датасета считали steering vector независимо, так что получался не один, а целое множество векторов (метод их нахождения, кстати, отличался от описанного в предыдущей статье). Далее, авторы предположили, что эти вектора являются сэмплами из некоторого d-мерного гауссовского распределения (где d - размерность эмбеддинга) с диагональной ковариационной матрицей, т.е. такого, где каждая координата независима (это допущение, конечно, делалось из соображений экономии вычислений). Ну а потом посчитали параметры распределения и назвали это Gaussian Concept Subspace-ом, для краткости, GCS.
Далее, авторы сэмплировали вектора из этого GCS и показывали, что они действительно отражают смысл концепта (например, смещение по вектору, соответствующему положительному / отрицательному отзыву, действительно делает отзыв таковым - проверялось это с помощью автоматического evaluation).
Добавлю пару комментариев от себя : как мне кажется, методология в этой статье несколько спорная, а практическая польза пока не ясна, т.к. для влияния на выход модели достаточно использовать просто усреднение всех steering vectors вместо сэмплирования из распределения. Однако, направление мысли мне понравилось. Действительно, концепты, подобные тем, что находят в этих статьях, вряд ли на самом деле укладываются в один вектор, и было бы неплохо перейти от steering vectors к steering subspaces или чему-то ещё такому, более обобщенному.
—
Из любопытного напоследок могу отметить, что в каждой из трех перечисленных статей рассматривали разные методы нахождения steering vectors и местами использовали разную терминологию, что говорит о том, что данная область исследований пока только нарождается и, возможно, в будущем принесет ещё больше интересного.
#объяснения_статей
Суть метода такова: модели задают вопрос, связанный с определенным концептом, например, тем же Truthfulness, и перечисляют два варианта ответа: например, под буквой A предлагают наукоботный ответ, а под B - шизовый. В общем, делают обычный Multi-Choice Question Answering. Далее берут представление токена буквы А и представление токена буквы B, отнимают одно от другого. Повторяют то же самое для всех вопросов из целевого датасета, усредняют и получают вектор
Авторы статьи показали, что steering vectors, найденные таким методом и хорошо работающие на одном датасете, часто существенно хуже работают на другом. Кроме того, эти steering vectors как бы сплетаются с "шумными", ненужными нам свойствами эмбеддинга. В общем, конкретный steering vector может сильно зависеть от деталей реализации алгоритма, с помощью которого он получен и от данных, на которых он получен.
—
Что же касается второй статьи, "Beyond Single Concept Vector: Modeling Concept Subspace in LLMs with Gaussian Distribution" ( https://arxiv.org/abs/2410.00153 ), тут авторы решили искать вместо одного вектора-концепта целое подпространство-концепт. Для этого они разбивали датасет с примерами на большое количество под-датасетов, и для каждого под-датасета считали steering vector независимо, так что получался не один, а целое множество векторов (метод их нахождения, кстати, отличался от описанного в предыдущей статье). Далее, авторы предположили, что эти вектора являются сэмплами из некоторого d-мерного гауссовского распределения (где d - размерность эмбеддинга) с диагональной ковариационной матрицей, т.е. такого, где каждая координата независима (это допущение, конечно, делалось из соображений экономии вычислений). Ну а потом посчитали параметры распределения и назвали это Gaussian Concept Subspace-ом, для краткости, GCS.
Далее, авторы сэмплировали вектора из этого GCS и показывали, что они действительно отражают смысл концепта (например, смещение по вектору, соответствующему положительному / отрицательному отзыву, действительно делает отзыв таковым - проверялось это с помощью автоматического evaluation).
Добавлю пару комментариев от себя : как мне кажется, методология в этой статье несколько спорная, а практическая польза пока не ясна, т.к. для влияния на выход модели достаточно использовать просто усреднение всех steering vectors вместо сэмплирования из распределения. Однако, направление мысли мне понравилось. Действительно, концепты, подобные тем, что находят в этих статьях, вряд ли на самом деле укладываются в один вектор, и было бы неплохо перейти от steering vectors к steering subspaces или чему-то ещё такому, более обобщенному.
—
Из любопытного напоследок могу отметить, что в каждой из трех перечисленных статей рассматривали разные методы нахождения steering vectors и местами использовали разную терминологию, что говорит о том, что данная область исследований пока только нарождается и, возможно, в будущем принесет ещё больше интересного.
#объяснения_статей
arXiv.org
Analyzing the Generalization and Reliability of Steering Vectors
Steering vectors (SVs) have been proposed as an effective approach to adjust language model behaviour at inference time by intervening on intermediate model activations. They have shown promise in...
Forwarded from Labrats
С развитием технологий машинного обучения становится все труднее отличать текст, написанный машиной, от текста, написанного студентом, обученным на примерах, сгенерированных чатжпт
Forwarded from Дата канальи — про «специалистов» в данных / ML / AI
Кстати про технические сложности
Вспомнился старый кейс, где я вовсю ощутил свой недостаток образования в Computer Science.
В далеком кризисе 2014 года меня приютила одна по доброте душевной (а там правда очень классные люди) компания, которая разрабатывала софт для нефтяной сейсмики. У Яндекса там была существенная доля и хорошее отношение – которое выражалось, например в том что компания называлась Яндекс.Терра, а сотрудники могли быть слушателями ШАД.
Разработка на C/ С++ это вот ни разу не python или Matlab (мой основной иснтрумент тогда), и я в нее не умел (о чем честно сказал на входе). А задачи были – писать модули для той большой системы, и на старте мне дали достаточно простые – одноканальная обработка сигналов, всякие фильтрации/свертки, немного со спектрами и кепстрами.
И как-то мне нужно было пройтись по спектру с шагом 0.1 Гц, что-то сделать, а затем к результату применить обратное Фурье. Только вот не всегда результат обратного преобразования Фурье будет вещественнозначным ) Поэтому делать надо было аккуратно, с первого раза в C не получилось. Списав все на свои кривые руки, решил сделать в матлабе. И там волшебным образом все заработало!
Несколько дней я потратил, пытаясь добиться того же результата в C – без шанса 🙈🤯.
В матлабе же не только индексация массивов отличается)
В итоге пошел на поклон к синьору и тут вскрылся мой недостаток образования на тот момент в CS. Что-то о свойствах вещественных чисел я знал (что на равенство сравнивать нельзя, ибо хранятся они в некотором приближении), но вот глубоко не копал – на чем и погорел.
В чем же была проблема?
Как это выглядело в Matlab:
Аналогично на python:
И вот то же самое (на самом деле нет) на C:
Дело было в том что 0.1 в двоичном виде непредставима как конечная дробь, только как периодическая. А с ограничением точности (float против double, который по умолчанию в python) при суммировании ошибка накопилась и достигла настолько существенных величин, что обратное Фурье становилось комплексным 😱.
PS как-то у коллеги видел очень похожую ситуацию в python (только там он при чтении из файла во float сохранил), уже в 16м, подсказал – помогло.
А копать с тех пор стараюсь поглубже 🪆
Вспомнился старый кейс, где я вовсю ощутил свой недостаток образования в Computer Science.
В далеком кризисе 2014 года меня приютила одна по доброте душевной (а там правда очень классные люди) компания, которая разрабатывала софт для нефтяной сейсмики. У Яндекса там была существенная доля и хорошее отношение – которое выражалось, например в том что компания называлась Яндекс.Терра, а сотрудники могли быть слушателями ШАД.
Разработка на C/ С++ это вот ни разу не python или Matlab (мой основной иснтрумент тогда), и я в нее не умел (о чем честно сказал на входе). А задачи были – писать модули для той большой системы, и на старте мне дали достаточно простые – одноканальная обработка сигналов, всякие фильтрации/свертки, немного со спектрами и кепстрами.
И как-то мне нужно было пройтись по спектру с шагом 0.1 Гц, что-то сделать, а затем к результату применить обратное Фурье. Только вот не всегда результат обратного преобразования Фурье будет вещественнозначным ) Поэтому делать надо было аккуратно, с первого раза в C не получилось. Списав все на свои кривые руки, решил сделать в матлабе. И там волшебным образом все заработало!
Несколько дней я потратил, пытаясь добиться того же результата в C – без шанса 🙈🤯.
В матлабе же не только индексация массивов отличается)
В итоге пошел на поклон к синьору и тут вскрылся мой недостаток образования на тот момент в CS. Что-то о свойствах вещественных чисел я знал (что на равенство сравнивать нельзя, ибо хранятся они в некотором приближении), но вот глубоко не копал – на чем и погорел.
В чем же была проблема?
Как это выглядело в Matlab:
d = 0;
for i = 1:10000
d = d + 0.1;
end
fprintf('%.25f', d)
>>> 1000.0000000001588205122970976
Аналогично на python:
d = 0
for i in range(10_000):
d += 0.1
print(d)
>>> 1000.0000000001588
И вот то же самое (на самом деле нет) на C:
float d = 0;
for (int i = 0; i < 10000; ++i)
{
d += 0.1;
}
printf("%.6f", d);
>>> 999.902893
Дело было в том что 0.1 в двоичном виде непредставима как конечная дробь, только как периодическая. А с ограничением точности (float против double, который по умолчанию в python) при суммировании ошибка накопилась и достигла настолько существенных величин, что обратное Фурье становилось комплексным 😱.
PS как-то у коллеги видел очень похожую ситуацию в python (только там он при чтении из файла во float сохранил), уже в 16м, подсказал – помогло.
А копать с тех пор стараюсь поглубже 🪆