Telegram Web
Forwarded from Machinelearning
🖥 Анонсирован новый ChatGPT Edu, созданный для образовательных учереждений.

Модель основана на GPT-4o, она может работать с текстовой и визуальной информациией, поддерживает передовые инструменты анализа данных.

ChatGPT Edu включает в себя средства безопасности и контроля корпоративного уровня для образовательных учреждений.

Новая модель дает возможность создавать пользовательские версии ChatGPT, и делиться ими для совместных исследований и обучения.

- Значительно более высокие лимиты на количество сообщений, чем в бесплатной версии ChatGPT

- Улучшены языковые возможности по качеству и скорости работы, поддерживается более 50 языков

- Надежная защита информации,конфиденциальность данных и продвинутые административные средства управления ИИ.

ChatGPT Edu призван заменить репетиторов и предоставляет:

* Обратную связь и поддержку
* Обучение и выставление оценок
* Интеграцию с образовательными ресурсами

openai.com/index/introducing-chatgpt-edu/

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍101
30👍4🐳2
A+Fourth+Wave+of+Open+Data+Exploring+a+Spectrum+of+Scenarios+fo.pdf
11.1 MB
Проблемы открытых данных и генеративного ИИ

В то время как определённые репозитории, такие как Википедия и база данных патентов Google, сыграли важную роль в продвижении генеративного ИИ, многие открытые государственные и исследовательские наборы данных не соответствуют необходимым стандартам для эффективного использования​​.

Основные проблемы, с которыми сталкиваются как поставщики открытых данных, так и платформы генеративного ИИ, включают:

Качество и стандартизация данных:

Эффективность генеративного ИИ для задач, таких как дообучение или инференс, зависит от количества, качества и релевантности данных.

Наборы данных, которые не обладают достаточным объёмом, точностью, глубиной или релевантностью, могут приводить к субоптимальной работе ИИ, проявляющейся в виде неточностей, предвзятости или нерелевантных выводов​​.

Интероперабельность и интеграция:

Открытые данные часто существуют в изолированных хранилищах, каждое из которых имеет уникальные форматы и стандарты, что затрудняет интеграцию различных наборов данных в единый учебный корпус.

Для достижения интероперабельности необходимы согласованные усилия по принятию универсальных стандартов и форматов данных, которые способствуют бесшовному обмену и использованию данных на различных платформах и системах​​.

Прозрачность и информация о происхождении данных:

Прозрачная информация о происхождении данных необходима для поддержания доверия и подотчётности при использовании открытых данных в архитектурах генерации с привлечением данных (RAG) и для контекстного обучения в инженерии подсказок.

Это включает установление надежных рамок, которые не только отслеживают происхождение данных, но и обеспечивают должное признание вкладчиков, где это применимо. Такие рамки могут поощрить больше владельцев данных делиться своими ресурсами, обогащая таким образом экосистему открытых данных​​.

#теория_ИИ
👍43
В нашем чате происходит много интересного и полезного!
👍1
👾 Эксперимент по аннотированию с использованием ИИ: Сравнение с человеческими аннотациями — пересказ статьи

Как проводился эксперимент по аннотированию?

Для оценки эффективности крупных языковых моделей (LLMs), таких как GPT-3 и GPT-4, в задачах аннотирования данных, был проведен эксперимент. Цель заключалась в том, чтобы сравнить результаты автоматических аннотаций, выполненных моделями, с аннотациями, сделанными людьми.

Выбор задач:
Классификация и генерация текстов: Были выбраны различные задачи, такие как детектирование дезинформации, анализ социального контекста и переосмысление формулировок.

Использование моделей:
Модели LLMs: Были задействованы модели GPT-3.5 и GPT-4, обученные на инструкциях и использующие методы обучения с подкреплением (RLHF) для генерации текстов и классификаций.

Человеческие аннотации:
Аннотаторы: Были наняты профессиональные аннотаторы через платформу Upwork, которые проводили ранжирование и оценку качества результатов, полученных моделями.

Процесс оценки:
Ранжирование и сравнение: Человеческие аннотаторы ранжировали результаты моделей и сравнивали их с собственными аннотациями для определения качества и точности генераций.

🔍В чем люди оказались лучше?

Глубокое понимание контекста: Люди способны лучше учитывать контекст и нюансы текста, что позволяет им делать более точные и релевантные аннотации.
Этичные и социально осознанные аннотации: Человеческие аннотаторы лучше справляются с этическими аспектами и социальными тонкостями, которые могут быть упущены моделями.
Креативность и интуиция: Люди обладают способностью креативного мышления и интуитивного понимания, что помогает им создавать более качественные и оригинальные тексты.

🔍В чем модели оказались лучше?

Скорость и объем обработки: Модели LLMs способны быстро обрабатывать большие объемы данных и генерировать аннотации в кратчайшие сроки, что значительно ускоряет исследовательские процессы.
Однородность аннотаций: Модели обеспечивают высокую консистентность и однородность в аннотациях, что снижает вариативность, часто присутствующую в результатах человеческой работы.

#теория_ИИ

Caleb Ziems, William Held, Omar Shaikh, Jiaao Chen, Zhehao Zhang, Diyi Yang; Can Large Language Models Transform Computational Social Science?. Computational Linguistics 2024; 50 (1): 237–291. doi: https://doi.org/10.1162/coli_a_00502
4🤔32👍1
Конкретные задачи студента-социолога и конкретные попытки их решить. Решение не всегда удачно и вообще возможно.

Задачей семинара для Университета без профессоров было показать, что чат-боты с ИИ внутри — не панацея, но и не монстры.

Ну и соблазнить абитуриентов идти учиться в Европейский университет. Особенно на направление STS.
👍155👾1
По просьбе нетрудящего публикую опрос про чтение

Если вы читаете нехудожественные тексты (книги, статьи и т. д.), пройдите, пожалуйста, пятиминутный анонимный опрос о своём опыте чтения:
https://forms.gle/Zv2fkscLRWFHGFgr6

Мы делаем открытый онлайн-курс по аналитическому чтению, который планируем запустить осенью 2024-го года.  Мы — студенты, которые стремятся научиться эффективному чтению нехудожественных текстов и извлекать из них больше пользы. Работая над развитием своих навыков в книжных клубах, мы решили создать курс, который поможет и вам.

Мы просим вас пройти короткий опрос, который поможет нам лучше понять ваш опыт чтения и методы работы с текстами. Это позволит нам сделать курс более полезным и адаптированным к разным потребностям.

Опрос анонимный и займёт у вас не более 5 минут.
👍189🐳3
Какие данные мы используем в наукометрических исследованиях?

Наукометрия, наука о количественном анализе научной деятельности, играет ключевую роль в оценке продуктивности исследователей, научных учреждений и национальных систем науки. В этой статье рассматривается использование «золотого стандарта» для оценки публикационной активности и её влияния на карьерные результаты учёных.

🔍 Что такое Золотой стандарт?
Золотой стандарт – это высококачественный эталон данных, используемый для проверки и калибровки других измерительных инструментов
. В контексте данной статьи, золотой стандарт представляет собой тщательно собранный набор данных о публикациях учёных, созданный на основе отчётов и тщательно проверенных источников.

В статье отмечается, что набор данных, принятый за золотой стандарт, был собран Национальным научным фондом (NSF) и Национальным центром научных исследований (NCSES). Эти организации обеспечивают качество данных, которые затем используются для сравнения с данными из коммерческих баз данных, таких как Clarivate.

🗃 Сравнение данных Золотого стандарта и Clarivate

Один из примеров касается анализа заработной платы учёных в зависимости от количества публикаций:

🖇 Золотой стандарт: увеличение числа публикаций на 1% связано с увеличением заработной платы на 0,131%.
🖇 Clarivate (с учётом вероятности совпадения публикаций не менее 80%): увеличение числа публикаций на 1% связано с увеличением заработной платы на 0,115%.

Также в статье рассматривается влияние публикационной активности на получение государственной поддержки. Аналогичные сравнения показывают, что данные из золотого стандарта дают более высокие коэффициенты влияния по сравнению с данными из Clarivate.

Недостатки Золотого стандарта
Несмотря на свою ценность, золотой стандарт имеет и свои недостатки. Один из основных – это сложность и дороговизна его создания и поддержания. Также существует риск ошибочных измерений и погрешностей, которые могут повлиять на результаты анализа. В статье указывается, что даже золотой стандарт не является идеальным и может содержать ошибки, такие как ложноотрицательные и ложноположительные совпадения публикаций.

#дайте_данные

Ginther, Donna K., Carlos Zambrana, Patricia Oslund, и Wan-Ying Chang. 2023. «Do Two Wrongs Make a Right? Measuring the Effect of Publications on Science Careers». doi:10.3386/w31844
Please open Telegram to view this post
VIEW IN TELEGRAM
👾6👍3
Когда вы в последний раз дочитали книгу? Вам нужен ИИ-компаньон для чтения

Эта статья WIRED о Rebind - новом приложении, которое использует искусственный интеллект, чтобы сделать чтение классических книг более доступным и интересным.

Rebind подключает к читателям "Ghostbinder" - эксперта по выбранной книге, с которым можно взаимодействовать в чате. AI-Ghostbinder будет комментировать текст, отвечать на вопросы и вести диалог с читателем.

Создатель Rebind, Джон Дюбюк: бывший предприниматель, который заработал состояние, продал свою компанию. После этого он решил вернуться к своей любви - философии, но столкнулся с тем, что не мог прочитать сложные книги. Он нанял профессора из Оксфорда для персональных уроков и почувствовал, что такое же желание испытывают многие люди. Дюбюк увидел в ChatGPT возможность, которая может помочь людям читать классику, и решил создать Rebind.

Как работает Rebind: Приложение использует большие языковые модели (LLMs) для создания "chattable" комментариев, которые звучат как живой разговор. Rebind работает с несколькими моделями, включая GPT-4o от OpenAI. Приложение создано для активного взаимодействия с пользователем, а не для пассивного чтения. Rebind - это не просто "Спроси меня о чем угодно", а платформа, которая помогает пользователям глубже погрузиться в текст.

Автор статьи попробовал Rebind с The Great Gatsby. Он спросил AI-Ghostbinder, был ли Гэтсби просто богатым придурком. AI-Ghostbinder ответил, что Гэтсби - сложный персонаж, не стоит его упрощать.

Проблемы: Некоторые люди, как журналистка Лена Данхэм, нашли AI-Ghostbinder слишком нейтральным и недостаточно личным. Однако, автору статьи нравится идея Rebind и он с нетерпением ждет, когда сможет использовать приложение для чтения "Ромео и Джульетты".

#ИИ_для_чтения
21👍2🤔2
Образовательные ресурсы, представленные в статье "Культура открытой науки: международные программы и платформы обучения"

В области библиографии:
LIBER проводит вебинары, где рассказывают, как библиотеки помогают ученым работать с информацией и как использовать ресурсы открытой науки.

В области открытой науки:
FOSTER предлагает курсы по открытой науке, включая открытое лицензирование, препринты и сотрудничество с библиотеками.
Creative Commons: помогает понять, как использовать лицензии Creative Commons для свободного распространения научных работ и данных.
Делфтский технический университет предлагает онлайн-курс "Открытая наука: делитесь своими исследованиями со всем миром", который поможет вам понять преимущества и практические аспекты открытой науки.

Управление данными:
OpenMinTeD: платформа, позволяющая выполнять классификацию документов по содержанию научных публикаций на основе таксономий arXiv, MeSH, ACM и DCC.
DMPOnline: инструмент для создания планов управления данными.
OpenLearnCreate: площадка для исследовательских проектов, в которых тестируются новые образовательные технологии и практики.

Редькина, Н. С. 2023. «Культура открытой науки: международные программы и платформы обучения». Научные и технические библиотеки 1(11): 99–120. doi:10.33186/1027-3689-2023-11-99-120.
12
Я считаю, всех с пелёнок надо учить библиографии и промт-инжинирингу.
25
В Google Colab можно генерировать код прямо в редакторе.

Вау ⭐️
👾18🤔1
Новый подход позволяет определить, когда чатботы что-то выдумывают

Искусственный интеллект (ИИ) становится всё более мощным инструментом, способным решать сложные задачи, от написания текстов до генерации музыки. Однако, как и у людей, у ИИ есть свои "слабости". Одна из них - "галлюцинации", когда ИИ выдает за правду выдуманные факты.

Почему так происходит? Большие языковые модели (LLM), лежащие в основе современных ИИ-систем, обучены не "знать" правду, а генерировать правдоподобные тексты. Они анализируют огромные массивы данных, выявляя взаимосвязи между словами и фразами, но не проверяют их на истинность.

Чтобы избежать подобных ошибок, исследователи ИИ ищут способы отличить "правду" от "выдумки" в ответах LLM. Один из перспективных методов, описанный в статье в журнале Nature, основан на измерении "семантической энтропии" - насколько случайны ответы ИИ на один и тот же вопрос.

Если ответы ИИ сильно отличаются по смыслу, значит, он, скорее всего, "бредит", выдумывая информацию. В случае, если ответы схожи по смыслу, можно говорить о том, что ИИ "говорит правду".

Этот подход можно сравнить с методом "хороший полицейский, плохой полицейский". Если человек упорно придерживается одной версии событий, значит, он, вероятно, говорит правду.

Однако, исследователи подчеркивают, что данный метод не решает все проблемы с "галлюцинациями" ИИ. Он может не распознать ситуации, когда ИИ упорно держится за выдуманный факт, повторяя его снова и снова.
👍64
ИИ в библиотеке — проще, чем кажется!

Недавнее исследование, опубликованное в журнале "Evidence Based Library and Information Practice", доказывает: создать чат-бота на основе ИИ для библиотеки – задача выполнимая даже с минимальными техническими знаниями и ограниченными ресурсами.

В статье рассказывается о проекте библиотеки Университета Сан-Хосе, где библиотекарь и два студента-стажера разработали собственного чат-бота. Используя платформу Dialogflow и готовые виджеты, они "обучили" бота отвечать на базовые вопросы пользователей, находить нужные книги и статьи, сообщать о часах работы библиотеки и многое другое.

✂️Разработчикам не потребовались глубокие знания программирования или дорогие инструменты.
🎯Этот пример демонстрирует, что внедрение ИИ становится реальностью даже для небольших организаций с ограниченными бюджетами.


Конечно, проект выявил и некоторые сложности, например, низкая вовлеченность пользователей после первоначального приветствия. Это подчеркивает важность дальнейших исследований в области юзабилити и восприятия чат-ботов пользователями.
👍41
2025/07/14 12:13:47
Back to Top
HTML Embed Code: