HQHSE Telegram 460
Большие языковые модели в наукометрии, или зачем нам SciBERT

Не все научные публикации одинаковы с точки зрения их влияния на социальную реальность. Нередко показатель цитируемости и импакт-фактор журнала дают нам некоторое представление о том, насколько серьезная работа перед нами, однако даже недавний пример с сетью взаимосвязей между первыми работами, которые цитируют статью Хопфилда о нейронных сетях, показывает, что одной только высокой цитируемости недостаточно: например, работы уже второго «поколения» цитирований получали в разы больше внимания, чем изначальный труд. Кроме того, не секрет, что в отдельных областях большее внимание привлекают обзоры по научным областям: обычно они цитируются довольно активно, поскольку обобщают информацию по какой-либо тематике, но в то же время не каждый обзор представляет из себя что-то большее, чем простое фиксирование текущего положения дел.

В сентябре Scientometrics опубликовали статью китайских исследователей, в которой описывается метод интеллектуального распознавания высококачественных научных работ на основе метасемантических сетей, задействующих deep learning и LLM-технологии. Раньше это было практически нереализуемой задачей: методы оценки научных статей ограничивались качественным (на основе рецензирования) и количественным (на основе библиометрических показателей) подходами. Недостатки этих методов хорошо изучены — в первом случае это проблемы с воспроизводимостью, неполнота знаний у рецензентов и возможный конфликт интересов, а во втором — временной лаг и разная чувствительность показателей, которая неизбежно влияет на финальную оценку.

Авторы предлагают новый подход к определению качества научной статьи как взвешенной суммы импакт-фактора журнала и средневзвешенной цитируемости статьи, где веса определяются методом информационной энтропии, а потом для «высококачественных» и «низкокачественных» работ строится упомянутая метасемантическая сеть на основе известной языковой модели SciBERT (одна из вариаций еще более широко известной модели BERT от Google). Таким образом, в перспективе это позволит измерять качество статей напрямую по их содержанию, без временного лага.

Кстати, еще одну вариацию BERT (SPS-BERT) уже другой исследовательский коллектив использовал для прогнозирования появления прорывных технологий. Согласно их результатам, этот метод позволяет предсказать индекс прорыва (о котором мы писали ранее) точнее, чем все прочие существующие методы. По крайней мере, на наборах данных DBLP и PubMed.

LLM вообще приобретают всё большую популярность в нашей среде. Тот же Scientometrics в сентябре опубликовал call for papers по теме «искусственный интеллект в наукометрии» (подача заявок до 28 февраля 2025 года).

Оставляя в стороне многократно обсуждаемые вопросы этичности использования инструментов ИИ в различных сферах, мы можем сказать, что перспективы их использования в сфере наукометрии скорее радуют. Языковые модели открывают широкий простор для совершенно новых исследований и выводов, а кроме того, предлагают принципиально иные подходы к оценке научных исследований.

#LLM #обзор #SciBERT



tgoop.com/HQhse/460
Create:
Last Update:

Большие языковые модели в наукометрии, или зачем нам SciBERT

Не все научные публикации одинаковы с точки зрения их влияния на социальную реальность. Нередко показатель цитируемости и импакт-фактор журнала дают нам некоторое представление о том, насколько серьезная работа перед нами, однако даже недавний пример с сетью взаимосвязей между первыми работами, которые цитируют статью Хопфилда о нейронных сетях, показывает, что одной только высокой цитируемости недостаточно: например, работы уже второго «поколения» цитирований получали в разы больше внимания, чем изначальный труд. Кроме того, не секрет, что в отдельных областях большее внимание привлекают обзоры по научным областям: обычно они цитируются довольно активно, поскольку обобщают информацию по какой-либо тематике, но в то же время не каждый обзор представляет из себя что-то большее, чем простое фиксирование текущего положения дел.

В сентябре Scientometrics опубликовали статью китайских исследователей, в которой описывается метод интеллектуального распознавания высококачественных научных работ на основе метасемантических сетей, задействующих deep learning и LLM-технологии. Раньше это было практически нереализуемой задачей: методы оценки научных статей ограничивались качественным (на основе рецензирования) и количественным (на основе библиометрических показателей) подходами. Недостатки этих методов хорошо изучены — в первом случае это проблемы с воспроизводимостью, неполнота знаний у рецензентов и возможный конфликт интересов, а во втором — временной лаг и разная чувствительность показателей, которая неизбежно влияет на финальную оценку.

Авторы предлагают новый подход к определению качества научной статьи как взвешенной суммы импакт-фактора журнала и средневзвешенной цитируемости статьи, где веса определяются методом информационной энтропии, а потом для «высококачественных» и «низкокачественных» работ строится упомянутая метасемантическая сеть на основе известной языковой модели SciBERT (одна из вариаций еще более широко известной модели BERT от Google). Таким образом, в перспективе это позволит измерять качество статей напрямую по их содержанию, без временного лага.

Кстати, еще одну вариацию BERT (SPS-BERT) уже другой исследовательский коллектив использовал для прогнозирования появления прорывных технологий. Согласно их результатам, этот метод позволяет предсказать индекс прорыва (о котором мы писали ранее) точнее, чем все прочие существующие методы. По крайней мере, на наборах данных DBLP и PubMed.

LLM вообще приобретают всё большую популярность в нашей среде. Тот же Scientometrics в сентябре опубликовал call for papers по теме «искусственный интеллект в наукометрии» (подача заявок до 28 февраля 2025 года).

Оставляя в стороне многократно обсуждаемые вопросы этичности использования инструментов ИИ в различных сферах, мы можем сказать, что перспективы их использования в сфере наукометрии скорее радуют. Языковые модели открывают широкий простор для совершенно новых исследований и выводов, а кроме того, предлагают принципиально иные подходы к оценке научных исследований.

#LLM #обзор #SciBERT

BY Выше квартилей




Share with your friend now:
tgoop.com/HQhse/460

View MORE
Open in Telegram


Telegram News

Date: |

How to create a business channel on Telegram? (Tutorial) Avoid compound hashtags that consist of several words. If you have a hashtag like #marketingnewsinusa, split it into smaller hashtags: “#marketing, #news, #usa. Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. In the next window, choose the type of your channel. If you want your channel to be public, you need to develop a link for it. In the screenshot below, it’s ”/catmarketing.” If your selected link is unavailable, you’ll need to suggest another option. Invite up to 200 users from your contacts to join your channel
from us


Telegram Выше квартилей
FROM American