tgoop.com/vp_research/213
Last Update:
Фотографии, видео и социология с ИИ
Технологии искусственного интеллекта уже давно вышли за рамки текстов и сделали возможным сильно облегчить нам, социологам, анализ визуальных данных, таких как фотографии и видео. Благодаря развитию компьютерного зрения и мультимодальных моделей (ИИ, способный одновременно обрабатывать и анализировать данные из разных источников или модальностей, таких как текст, изображения, аудио и видео) социологи теперь могут изучать изображения с невероятной точностью и глубиной.
Пример использования
Исследователь загрузил фотографию с митинга Black Lives Matter в нейросеть и попросил описать изображение. Модель не только распознала, что это протест, но и выделила ключевые детали: плакаты с лозунгами, маски на лицах участников (указание на пандемию COVID-19) и общую атмосферу борьбы за расовое равенство. Более того, ИИ смог распознать тексты с плакатов и отдать исследователю их список для дальнейшего анализа.
Интересный факт
Мультимодальные модели, такие как GPT-4, могут анализировать изображения без дополнительного обучения, что делает их универсальным инструментом для социологов. Например, они уже используются для изучения протестов, митингов, праздников по фотографиям из соцсетей или в рамках исследований в урбанистике, где анализируется обстановка и состояние районов городов через Google Street View.
Ограничения и риски
ИИ может обрабатывать тысячи изображений за минуты, что раньше требовало месяцев ручной работы, но такая скорость накладывает свои ограничения на инфраструктуру исследователя, как и ставит вопрос про безопасность анализируемых данных. Хотя все это решаемо и с лихвой окупается новыми возможностями, когда можно быстро не только классифицировать изображения, но и извлекать из них богатую информацию, например, тексты с плакатов или эмоции участников. Параллельно исследователи могут быстро тестировать гипотезы, задавая модели уточняющие вопросы. В то же время стоит помнить, что точность анализа зависит от качества изображений и формулировки запросов. Нейросеть способна пропускать часть информации на фотографиях, но это можно исправить с помощью уточняющих промптов и обязательного пилотирования промптов на небольшой выборке.
Итог
Мультимодальные модели для социологов можно сравнить с революционным инструментом, который сделал доступным для анализа то, что раньше было крайне трудоемким: анализ визуальных данных, сделав его не только быстрым, но и точным, доступным. Они открыли новые горизонты для изучения социальных движений, архивных материалов и даже этнографических исследований.
BY VOX POPULI: аналитика, тренды, данные
Share with your friend now:
tgoop.com/vp_research/213