tgoop.com/nn_for_science/2497
Last Update:
🏛️ Aeneas: ИИ научили читать камни
Вы держите в руках осколок мрамора. Из пяти строк уцелели три буквы: «…V S…». Как узнать, что здесь было написано 1800 лет назад?
Именно с этой головоломки и стартует Aeneas — новый мультимодальный трансформер от DeepMind, который восстанавливает, датирует и «геолокацирует» латинские надписи быстрее, чем человек успеет достать лупу.
🔍 Откуда он знает?
В основе — Latin Epigraphic Dataset (LED): 176 000 оцифрованных надписей + фотографии плит.
Модель T5 берёт на вход символьную расшифровку и фото 224×224.
Две метки описывают лакуны: «—» (пропала одна буква) и «#» (неизвестно сколько). Это важный трюк: историки редко знают длину «дыры».
Дальше четыре параллельных «головы»:
• восстанавливаем текст,
• решаем «одна буква или больше»,
• угадываем одну из 62 римских провинций,
• ставим дату с шагом в десятилетие (-800 — +800).
📈 Что показывает бенчмарк
В сравнении c Ithaca (SoTA 2022 года) Aeneas:
• снижает CER (ошибки символов) на ~7 %,
• верно называет провинцию в 72 % (было 61),
• Датирует по фотографии с погрешностью до 13 лет.
💡 Почему это прорыв, а не ещё один «LLM for everything»?
1. Нишевой датасет + узкий трансформер
2. Мультимодальность видит не только буквы, но и стиль резьбы, форму алтаря, даже следы реставраций.
3. Explainability first: много встроенных инструментов для объяснения предсказаний, что позволяет больше доверять результатам
4. Трюк с неизвестной дыркой - хороший урок по работе с Missing Data.
🧱 История одной плиты
В римском Майнце (Germania Superior) нашли алтарь 211 г. с дырами. Aeneas первым же кандидатом вывел почти идентичный алтарь 197 г. из той же крепости. Историку осталось лишь сверить имена богов — и пазл сложился.
👀 А вы где сталкиваетесь с «пропущенными кусочками» данных?
Расскажите в комментариях — интересно сравнить области.
И если у вас есть знакомый историк, археолог или просто latin-geek — перекиньте ему эту историю, пусть удивится, как далеко мы уже уехали на этих ваших трансформерах.