tgoop.com/sysblok/1070
Last Update:
Достоевский и цифровые технологии
Сегодня День рождения Федора Михайловича Достоевского. В этот день мы предлагаем вспомнить три материала «Системного Блока»: о судьбе Достоевского в школьных списках чтения, о том, как мы обучали нейросеть генерировать тексты в его стиле и о самых частых словах в его произведениях.
Достоевский и школьная программа
Недавно мы рассказывали, что только 16 произведений встречались в 90% всех советских и современных программ. Ни одного текста Достоевского среди них нет.
Хотя сегодня представить список чтения без «Преступления и наказания» может быть сложно, несколько поколений советских школьников его творчество не изучали. Из-за резко консервативных антиреволюционных взглядов (вспомните роман «Бесы» или публицистический цикл «Дневник писателя») Достоевского исключили из программы в конце 1930-х и вернули только в 1967.
Подробнее о Достоевском и других писателях в школьной программе узнаете из нашего спецпроекта.
Достоевский и языковая модель
Для туторила по fine-tuning (способу улучшить предварительно обученную модель, которая уже имеет некоторые знания, путем небольших корректировок) мы выбрали маленькую версию русскоязычной модели ruGPT3 и готовый корпус произведений Достоевского. Подстраиваясь под стиль писателя, модель сгенерировала, например, фразу: «Кофею, а? Нет-с. Не надо; да и не нужно…».
Узнать о дообучении нейросетей и этом эксперименте больше, можно здесь.
Достоевский, Россия, женщины и дети
Не обошелся без Достоевского и двухчастный гайд «Системного Блока» по Voyant Tools. Этот инструмент помогает, например, с поиском коллокаций (слов, которые чаще всего встречаются рядом с заданным). По корпусу Достоевского, например, мы определили, что в его прозе Россия обычно рассматривается вне контекста внешней политики, в отличие от его публицистики. А ещё выяснили, кто встречается в текстах писателя чаще — ребенок, женщина или старик (спойлер: