Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
🎯В Вышке закончился первый учебный модуль, а значит — пройдена первая четверть курса «Компьютерный анализ текста в R». Этот курс я читаю второй год студентам магистерской программы «Цифровые методы в гуманитарных науках», и продолжаю дорабатывать.

Итак, мы прошли следующие темы.

1. Начало работы в R (текст, видео).

2. Таблицы. Опрятные данные (текст, видео). Датасет: М. Кондра, Е. Казакова, «Программы по литературе для средней школы с 1919 по 1991 гг.». Узнали, в какой год в новейшей истории России распухли школьные программы.

3. Визуализации (текст, видео). Датасет: Т. Андервуд и др., “NovelTM Datasets for English-Language Fiction, 1700-2009”. Повторили знаменитое исследование Ф. Моретти о длине названия («Корпорация стиля») и узнали, в какие года среди романистов было больше всего женщин.

4. Циклы, условия, функции (текст, видео).

5. Функционалы в анализе данных (текст, видео). Исследовали датасет Британской библиотеки, посвященный Гарри Поттеру. После хакерской атаки на библиотеку он исчез с их сайта, но у меня сохранилась копия с прошлого года.

6. Импорт: JSON (текст, видео). Датасет: «Шедевры Пушкинского музея». И небольшой датасет со списком эпизодов «Теории большого взрыва».

7. Импорт: XML (текст, видео). Датасет: Д. Скоринкин, “Персонажи «Войны и мира» Л. Н. Толстого: вхождения в тексте, прямая речь и семантические роли”. Также пригодились XML из корпуса русской драмы Dracor.

8. Публикация с Quarto (текст, видео).

📚 Под каждую тему (кроме первой) был подобран гуманитарный датасет. Причем данные пришлось искать не только для лекционной части (см. выше), но и под каждое домашнее задание (это оставлю за кадром, чтобы сохранить интригу для будущих поколений). Поиск данных оказался самой сложной частью работы, и я хочу поблагодарить коллег, которые ими делятся. Это бесценно.

💙 С проверкой домашних работ мне очень помогает студентка второго курса магистратуры София Федотова. А еще мы с Софией научились настраивать автоматические тесты и оценивание, это просто спасает, потому что группа довольно большая, около 20 человек, и кода много.

📅 Впереди еще три модуля, и, если доживем, по итогам каждого я буду делиться такими обзорами. Для меня это важно еще и потому, что сейчас деление курса на темы немного расходится с реальными темпами прохождения материала — а значит структуру курса придется еще раз перерабатывать с опорой на эти заметки.

🐈 По правде говоря, я вообще мало что успеваю помимо постоянных доработок и переработок (и поэтому нечасто сюда пишу). Но результат, кажется, неплохой: во всяком случае, недавно кто-то из студентов сказал, что уже пользуется R на работе. Для всего двух месяцев освоения — неплохо.

Идем дальше.

#tar2024
Please open Telegram to view this post
VIEW IN TELEGRAM
«Системный Блокъ» объявляет осенний набор участников!

«Системный Блокъ» расширяется и приглашает новых авторов, редакторов, менеджеров, дата-аналитиков. Мы — волонтерское издание. Нас объединяет интерес к науке и технологиям, а также желание вдохновлять людей интересными материалами, исследованиями, новостями, тестами и т. п. Среди нас есть филологи, программисты, менеджеры, историки, журналисты и аналитики — люди из совершенно разных сфер.

Ниже вы найдете набор ролей, которые могут быть интересны вам или вашим друзьям. Если что-то из этого вам близко, добро пожаловать к нам! Если вы хотите присоединиться, но идеальной роли нет, то все равно оставляйте заявку!

В посте — неполный перечень ролей, которые сейчас открыты, а в статье  — подробное описание задач и пожеланий к участникам.

1. Авторы в рубрики — ищем желающих писать для рубрик «Филология», «Общество», «Образование», «Биоинформатика», «Как это работает», «Тесты».
2. Кураторы рубрик «Археология», NLP, «Тесты»
3. Редакторы текстов
4. SMM-Lead / Менеджер отдела SMM
5. Выпускающие редакторы для соцсетей (SMM)
6. Продюсер дата-исследований
7. PR-менеджер
8. HR-менеджер
9. Менеджер студенческих практик
10. Продакт-менеджер и программист сайта
11. Дизайнер
12. Ивент-менеджер
13. Продакт/проджект-менеджер на новые проекты
14. Программист в команду «Пишу тебе»

Если вас заинтересовала одна из ролей – приглашаем
заполнить форму до 4 ноября. Проект полностью волонтерский, мы не платим денег. Зато у нас человечный менеджмент, отлаженные процессы и хорошая репутация в русском научпоп-сообществе. Присоединяйтесь!

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Коллеги рассказали о замечательной весенней школе в университете Потсдама “Text as Data” (31 марта - 4 апреля 2025).

Стилометрия, сетевой анализ, тематическое моделирование и др. — и все это в компании лучших специалистов отрасли. Заявки принимаются до 30 ноября. Для студентов есть трэвел-гранты.
Сегодня покажу вам дендрограмму 1989 г. выпуска.

Это Леджер, “Re-counting Plato”: одно из первых количественных исследований платоновского корпуса.

Иерархическая кластеризация, метод Уорда. Все как сегодня — но не сразу поймешь, где тут дерево.

Читается просто: каждый отрывок представлен столбцом из крестов, которые меняются на точки с того места, где ветви расходятся.

Если приглядеться, можно заметить, что первыми от всех отщепляются “Домострой” Ксенофонта и “Архидам” Исократа. А “История” Фукидида немного похожа на “Против Эратосфена” Лисия.

С точки зрения выводов уже не очень интересно, но есть в этом какое-то винтажное обаяние.
Please open Telegram to view this post
VIEW IN TELEGRAM
Диаграмма Ленто названа так в честь Джины Ленто, впервые применившей метод для изучения эволюции ластоногих. Диаграмма позволяет оценить достоверность филогенетического дерева на основе бутстрепа.

Топология любого дерева, построенного на основе матрицы расстояния, зависит от выбранных признаков, метода связи и метрики расстояния. Бутстреп — повторные выборки — используются для того, чтобы проверить устойчивость каждой ветви дерева. Для этого строят обычно от 100 до 1000 деревьев, для обобщения которых, наряду с консенсусным деревом, используется диаграмма Ленто.

Построить такую диаграмму можно при помощи одноименной функции из пакета phangorn в R. При сравнении текстов — а для этого в стилометрии регулярно используются деревья — никаких допущений о происхождении не делается; смотрим только на степень поддержки каждого сплита.

На картинке — небольшой пример. По оси икс — сплиты (грубо говоря, какие диалоги «сидят» на одной ветви в дереве). Они расположены по убыванию поддержки.

По оси игрек — поддержка каждого сплита в виде столбика. Положительные значения — это число деревьев, где наблюдается такой сплит. Отрицательные значения — поддержка конфликтующих сплитов, которые невозможно отразить в том же дереве.

Первые десять сплитов — тривиальные (отдельная ветвь для каждого наблюдения). Здесь конфликта быть не может, и все столбики расположены выше нуля.

Но помимо них, 100%-ю поддержку имеет сплит, включающий три книги «Законов». Это значит, что такая группа есть во всех деревьях, созданных при помощи бутстрепа. За ней следует группа «Парменид» — «Кратил» и т.д. Диалоги, включенные в сплит, обозначены ⚫️темными точками.

Диаграмма Ленто хорошо показывает, что в любом дереве есть элемент случайности. Дерево — это только гипотеза, которую можно и нужно проверять. Недостаток такой диаграммы в том, что она быстро становится нечитаемой.

P.S. Диалоги выбраны случайным образом для примера, и никаких масштабных выводов на основе этой выборки делать не стоит.

#филогенетика
Please open Telegram to view this post
VIEW IN TELEGRAM
@agricolamz , послушав мои истории про применение филогенетических методов к платоновскому корпусу, прислал мем. А я смотрю и думаю: треугольник, я же тебя знаю. Ты — “Клитофонт”! #филогенетика
This media is not supported in your browser
VIEW IN TELEGRAM
“Это мобиль. Приходишь домой - успокаивает нервы” 🥂
в Лиге Айвы поговорили с Борисом Ореховым о том, как неклассические университеты переиозобретают классику, чем кролик на зайца непохож университет отличаются от всего остального.

в ходе записи подкаста пытаемся различить пранк и кринж.

https://www.tgoop.com/universitates_podcast/110
Погода портится, хочется тыквенного латте и красоты. Поэтому сегодня — датасет “Шедевры Пушкинского музея” (отсюда).

Визуализация: пакет imager. #цифровые_этюды
Мои отношения с XML TEI начинались c парсинга: одной из первых задач, с которой я столкнулась как исследователь, было извлечение диалогов Платона из размеченного корпуса Perseus.

Но недавно пришлось задуматься и о другом применении XML, о именно — как основы для онлайн-изданий. Оказалось, что это достаточно головоломный сюжет.

1) Сама конвертация xml в html требует установки jdk & saxon; после чего можно прикрутить парочку плагинов к VS Code и начинать шаманство.

2) Но для тех, кто любит RStudio так, как люблю его я, можно все проделать, не выходя из дома: для этого надо поставить пакет с незвучным названием xslt. Там всего одна рабочая функция, запустить которую надо с двумя файлами на входе: xml & xslt. Функция вернет html.

3) Самая сложная история начинается, собственно, при составлении этого самого xslt. Есть готовые шаблоны (например, в Oxygen), но они не учитывают, как должно выглядеть ваше издание: например, в моем случае все страницы по Стефану стали заголовками.

4) Если в вашем проекте нет разработчика, придется писать xslt вручную: для этого нужно погрузиться в html и css. В принципе, логика там понятная: теги xml по каким-то правилам заменяются на теги html. Можно и регуляркой сделать, не выпендриваясь. Но требуется навык работы с css, потому что какие-то мелкие штучки все время прыгают не в ту сторону.

5) Я пока решилась на самое простое решение: говорящий выделен полужирным, добавлены просветы между репликами, а milestones (пагинация) даны в квадратных скобочках серым. Често говоря, изначально замысел был более амбициозный, но для первого раза нормально.

Полученный html я запилила в макет quarto и получила довольно милую страницу. Дальше в планах понемногу добавлять комментарии и перевод.

#xml #html #филеб
Please open Telegram to view this post
VIEW IN TELEGRAM
Коллеги из “Системного блока” сделали очень внятную точку входа в DH: темы, люди, журналы, образовательные программы. Все, чтобы сориентироваться и правильно распределить усилия. https://sysblok.ru/dh/
RAntiquity
Мои отношения с XML TEI начинались c парсинга: одной из первых задач, с которой я столкнулась как исследователь, было извлечение диалогов Платона из размеченного корпуса Perseus. Но недавно пришлось задуматься и о другом применении XML, о именно — как основы…
В выходные удалось немного поработать над сайтом “Филеба”.

- html греческого текста получил новую курточку новые стили css : теперь milestones, как им и положено, выстроились слева от текста.

- также добавила русский перевод; окончательным его не считаю, но печальный опыт переводчиков “Филеба” говорит о том, что лучше сохранять и дорабатывать промежуточные версии, чем надеяться когда-то все довести до совершенства.

- кстати, если перевод опубликован на GitHub Pages, значит ли это, что замечания к переводу можно оставлять в issues? мне кажется, это отличная идея: обсуждать способы перевода греческих частиц на гитхабе. к тому же удобно, всегда можно пометить баг как устраненный и закрыть обсуждение.

- в планах обновить страницу с видео семинаров, на которых этот перевод рождался при поддержке коллег и студентов

#филеб
Совершенно непонятно, когда работать над своими проектами, ведь столько всего интересного вокруг происходит.
Forwarded from DH CLOUD
Появился новый журнал о Digital Humanities на русском языке. Он называется «Цифровые гуманитарные исследования» и издается в Пушкинском Доме (Свидетельство о регистрации ЭЛ № ФС 77 — 86683 от 22.01.2024). Периодичность — 2 номера в год. Главный редактор — Борис Орехов.

Вышел первый номер, в нем есть три исследовательских статьи: Ольга Алиева пишет о мерах расстояния для определения авторства древнегреческих текстов, и там формулируются некоторые сомнения, которые вообще имеет смысл учитывать при чересчур оптимистичном отношении к стилометрии; Борис Орехов ищет ритмизацию в прозе Чернышевского и находит ее не на том уровне, где обычно действуют стиховеды; Инна Кижнер пишет о цифровых коллекциях культурно-значимых данных и обращает внимание на их системную неполноту и неготовность к тому, чтобы быть материалом для беспристрастного исследования.

Кроме исследовательских, в журнале уже публикуются и будут публиковаться важные для связности научного поля тексты: хроника, дискуссии, описания проектов, рецензии. В первом номере такие материалы уже есть. Во-первых, это чрезвычайно важная для осмысления текущего момента статья Бориса Орехова и Андрея Володина статья Digital Humanities в России и конец истории, в которой содержится и полемический ответ на текст Даниила Скоринкина с его видением состояния поля, и краткий исторический очерк цифрового литературоведения и цифровой истории в России. Во-вторых, это хроникальный текст Динары Гагариной о круглом столе Digital Humanities в Центральной Азии. В-третьих, это рецензия Дарьи Артемьевой на книгу Джули Томпсон Кляйн «Междисциплинарные цифровые гуманитарные науки: работа с границами в развивающейся сфере; рецензия содержит подробный пересказ источника, который позволяет составить подробное представление о книге.

Приглашаем всех и читать вышедшие материалы, и предлагать для публикации свои.
Пакеты FactoMineR & factoextra — отличные альтернативы базовому R для анализа главных компонент. Позволяют изящно изобразить одновременно и нагрузки компонент, и сами наблюдения, а также отобрать самые значимые переменные, чтобы график не был очень шумным.

Код очень лаконичный:


fviz_pca_biplot(pca_object, geom = "point", habillage = as.factor(group), addEllipses = TRUE, select.var = list(cos2 = 20))


Это бывает полезно, когда надо от стилометрического анализа перейти к анализу стиля. Например, мне позволило заметить особое значение союза καί для книг 2-9 “Государства”.

Это не сразу понятно (если вы подзабыли фон Арнима), ведь союз “и”, казалось бы, должен быть везде.

Но “Государство” (кроме 1-й и 10-й книг) — абсолютный лидер по использованию формулы "καὶ μάλα” (“очень даже”). Вообще загляните на любой разворот издания Бернета и обязательно увидите несколько ответов, которые начинаются с καί.
ушел думать о смысле жизни и бренности бытия

(и да, я всегда здороваюсь, говорю “спасибо” и “пожалуйста”)
2024/11/29 08:50:49
Back to Top
HTML Embed Code: