Du Bois Visualization Challenge: 2025
Начался 2025 Du Bois Visualization Challenge в честь наследия W.E.B Du Bois - темнокожего американского активиста за гражданские права, социолога и писателя, путем воссоздания визуализаций Парижской выставки 1900 года с использованием современных инструментов.
Для тех, кто хочет посмотреть, как можно воссоздать визуализации на R, - можно заглянуть в прошлогодний пост на НиД. Что-то из рисунков повторяется из года в год. Добавлю также визуализации от Nicola Rennie (2021 / 2022). Замечательные интерактивные визуализации делал Tom Février (первая + вторая + третья + четвертая). + пост на Chatting Charts.
В этом году на R участвуют и делятся идеями на YouTube Pat Schloss и Andrew Gard, но я буду следить за визуализациями от Антона Мизонова.
Начался 2025 Du Bois Visualization Challenge в честь наследия W.E.B Du Bois - темнокожего американского активиста за гражданские права, социолога и писателя, путем воссоздания визуализаций Парижской выставки 1900 года с использованием современных инструментов.
Для тех, кто хочет посмотреть, как можно воссоздать визуализации на R, - можно заглянуть в прошлогодний пост на НиД. Что-то из рисунков повторяется из года в год. Добавлю также визуализации от Nicola Rennie (2021 / 2022). Замечательные интерактивные визуализации делал Tom Février (первая + вторая + третья + четвертая). + пост на Chatting Charts.
В этом году на R участвуют и делятся идеями на YouTube Pat Schloss и Andrew Gard, но я буду следить за визуализациями от Антона Мизонова.
Reproducible Medical Research with R
Воспроизводимые научные исследования все больше входят в обиход ученых (см., например, мое небольшое эссе на эту тему). При этом медицинские исследования должны проводиться с особой аккуратностью, поскольку неверные выводы могут нанести большой вред.
Интерактивная книга Reproducible Medical Research with R предназначена для самостоятельного обучения языку R и применения статистических методов в медицинской практике. Книга включает в себя множество примеров для самопроверки вместе с ответами. Конечно, хотелось бы увидеть адаптированную версию на русском языке книг подбных этой или Practical Statistics in Medicine with R.
Воспроизводимые научные исследования все больше входят в обиход ученых (см., например, мое небольшое эссе на эту тему). При этом медицинские исследования должны проводиться с особой аккуратностью, поскольку неверные выводы могут нанести большой вред.
Интерактивная книга Reproducible Medical Research with R предназначена для самостоятельного обучения языку R и применения статистических методов в медицинской практике. Книга включает в себя множество примеров для самопроверки вместе с ответами. Конечно, хотелось бы увидеть адаптированную версию на русском языке книг подбных этой или Practical Statistics in Medicine with R.
Экстремальная комбинаторика 👨🎓
Андрей Михайлович Райгородский известен как большой популяризатор математики, он записывает видео на YouTube, ездит с лекциями по всей стране (например, я его заметил в Шереметьево в свою последнюю командировку в Москве), был он и у нас в СФУ, пишет отличные книги, одним словом - человек заслуженный.
Увидел, благодаря каналу Непрерывное математическое образование, ссылку на его новый новый курс Экстремальная комбинаторика (или Восемь с половиной катарсисов). Курс бесплатный, если выберу время - попробую пройти.
Андрей Михайлович Райгородский известен как большой популяризатор математики, он записывает видео на YouTube, ездит с лекциями по всей стране (например, я его заметил в Шереметьево в свою последнюю командировку в Москве), был он и у нас в СФУ, пишет отличные книги, одним словом - человек заслуженный.
Увидел, благодаря каналу Непрерывное математическое образование, ссылку на его новый новый курс Экстремальная комбинаторика (или Восемь с половиной катарсисов). Курс бесплатный, если выберу время - попробую пройти.
10 Free GIS Data Sources That Will Make Your Maps AMAZING! 🗺️
Milos Popovic действительно делает "Amazing" карты. Недавно он выпустил новое видео по свободно распространяемым данным, которые можно анализировать на R и включают в себя:
- GADM Boundaries
- OpenStreetMap (OSM)
- ESA World Cover 2021
- Natural Earth
- AWS Terrain Tiles
- Sentinel-2 Imagery
- WorldClim
- Global Biodiversity Information Facility
- Tree Height
- WorldPop
Сюда можно добавить ссылки на источники, опубликованные на канале Спутник ДЗЗ.
Надеюсь, пригодится!
Milos Popovic действительно делает "Amazing" карты. Недавно он выпустил новое видео по свободно распространяемым данным, которые можно анализировать на R и включают в себя:
- GADM Boundaries
- OpenStreetMap (OSM)
- ESA World Cover 2021
- Natural Earth
- AWS Terrain Tiles
- Sentinel-2 Imagery
- WorldClim
- Global Biodiversity Information Facility
- Tree Height
- WorldPop
Сюда можно добавить ссылки на источники, опубликованные на канале Спутник ДЗЗ.
Надеюсь, пригодится!
This media is not supported in your browser
VIEW IN TELEGRAM
Dataviz Inspiration 💫
Знаменитый проект Dataviz Inspiration, который Yan Holtz ведет с 2022 года, - это большой список примеров диаграмм, в котором в настоящий момент представлены 195 самых красивых и впечатляющих датавиз-проектов, идеально подходящих для вдохновления. Ссылка на проект уже много раз была в различных TG-каналах, но проект растет, и все равно 🚀. Также он сделал отдельный сайт с новостной рассылкой Dataviz Universe.
Если же вы больше любите мастерить руками, то самыйвдохновляющий просто волшебный ❤️ арт-проект, связанный с данными, который я пока видел, - World in Tangible Fragments от Надежды Андриановой (Designing Numbers). Я всегда в восторге от ее проектов!
Знаменитый проект Dataviz Inspiration, который Yan Holtz ведет с 2022 года, - это большой список примеров диаграмм, в котором в настоящий момент представлены 195 самых красивых и впечатляющих датавиз-проектов, идеально подходящих для вдохновления. Ссылка на проект уже много раз была в различных TG-каналах, но проект растет, и все равно 🚀. Также он сделал отдельный сайт с новостной рассылкой Dataviz Universe.
Если же вы больше любите мастерить руками, то самый
Если вы не знаете, как выбрать тип графика в зависимости от данных, в этом вам отлично помогут коллекции инструментов для выбора диаграмм визуализации данных сайта Cool Infografics. 👌
Хороших выходных, друзья! 👋
Хороших выходных, друзья! 👋
Cloud-Optimized Geospatial Formats Guide. Methods for Generating and Testing Cloud-Optimized Geospatial Formats
Напомню для уважаемых географов о существовании ресурса Cloud-Optimized Geospatial Formats Guide, в котором разбираются оптимизированные форматы геопространственных данных для облачных вычислений.
К сожалению, универсальных подходов тут нет, для определения формата необходимо решить ряд вопросов, например: Какие переменные следует включить в новый формат данных? Какой ожидается метод доступа? Какой объем ваших данных обычно визуализируется или выбирается одновременно?
Про типы географических данных можно также посмотреть в таблице Geographic data I/O.
ESRI Shapefile до сих пор является наиболее часто используемым форматом обмена векторными данными, однако он уже не так перспективен 🙅♂️ судя по сайту Switch from Shapefile, все уже движется в сторону Parquet/DuckDB/Arrow (Apache Iceberg and Parquet now support GEO + Geoparquet 2.0: Going Native).
Напомню для уважаемых географов о существовании ресурса Cloud-Optimized Geospatial Formats Guide, в котором разбираются оптимизированные форматы геопространственных данных для облачных вычислений.
К сожалению, универсальных подходов тут нет, для определения формата необходимо решить ряд вопросов, например: Какие переменные следует включить в новый формат данных? Какой ожидается метод доступа? Какой объем ваших данных обычно визуализируется или выбирается одновременно?
Про типы географических данных можно также посмотреть в таблице Geographic data I/O.
ESRI Shapefile до сих пор является наиболее часто используемым форматом обмена векторными данными, однако он уже не так перспективен 🙅♂️ судя по сайту Switch from Shapefile, все уже движется в сторону Parquet/DuckDB/Arrow (Apache Iceberg and Parquet now support GEO + Geoparquet 2.0: Going Native).
Forwarded from настенька и графики
AI With R (An Introduction to Using LLMs With R)
Albert Rapp поделился предварительной версией мини-книги AI With R, которая представляет собой обобщение его видео из блога на YouTube.
Автор показывает, как работать с библиотекой {mall}, настроить библиотеку {ellmer}, использовать {ollamar}, извлекать данные из неструктурированных текстов уже в структурированном формате и планирует описать создание Shiny-чат ботов.
Из последнего также можно почитать пост Iterating on an app to create social media posts generating package using {shiny} and {ellmer} и Generating social media posts to promote blog posts with {shiny} and {ellmer} от Nic Crane.
Albert Rapp поделился предварительной версией мини-книги AI With R, которая представляет собой обобщение его видео из блога на YouTube.
Автор показывает, как работать с библиотекой {mall}, настроить библиотеку {ellmer}, использовать {ollamar}, извлекать данные из неструктурированных текстов уже в структурированном формате и планирует описать создание Shiny-чат ботов.
Из последнего также можно почитать пост Iterating on an app to create social media posts generating package using {shiny} and {ellmer} и Generating social media posts to promote blog posts with {shiny} and {ellmer} от Nic Crane.
Large Language Model tools for R
Luis D. Verde Arregoitia создал обновляемую постоянную веб-страницу соответствующих ресурсов по LLM в применении к R. Здесь расположены ссылки на R библиотеки и другие ресурсы, в частности, источники, видео и IDE инструменты.
Luis D. Verde Arregoitia создал обновляемую постоянную веб-страницу соответствующих ресурсов по LLM в применении к R. Здесь расположены ссылки на R библиотеки и другие ресурсы, в частности, источники, видео и IDE инструменты.
R Spatial Cookbook 🛰️ 🗺️
Philippe Massicotte сделал небольшую страницу R Spatial Cookbook с заметками по геопространственному анализу, в основном касающемуся ДЗЗ и R. Страница будет дополняться.
Philippe Massicotte сделал небольшую страницу R Spatial Cookbook с заметками по геопространственному анализу, в основном касающемуся ДЗЗ и R. Страница будет дополняться.
Building story maps with mapgl 🌏
Kyle Walker совершенствует библиотеку {mapgl}, о которой уже упоминалось на НиД. Карты историй — это эффективные современные инструменты для передачи повествований на основе карт. Здесь мы, прокручивая страницу, видим как отображаются различные элементы карты, сопровождаемые некоторым текстом.
Пример такой карты (live story map), где мы "перелетаем" от вида одной горной вершины к другой, доступен через Posit Cloud (+код на GitHub). Вживую выглядит очень здорово! 🔥
Если вам интересно, как можно создать подобную карту, то в этом поможет страница библиотеки.
Kyle Walker совершенствует библиотеку {mapgl}, о которой уже упоминалось на НиД. Карты историй — это эффективные современные инструменты для передачи повествований на основе карт. Здесь мы, прокручивая страницу, видим как отображаются различные элементы карты, сопровождаемые некоторым текстом.
Пример такой карты (live story map), где мы "перелетаем" от вида одной горной вершины к другой, доступен через Posit Cloud (+код на GitHub). Вживую выглядит очень здорово! 🔥
Если вам интересно, как можно создать подобную карту, то в этом поможет страница библиотеки.
Почему-то мне становится очень грустно, когда я смотрю на эту картину. Многие из вас ее видели, это Устный счет. В народной школе С. А. Рачинского. Задача, которую решают дети: найти в уме значение выражения (10^2 + 11^2 + ... + 14^2) / 365. Здесь изображен известный педагог - Сергей Александрович Рачинский (1833-1902), профессор Московского университета, народник, вернувшийся в родное село Татево, где он создал школу для крестьянских детей.
Решат ли современные дети подобную задачку для устного счета? Есть ли у них навыки терпения, требуемые для развития устного счета и не только? Предлагают ли сейчас детям учителя остроумные задачи? Могут ли учителя заинтересовать учеников?
А печально мне от того, что (при насыщенных "замечательных" школьных программах) я рассказываю взрослым мужикам заочникам как складывать дроби, первокурсники не знают свойств логарифмов, а абитуриенты с 4-кой по информатике не видели компьютера в глаза.
Всем продуктивных выходных! 👋
Решат ли современные дети подобную задачку для устного счета? Есть ли у них навыки терпения, требуемые для развития устного счета и не только? Предлагают ли сейчас детям учителя остроумные задачи? Могут ли учителя заинтересовать учеников?
А печально мне от того, что (при насыщенных "замечательных" школьных программах) я рассказываю взрослым мужикам заочникам как складывать дроби, первокурсники не знают свойств логарифмов, а абитуриенты с 4-кой по информатике не видели компьютера в глаза.
Всем продуктивных выходных! 👋
How to use a histogram as a legend in {ggplot2} 📊
Идею этого комплексного аннотирования в легенде {ggplot2} через функцию
Andrew Heiss в своем блоге делится, как можно комбинировать график (в его случае это карта) с легендой в виде гистограммы с помощью {ggplot2} и {patchwork}.
Этот пост сразу стал 🔥 популярным, однако можно пойти еще дальше - Teun van den Brand предлагает в своей библиотеке {legendry} ❤️ самые невероятные варианты работы как с легендой, так и подписями и другими элементами графиков.
Идею этого комплексного аннотирования в легенде {ggplot2} через функцию
annotation_custom()
я уже видел в одном из докладов на DC R-конференции ооочень давно (в 2019-м): Better DataViz in ggplot2: Tips, Tricks, and Examples, Alex Engler. Мне идея сразу запомнилась, и сейчас снова я вижу тоже самое в другом исполнении. Andrew Heiss в своем блоге делится, как можно комбинировать график (в его случае это карта) с легендой в виде гистограммы с помощью {ggplot2} и {patchwork}.
Этот пост сразу стал 🔥 популярным, однако можно пойти еще дальше - Teun van den Brand предлагает в своей библиотеке {legendry} ❤️ самые невероятные варианты работы как с легендой, так и подписями и другими элементами графиков.
Subway Stories: Building an Visualization w/ Transit Data 🚉
Согласно закону об открытых данных, который подписал губернатор Нью-Йорка, начиная с 2021 года стали доступными наборы данных о транспортном пассажиропотоке, которые теперь могут быть доступны и интерпретированы, что привело к запуску конкурса MTA Open Data Challenge в 2024 году. Визуализация, про которую я хочу рассказать, попала в финал конкурса.
Jediah Katz (старший инженер-программист в Figma) и Marc Zitelli (аналитик по обработке данных) сделали совершенно потрясающий проект Subway Stories как scrollytelling, и на семинаре New York Open Statistical Programming Meetup у Джареда Ландера (один из самых замечательных семинаров, связанных с наукой о данных) ✨ рассказали, как они этот проект реализовали, какие инструменты использовали.
Согласно закону об открытых данных, который подписал губернатор Нью-Йорка, начиная с 2021 года стали доступными наборы данных о транспортном пассажиропотоке, которые теперь могут быть доступны и интерпретированы, что привело к запуску конкурса MTA Open Data Challenge в 2024 году. Визуализация, про которую я хочу рассказать, попала в финал конкурса.
Jediah Katz (старший инженер-программист в Figma) и Marc Zitelli (аналитик по обработке данных) сделали совершенно потрясающий проект Subway Stories как scrollytelling, и на семинаре New York Open Statistical Programming Meetup у Джареда Ландера (один из самых замечательных семинаров, связанных с наукой о данных) ✨ рассказали, как они этот проект реализовали, какие инструменты использовали.
ggalign
Библиотека {ggalign} - это расширение ggplot2, которое позволяет работать со сложными наборами данных, требующими точного выравнивания по строкам, столбцам и даже внутри элементов графика. Например, это может быть тепловая карта, круговая диаграмма, но одно из основных ее применений - выравнивание дендрограмм и деревьев.
Хотя существующие инструменты предоставляют некоторые решения, они часто не обеспечивают гибкости, контроля и простоты, которые нужны пользователям для создания сложных и согласованных графиков.
Авторы библиотеки написали мини-книгу ggalign: Bridging the Grammar of Graphics and Complex layout в качестве документации.
👉 Ели вы хотите быть в курсе того, что происходит с {ggplot2} - заглядывайте на сайт ggplot2 extenders/ggplot2 extension club 🫖
Библиотека {ggalign} - это расширение ggplot2, которое позволяет работать со сложными наборами данных, требующими точного выравнивания по строкам, столбцам и даже внутри элементов графика. Например, это может быть тепловая карта, круговая диаграмма, но одно из основных ее применений - выравнивание дендрограмм и деревьев.
Хотя существующие инструменты предоставляют некоторые решения, они часто не обеспечивают гибкости, контроля и простоты, которые нужны пользователям для создания сложных и согласованных графиков.
Авторы библиотеки написали мини-книгу ggalign: Bridging the Grammar of Graphics and Complex layout в качестве документации.
👉 Ели вы хотите быть в курсе того, что происходит с {ggplot2} - заглядывайте на сайт ggplot2 extenders/ggplot2 extension club 🫖
Closeread Prize
Мы все ждали-ждали... Хорошо, я ждал. И что же? Объявлены победители премии Closeread Prize! Участники конкурса должны были создать scrollytelling-историю на основе библиотеки Closeread - расширения для Quarto. Это расширение позволяет создавать веб-истории, которые разворачиваются по мере того, как пользователь прокручивает страницу. Инструменты участников конкурса также включали в себя R, Python, Shiny и Javascript.
Главный приз получила работа EURO 2024 Final Scrollytelling Analysis by Óscar Bartolomé Pato, на мой взгляд не очень выразительная. А вот мне понравились простые, но наглядные работы от Nicola Rennie, Benjamin Nowak с работой A Journey Through France (почему-то на конкурсе я ее не видел), а также работа Eine kurze Geschichte der Arbeitszeit, которую сделал Matthias Schnetzer.
Мы все ждали-ждали... Хорошо, я ждал. И что же? Объявлены победители премии Closeread Prize! Участники конкурса должны были создать scrollytelling-историю на основе библиотеки Closeread - расширения для Quarto. Это расширение позволяет создавать веб-истории, которые разворачиваются по мере того, как пользователь прокручивает страницу. Инструменты участников конкурса также включали в себя R, Python, Shiny и Javascript.
Главный приз получила работа EURO 2024 Final Scrollytelling Analysis by Óscar Bartolomé Pato, на мой взгляд не очень выразительная. А вот мне понравились простые, но наглядные работы от Nicola Rennie, Benjamin Nowak с работой A Journey Through France (почему-то на конкурсе я ее не видел), а также работа Eine kurze Geschichte der Arbeitszeit, которую сделал Matthias Schnetzer.
Tanya Shapiro ✨
Таня из Санкт-Петербурга, но... не Таня, а все-таки Tanya Shapiro и St. Petersburg находится в штате Флорида, США. Tanya работает в SQL, Python, JavaScript и, конечно, в R. Она участвует в челленджах, делает визуальные проекты, активно участвует в R-Ladies и других сообществах.
Ее работы можно посмотреть на GitHub (+Personal Data Visualization Projects), на сайте, TidyTuesday-странице. Хорошей визитной карточкой является ее презентация Anything is Plotsible.
Таня из Санкт-Петербурга, но... не Таня, а все-таки Tanya Shapiro и St. Petersburg находится в штате Флорида, США. Tanya работает в SQL, Python, JavaScript и, конечно, в R. Она участвует в челленджах, делает визуальные проекты, активно участвует в R-Ladies и других сообществах.
Ее работы можно посмотреть на GitHub (+Personal Data Visualization Projects), на сайте, TidyTuesday-странице. Хорошей визитной карточкой является ее презентация Anything is Plotsible.
Ten Tremendous Tricks in the Tidyverse
Некоторое время тому назад David Robinson на своем YouTube канале каждую неделю исследовал данные из проекта TidyTuesday, которые были ему неизвестны заранее. 🔥 Увы, сейчас его скринкасты прекратились. Будем надеяться, что содержательных видео на YouTube и других платформах станет больше, а не Data-Science-Hangout/Python болтовни от Posit PBS.
Тем не менее, один из лучших докладов, который делал David: Ten Tremendous Tricks in the Tidyverse. Вот эти приемы:
1.
2. создание переменных в
3.
4.
5.
6.
7.
8.
9.
10.
Крайне рекомендую посмотреть, очень простые и полезные идеи!
Отмечу, что Olivier Gimenez также собрал свою страницу tidyverse-tips, где делится своими наблюдениями по мотивам скринкастов, которые делал David Robinson.
Некоторое время тому назад David Robinson на своем YouTube канале каждую неделю исследовал данные из проекта TidyTuesday, которые были ему неизвестны заранее. 🔥 Увы, сейчас его скринкасты прекратились. Будем надеяться, что содержательных видео на YouTube и других платформах станет больше, а не Data-Science-Hangout/Python болтовни от Posit PBS.
Тем не менее, один из лучших докладов, который делал David: Ten Tremendous Tricks in the Tidyverse. Вот эти приемы:
1.
count()
2. создание переменных в
count()
3.
add_count()
4.
summarize()
5.
fct_reorder()
+ geom_col()
+ coord_flip()
6.
fct_lump()
7.
scale_x/y_log10()
8.
crossing()
9.
separate()
10.
extract()
Крайне рекомендую посмотреть, очень простые и полезные идеи!
Отмечу, что Olivier Gimenez также собрал свою страницу tidyverse-tips, где делится своими наблюдениями по мотивам скринкастов, которые делал David Robinson.