Для тех кто работает с веб архивами я обновил инструмент metawarc [1] это утилита для извлечения метаданных из файлов WARC (формат файлов веб архива).
Инструмент нужен для тех кто извлекает метаданные и файлы из WARC файлов, например, можно скачать WARC файл архива сайта Минспорта за 2019 г. , он небольшой, всего около 1ГБ, проиндексировать его и извлечь все PDF файлы, или файлы MS Word, или сразу извлечь все метаданные из документов и изображений.
Штука которая полезна для OSINT задач анализа сайтов организаций, но тема OSINT меня интересует мало.
А основное применение - это анализ больших архивов и организация поиска по ним и поиск интересных данных.
Когда-то давно я делал эту штуку и через неё находил массовое использование пиратского офисного ПО на российских госсайтах, но это было давно и уже давно малоинтересно. Внутри там использовалась база sqlite и при индексации всех метаданных размер этой базы мог достигать до 20% от размера WARC файла. То есть для коллекции в 1ТБ WARC'ов это получалось до 200GB база. А это совсем никуда не годится. После переписывания всё на связку DuckDB + Parquet после индексации объём уменьшился на порядки. Для WARC файла в 4.5ГБ извлеченные метаданные занимают 3.5МБ. А это 0.07%. Реальное сжатие в 285 раз (!), не говоря уже о ускорении операций по анализу и извлечению документов.
Ссылки:
[1] https://github.com/datacoon/metawarc
#opensource #webarchives
Инструмент нужен для тех кто извлекает метаданные и файлы из WARC файлов, например, можно скачать WARC файл архива сайта Минспорта за 2019 г. , он небольшой, всего около 1ГБ, проиндексировать его и извлечь все PDF файлы, или файлы MS Word, или сразу извлечь все метаданные из документов и изображений.
Штука которая полезна для OSINT задач анализа сайтов организаций, но тема OSINT меня интересует мало.
А основное применение - это анализ больших архивов и организация поиска по ним и поиск интересных данных.
Когда-то давно я делал эту штуку и через неё находил массовое использование пиратского офисного ПО на российских госсайтах, но это было давно и уже давно малоинтересно. Внутри там использовалась база sqlite и при индексации всех метаданных размер этой базы мог достигать до 20% от размера WARC файла. То есть для коллекции в 1ТБ WARC'ов это получалось до 200GB база. А это совсем никуда не годится. После переписывания всё на связку DuckDB + Parquet после индексации объём уменьшился на порядки. Для WARC файла в 4.5ГБ извлеченные метаданные занимают 3.5МБ. А это 0.07%. Реальное сжатие в 285 раз (!), не говоря уже о ускорении операций по анализу и извлечению документов.
Ссылки:
[1] https://github.com/datacoon/metawarc
#opensource #webarchives
🔥10❤3✍1
В продолжение про инструмент metawarc, о котором я ранее писал и то зачем он нужен и может применяться. Вот у меня как маленькое цифровое хобби есть архивация сайтов исчезающих и иных ценных ресурсов, в том числе российских госорганов. Всё оно сфокусировано на проект Национальный цифровой архив ruarxive.org и сообщество в ТГ.
И вот несколько недель назад закончилась архивация сайта Росстата и его территориальных управлений и вот вам некоторое количество цифр которые дадут более-полную-картину.
1. Общий архив сайтов Росстата и территориальных органов - это 330ГБ WARC файлов в сжатом виде (в разжатом виде около 1.1ТБ)
2. Индекс созданный с помощью metawarc занимает 144МБ (0.04% от объёма WARC файлов). Без сбора метаданных из изображений, PDF и файлов MS Office, только записи, заголовки и ссылки. Но поскольку задач OSINT тут нет, то и остальные метаданные не собирались. Впрочем и их объёмы были бы сравнимого размера.
3. На сайтах Росстата опубликовано в общей сложности:
- 64 020 файлов XLSX
- 17 562 файлов XLS
- 14 410 файлов RAR и ZIP внутри которых могут быть ещё десятки таблицы в XLS/XLSX (а могут и не быть, не во всех)
4. Итого если даже только на основе статистики Росстата создавали когда-то портал data.gov.ru там было могли быть десятки тысяч, если не хороших, то совершенно точно используемых аналитиками и исследователями данных.
5. То как оно сейчас на сайте Росстата и его террорганов опубликовано - это, конечно, ужас-ужас. Просто ну очень плохо, нет ни единого поиска, ни унифицированных метаданных и форматов, ни единой группировки и тд. Чем Росстат занимался последнее десятилетие я даже не представляю себе, вернее представляю, но не комментирую.
6. Забегая вперед и отвечая на незаданный вопрос, нет, не у всех статслужб в мире всё так же. В таком состоянии дела обычно только у статслужб развивающихся стран.
7. Возвращаясь к содержанию сайтов Росстата. Преимущественно публикации на них - это PDF файлы и таблички в HTML. Всего около 152 тысяч PDF файлов. Даже если предположить что какая-то их часть - это приказы и иные документы без данных, но разного рода статистика составляет львиную их часть.
Архивы сайтов могут быть довольно таки ценным источником данных, но для их извлечения надо приложить существенные усилия. Особенно когда они фрагментированы так как это произошло на сайте Росстата. Однако учитывая что многие сайты закрываются и исчезают и часто от них всё что остаётся - это как раз веб-архивы, то только из этих веб архивов и можно извлекать данные и документы.
#opendata #opensource #webarchivesё
И вот несколько недель назад закончилась архивация сайта Росстата и его территориальных управлений и вот вам некоторое количество цифр которые дадут более-полную-картину.
1. Общий архив сайтов Росстата и территориальных органов - это 330ГБ WARC файлов в сжатом виде (в разжатом виде около 1.1ТБ)
2. Индекс созданный с помощью metawarc занимает 144МБ (0.04% от объёма WARC файлов). Без сбора метаданных из изображений, PDF и файлов MS Office, только записи, заголовки и ссылки. Но поскольку задач OSINT тут нет, то и остальные метаданные не собирались. Впрочем и их объёмы были бы сравнимого размера.
3. На сайтах Росстата опубликовано в общей сложности:
- 64 020 файлов XLSX
- 17 562 файлов XLS
- 14 410 файлов RAR и ZIP внутри которых могут быть ещё десятки таблицы в XLS/XLSX (а могут и не быть, не во всех)
4. Итого если даже только на основе статистики Росстата создавали когда-то портал data.gov.ru там было могли быть десятки тысяч, если не хороших, то совершенно точно используемых аналитиками и исследователями данных.
5. То как оно сейчас на сайте Росстата и его террорганов опубликовано - это, конечно, ужас-ужас. Просто ну очень плохо, нет ни единого поиска, ни унифицированных метаданных и форматов, ни единой группировки и тд. Чем Росстат занимался последнее десятилетие я даже не представляю себе, вернее представляю, но не комментирую.
6. Забегая вперед и отвечая на незаданный вопрос, нет, не у всех статслужб в мире всё так же. В таком состоянии дела обычно только у статслужб развивающихся стран.
7. Возвращаясь к содержанию сайтов Росстата. Преимущественно публикации на них - это PDF файлы и таблички в HTML. Всего около 152 тысяч PDF файлов. Даже если предположить что какая-то их часть - это приказы и иные документы без данных, но разного рода статистика составляет львиную их часть.
Архивы сайтов могут быть довольно таки ценным источником данных, но для их извлечения надо приложить существенные усилия. Особенно когда они фрагментированы так как это произошло на сайте Росстата. Однако учитывая что многие сайты закрываются и исчезают и часто от них всё что остаётся - это как раз веб-архивы, то только из этих веб архивов и можно извлекать данные и документы.
#opendata #opensource #webarchivesё
👍4✍3🔥3😢1🙏1
Свежий любопытный редактор кода и данных NAO [1] профинансирован Y Combinator, предлагают аналог VSCode со встроенным AI ассистентом заточенным под данные, помогает строить пайплайны, разбирает SQL запросы, позволяет делать с данными и запросами к ним всякое. Позиционируется как Cursor для данных и заточенность под SQL.
Из минусов, поддерживает только облачные базы данных и Postgres, не имеет никакой поддержки NoSQL. Из плюсов, тем кто работает с SQL может пригодится.
Ссылки:
[1] https://getnao.io
#dataanalytics #dataengineering
Из минусов, поддерживает только облачные базы данных и Postgres, не имеет никакой поддержки NoSQL. Из плюсов, тем кто работает с SQL может пригодится.
Ссылки:
[1] https://getnao.io
#dataanalytics #dataengineering
👍9❤🔥3
В продолжение про NAO и другие инструменты вайб кодинга такие как Cursor, Copilot и тд. Их становится всё больше, хайпа вокруг них тоже немало. Что с этим делать и как к этому относиться?
1. AI инструменты для программистов явление обоюдоострое, чрезвычайно полезная там где они оттестированы и вредны там где нет. Из личного опыта, Copilot прекрасно обогащает CSV файлы по промпту. Например, грузишь CSV файл с перечнем названий стран на итальянском и просишь создать и заполнить колонку с их кодом из справочника ISO3166-1. А вот, например, запрос к Claude 3.5 (не самая мощная модель, да) на то чтобы получить рекомендации по оптимизации кода, в 2-х из 5-ти рекомендаций он выдал лютые глюки с несуществующими функциями.
2. Тем не менее в руках senior и middle разработчиков это сильное подспорье, способное значительно облегчить работу в очень многих задачах. Причём чем опытнее разработчик тем эффективнее будет инструмент. Правда не все разработчики старой школы готовы ИИ агентами пользоваться.
3. И наоборот, я бы поостерёгся брать на работу джуниоров-вайбкодеров потому что "важное не ударить, а знать где ударить". Последствия могут быть плохопредсказуемыми и лично я придерживаюсь мнения что не набив шишек на реальной работе вайбкодить нельзя категорически.
4. При этом применение LLM для работы с данными значительно сложнее. Почему? Потому что открытого кода и кусочков кода в сети безграничное количество, многие не будут опасаться отправлять свой код в облачные LLM, если только это не код каких-то уникальных алгоритмов, а это уже редкость. А вот данные могут содержать персональные данные, коммерческую тайну и ещё много чего. Использовать для анализа корп данных облачные LLM будет плохой практикой.
5. AI инструменты для разработчиков пытаются сделать повседневными. Что это значит? Максимальное упрощение пользовательского пути до ИИ агента. Примеры Cursor, NAO и ряда других AI IDE это про это. Такие инструменты создают ситуацию когда ты можешь отправить свой код или данные в любой момент в LLM, как говорится, одно неосторожное движение и... Для создателей инструментов это то о чём многие мечтали, наконец-то можно делать IDE зависящее от облачных сервисов и разработчики будут соглашаться авторизовываться и работать в облаке. IDE по подписке в общем. Для разработчиков будет развилка, открытые бесплатные IDE вроде VSCodium или продвинутые зависящие от облачных ИИ агентов.
#thoughts #ai
1. AI инструменты для программистов явление обоюдоострое, чрезвычайно полезная там где они оттестированы и вредны там где нет. Из личного опыта, Copilot прекрасно обогащает CSV файлы по промпту. Например, грузишь CSV файл с перечнем названий стран на итальянском и просишь создать и заполнить колонку с их кодом из справочника ISO3166-1. А вот, например, запрос к Claude 3.5 (не самая мощная модель, да) на то чтобы получить рекомендации по оптимизации кода, в 2-х из 5-ти рекомендаций он выдал лютые глюки с несуществующими функциями.
2. Тем не менее в руках senior и middle разработчиков это сильное подспорье, способное значительно облегчить работу в очень многих задачах. Причём чем опытнее разработчик тем эффективнее будет инструмент. Правда не все разработчики старой школы готовы ИИ агентами пользоваться.
3. И наоборот, я бы поостерёгся брать на работу джуниоров-вайбкодеров потому что "важное не ударить, а знать где ударить". Последствия могут быть плохопредсказуемыми и лично я придерживаюсь мнения что не набив шишек на реальной работе вайбкодить нельзя категорически.
4. При этом применение LLM для работы с данными значительно сложнее. Почему? Потому что открытого кода и кусочков кода в сети безграничное количество, многие не будут опасаться отправлять свой код в облачные LLM, если только это не код каких-то уникальных алгоритмов, а это уже редкость. А вот данные могут содержать персональные данные, коммерческую тайну и ещё много чего. Использовать для анализа корп данных облачные LLM будет плохой практикой.
5. AI инструменты для разработчиков пытаются сделать повседневными. Что это значит? Максимальное упрощение пользовательского пути до ИИ агента. Примеры Cursor, NAO и ряда других AI IDE это про это. Такие инструменты создают ситуацию когда ты можешь отправить свой код или данные в любой момент в LLM, как говорится, одно неосторожное движение и... Для создателей инструментов это то о чём многие мечтали, наконец-то можно делать IDE зависящее от облачных сервисов и разработчики будут соглашаться авторизовываться и работать в облаке. IDE по подписке в общем. Для разработчиков будет развилка, открытые бесплатные IDE вроде VSCodium или продвинутые зависящие от облачных ИИ агентов.
#thoughts #ai
✍5⚡1👍1💯1
Полезные ссылки про данные, технологии и не только:
- Why Parquet Is the Go-To Format for Data Engineers про формат Parquet, его особенности и трюки/оптимизации при работе с этими файлами. Полезно для тех кто про формат уже слышал, но почти не использовал.
- Data.gouv.fr High-value datasets свежая страница на французском национальном портале открытых данных с наборами данных высокой ценности (в терминах регулирования Евросоюза).
- Data Paper Index (China) - каталог статей на данных (data papers) из более чем 2,2 тысяч статей в 100 научных журналах и связанные с 11 научными репозиториями. Основные темы: окружающая среда, науки о земле. напомню что data papers - это вид научных статей опубликованных вокруг одного или нескольких наборов данных.
#opendata #datasets #dataengineering
- Why Parquet Is the Go-To Format for Data Engineers про формат Parquet, его особенности и трюки/оптимизации при работе с этими файлами. Полезно для тех кто про формат уже слышал, но почти не использовал.
- Data.gouv.fr High-value datasets свежая страница на французском национальном портале открытых данных с наборами данных высокой ценности (в терминах регулирования Евросоюза).
- Data Paper Index (China) - каталог статей на данных (data papers) из более чем 2,2 тысяч статей в 100 научных журналах и связанные с 11 научными репозиториями. Основные темы: окружающая среда, науки о земле. напомню что data papers - это вид научных статей опубликованных вокруг одного или нескольких наборов данных.
#opendata #datasets #dataengineering
Substack
Why Parquet Is the Go-To Format for Data Engineers
With more practical lessons to help you with the data engineering journey
✍4🔥3
Тренды и мысли по поводу данных и ИИ. Собрал в кучу размышления последних недель:
1. Почти все LLM умеют в анализ текстовых и легко преобразуемых в тексты данных и документов и совсем почти не умеют в бинарное, например, разобрать какой-нибудь geopackage или 3D модель или файлы parquet. Интересно появятся ли сервисы умеющие такое или надо делать своё уже?
2. MCP протокол внедряется повсеместно включая сервисы которые предлагают быстрое создание MCP на базе API. При том что MCP выглядит кривым-косым и неправильным архитектурно. Нужны и другие интерфейсы к API и к данным. Причём для данных MCP кажется особенно кривым инструментом. Но тренд явный и нарастающий
3. Корп каталоги данных по прежнему актуальны для задач комплаенса и для организации работы инженеров и data scientist'ов когда есть условно от 5 дата команд и более, но в целом это уже сложившийся и постепенно отмирающий, не развивающийся рынок.
4. Нет сервисов дата документации, не считая Castor'а который купили Coalesce. Сервисы документирования API есть, создания документации к интерфейсам есть, а дата документации автоматизированной нет.
5. Ведущие ИИ агенты хорошо анализируют Excel файлы, и PDF файлы, файлы MS Word, но не дают потокового API для этих задач.
6. Как интегрировать веб-архивацию и LLMки сейчас? Сделать универсальный MCP интерфейс к WARC файлам? Рынка здесь нет, польза может быть.
7. DuckDB массово используется как ядро для огромного числа продуктов, коммерческих, открытых, некоммерческих и тд. Хочешь сделать инструмент для манипуляции данными? DuckDB самый очевидный ответ, альтернативы Polars или Clickhouse
#thoughts #data #dataengineering
1. Почти все LLM умеют в анализ текстовых и легко преобразуемых в тексты данных и документов и совсем почти не умеют в бинарное, например, разобрать какой-нибудь geopackage или 3D модель или файлы parquet. Интересно появятся ли сервисы умеющие такое или надо делать своё уже?
2. MCP протокол внедряется повсеместно включая сервисы которые предлагают быстрое создание MCP на базе API. При том что MCP выглядит кривым-косым и неправильным архитектурно. Нужны и другие интерфейсы к API и к данным. Причём для данных MCP кажется особенно кривым инструментом. Но тренд явный и нарастающий
3. Корп каталоги данных по прежнему актуальны для задач комплаенса и для организации работы инженеров и data scientist'ов когда есть условно от 5 дата команд и более, но в целом это уже сложившийся и постепенно отмирающий, не развивающийся рынок.
4. Нет сервисов дата документации, не считая Castor'а который купили Coalesce. Сервисы документирования API есть, создания документации к интерфейсам есть, а дата документации автоматизированной нет.
5. Ведущие ИИ агенты хорошо анализируют Excel файлы, и PDF файлы, файлы MS Word, но не дают потокового API для этих задач.
6. Как интегрировать веб-архивацию и LLMки сейчас? Сделать универсальный MCP интерфейс к WARC файлам? Рынка здесь нет, польза может быть.
7. DuckDB массово используется как ядро для огромного числа продуктов, коммерческих, открытых, некоммерческих и тд. Хочешь сделать инструмент для манипуляции данными? DuckDB самый очевидный ответ, альтернативы Polars или Clickhouse
#thoughts #data #dataengineering
⚡6✍4👍3
В блоге IMF про стремительно растущее энергопотребление дата центров [1]. О том что все дата центры мира уже потребляют больше электричества чем Франция, а скоро будут потреблять больше электричества чем вся Россия.
Так в 2023 году дата центры потребляли порядка 500 тераватточасов, а к 2030 году ожидается 1500 тераватточасов.
Даже интересно пробудит ли это интерес инвесторов и резкий прогресс к термоядерной энергетике и другим способам получения больших объёмов электроэнергии или же перефокусировке разработчиков чипов с производительности на снижение энергопотребления?
В апреле из IMF была работа Power Hungry: How AI Will Drive Energy Demand [2] и там как-то всё было неопределенно. О том что появление моделей вроде Deepseek позволяет экономить на энергопотреблении, но, одновременно стимулирование применение ИИ теми кто ранее не мог себе этого позволить. И есть риски как недоинвестиций в энергетику и дата центры, так и роста цена на электричество при росте потребления.
У IMF, оказывается, есть прогностическая модель IMF-ENV [3] для оценки применения регулирования и реализация доказательной политики где как раз сильный фокус на поставки и потребление энергии.
И, конечно, про данные. Больше данных о энергопотреблении датацентров можно узнать:
- на сайте МЭА [4] - дают график, не дают скачать
- в США на сайте департамента энергетики отчёт за 2024 г. [5]
- в докладе ЕС в 2024 году [6] за 2023 год
- в официальной статистики Ирландии [7] за 2023 год
Ссылки:
[1] https://www.imf.org/en/Blogs/Articles/2025/05/13/ai-needs-more-abundant-power-supplies-to-keep-driving-economic-growth
[2] https://www.imf.org/en/Publications/WP/Issues/2025/04/21/Power-Hungry-How-AI-Will-Drive-Energy-Demand-566304
[3] https://www.imf.org/en/Publications/WP/Issues/2025/04/11/IMF-ENV-Integrating-Climate-Energy-and-Trade-Policies-in-a-General-Equilibrium-Framework-565817
[4] https://www.iea.org/data-and-statistics/charts/data-centre-electricity-consumption-by-region-base-case-2020-2030
[5] https://www.energy.gov/articles/doe-releases-new-report-evaluating-increase-electricity-demand-data-centers
[6] https://publications.jrc.ec.europa.eu/repository/handle/JRC135926
[7] https://www.cso.ie/en/releasesandpublications/ep/p-dcmec/datacentresmeteredelectricityconsumption2023/keyfindings/
#energy #dataviz #IMF #datasets #opendata
Так в 2023 году дата центры потребляли порядка 500 тераватточасов, а к 2030 году ожидается 1500 тераватточасов.
Даже интересно пробудит ли это интерес инвесторов и резкий прогресс к термоядерной энергетике и другим способам получения больших объёмов электроэнергии или же перефокусировке разработчиков чипов с производительности на снижение энергопотребления?
В апреле из IMF была работа Power Hungry: How AI Will Drive Energy Demand [2] и там как-то всё было неопределенно. О том что появление моделей вроде Deepseek позволяет экономить на энергопотреблении, но, одновременно стимулирование применение ИИ теми кто ранее не мог себе этого позволить. И есть риски как недоинвестиций в энергетику и дата центры, так и роста цена на электричество при росте потребления.
У IMF, оказывается, есть прогностическая модель IMF-ENV [3] для оценки применения регулирования и реализация доказательной политики где как раз сильный фокус на поставки и потребление энергии.
И, конечно, про данные. Больше данных о энергопотреблении датацентров можно узнать:
- на сайте МЭА [4] - дают график, не дают скачать
- в США на сайте департамента энергетики отчёт за 2024 г. [5]
- в докладе ЕС в 2024 году [6] за 2023 год
- в официальной статистики Ирландии [7] за 2023 год
Ссылки:
[1] https://www.imf.org/en/Blogs/Articles/2025/05/13/ai-needs-more-abundant-power-supplies-to-keep-driving-economic-growth
[2] https://www.imf.org/en/Publications/WP/Issues/2025/04/21/Power-Hungry-How-AI-Will-Drive-Energy-Demand-566304
[3] https://www.imf.org/en/Publications/WP/Issues/2025/04/11/IMF-ENV-Integrating-Climate-Energy-and-Trade-Policies-in-a-General-Equilibrium-Framework-565817
[4] https://www.iea.org/data-and-statistics/charts/data-centre-electricity-consumption-by-region-base-case-2020-2030
[5] https://www.energy.gov/articles/doe-releases-new-report-evaluating-increase-electricity-demand-data-centers
[6] https://publications.jrc.ec.europa.eu/repository/handle/JRC135926
[7] https://www.cso.ie/en/releasesandpublications/ep/p-dcmec/datacentresmeteredelectricityconsumption2023/keyfindings/
#energy #dataviz #IMF #datasets #opendata
✍5⚡3
Небольшой, но интересный набор данных о 500 суперкомпьютерах для ИИ [1] в виде Excel файла и набора интерактивных визуализацией, а также статьи Trends in AI Supercomputers [2] от апреля 2025 года.
Ключевые инсайты из этих материалов:
1. Счётная (компьютерная) производительность суперкомпьютеров для ИИ удваивается каждые 9 месяцев
2. ИИ суперкомпьютеры чрезвычайно дороги. Стоимость приобретения ведущих суперкомпьютеров удваивается каждые 13 месяцев
3. Аналогично требования к электроэнергии. Каждый 13 месяцев запрос на энергию удваивается
4. Безусловно доминирование частного сектора в суперкомпьютерах. От 40% в 2019 году до 80% в 2025. Это одно из фундаментальных изменений.
5. 75% всех мощностей в США и 15% в Китае. Все остальные в оставшихся 10%.
Ссылки:
[1] https://epoch.ai/data/ai-supercomputers
[2] https://arxiv.org/abs/2504.16026
#ai #datacenters #readings #insights
Ключевые инсайты из этих материалов:
1. Счётная (компьютерная) производительность суперкомпьютеров для ИИ удваивается каждые 9 месяцев
2. ИИ суперкомпьютеры чрезвычайно дороги. Стоимость приобретения ведущих суперкомпьютеров удваивается каждые 13 месяцев
3. Аналогично требования к электроэнергии. Каждый 13 месяцев запрос на энергию удваивается
4. Безусловно доминирование частного сектора в суперкомпьютерах. От 40% в 2019 году до 80% в 2025. Это одно из фундаментальных изменений.
5. 75% всех мощностей в США и 15% в Китае. Все остальные в оставшихся 10%.
Ссылки:
[1] https://epoch.ai/data/ai-supercomputers
[2] https://arxiv.org/abs/2504.16026
#ai #datacenters #readings #insights
👍8❤4
Cloudflare теперь по умолчанию блокируют все AI боты о чем и пишут в официальном пресс-релизе [1], а в мае они предлагали механизм для аутентификации ИИ ботов [2] и, похоже, будут активно его продвигать как стандарт.
Шаг, в каком-то смысле ожидаемый, хочется надеяться что их теперь не купит какая-нибудь-крупная-AI-компания потому что выступая в роли CDN Cloudflare естественным образом, хотя бы и временно, но пропускает через свою инфраструктуру огромные объёмы контента. Рано или поздно это поймут те кому этот контент так нужен.
Но это если и произойдёт, то не сегодня, а пока Cloudflare явно играют на стороне своих клиентов, владельцев и создателей контента.
Ссылки:
[1] https://www.cloudflare.com/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/
[2] https://blog.cloudflare.com/web-bot-auth/
#ai #aibots
Шаг, в каком-то смысле ожидаемый, хочется надеяться что их теперь не купит какая-нибудь-крупная-AI-компания потому что выступая в роли CDN Cloudflare естественным образом, хотя бы и временно, но пропускает через свою инфраструктуру огромные объёмы контента. Рано или поздно это поймут те кому этот контент так нужен.
Но это если и произойдёт, то не сегодня, а пока Cloudflare явно играют на стороне своих клиентов, владельцев и создателей контента.
Ссылки:
[1] https://www.cloudflare.com/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/
[2] https://blog.cloudflare.com/web-bot-auth/
#ai #aibots
Cloudflare
Cloudflare Just Changed How AI Crawlers Scrape the Internet-at-Large; Permission-Based Approach Makes Way for A New Business Model…
Empowers leading publishers and AI companies to stop the scraping and use of original content without permission
❤16🔥12👍7🤔2😢1
Forwarded from Мендрелюк
Это странное слово ДЖУН
Я никогда особенно не задумывался, в какой момент на ИТ рынке появилась эта странная градация на джунов, мидлов и синьоров, но вот сейчас тут и там натыкаешься на вселенский вой и заламывание виртуальных рук: джунов перестают брать на работу.
Причины называются разные и все они разной степени фантазийности. Особенно доставляет сваливать все на ИИ (хотя сейчас все на него сваливают). Но нигде не звучит гипотеза, что процесс был изначально предопределен без всякого ИИ и что ситуация развивается вполне гармонично.
Причина, как мне представляется, проста – в какой-то момент на рынке разработчиков возник дефицит рабочих рук и компании начали нанимать, грубо говоря, кого попало. А еще точнее – от безысходности брать учеников и доучивать их за свой счет.
Так было в моем, еще советском детстве, когда на каждой промышленной проходной требовались токари и фрезеровщики, а про инженеров часто вообще не было ни строчки. Потому что рабочих не хватало, а инженерами (о деятельности которых одних анекдотов было почти как про Чапаева и Петьку) были все укомплектованы под завязку.
Как следствие – заводы и фабрики набирали учеников слесаря или токаря, чтобы учить его, пришедшего с улицы, за свой счет (допускаю, что иногда на зарплату больше инженерной), а вот учеников инженера никто не звал.
С программистами происходило приблизительно так же. С массовым сумасшествием в виде срочных курсов подготовки «кого хочешь, но шо б в ИТ». А уж HR-ы постарались придать всему этому некий лоск (согласитесь, что стрёмно как-то заявлять о том, что занимаюсь наймом ученика программиста, а вот джун – уже звучит гордо и солидно. Не говоря уже о самих учениках).
А потом спрос начал падать (масса объективных факторов) и вдруг оказалось, что ученики уже не требуются. Ну и крупные компании, конечно, сумели худо бедно выстроить системы подготовки нормальных инженеров и разработчиков под себя (как раньше при заводах и фабриках были просто собственные ПТУ и техникумы) и перестали брыть тех, кто ничего толком не умеет + еще и не знает предметной области.
И это хорошо.
Потому как профессии в ИТ это ж не только про опыт. Это еще и про талант. Про склонность. Просто про способность. Пусть будет деление на сильных, нормальных и непригодных (иди доучивайся до нормальности), а не вот это все.
Я когда то тоже получал диплом программиста в ВУЗе, где преподавание программирования было на высоком уровне. Мой факультет (курс 50 человек), например, например, заканчивали и Сергей, и Борис Нуралиевы. И свои пятерки по этим профильным специальностям я имел. И даже был готов связать свою судьбу с программированием... Но ровно до того момента, когда я столкнулся с настоящими программистами. По таланту и призванию.
И мне быстро стало ясно, что для меня это вообще недостижимый космос. И это не был вопрос времени, «когда я научусь так же». Было понятно, что не научусь никогда, потому как мы с ними просто в разных плоскостях, в разных измерениях и разных лигах. И буду я, в лучшем случае, не очень счастливым программистом-ремесленником.
А сейчас на улице окажутся толпы неприкаянных, поверивших в то, что «спрос на ИТ будет всегда» и будут всячески оправдывать свой неправильный выбор массой глупостей. А журналисты будут эти глупости транслировать. А курсы переподготовки для получения новой «манны небесной» выкатят убедительные доказательства новых профессий будущего.
Я бы, как футбольный болельщик, конечно же, предложил бы им переключиться с ИТ на обучение футболу. Вы каждого первого болельщика или футбольного функционера спросите и он вам расскажет, как драматически не хватает хороших российских игроков в нашем футболе. С цифрами и диаграммами.
И дел то всего... Правила простые. Зарплаты огромные. Бегать быстро. Мячик пинать поточнее. Вы что, во дворе в футбол не играли? Просто немного прокачаться на курсах надо. Полугодовых.
В общем жалко джунов. Они, похоже, единственные обманутые в этой истории.
Я никогда особенно не задумывался, в какой момент на ИТ рынке появилась эта странная градация на джунов, мидлов и синьоров, но вот сейчас тут и там натыкаешься на вселенский вой и заламывание виртуальных рук: джунов перестают брать на работу.
Причины называются разные и все они разной степени фантазийности. Особенно доставляет сваливать все на ИИ (хотя сейчас все на него сваливают). Но нигде не звучит гипотеза, что процесс был изначально предопределен без всякого ИИ и что ситуация развивается вполне гармонично.
Причина, как мне представляется, проста – в какой-то момент на рынке разработчиков возник дефицит рабочих рук и компании начали нанимать, грубо говоря, кого попало. А еще точнее – от безысходности брать учеников и доучивать их за свой счет.
Так было в моем, еще советском детстве, когда на каждой промышленной проходной требовались токари и фрезеровщики, а про инженеров часто вообще не было ни строчки. Потому что рабочих не хватало, а инженерами (о деятельности которых одних анекдотов было почти как про Чапаева и Петьку) были все укомплектованы под завязку.
Как следствие – заводы и фабрики набирали учеников слесаря или токаря, чтобы учить его, пришедшего с улицы, за свой счет (допускаю, что иногда на зарплату больше инженерной), а вот учеников инженера никто не звал.
С программистами происходило приблизительно так же. С массовым сумасшествием в виде срочных курсов подготовки «кого хочешь, но шо б в ИТ». А уж HR-ы постарались придать всему этому некий лоск (согласитесь, что стрёмно как-то заявлять о том, что занимаюсь наймом ученика программиста, а вот джун – уже звучит гордо и солидно. Не говоря уже о самих учениках).
А потом спрос начал падать (масса объективных факторов) и вдруг оказалось, что ученики уже не требуются. Ну и крупные компании, конечно, сумели худо бедно выстроить системы подготовки нормальных инженеров и разработчиков под себя (как раньше при заводах и фабриках были просто собственные ПТУ и техникумы) и перестали брыть тех, кто ничего толком не умеет + еще и не знает предметной области.
И это хорошо.
Потому как профессии в ИТ это ж не только про опыт. Это еще и про талант. Про склонность. Просто про способность. Пусть будет деление на сильных, нормальных и непригодных (иди доучивайся до нормальности), а не вот это все.
Я когда то тоже получал диплом программиста в ВУЗе, где преподавание программирования было на высоком уровне. Мой факультет (курс 50 человек), например, например, заканчивали и Сергей, и Борис Нуралиевы. И свои пятерки по этим профильным специальностям я имел. И даже был готов связать свою судьбу с программированием... Но ровно до того момента, когда я столкнулся с настоящими программистами. По таланту и призванию.
И мне быстро стало ясно, что для меня это вообще недостижимый космос. И это не был вопрос времени, «когда я научусь так же». Было понятно, что не научусь никогда, потому как мы с ними просто в разных плоскостях, в разных измерениях и разных лигах. И буду я, в лучшем случае, не очень счастливым программистом-ремесленником.
А сейчас на улице окажутся толпы неприкаянных, поверивших в то, что «спрос на ИТ будет всегда» и будут всячески оправдывать свой неправильный выбор массой глупостей. А журналисты будут эти глупости транслировать. А курсы переподготовки для получения новой «манны небесной» выкатят убедительные доказательства новых профессий будущего.
Я бы, как футбольный болельщик, конечно же, предложил бы им переключиться с ИТ на обучение футболу. Вы каждого первого болельщика или футбольного функционера спросите и он вам расскажет, как драматически не хватает хороших российских игроков в нашем футболе. С цифрами и диаграммами.
И дел то всего... Правила простые. Зарплаты огромные. Бегать быстро. Мячик пинать поточнее. Вы что, во дворе в футбол не играли? Просто немного прокачаться на курсах надо. Полугодовых.
В общем жалко джунов. Они, похоже, единственные обманутые в этой истории.
❤22👍10✍7🔥5💊5🤔1😢1🤣1
Полезные ссылки про данные, технологии и не только:
- Software engineering with LLMs in 2025: reality check про применение LLM в программной инженерии. Неплохой обзор текущего состояния, понятным языком и про ключевые тренды.
- 9 Trends Shaping the Future of Data Management in 2025 обзор трендов в управлении данными в 2025 году. Надо тут оговорится что речь про рынок США, что сам обзор от коммерческой компании продающей SaaS сервис по контролю качества данных, а в остальном полезный обзор. Всё вполне очевидно: AI, real time data, self-service BI и тд.
- Iceberg, The Right Idea - The Wrong Spec - Part 1 of 2: History обзор истории спецификации Apache Iceberg. Полезно почитать перед тем как использовать
- DuckLake 0.2 обновление стандарта/спецификации озера данных на базе DuckDB. Слежу за этим внимательно, выглядит даже перспективнее чем Iceberg
- Why AI hardware needs to be open почему бы оборудованию для ИИ не быть открытым? Идеологически мне нравится, но нужен какой-то другой глобус чтобы это стало правдой
- Introducing pay per crawl: enabling content owners to charge AI crawlers for access владельцы сайтов теперь могут требовать оплату за краулинг их ресурсов.
#dataengineering #dataanalytics #ai #duckdb
- Software engineering with LLMs in 2025: reality check про применение LLM в программной инженерии. Неплохой обзор текущего состояния, понятным языком и про ключевые тренды.
- 9 Trends Shaping the Future of Data Management in 2025 обзор трендов в управлении данными в 2025 году. Надо тут оговорится что речь про рынок США, что сам обзор от коммерческой компании продающей SaaS сервис по контролю качества данных, а в остальном полезный обзор. Всё вполне очевидно: AI, real time data, self-service BI и тд.
- Iceberg, The Right Idea - The Wrong Spec - Part 1 of 2: History обзор истории спецификации Apache Iceberg. Полезно почитать перед тем как использовать
- DuckLake 0.2 обновление стандарта/спецификации озера данных на базе DuckDB. Слежу за этим внимательно, выглядит даже перспективнее чем Iceberg
- Why AI hardware needs to be open почему бы оборудованию для ИИ не быть открытым? Идеологически мне нравится, но нужен какой-то другой глобус чтобы это стало правдой
- Introducing pay per crawl: enabling content owners to charge AI crawlers for access владельцы сайтов теперь могут требовать оплату за краулинг их ресурсов.
#dataengineering #dataanalytics #ai #duckdb
✍5👍1
К вопросу о полноте/неполноте ответов ИИ помощников да и поисковых систем сложно не вспомнить про "серый веб".
Можно вспомнить "белый веб" - это материалы доступные для индексации онлайн и "тёмный веб" (dark web) - это то целенаправленно сокрытые материалы и данные, доступные только через Tor или иные пиринговые сети.
В свою очередь "серый веб" - это то что находится в сети, но по множеству, в основном технических причин, недоступно для индексации. Тут и пэйволы, и контент доступный только через POST запросы и/или Ajax, и сайты блокирующие все боты капчей и геоблокировками, и то что публикуется в неиндексируемых форматах.
Это тот случай когда обычно немашиночитаемые PDF файлы, вполне себе превращаются поисковиками и ИИ краулерами в пригодные для обработки документы, а вот если эти PDF файлы положить внутрь ZIP архивов они сразу же выпадают из поискового индекса. А уж если положить их во что-то ещё менее популярное, в 7z, RAR или что-то ещё более экзотическое, то контент автоматически не попадает в поисковый индекс.
В копилку вредных советов, для тех кто не хочет помогать ИИ помощникам можно добавить следующий
Публикуй заархивированные документы.🤷♀️
Это гораздо более действенно чем публиковать сканы документов, как это делают в некоторых государственных ресурсах в некоторых развивающихся (и не очень то развивающихся) странах.
Я вижу это особенно наглядно когда задаю облачным LLM вопросы о бюджетах некоторых стран, регионов и городов. Видно как они собирают инфу на основе публикаций в СМИ или на страницах сайтов госорганов хотя эти же данные, гораздо более верные и полные лежат в определённых разделах, определённых сайтов, но в виде ZIP архивов с файлами Excel, PDF или HTML. Или же когда данные доступны в виде интерактивных навигаторов скачать из которых можно только вручную, экспортом и через POST запросы которые обычные и AI краулеры не сделают или сделают только в режиме сфокусированного сбора.
То есть если кто-то соберет данные краулером целенаправленно, сделает их удобными для обработки и положит куда-то откуда их потом в ИИ импортируют, то данные для ИИ агента будут доступны. Но это будет неоперативно и требует сфокусированных целенаправленных усилий.
Явление пока что не массовое, но как один из способов борьбы с ИИ краулерами весьма вероятный.
P.S. Делюсь вредным советом потому что он сложнее в реализации чем просто блокировать всё и вся.
#thoughts #ai
Можно вспомнить "белый веб" - это материалы доступные для индексации онлайн и "тёмный веб" (dark web) - это то целенаправленно сокрытые материалы и данные, доступные только через Tor или иные пиринговые сети.
В свою очередь "серый веб" - это то что находится в сети, но по множеству, в основном технических причин, недоступно для индексации. Тут и пэйволы, и контент доступный только через POST запросы и/или Ajax, и сайты блокирующие все боты капчей и геоблокировками, и то что публикуется в неиндексируемых форматах.
Это тот случай когда обычно немашиночитаемые PDF файлы, вполне себе превращаются поисковиками и ИИ краулерами в пригодные для обработки документы, а вот если эти PDF файлы положить внутрь ZIP архивов они сразу же выпадают из поискового индекса. А уж если положить их во что-то ещё менее популярное, в 7z, RAR или что-то ещё более экзотическое, то контент автоматически не попадает в поисковый индекс.
В копилку вредных советов, для тех кто не хочет помогать ИИ помощникам можно добавить следующий
Публикуй заархивированные документы.
Это гораздо более действенно чем публиковать сканы документов, как это делают в некоторых государственных ресурсах в некоторых развивающихся (и не очень то развивающихся) странах.
Я вижу это особенно наглядно когда задаю облачным LLM вопросы о бюджетах некоторых стран, регионов и городов. Видно как они собирают инфу на основе публикаций в СМИ или на страницах сайтов госорганов хотя эти же данные, гораздо более верные и полные лежат в определённых разделах, определённых сайтов, но в виде ZIP архивов с файлами Excel, PDF или HTML. Или же когда данные доступны в виде интерактивных навигаторов скачать из которых можно только вручную, экспортом и через POST запросы которые обычные и AI краулеры не сделают или сделают только в режиме сфокусированного сбора.
То есть если кто-то соберет данные краулером целенаправленно, сделает их удобными для обработки и положит куда-то откуда их потом в ИИ импортируют, то данные для ИИ агента будут доступны. Но это будет неоперативно и требует сфокусированных целенаправленных усилий.
Явление пока что не массовое, но как один из способов борьбы с ИИ краулерами весьма вероятный.
P.S. Делюсь вредным советом потому что он сложнее в реализации чем просто блокировать всё и вся.
#thoughts #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍5✍3
The real winners of the AI Race полезное чтение о реальных бенефициарах почти всех стартапов в области генеративного ИИ таких как OpenAI, Anthropic, Mistral и других. Авторы провели анализ 12 таких стартапов и совершенно неожиданно весьма ожидаемо обнаружили что главные бенефициары - это Big Tech.
- 11 из 12 стартапов зависят от чипов NVIDIA
- 10 из 12 стартапов основаны на инфраструктуре Amazon, Microsoft или Google
- 9 из 12 стартапов продают доступ к своим моделям через платформы Amazon, Microsoft или Google
Для тех кто знает как эта индустрия устроена ничего нового в этом нет, разве что чуть более систематизировано изложено.
Контекст же в том что национальные правительства и ЕС пытаются создавать национальных чемпионов в области AI чтобы снизить зависимость от международных игроков и, даже, говорят о цифровом суверенитете, а по факту почти все проинвестированные в ЕС стартапы в этой области находятся в зависимости от Big Tech из США и звучат призывы к анализу всей цепочки ценности при инвестициях и выдаче грантов таким стартапам.
#ai #investments #tech #genai
- 11 из 12 стартапов зависят от чипов NVIDIA
- 10 из 12 стартапов основаны на инфраструктуре Amazon, Microsoft или Google
- 9 из 12 стартапов продают доступ к своим моделям через платформы Amazon, Microsoft или Google
Для тех кто знает как эта индустрия устроена ничего нового в этом нет, разве что чуть более систематизировано изложено.
Контекст же в том что национальные правительства и ЕС пытаются создавать национальных чемпионов в области AI чтобы снизить зависимость от международных игроков и, даже, говорят о цифровом суверенитете, а по факту почти все проинвестированные в ЕС стартапы в этой области находятся в зависимости от Big Tech из США и звучат призывы к анализу всей цепочки ценности при инвестициях и выдаче грантов таким стартапам.
#ai #investments #tech #genai
SOMO
The real winners of the AI Race - SOMO
Microsoft, Amazon, Google and Nvidia The so-called “AI Race” is dominating business and policy discussions on technology. With companies and states competing to conquer the developing genAI market, start-ups like OpenAI(opens in new window) , Anthropic,…
✍4👍2🤣1
Научная статья Data manipulation within the US Federal Government в журнале Lancet о том что федеральное правительство в США изменяло ранее опубликованные данные никого об этом не уведомляя. Делали это агентства и учреждения ответственные за общественное здравоохранение с ранее опубликованными данными опросов и исследований.
Авторы проанализировали 232 набора данных опубликованных CDC (Центры по контролю и профилактике заболеваний США) и обнаружили что с приходом администрации Трампа были изменены 49% (114 наборов данных), в основном изменения были в замене слова gender на sex, а также были иные изменения в структуре и описаниях данных.
При этом исследователи не анализировали глубоко сами датасеты, на предмет сохранения их полноты, из-за ограничений доступности архивных данных и использовали ранее сохраненные слепки из Интернет Архива.
С одной стороны не так много стран где можно опубликовать научную статью о том что "государства лгут и манипулируют", с другой даже в развитых странах такие публикацией встретишь нечасто. Здесь, конечно, хочется сказать что нам бы их проблемы, лично я чаще сталкиваюсь с тем что данных просто нет или то что при смене политической повестки данными не просто манипулируют, их убирают из открытого доступа.
А эта история наглядно тем что всё больше пользователей государственных данных осознают ценность их архивации.
#opendata #datasets #readings #usa #healthcare
Авторы проанализировали 232 набора данных опубликованных CDC (Центры по контролю и профилактике заболеваний США) и обнаружили что с приходом администрации Трампа были изменены 49% (114 наборов данных), в основном изменения были в замене слова gender на sex, а также были иные изменения в структуре и описаниях данных.
При этом исследователи не анализировали глубоко сами датасеты, на предмет сохранения их полноты, из-за ограничений доступности архивных данных и использовали ранее сохраненные слепки из Интернет Архива.
С одной стороны не так много стран где можно опубликовать научную статью о том что "государства лгут и манипулируют", с другой даже в развитых странах такие публикацией встретишь нечасто. Здесь, конечно, хочется сказать что нам бы их проблемы, лично я чаще сталкиваюсь с тем что данных просто нет или то что при смене политической повестки данными не просто манипулируют, их убирают из открытого доступа.
А эта история наглядно тем что всё больше пользователей государственных данных осознают ценность их архивации.
#opendata #datasets #readings #usa #healthcare
The Lancet
Data manipulation within the US Federal Government
A US Department of Veterans Affairs dataset compiling veteran health-care use in 2021
was quietly amended on March 5, 2025. A column titled gender was renamed sex, and
the words were also switched in the dataset title and description (appendix p 1).
Before…
was quietly amended on March 5, 2025. A column titled gender was renamed sex, and
the words were also switched in the dataset title and description (appendix p 1).
Before…
👍4✍1
Не буду давать ссылки на конкретные издания которые пишут пред-анонсы того что в РФ 15 июля планируется перезапуск data.gov.ru. Во первый сами публикации довольно, скажем так, неумелые, а во вторых говорить про то что сделано будет на data.gov.ru лично я буду только после того как увижу его в обновлённой форме 15 июля, если, это, конечно, произойдёт.
А пока в качестве напоминаний:
1. Портал data.gov.ru был недоступен более 2-х лет будучи "закрытым на обновление"
2. В предыдущей версии было доступно более 20+ тысяч наборов данных, большая часть которых, конечно, были мусорными, но тем не менее.
3. Полный слепок архива прошлой версии data.gov.ru у нас есть в ruarxive.org, если он Вам понадобится, напомните, я продублирую ссылку на дамп и вебархив
Честно говоря у меня лично нет вообще никаких позитивных ожиданий от того что российский портал data.gov.ru перезапускают. Есть много стран таких как Зимбабве или Чад где тоже нет порталов открытых данных. И ничего, живут же как-то;)
#opendata #russia
А пока в качестве напоминаний:
1. Портал data.gov.ru был недоступен более 2-х лет будучи "закрытым на обновление"
2. В предыдущей версии было доступно более 20+ тысяч наборов данных, большая часть которых, конечно, были мусорными, но тем не менее.
3. Полный слепок архива прошлой версии data.gov.ru у нас есть в ruarxive.org, если он Вам понадобится, напомните, я продублирую ссылку на дамп и вебархив
Честно говоря у меня лично нет вообще никаких позитивных ожиданий от того что российский портал data.gov.ru перезапускают. Есть много стран таких как Зимбабве или Чад где тоже нет порталов открытых данных. И ничего, живут же как-то;)
#opendata #russia
👍7🌚2🐳1