Telegram Web
Cloudflare теперь по умолчанию блокируют все AI боты о чем и пишут в официальном пресс-релизе [1], а в мае они предлагали механизм для аутентификации ИИ ботов [2] и, похоже, будут активно его продвигать как стандарт.

Шаг, в каком-то смысле ожидаемый, хочется надеяться что их теперь не купит какая-нибудь-крупная-AI-компания потому что выступая в роли CDN Cloudflare естественным образом, хотя бы и временно, но пропускает через свою инфраструктуру огромные объёмы контента. Рано или поздно это поймут те кому этот контент так нужен.

Но это если и произойдёт, то не сегодня, а пока Cloudflare явно играют на стороне своих клиентов, владельцев и создателей контента.

Ссылки:
[1] https://www.cloudflare.com/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/
[2] https://blog.cloudflare.com/web-bot-auth/

#ai #aibots
16🔥12👍7🤔2😢1
Forwarded from Мендрелюк
Это странное слово ДЖУН

Я никогда особенно не задумывался, в какой момент на ИТ рынке появилась эта странная градация на джунов, мидлов и синьоров, но вот сейчас тут и там натыкаешься на вселенский вой и заламывание виртуальных рук: джунов перестают брать на работу.

Причины называются разные и все они разной степени фантазийности. Особенно доставляет сваливать все на ИИ (хотя сейчас все на него сваливают). Но нигде не звучит гипотеза, что процесс был изначально предопределен без всякого ИИ и что ситуация развивается вполне гармонично.

Причина, как мне представляется, проста – в какой-то момент на рынке разработчиков возник дефицит рабочих рук и компании начали нанимать, грубо говоря, кого попало. А еще точнее – от безысходности брать учеников и доучивать их за свой счет.

Так было в моем, еще советском детстве, когда на каждой промышленной проходной требовались токари и фрезеровщики, а про инженеров часто вообще не было ни строчки. Потому что рабочих не хватало, а инженерами (о деятельности которых одних анекдотов было почти как про Чапаева и Петьку) были все укомплектованы под завязку.

Как следствие – заводы и фабрики набирали учеников слесаря или токаря, чтобы учить его, пришедшего с улицы, за свой счет (допускаю, что иногда на зарплату больше инженерной), а вот учеников инженера никто не звал.

С программистами происходило приблизительно так же. С массовым сумасшествием в виде срочных курсов подготовки «кого хочешь, но шо б в ИТ». А уж HR-ы постарались придать всему этому некий лоск (согласитесь, что стрёмно как-то заявлять о том, что занимаюсь наймом ученика программиста, а вот джун – уже звучит гордо и солидно. Не говоря уже о самих учениках).

А потом спрос начал падать (масса объективных факторов) и вдруг оказалось, что ученики уже не требуются. Ну и крупные компании, конечно, сумели худо бедно выстроить системы подготовки нормальных инженеров и разработчиков под себя (как раньше при заводах и фабриках были просто собственные ПТУ и техникумы) и перестали брыть тех, кто ничего толком не умеет + еще и не знает предметной области.

И это хорошо.

Потому как профессии в ИТ это ж не только про опыт. Это еще и про талант. Про склонность. Просто про способность. Пусть будет деление на сильных, нормальных и непригодных (иди доучивайся до нормальности), а не вот это все.

Я когда то тоже получал диплом программиста в ВУЗе, где преподавание программирования было на высоком уровне. Мой факультет (курс 50 человек), например, например, заканчивали и Сергей, и Борис Нуралиевы. И свои пятерки по этим профильным специальностям я имел. И даже был готов связать свою судьбу с программированием... Но ровно до того момента, когда я столкнулся с настоящими программистами. По таланту и призванию.

И мне быстро стало ясно, что для меня это вообще недостижимый космос. И это не был вопрос времени, «когда я научусь так же». Было понятно, что не научусь никогда, потому как мы с ними просто в разных плоскостях, в разных измерениях и разных лигах. И буду я, в лучшем случае, не очень счастливым программистом-ремесленником.

А сейчас на улице окажутся толпы неприкаянных, поверивших в то, что «спрос на ИТ будет всегда» и будут всячески оправдывать свой неправильный выбор массой глупостей. А журналисты будут эти глупости транслировать. А курсы переподготовки для получения новой «манны небесной» выкатят убедительные доказательства новых профессий будущего.

Я бы, как футбольный болельщик, конечно же, предложил бы им переключиться с ИТ на обучение футболу. Вы каждого первого болельщика или футбольного функционера спросите и он вам расскажет, как драматически не хватает хороших российских игроков в нашем футболе. С цифрами и диаграммами.

И дел то всего... Правила простые. Зарплаты огромные. Бегать быстро. Мячик пинать поточнее. Вы что, во дворе в футбол не играли? Просто немного прокачаться на курсах надо. Полугодовых.

В общем жалко джунов. Они, похоже, единственные обманутые в этой истории.
23👍107🔥5💊5🤔1😢1🤣1
Полезные ссылки про данные, технологии и не только:
- Software engineering with LLMs in 2025: reality check про применение LLM в программной инженерии. Неплохой обзор текущего состояния, понятным языком и про ключевые тренды.
- 9 Trends Shaping the Future of Data Management in 2025 обзор трендов в управлении данными в 2025 году. Надо тут оговорится что речь про рынок США, что сам обзор от коммерческой компании продающей SaaS сервис по контролю качества данных, а в остальном полезный обзор. Всё вполне очевидно: AI, real time data, self-service BI и тд.
- Iceberg, The Right Idea - The Wrong Spec - Part 1 of 2: History обзор истории спецификации Apache Iceberg. Полезно почитать перед тем как использовать
- DuckLake 0.2 обновление стандарта/спецификации озера данных на базе DuckDB. Слежу за этим внимательно, выглядит даже перспективнее чем Iceberg
- Why AI hardware needs to be open почему бы оборудованию для ИИ не быть открытым? Идеологически мне нравится, но нужен какой-то другой глобус чтобы это стало правдой
- Introducing pay per crawl: enabling content owners to charge AI crawlers for access владельцы сайтов теперь могут требовать оплату за краулинг их ресурсов.

#dataengineering #dataanalytics #ai #duckdb
5👍1
К вопросу о полноте/неполноте ответов ИИ помощников да и поисковых систем сложно не вспомнить про "серый веб".

Можно вспомнить "белый веб" - это материалы доступные для индексации онлайн и "тёмный веб" (dark web) - это то целенаправленно сокрытые материалы и данные, доступные только через Tor или иные пиринговые сети.

В свою очередь "серый веб" - это то что находится в сети, но по множеству, в основном технических причин, недоступно для индексации. Тут и пэйволы, и контент доступный только через POST запросы и/или Ajax, и сайты блокирующие все боты капчей и геоблокировками, и то что публикуется в неиндексируемых форматах.

Это тот случай когда обычно немашиночитаемые PDF файлы, вполне себе превращаются поисковиками и ИИ краулерами в пригодные для обработки документы, а вот если эти PDF файлы положить внутрь ZIP архивов они сразу же выпадают из поискового индекса. А уж если положить их во что-то ещё менее популярное, в 7z, RAR или что-то ещё более экзотическое, то контент автоматически не попадает в поисковый индекс.

В копилку вредных советов, для тех кто не хочет помогать ИИ помощникам можно добавить следующий

Публикуй заархивированные
документы. 🤷‍♀️

Это гораздо более действенно чем публиковать сканы документов, как это делают в некоторых государственных ресурсах в некоторых развивающихся (и не очень то развивающихся) странах.

Я вижу это особенно наглядно когда задаю облачным LLM вопросы о бюджетах некоторых стран, регионов и городов. Видно как они собирают инфу на основе публикаций в СМИ или на страницах сайтов госорганов хотя эти же данные, гораздо более верные и полные лежат в определённых разделах, определённых сайтов, но в виде ZIP архивов с файлами Excel, PDF или HTML. Или же когда данные доступны в виде интерактивных навигаторов скачать из которых можно только вручную, экспортом и через POST запросы которые обычные и AI краулеры не сделают или сделают только в режиме сфокусированного сбора.

То есть если кто-то соберет данные краулером целенаправленно, сделает их удобными для обработки и положит куда-то откуда их потом в ИИ импортируют, то данные для ИИ агента будут доступны. Но это будет неоперативно и требует сфокусированных целенаправленных усилий.

Явление пока что не массовое, но как один из способов борьбы с ИИ краулерами весьма вероятный.

P.S. Делюсь вредным советом потому что он сложнее в реализации чем просто блокировать всё и вся.

#thoughts #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍64
The real winners of the AI Race полезное чтение о реальных бенефициарах почти всех стартапов в области генеративного ИИ таких как OpenAI, Anthropic, Mistral и других. Авторы провели анализ 12 таких стартапов и совершенно неожиданно весьма ожидаемо обнаружили что главные бенефициары - это Big Tech.
- 11 из 12 стартапов зависят от чипов NVIDIA
- 10 из 12 стартапов основаны на инфраструктуре Amazon, Microsoft или Google
- 9 из 12 стартапов продают доступ к своим моделям через платформы Amazon, Microsoft или Google

Для тех кто знает как эта индустрия устроена ничего нового в этом нет, разве что чуть более систематизировано изложено.

Контекст же в том что национальные правительства и ЕС пытаются создавать национальных чемпионов в области AI чтобы снизить зависимость от международных игроков и, даже, говорят о цифровом суверенитете, а по факту почти все проинвестированные в ЕС стартапы в этой области находятся в зависимости от Big Tech из США и звучат призывы к анализу всей цепочки ценности при инвестициях и выдаче грантов таким стартапам.

#ai #investments #tech #genai
4👍2🤣2
Научная статья Data manipulation within the US Federal Government в журнале Lancet о том что федеральное правительство в США изменяло ранее опубликованные данные никого об этом не уведомляя. Делали это агентства и учреждения ответственные за общественное здравоохранение с ранее опубликованными данными опросов и исследований.

Авторы проанализировали 232 набора данных опубликованных CDC (Центры по контролю и профилактике заболеваний США) и обнаружили что с приходом администрации Трампа были изменены 49% (114 наборов данных), в основном изменения были в замене слова gender на sex, а также были иные изменения в структуре и описаниях данных.

При этом исследователи не анализировали глубоко сами датасеты, на предмет сохранения их полноты, из-за ограничений доступности архивных данных и использовали ранее сохраненные слепки из Интернет Архива.

С одной стороны не так много стран где можно опубликовать научную статью о том что "государства лгут и манипулируют", с другой даже в развитых странах такие публикацией встретишь нечасто. Здесь, конечно, хочется сказать что нам бы их проблемы, лично я чаще сталкиваюсь с тем что данных просто нет или то что при смене политической повестки данными не просто манипулируют, их убирают из открытого доступа.

А эта история наглядно тем что всё больше пользователей государственных данных осознают ценность их архивации.

#opendata #datasets #readings #usa #healthcare
👍51😱1
Не буду давать ссылки на конкретные издания которые пишут пред-анонсы того что в РФ 15 июля планируется перезапуск data.gov.ru. Во первый сами публикации довольно, скажем так, неумелые, а во вторых говорить про то что сделано будет на data.gov.ru лично я буду только после того как увижу его в обновлённой форме 15 июля, если, это, конечно, произойдёт.

А пока в качестве напоминаний:
1. Портал data.gov.ru был недоступен более 2-х лет будучи "закрытым на обновление"
2. В предыдущей версии было доступно более 20+ тысяч наборов данных, большая часть которых, конечно, были мусорными, но тем не менее.
3. Полный слепок архива прошлой версии data.gov.ru у нас есть в ruarxive.org, если он Вам понадобится, напомните, я продублирую ссылку на дамп и вебархив

Честно говоря у меня лично нет вообще никаких позитивных ожиданий от того что российский портал data.gov.ru перезапускают. Есть много стран таких как Зимбабве или Чад где тоже нет порталов открытых данных. И ничего, живут же как-то;)

#opendata #russia
👍11🌚4🐳1
Полезные ссылки про данные, технологии и не только:

Открытый код

- The Data Engineering Handbook большая подборка ресурсов для дата инженеров: блоги, подкасты, книги, компании, ключевые продукты и тд. Полезно будет, в первую очередь, начинающим дата инженерам для быстрого погружения в профессию
- RustFS высокопроизводительная альтернатива Minio, для создания облачных хранилищ файлов доступом по S3 протоколу. Написан на языке Rust, лицензия Apache 2.0, декларируют производительность вдвое выше чем у Minio.
- STORM: Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking - исследовательский проект (оттого и такое длинное странное название) по генерации статей в стиле Википедии на заданную тему. Можно попробовать его на практике на storm.genie.stanford.edu.
- Harper бесплатный и открытый продукт для проверки грамматической проверки для английского языка. Ключевое - это то что не требует подключения к внешнему сервису, можно развернуть свой language server и проверки делать оффлайн. Полезно для всех кто озабочен приватностью или просто не хочет платить за сервисы вроде Grammarly.
- Easytier открытый код и сервис для быстрого развертывания децентрализованных сетей VPN. Прямой конкурент и альтернатива Tailscale. Сделан в Китае, распространяется под лицензией LGPL. Главное не путать с теми VPN что используются для обхода цензуры, этот сделан именно в классическом понимании VPN - для организации частной защищённой сети со своими устройствами.
- Bitchat новая децентрализованная альтернатива облачным мессенжерам. Была представлена Джеком Дорси, основателем Twitter'а, работает через Bluetooth и напоминает похожие проекты вроде Firechat (не знаю жив ли он ещё).

ИИ
- Half of Managers Use AI To Determine Who Gets Promoted and Fired опрос от сервиса Resume Builder об использовании ИИ менеджерами для оценки сотрудников и других задач. Если кратко, то используют большинство, многие уже всегда работают с ИИ, вплоть до принятия решений о повышении или увольнении сотрудника на основе оценки ИИ помощника
- RAPIDS Adds GPU Polars Streaming, a Unified GNN API, and Zero-Code ML Speedups NVIDIA продолжают развивать Polars и другие инструменты с открытым кодом для выполнения задач по обработке данных в GPU. Это и про открытый код и про применение Polars вместо Pandas для большей части научных тетрадок

Разное
- Apyhub очередной сервис каталогизации API, честно говоря непонятно зачем нужный. В этом рынке я знаю всего два продукта обретшие успех. Это OpenRouter для ИИ и RapidAPI как маркетплейс для API. Рынок устроен так что посредники ценны только если они приносят много реальных пользователей. К примеру, если Яндекс делает API маркетплейс - это сработает, а в остальных случаях почти наверняка нет.
- The One Trillion Row challenge with Apache Impala тест Apache Impala, базы с открытым кодом, на 1 триллионе строк. Я, честно говоря, был уверен что Apache Impala уже мертвый продукт, а там ещё какая-то жизнь происходит.
- Yet another ZIP trick автор покопался в спецификации ZIP файлов и поманипулировал метаданными внутри так что некоторые парсеры ZIP файлов видят одно содержимое, а другие другое. Ждем волны вирусов прячущихся внутри ZIP'ов (шутка).

#opensource #ai #api #rdbms
👍633😱1
💡 Чем интересен Dateno?

Это поисковик по открытым данным, который собирает не только метаданные о датасетах и API, но и ссылки на связанные ресурсы, часть из которых даже архивирует. Это позволяет не только искать данные, но и анализировать, как они публикуются и в каких форматах.

📊 Немного цифр:
На июль 2025 года в Dateno собрано 5 961 849 наборов данных из порталов открытых данных. Это примерно 27% от всех датасетов, слоёв карт и временных рядов, которые агрегируются из разных каталогов и геопорталов.

👀 Что внутри этих датасетов?
У одних нет вообще никаких файлов, у других — сотни вложений. Поэтому корректнее считать не сами датасеты, а количество ресурсов (файлов и ссылок). Их в базе уже 6,7 млн — примерно 1.1 ресурса на один датасет.

📥 Форматы ресурсов:

CSV — 1 008 646 (15%)

XLSX — 525 329 (7.8%)

XML — 522 501 (7.8%)

JSON — 509 668 (7.6%)

ZIP — 496 709 (7.4%)

PDF — 487 189 (7.3%)

HTML — 475 377 (7.1%)

WMS — 320 159 (4.8%)

NC — 233 229 (3.5%)

XLS — 185 855 (2.8%)

WCS — 141 472 (2.1%)

KML — 122 781 (1.8%)

DOCX — 115 723 (1.7%)

📌 CSV — безусловный лидер. Также популярны XLSX, XML, JSON, старый добрый XLS. Геоформаты вроде WMS, WCS, KML встречаются реже, но их роль растёт.

📄 Почему столько PDF, DOCX и HTML?
Часто вместо машиночитаемых данных публикуют отчёты или ссылки на внешние сайты. Иногда приходится буквально вытаскивать данные из PDF-документов.

🤖 А что с форматами для data science?
Формат Parquet, популярный в дата-инженерии и аналитике, встречается крайне редко — всего 1652 файла (меньше 0.025% всех ресурсов!). Печально, но открытые данные пока ещё далеки от удобства для дата-сайентистов.

Хочется верить, что это изменится.

#данные #opendata #dateno #datascience #dataengineering
🔥65
Я вот думал всё как показать реальную картину импортозамещения в российских госорганах и вспомнил про архивацию госсайтов и что у меня есть какое-то число архивов сайтов госорганов, не всех, но есть хотя бы 20 сайтов ведомств. А утилита metawarc, о которой я рассказывал ранее, умеет извлекать метаданные из файлов .xlsx, .docx, .pptx и других (общий стандарт там OOXML).

Ну а поскольку MS Office и опенсорсные и российские пакеты для работы с документами сохраняют разное в атрибуте Application в метаданных, то осталось только извлечь метаданные и сделать выборки по популярности офисного ПО на ограниченном числе госсайтов.

Итак:
За период до 2022 года включительно доступно 9328 документов из которых
- 62 документа сделано в LibreOffice
- 2 документов в MyOffice
- 1 документ в Р7-Офис
- 3 документа в WPSOffice

Остальные в MS Office

В общей сложности 68 из 9328 документов сделано не в MS Office (0.07%)

За период 2023-2025 годов всего 3108 документов, из которых:
- 155 созданы в Р7-Офис
- 132 созданы в LibreOffice
- 14 созданы в WPS Office
- 4 созданы в MyOffice

Итого 305 документов из 3108 сделаны не в MS Office, это около 10%.

Подсчёт грубый, не все архивы сайтов госорганов РФ у меня под рукой, чаще файлы публикуют в PDF и тд.

В общем и целом анализ без строгой методологии.

Но некоторую картинку происходящего даёт. 10% это много или мало? Не знаю.

Это пример для чего ещё могут быт полезны веб архивы

#opendata #webarchives #documents
❤‍🔥7🔥6👍51
Попалось на глаза довольно давнее исследование [1] частотности применения комбинаций цифр в PIN кодах. Исследованию уже 13 лет, но, ИМХО, всё ещё актуальное. Кроме того датасет из 3.4 миллионов PIN кодов тоже доступен [2] и он относительно недавно обновлялся.

Применимо всё это не только к PIN кодам, но и ко всем аналоговым и цифровым замкам с цифрами.

Лично я раньше, регулярно, раз в месяц, устраивал себе день паранойи с ревизией паролей и мер безопасности данных и тд.

Потом слегка расслабился, стал делать это куда реже, но самые частые PINы совершенно точно не использую уже давно.

Ссылки:
[1] http://www.datagenetics.com/blog/september32012/
[2] https://github.com/Slon104/Common-PIN-Analysis-from-haveibeenpwned.com

#security #datasets #opendata
71👍1
Чуть менее чем 2.5 года назад я писал про портал открытых данных Узбекистана data.egov.uz в лонгриде Что не так с порталом открытых данных Узбекистана? [1] и решил посмотреть на него совсем недавно и... ничего не изменилось.

Наборов данных стало больше, не 6623, а уже 10412. Не так уж мало, казалось бы. Но... если в 2023 году было 2823 набора данных в одну строку, то сейчас их уже 5207, это 50% от всего опубликованного. А всего 114 наборов данных объёмом более чем в 1000 записей, это чуть более 1%. Общий несжатый объём данных с портала, если сохранять их в JSON - 426 мегабайт (в 2023 году было 284 мегабайта).

На скриншотах примеры таких однострочных датасетов.

В чём смысл такой нарезки наборов данных на бесконечное число однострочных датасетов? Он исключительно в том чтобы показать количество, а не качество. Потому что реальным пользователям данных такие однострочные наборы данных не нужны вообще ни для чего.

Поэтому изменилось ли что-то с открытыми данными в Узбекистане? Увы нет

Ссылки:
[1] https://begtin.substack.com/p/31

#opendata #uzbekistan #datasets
4👍2🌚2
В качестве регулярных напоминаний.

Я пишу в этом телеграм канале @begtin о технологиях, преимущественно, связанных с работой с данными, открытых данных, цифровой архивации и близких к этому темам почти все из которых являются, либо моей работой, либо моими хобби.

Также о том что я делаю и делают команды проектов которые я веду или с которыми я связан:
- @ruarxive - новости по цифровой и веб-архивации в контексте России и русскоязычных ресурсов
- @opendataam - открытые данные в Армении, новости о данных связанных с Арменией
- @infoculture - новости Информационной культуры, НКО ведущей ряд проектов в по открытости РФ
- @datenosearch - новости проекта поисковика по датасетам Dateno, на английском языке
- begtin.substack.com - блог/рассылка где я время от времени пишу лонгриды на русском языке
- medium.com/@ibegtin - англоязычный блог для лонгридов на английском языке. Пишу туда не очень часто, а надо бы чаще
- linkedin.com/in/ivbeg - регулярные публикации на английском языке в LinkedIn, по большей части про работу с данными.

#writings #opendata #digitalpreservation #data
👍93🔥3
Читаю хвалебные отзывы о Perplexity Comet, новом браузере со встроенным ИИ и о грядущем браузере от OpenAI и, честно говоря, это хорошая новость с тем что в рынке поиска и браузеров, наконец-то, появилась конкуренция. Что ещё важнее и интереснее в том почему выбирают нео-поисковики на базе ИИ и браузеры альтернативные Google Chrome - это отсутствие рекламы.

Фактически облачные ИИ агенты вне рынка AdTech, при поиске через OpenAI или Perplexity ты платишь за этот поиск явно (деньгами), а не неявно (рекламой).

Учитывая то как медленно но верно деградировал классический поиск, от минимальной рекламы, до выдачи отравленной SEO до невозможности, то мне нравится этот новый мир, даже при всех недостатках, глюках и искажениях ИИ агентов.

Не то чтобы он будет светлее, но хотя бы в нём будет больше выбора.

#thoughts #ai #search
👍27🔥3
Для тех кто подумывает опубликовать данные и ориентируется на пользователей которые:
a) Хотят смотреть на структуру данных и искать по ним
б) Немного умеют в SQL

Есть достаточно давний открытый инструмент datasette. Он позволяет опубликовать базу SQLite так чтобы над ней был удобный веб интерфейс с возможностью просматривать содержимое и делать SQL запросы.

Инструмент реально простой, умеет экспортировать JSON и CSV, даёт API и очень простой стандартизованный интерфейс расширяемый разными надстройками. Его довольно часто используют госорганы в Европе и в разных некоммерческих проектах чтобы сделать какие-то CSV файлы доступными. Там и инструкции все начинаются с того что "возьмите Ваши CSV файлы и преобразуйте их в базу SQLite".

Для тех кто любит использовать открытый код для того чтобы делиться данными - это полезный инструмент.

#opendata #opensource #datatools #data
👍62
Для некоторых задач уникальный по функциональности инструмент manus.im китайский облачный ИИ агент помогающий в практических исследовательских задачах, создаёт код и структурированное описание по запросу. Он оказался очень хорош в задачах которые у меня возникают время от времени - поиску недокументированного API. Этот тип задач я регулярно задаю разным ИИ агентам и Manus справляется пока что лучше всех. Неидеально, но очень неплохо, с меньшим числом глюков из-за проверки собранных результатов.

На скриншоте пример задачи с поиском недокументированного API на Arab Development Portal (www.arabdevelopmentportal.com), сайте агрегаторе официальной статистики арабских стран.

#opendata #ai #llm
👍5🔥4
2025/07/12 02:06:13
Back to Top
HTML Embed Code: