Методология работы с источниками
За время работы канала было переведено большое количество найденных иностранных аналитических документов, часть из которых была выложена здесь публично. Ниже обещанный пост с описанием методологии. Как можно убедиться, ничего экстраординарного в нашей работе нет, никаких специальных секретных знаний не требуется. Нужно лишь терпение, дисциплина и методичная работа.
Все начинается с найденного документа. Допустим, вы нашли где-то конкретный интересующий вас документ в формате pdf, либо просто регулярно занимаетесь мониторингом какой-то темы. Кстати, для последнего может подойти следующий гугл-дорк:
Тему в первых кавычках и дату в последних меняйте по своему усмотрению.
И вот вы скачали документ, который хотите перевести на русский язык. Переводы мы делали через сайт www.deepl.com, один из лучших по качеству. Для перевода файла там требуется регистрация, но не требуется подтверждение почты. Это означает, что вы можете нажать «register» и ввести абсолютно любую почту, даже несуществующую. Главное, чтобы соблюдалась маска адреса емейла:
Т.е., в вводимом адресе должны присутствовать символы @ и точка, остальное неважно.
У DeepL есть также ограничение на размер переводимого файла. Маленькие файлы (~ до 30 стр и до 5 мб) он может перевести сходу, без какой-либо подготовки. Большие придется пилить на части (см. дальше).
После регистрации, вы можете переводить на бесплатном тарифе 3 файла в месяц. Однако, если делать все в безопасном режиме браузера, и каждый раз вводить новую «почту», то ждать месяц не придется – вы точно сможете переводить 3 файла в день. Иногда нам удавалось даже делать несколько подходов с одного ip-адреса в день, но тут точной зависимости определить не удалось. Единственное, что удалось определить – точно должно пройти несколько часов, и лучше переключаться между безопасными режимами разных браузеров.
Само собой, ограничения работают по ip-адресу. Меняя свой ip-адрес (через раздачу мобильного интернета со смартфона, или используя VDS), вы можете увеличить количество файлов, которое можете перевести за один подход.
Для больших файлов требуется их разделение на части. Мы обычно пилили на куски по 30-40 стр с помощью сервиса https://www.ilovepdf.com/ («разделить pdf»), потом переводили их по очереди, и собирали в один с помощью этого же сервиса («объединить pdf»).
Однако, DeepL убивает верстку в файле, если она была. Иными словами, если в pdf файле был дизайн с картинками – все поедет вкривь и вкось. Чтобы этого избежать, мы переводили полученные pdf сначала в doc, после чего занимались ручной правкой верстки. Иногда, если дизайн не несет никакой смысловой нагрузки, и является лишь украшательством, мы вообще переводили предварительно pdf в голый txt.
DeepL не переводит картинки и графики, это стоит учитывать.
Также DeepL на бесплатном тарифе, при переводе doc, устанавливает на них защиту от редактирования. Это можно обойти, если полученные doc конвертировать в pdf (c помощью все того же https://www.ilovepdf.com/), потом объединить pdf и обратно конвертировать в doc.
Желающие могут избежать всех этих танцев с бубнами, если купят себе платную подписку на DeepL, тогда можно будет переводить гораздо большие объемы файлов (вплоть до 30мб). Но ограничение на месяц тогда уже будет строго привязано к аккаунту.
После получения финального doc, выполнялась ручная чистка его форматирования, а также проверка по смыслам. Все же не всегда нейросеть переводит корректно, особенно это касается специфических устойчивых выражений.
Как видите, ничего особо сложного, справиться может любой. Пользуйтес)
За время работы канала было переведено большое количество найденных иностранных аналитических документов, часть из которых была выложена здесь публично. Ниже обещанный пост с описанием методологии. Как можно убедиться, ничего экстраординарного в нашей работе нет, никаких специальных секретных знаний не требуется. Нужно лишь терпение, дисциплина и методичная работа.
Все начинается с найденного документа. Допустим, вы нашли где-то конкретный интересующий вас документ в формате pdf, либо просто регулярно занимаетесь мониторингом какой-то темы. Кстати, для последнего может подойти следующий гугл-дорк:
"cognitive warfare" filetype:pdf after:"2024-12-31"
Тему в первых кавычках и дату в последних меняйте по своему усмотрению.
И вот вы скачали документ, который хотите перевести на русский язык. Переводы мы делали через сайт www.deepl.com, один из лучших по качеству. Для перевода файла там требуется регистрация, но не требуется подтверждение почты. Это означает, что вы можете нажать «register» и ввести абсолютно любую почту, даже несуществующую. Главное, чтобы соблюдалась маска адреса емейла:
****@***.**
Т.е., в вводимом адресе должны присутствовать символы @ и точка, остальное неважно.
У DeepL есть также ограничение на размер переводимого файла. Маленькие файлы (~ до 30 стр и до 5 мб) он может перевести сходу, без какой-либо подготовки. Большие придется пилить на части (см. дальше).
После регистрации, вы можете переводить на бесплатном тарифе 3 файла в месяц. Однако, если делать все в безопасном режиме браузера, и каждый раз вводить новую «почту», то ждать месяц не придется – вы точно сможете переводить 3 файла в день. Иногда нам удавалось даже делать несколько подходов с одного ip-адреса в день, но тут точной зависимости определить не удалось. Единственное, что удалось определить – точно должно пройти несколько часов, и лучше переключаться между безопасными режимами разных браузеров.
Само собой, ограничения работают по ip-адресу. Меняя свой ip-адрес (через раздачу мобильного интернета со смартфона, или используя VDS), вы можете увеличить количество файлов, которое можете перевести за один подход.
Для больших файлов требуется их разделение на части. Мы обычно пилили на куски по 30-40 стр с помощью сервиса https://www.ilovepdf.com/ («разделить pdf»), потом переводили их по очереди, и собирали в один с помощью этого же сервиса («объединить pdf»).
Однако, DeepL убивает верстку в файле, если она была. Иными словами, если в pdf файле был дизайн с картинками – все поедет вкривь и вкось. Чтобы этого избежать, мы переводили полученные pdf сначала в doc, после чего занимались ручной правкой верстки. Иногда, если дизайн не несет никакой смысловой нагрузки, и является лишь украшательством, мы вообще переводили предварительно pdf в голый txt.
DeepL не переводит картинки и графики, это стоит учитывать.
Также DeepL на бесплатном тарифе, при переводе doc, устанавливает на них защиту от редактирования. Это можно обойти, если полученные doc конвертировать в pdf (c помощью все того же https://www.ilovepdf.com/), потом объединить pdf и обратно конвертировать в doc.
Желающие могут избежать всех этих танцев с бубнами, если купят себе платную подписку на DeepL, тогда можно будет переводить гораздо большие объемы файлов (вплоть до 30мб). Но ограничение на месяц тогда уже будет строго привязано к аккаунту.
После получения финального doc, выполнялась ручная чистка его форматирования, а также проверка по смыслам. Все же не всегда нейросеть переводит корректно, особенно это касается специфических устойчивых выражений.
Как видите, ничего особо сложного, справиться может любой. Пользуйтес)
👍36🔥8❤2🤝1
Forwarded from Точка сборки
Уроборос-многоножка — символ ближайших лет в обучении языковых моделей. Раньше информационный поток был линейно-иерархичным: от первоисточника через фильтры глухих телефонов и пропаганды достигал реципиента. Теперь круг замыкается — источником становится сам продукт переработки.
Количество генерированного или обработанного нейросетями контента лавинообразно растёт, имитация натурального даётся всё лучше — скоро будет совсем не отличить. Нейронки будут опираться в своих выдачах на контент, которые сгенерировали другие нейронки, опирающиеся на контент от третьих и так далее. Этакий информационный инцест — вырождение — информация смешивается со своими собственными производными.
На первом этапе обучения языковых моделей мы ещё имели более-менее нормальный (хотя уже порядком засранный) пул накопленной информации. Не библиотека, конечно: килотонны SEO-оптимизированной розовой слизи, перевранные вики-статьи и новости, форумные срачи, полный спектр улётного контента от повесточников и шизопатриотов до биохакеров и экстрасенсов. Ну хотя бы можно было как-то вручную отранжировать уровень доверия от Блумберга до Панорамы.
А вот что дальше, когда нейроэкскрементов станет на порядки больше, чем исходного материала? На чём будут дообучаться нейронки последующих лет? И речь ведь не только про статьи или новости. Сегодня нейро-улучшайзеры встроены в интерфейсы современных смартфонов, юзеры радостно "улучшают" свои тексты, чтоб не напрягаться формулировками, авто-улучшают свои фоточки, чтоб не заниматься фотошопингом, программисты вайб-кодят в полный рост. И вот это всё нейроулучшенное попадёт в один общий котёл вместе с крупицами оригинального.
Но и производители достоверного и натурального тоже станут перед выбором. Какой смысл продолжать делать качественный контент, если юзеры даже не заходят к тебе на сайт, ограничиваясь выдачей нейро-ассистентов? Должна же быть какая-то выгода. Кто-то наверное будет продавать владельцам нейронок свой контент за деньги (честно-честно не генерили), а кто-то будет монетизироваться через намеренное искажение данных в нужную спонсорам сторону.
Очень будет интересно посмотреть, как человечество справится с этим. Меня не покидает ощущение, что так или иначе ему всё равно придётся закатать рукава и как следует вручную прибраться в своём инфополе. Garbage in — garbage out.
Количество генерированного или обработанного нейросетями контента лавинообразно растёт, имитация натурального даётся всё лучше — скоро будет совсем не отличить. Нейронки будут опираться в своих выдачах на контент, которые сгенерировали другие нейронки, опирающиеся на контент от третьих и так далее. Этакий информационный инцест — вырождение — информация смешивается со своими собственными производными.
На первом этапе обучения языковых моделей мы ещё имели более-менее нормальный (хотя уже порядком засранный) пул накопленной информации. Не библиотека, конечно: килотонны SEO-оптимизированной розовой слизи, перевранные вики-статьи и новости, форумные срачи, полный спектр улётного контента от повесточников и шизопатриотов до биохакеров и экстрасенсов. Ну хотя бы можно было как-то вручную отранжировать уровень доверия от Блумберга до Панорамы.
А вот что дальше, когда нейроэкскрементов станет на порядки больше, чем исходного материала? На чём будут дообучаться нейронки последующих лет? И речь ведь не только про статьи или новости. Сегодня нейро-улучшайзеры встроены в интерфейсы современных смартфонов, юзеры радостно "улучшают" свои тексты, чтоб не напрягаться формулировками, авто-улучшают свои фоточки, чтоб не заниматься фотошопингом, программисты вайб-кодят в полный рост. И вот это всё нейроулучшенное попадёт в один общий котёл вместе с крупицами оригинального.
Но и производители достоверного и натурального тоже станут перед выбором. Какой смысл продолжать делать качественный контент, если юзеры даже не заходят к тебе на сайт, ограничиваясь выдачей нейро-ассистентов? Должна же быть какая-то выгода. Кто-то наверное будет продавать владельцам нейронок свой контент за деньги (честно-честно не генерили), а кто-то будет монетизироваться через намеренное искажение данных в нужную спонсорам сторону.
Очень будет интересно посмотреть, как человечество справится с этим. Меня не покидает ощущение, что так или иначе ему всё равно придётся закатать рукава и как следует вручную прибраться в своём инфополе. Garbage in — garbage out.
👍45
Forwarded from Канал им. Мандельштама
Нас ждёт новая волна мошеннических и «биодронирующих» звонков — теперь с помощью ИИ:
Задержка в ответах была классическим маркером голосовых ИИ и главным препятствием для того чтобы заменить тысячи операторов мошеннических колл-центров из Днепропетровска и Николаева на ИИ, расширяющий их возможности в 1000 раз. Все, этот бастион пал.
Теперь осталось дождаться, когда новая модель окажется в руках СБУ, обучится на миллионах часов аудио записей работы мошенников, и мы получим новый кратный рост «звонков от следователя ФСБ».
Phonely, Maitai и Groq решили проблему задержек в голосовом ИИ. Компании совместно добились успеха, сократив задержку на 70% и повысив комплексную точность (ASR+генерация ответа) с 81,5% до 99,2%. Проблема «неловких пауз» в разговорах с роботами, которая выдавала их, устранена благодаря технологии Groq - «горячей замене» легких моделей LoRA без потерь в скорости.
Система работает так: Maitai выбирает оптимальную модель для каждого запроса, Groq обрабатывает ее на специализированных чипах LPU, а данные о слабых местах моделей собираются и используются для их доработки. В итоге время первого ответа снизилось с 661 до 176 мс, а синтез диалога стал в 4 раза быстрее.
Один из клиентов Phonely уже заменит 350 операторов колл-центра на ИИ, а количество качественных лидов выросло на 32%.
Задержка в ответах была классическим маркером голосовых ИИ и главным препятствием для того чтобы заменить тысячи операторов мошеннических колл-центров из Днепропетровска и Николаева на ИИ, расширяющий их возможности в 1000 раз. Все, этот бастион пал.
Теперь осталось дождаться, когда новая модель окажется в руках СБУ, обучится на миллионах часов аудио записей работы мошенников, и мы получим новый кратный рост «звонков от следователя ФСБ».
😢20🤬5👌5❤2
Forwarded from Fusen
This media is not supported in your browser
VIEW IN TELEGRAM
Уже совсем скоро нам всем будет тяжело сидеть в интернете
🤯23💯12🤣6
ГРАНИТ. Когнитивная война и мир
Уже совсем скоро нам всем будет тяжело сидеть в интернете
Ну и прошло всего два дня, как один из крупнейших новостных пабликов страны выложил видео с якобы попаданием ракеты в здание. Все бы ничего, да только в правом нижнем углу коварно спрятался логотип генеративной нейросети.
Что же нам теперь делать с этими вашими новостями?)
Отписаться вообще от всего и заняться только тем, что происходит непосредственно физически вокруг нас?
Бухтеть и требовать вводить обязательный фактчекинг в СМИ?
Или просто расслабиться и ждать долгожданного налета плонетян?
Veo 3 - это AI инструмент Google, который генерирует видео с синхронизированным аудио, включая звуковые эффекты и диалоги
Что же нам теперь делать с этими вашими новостями?)
Отписаться вообще от всего и заняться только тем, что происходит непосредственно физически вокруг нас?
Бухтеть и требовать вводить обязательный фактчекинг в СМИ?
Или просто расслабиться и ждать долгожданного налета плонетян?
Telegram
Раньше всех. Ну почти.
PressTV пишет, что на кадрах запечатлен момент попадания иранской ракеты в здание в Бат-Яме, на юге Тель-Авива.
Впрочем, пользователи сети уверены, что видео сгенерировано искусственным интеллектом.
Впрочем, пользователи сети уверены, что видео сгенерировано искусственным интеллектом.
✍13🤔3❤1
MIYAGI и Элджей как элемент русской мягкой силы стали успешнее многих официальных программ.
Необъяснимо, но факт
https://www.tgoop.com/pashatoday_new/12253
Необъяснимо, но факт
https://www.tgoop.com/pashatoday_new/12253
Telegram
PASHA TODAY
«Я не русский, но...»
В TikToke вирусится тренд, где иностранцы признаются, что не знают русского языка, но вслед за этим начинают исполнять наши популярные песни.
В TikToke вирусится тренд, где иностранцы признаются, что не знают русского языка, но вслед за этим начинают исполнять наши популярные песни.
👍18❤5😭1