THISISDATA Telegram 228
Доброго послепраздничного утра всем!

Все начинается с простого. Так подумал Rohit Patel, руководитель отдела по работе с данными в Meta* GenAI, и принялся объяснять, как работают большие языковые модели с помощью базовой арифметики. Цель статьи — демистифицировать LLM, сделав концепции доступными для всех. Несмотря на название, легким материал не назовешь. Автор рассказывает о структуре и обучении нейронных сетей и разъясняет, как машина может угадывать и генерировать предложения. Если вы давно порывались разобраться в теме, статья станет хорошим началом для первого погружения.
* деятельность организации запрещена на территории РФ

Один крупный региональный банк выкупил банк поменьше и собирается объединить две клиентские базы. Дата-инженеры переглянулись — задача ведь со звездочкой. Во-первых, нужно учесть пересечение клиентских записей. Во-вторых, избавиться от уже имеющихся внутри систем дубликатов — повторных записей с ошибками, опечатками и устаревшими данными вроде девичьих фамилий. При этом нужно умудриться не объединить братьев-близнецов с созвучными именами. В-третьих, не допустить ошибок, переписав кредит на другое имя. Ребята из HFLabs решили задачу за три месяца. Их алгоритм способен за час найти дубликаты среди 100 миллионов записей.

Опытные дата-аналитики знают все про хранение и версионирование кода, понимают разницу между Git и GitHub, правильно форматируют SQL-запросы и шарят за CI/CD. Слишком много новых слов? Не унывай! Настя Кузнецова и Дмитрий Аношин подготовили две статьи о том, как работать с SQL-запросами. Первая статья объясняет, почему хранить варианты кода в виде файлов на Google Диске — плохая идея. Вторую можно назвать гайдом по работе с Git применительно к SQL-запросам.

#дайджест



tgoop.com/thisisdata/228
Create:
Last Update:

Доброго послепраздничного утра всем!

Все начинается с простого. Так подумал Rohit Patel, руководитель отдела по работе с данными в Meta* GenAI, и принялся объяснять, как работают большие языковые модели с помощью базовой арифметики. Цель статьи — демистифицировать LLM, сделав концепции доступными для всех. Несмотря на название, легким материал не назовешь. Автор рассказывает о структуре и обучении нейронных сетей и разъясняет, как машина может угадывать и генерировать предложения. Если вы давно порывались разобраться в теме, статья станет хорошим началом для первого погружения.
* деятельность организации запрещена на территории РФ

Один крупный региональный банк выкупил банк поменьше и собирается объединить две клиентские базы. Дата-инженеры переглянулись — задача ведь со звездочкой. Во-первых, нужно учесть пересечение клиентских записей. Во-вторых, избавиться от уже имеющихся внутри систем дубликатов — повторных записей с ошибками, опечатками и устаревшими данными вроде девичьих фамилий. При этом нужно умудриться не объединить братьев-близнецов с созвучными именами. В-третьих, не допустить ошибок, переписав кредит на другое имя. Ребята из HFLabs решили задачу за три месяца. Их алгоритм способен за час найти дубликаты среди 100 миллионов записей.

Опытные дата-аналитики знают все про хранение и версионирование кода, понимают разницу между Git и GitHub, правильно форматируют SQL-запросы и шарят за CI/CD. Слишком много новых слов? Не унывай! Настя Кузнецова и Дмитрий Аношин подготовили две статьи о том, как работать с SQL-запросами. Первая статья объясняет, почему хранить варианты кода в виде файлов на Google Диске — плохая идея. Вторую можно назвать гайдом по работе с Git применительно к SQL-запросам.

#дайджест

BY This is Data




Share with your friend now:
tgoop.com/thisisdata/228

View MORE
Open in Telegram


Telegram News

Date: |

As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” The creator of the channel becomes its administrator by default. If you need help managing your channel, you can add more administrators from your subscriber base. You can provide each admin with limited or full rights to manage the channel. For example, you can allow an administrator to publish and edit content while withholding the right to add new subscribers. A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree."
from us


Telegram This is Data
FROM American