THISISDATA Telegram 228
Доброго послепраздничного утра всем!

Все начинается с простого. Так подумал Rohit Patel, руководитель отдела по работе с данными в Meta* GenAI, и принялся объяснять, как работают большие языковые модели с помощью базовой арифметики. Цель статьи — демистифицировать LLM, сделав концепции доступными для всех. Несмотря на название, легким материал не назовешь. Автор рассказывает о структуре и обучении нейронных сетей и разъясняет, как машина может угадывать и генерировать предложения. Если вы давно порывались разобраться в теме, статья станет хорошим началом для первого погружения.
* деятельность организации запрещена на территории РФ

Один крупный региональный банк выкупил банк поменьше и собирается объединить две клиентские базы. Дата-инженеры переглянулись — задача ведь со звездочкой. Во-первых, нужно учесть пересечение клиентских записей. Во-вторых, избавиться от уже имеющихся внутри систем дубликатов — повторных записей с ошибками, опечатками и устаревшими данными вроде девичьих фамилий. При этом нужно умудриться не объединить братьев-близнецов с созвучными именами. В-третьих, не допустить ошибок, переписав кредит на другое имя. Ребята из HFLabs решили задачу за три месяца. Их алгоритм способен за час найти дубликаты среди 100 миллионов записей.

Опытные дата-аналитики знают все про хранение и версионирование кода, понимают разницу между Git и GitHub, правильно форматируют SQL-запросы и шарят за CI/CD. Слишком много новых слов? Не унывай! Настя Кузнецова и Дмитрий Аношин подготовили две статьи о том, как работать с SQL-запросами. Первая статья объясняет, почему хранить варианты кода в виде файлов на Google Диске — плохая идея. Вторую можно назвать гайдом по работе с Git применительно к SQL-запросам.

#дайджест



tgoop.com/thisisdata/228
Create:
Last Update:

Доброго послепраздничного утра всем!

Все начинается с простого. Так подумал Rohit Patel, руководитель отдела по работе с данными в Meta* GenAI, и принялся объяснять, как работают большие языковые модели с помощью базовой арифметики. Цель статьи — демистифицировать LLM, сделав концепции доступными для всех. Несмотря на название, легким материал не назовешь. Автор рассказывает о структуре и обучении нейронных сетей и разъясняет, как машина может угадывать и генерировать предложения. Если вы давно порывались разобраться в теме, статья станет хорошим началом для первого погружения.
* деятельность организации запрещена на территории РФ

Один крупный региональный банк выкупил банк поменьше и собирается объединить две клиентские базы. Дата-инженеры переглянулись — задача ведь со звездочкой. Во-первых, нужно учесть пересечение клиентских записей. Во-вторых, избавиться от уже имеющихся внутри систем дубликатов — повторных записей с ошибками, опечатками и устаревшими данными вроде девичьих фамилий. При этом нужно умудриться не объединить братьев-близнецов с созвучными именами. В-третьих, не допустить ошибок, переписав кредит на другое имя. Ребята из HFLabs решили задачу за три месяца. Их алгоритм способен за час найти дубликаты среди 100 миллионов записей.

Опытные дата-аналитики знают все про хранение и версионирование кода, понимают разницу между Git и GitHub, правильно форматируют SQL-запросы и шарят за CI/CD. Слишком много новых слов? Не унывай! Настя Кузнецова и Дмитрий Аношин подготовили две статьи о том, как работать с SQL-запросами. Первая статья объясняет, почему хранить варианты кода в виде файлов на Google Диске — плохая идея. Вторую можно назвать гайдом по работе с Git применительно к SQL-запросам.

#дайджест

BY This is Data




Share with your friend now:
tgoop.com/thisisdata/228

View MORE
Open in Telegram


Telegram News

Date: |

Healing through screaming therapy Users are more open to new information on workdays rather than weekends. End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. bank east asia october 20 kowloon Earlier, crypto enthusiasts had created a self-described “meme app” dubbed “gm” app wherein users would greet each other with “gm” or “good morning” messages. However, in September 2021, the gm app was down after a hacker reportedly gained access to the user data.
from us


Telegram This is Data
FROM American