RZV_DE Telegram 264
#зачем_нужно

Проблемы и решения в очистке данных 4/4


🔶 Нормализация unicode символов
 
translate(column, 'áéíóúàèìòùãẽĩõũâêîôûäëïöüçñ', 'aeiouaeiouaeiouaeiouaeioucn')

regexp_replace(column, '[^\x00-\x7F]+', '') /* удаление не ASCII символов */

Рассказать в следующем посте про colation настройки БД (или почему иногда сортировка одних и тех же данных может выдавать разный результат) ? :)

🔶 Конвертация часовых поясов
 
select timestampz_column at time zone 'Europe/Moscow'

coalesce(
try_cast(timestamp_column as timestamp with time zone),
timestamp_column::timestamp at time zone 'UTC'
) /* если не всегда указана временная зона */


🔶 Обработка спецсимволов в текстовых полях
 
regexp_replace(column, '[^a-zA-Z0-9\s]', '') /* только буквы, цифры и пробелы */

translate(column, '[]{}()*#$%@!?+=/\|', '') /* удаление конкретных символов */


🔶 Приведение булевых значений к стандартному виду
 
case
when lower(column) in ('1', 'yes', 'true', 'y', 't') then true
when lower(column) in ('0', 'no', 'false', 'n', 'f') then false
else null
end as bool_column


Ну что, как тебе формат? Голосуй реактами и комментами, если хочешь больше такого



tgoop.com/rzv_de/264
Create:
Last Update:

#зачем_нужно

Проблемы и решения в очистке данных 4/4


🔶 Нормализация unicode символов

 
translate(column, 'áéíóúàèìòùãẽĩõũâêîôûäëïöüçñ', 'aeiouaeiouaeiouaeiouaeioucn')

regexp_replace(column, '[^\x00-\x7F]+', '') /* удаление не ASCII символов */

Рассказать в следующем посте про colation настройки БД (или почему иногда сортировка одних и тех же данных может выдавать разный результат) ? :)

🔶 Конвертация часовых поясов
 
select timestampz_column at time zone 'Europe/Moscow'

coalesce(
try_cast(timestamp_column as timestamp with time zone),
timestamp_column::timestamp at time zone 'UTC'
) /* если не всегда указана временная зона */


🔶 Обработка спецсимволов в текстовых полях
 
regexp_replace(column, '[^a-zA-Z0-9\s]', '') /* только буквы, цифры и пробелы */

translate(column, '[]{}()*#$%@!?+=/\|', '') /* удаление конкретных символов */


🔶 Приведение булевых значений к стандартному виду
 
case
when lower(column) in ('1', 'yes', 'true', 'y', 't') then true
when lower(column) in ('0', 'no', 'false', 'n', 'f') then false
else null
end as bool_column


Ну что, как тебе формат? Голосуй реактами и комментами, если хочешь больше такого

BY rzv Data Engineering


Share with your friend now:
tgoop.com/rzv_de/264

View MORE
Open in Telegram


Telegram News

Date: |

While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. To delete a channel with over 1,000 subscribers, you need to contact user support Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them. Telegram users themselves will be able to flag and report potentially false content. As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail.
from us


Telegram rzv Data Engineering
FROM American