tgoop.com/rzv_de/264
Create:
Last Update:
Last Update:
#зачем_нужно
Проблемы и решения в очистке данных 4/4
🔶 Нормализация unicode символов
translate(column, 'áéíóúàèìòùãẽĩõũâêîôûäëïöüçñ', 'aeiouaeiouaeiouaeiouaeioucn')
regexp_replace(column, '[^\x00-\x7F]+', '') /* удаление не ASCII символов */
❔ Рассказать в следующем посте про colation настройки БД (или почему иногда сортировка одних и тех же данных может выдавать разный результат) ? :)
🔶 Конвертация часовых поясов
select timestampz_column at time zone 'Europe/Moscow'
coalesce(
try_cast(timestamp_column as timestamp with time zone),
timestamp_column::timestamp at time zone 'UTC'
) /* если не всегда указана временная зона */
🔶 Обработка спецсимволов в текстовых полях
regexp_replace(column, '[^a-zA-Z0-9\s]', '') /* только буквы, цифры и пробелы */
translate(column, '[]{}()*#$%@!?+=/\|', '') /* удаление конкретных символов */
🔶 Приведение булевых значений к стандартному виду
case
when lower(column) in ('1', 'yes', 'true', 'y', 't') then true
when lower(column) in ('0', 'no', 'false', 'n', 'f') then false
else null
end as bool_column
❕Ну что, как тебе формат? Голосуй реактами и комментами, если хочешь больше такого
BY rzv Data Engineering
Share with your friend now:
tgoop.com/rzv_de/264