Самая скучная, но самая важная привычка в моей работе 🥱 Дум — @analysts_notebook

281просмотров

12 марта 2026 г.

📷 ФотоScore: 309

Самая скучная, но самая важная привычка в моей работе 🥱 Думаю, каждый из нас хоть раз ошибался и отправлял коллеге неверные данные. У меня это последний раз случилось на прошлой неделе, поэтому я решил составить себе чек-лист для проверки данных перед отправкой, чтобы в следующий раз не попасть впросак. Этим чек-листом поделюсь и с вами, уверен, многим будет полезно. Уникальность и дубли 🛍 Нет ли задвоений там, где их быть не должно (id клиента, номер транзакции и т.п.) В pandas это легко проверить сравнением shape датафрейма и .nunique() по столбцу. Также у меня в практике были случаи, когда задвоение оказывалось не ошибкой, а бизнес логикой хранения данных. Если при выгрузке из новой для себя таблицы вы видите неочевидные для себя моменты, лучше обратиться к менеджеру данных, чтобы понять по какой логике происходит заполнение витрины. Контрольные суммы 👆 В данных по платежам, транзакциям часто можно напороться на двойной учет, например, 1 строка – для самой операции, вторая – для перевода между разными статьями баланса банка. В таком случае нас не интересует вторая строка. Сейчас я когда встречаюсь с новым источником данных по действиям пользователей (переводы, оплаты и т.п.) беру несколько случайных id и смотрю, сколько строк по каждому из них выгружается. Если неожиданно выгружается >1 строки, надо копать глубже. Также при подсчете сумм, средних и других агрегатов можно смотреть динамику к прошлым периодам для сравнения и проверки подсчетов на адекватность. Даты 📆 В витринах часто бывает так, что определенным объектам присваивают даты из будущего (например, договор заключен, но сделка состоится только через 2 месяца). Важно знать о возможности возникновения таких случаев и быть аккуратным с фильтрами на дату типа > <. Тут опять же помогает понимание устройства витрины. Также иногда пропуски дат заполняют одной определенной датой, это можно вычислить по большому количеству строк с этой датой. Выбросы, аномалии и ошибки в данных 👻 Для детекции таких случаев можно смотреть max, min и mean по выборке. Если одно / несколько значений сильно выбивается из общей картины, стоит выяснить, выброс это или же ошибка в данных. Я однажды встретился с витриной, где значение в поле “номинал” заполнялось менеджерами по продажам со слов клиента руками. При этом не было единых правил и кто-то вносил номинал в млн рублей, кто-то в рублях. Для перевода в единую шкалу (рубли) я использовал if else алгоритм, где например номиналы = 1 интерпретировал как 1 млн. Типы данных 🗂 Тут объясню на примере. В первые дни работы я еще не знал, что при чтении excel файлов в pandas значения ИНН интерпретируются как числовые, если не задать строковой тип для столбца при чтении файла. Из-за этого я терял некоторых клиентов, так как у них первым знаком ИНН был 0, который терялся при чтении. Важно всегда проверять типы данных и проверять итоговые файлы на адекватность, иначе риск ошибки очень велик. Выводы ❗️ Я постарался перечислить основные места, в которых можно накосячить. Главные советы – проверяйте итоговые файлы на адекватность и будьте уверены, что понимаете устройство витрин. Не стесняйтесь задавать вопросы коллегам и менеджерам данных. Сохраните этот пост в закладки, чтобы перед важной отправкой пробежаться по списку 📌 А какие методы используете вы для проверки данных? Пишите в комментариях! 💬 Ставьте: 🔥 если было полезно ❤️ если интересны подобные чек-листы с ошибками 🤩 если просто рады приходу весны #данные #чеклист

Другие посты @analysts_notebook