301просмотров
71.7%от подписчиков
13 октября 2025 г.
stats📷 ФотоScore: 331
🥲Рубрика 5 минут с Pandas.
Если у тебя есть несколько фалов в Excel которые нужно обьеденить для анализа, отличным вариантом будет метод merge в Pandas. Если ты работал с join в SQL, разобраться будет легко, принцип идентичный. Для этого нужно форматировать ваш csv фаил в DataFrame с помощью pd.read_csv, я же создал DataFrame напрямую. ⚡️И так, я создал три DataFrame:
import pandas as pd table_1 = pd.DataFrame({'id':[1,2,3,4,5],'visit':[20,40,34,45,34]}) table_2 = pd.DataFrame({'id':[1,2,8,4,5],'purchase':[20,40,34,45,34]}) table_3 = pd.DataFrame({'client_id':[1,2,3,12,5],'cost':[204,405,346,453,343]}) 1️⃣ Объединим первые два с помощью самого популярного типа соединения — left join.
tb3 = table_1.merge(table_2, how='left', on='id')
Где:
🔠table_1 — левый DataFrame(таблица), сохраняется полностью,
🔠table_2 — правый DataFrame(таблица), добавляется по совпадениям,
🔠how='left' — тип соединения,
🔠on='id' — по какому столбцу объединяем.
Альтернативой будет right join. В этом случае правая таблица сохраняется полностью, а левая добавляется по совпадающим ключам. 2️⃣Теперь добавим 3й DataFrame с помощью outer join.
tb5 = tb3.merge(table_3, how='outer')
Где:
🔠tb3— DataFrame(таблица) из пункта 1,
🔠table_3 — DataFrame(таблица) которую хотим присоеденить,
🔠how='outer' — тип соединения,
🔠on='id' — по какому столбцу объединяем
outer join возвращает все строки из обеих таблиц, даже если в другой таблице нет совпадения. Альтернативой будет inner join — он возвращает только те строки, у которых ключи совпадают в обеих таблицах. Готово, сохраняем наш фаил на локальный компьютер и строим сводные таблицы
tb3.to_csv('merge.csv')
Забирай пример себе в Google Colab ⬅️