Я Pandas enjoyer 👴 Люблю пандас и мне реально нравится на н — @from_lawyer_to_da

2.9Kпросмотров

19 февраля 2026 г.

storyScore: 3.2K

Я Pandas enjoyer 👴 Люблю пандас и мне реально нравится на нем работать, но у всего есть предел, как и у вечно переполненной памяти. В работе вылеты и MemoryError самые классические проблемы👊 Вроде как пандас является нестареющей классикой и просят его практически в каждой вакансии, если есть питон. Инструмент шикарный, но использовать бесконечное число итераторов для того, чтобы хоть как-то всё держать в памяти - тяжело 🔫 Так как в работе есть возможность экспериментировать с инструментами при создании любых отчётов, витрин или процессов, то решил поискать решения👨‍💻 Дата инженеры будут смеяться с моих проблем, но мы люди простые PySpark — это Apache Spark для Python. Мощнейший инструмент для кластеров и терабайт данных. Но на одной машине (local mode) работает медленнее из-за накладных расходов😎 Документация Dask — это Pandas для данных, которые не помещаются в оперативку. Берёт большие данные, разбивает на куски, обрабатывает параллельно, не загружая всё в RAM. Синтаксис почти как Pandas😎 Документация Polars — это супербыстрая библиотека для работы с данными, написанная на Rust. По словам нейронки, она в 10 раз быстрее Pandas при обработке больших таблиц благодаря многопоточности и формату Arrow. Идеальна для ETL на одной машине💪 Документация Чем-то пользовались из списка?💅

Другие посты @from_lawyer_to_da