2.9Kпросмотров
19 февраля 2026 г.
storyScore: 3.2K
Я Pandas enjoyer 👴 Люблю пандас и мне реально нравится на нем работать, но у всего есть предел, как и у вечно переполненной памяти. В работе вылеты и MemoryError самые классические проблемы👊 Вроде как пандас является нестареющей классикой и просят его практически в каждой вакансии, если есть питон. Инструмент шикарный, но использовать бесконечное число итераторов для того, чтобы хоть как-то всё держать в памяти - тяжело 🔫 Так как в работе есть возможность экспериментировать с инструментами при создании любых отчётов, витрин или процессов, то решил поискать решения👨💻 Дата инженеры будут смеяться с моих проблем, но мы люди простые
PySpark — это Apache Spark для Python. Мощнейший инструмент для кластеров и терабайт данных. Но на одной машине (local mode) работает медленнее из-за накладных расходов😎
Документация Dask — это Pandas для данных, которые не помещаются в оперативку. Берёт большие данные, разбивает на куски, обрабатывает параллельно, не загружая всё в RAM. Синтаксис почти как Pandas😎
Документация Polars — это супербыстрая библиотека для работы с данными, написанная на Rust. По словам нейронки, она в 10 раз быстрее Pandas при обработке больших таблиц благодаря многопоточности и формату Arrow. Идеальна для ETL на одной машине💪
Документация Чем-то пользовались из списка?💅