И
Из юриста в аналитики👾
@from_lawyer_to_da2.3K подп.
2.9Kпросмотров
19 февраля 2026 г.
storyScore: 3.2K
Я Pandas enjoyer 👴 Люблю пандас и мне реально нравится на нем работать, но у всего есть предел, как и у вечно переполненной памяти. В работе вылеты и MemoryError самые классические проблемы👊 Вроде как пандас является нестареющей классикой и просят его практически в каждой вакансии, если есть питон. Инструмент шикарный, но использовать бесконечное число итераторов для того, чтобы хоть как-то всё держать в памяти - тяжело 🔫 Так как в работе есть возможность экспериментировать с инструментами при создании любых отчётов, витрин или процессов, то решил поискать решения👨‍💻 Дата инженеры будут смеяться с моих проблем, но мы люди простые PySpark — это Apache Spark для Python. Мощнейший инструмент для кластеров и терабайт данных. Но на одной машине (local mode) работает медленнее из-за накладных расходов😎 Документация Dask — это Pandas для данных, которые не помещаются в оперативку. Берёт большие данные, разбивает на куски, обрабатывает параллельно, не загружая всё в RAM. Синтаксис почти как Pandas😎 Документация Polars — это супербыстрая библиотека для работы с данными, написанная на Rust. По словам нейронки, она в 10 раз быстрее Pandas при обработке больших таблиц благодаря многопоточности и формату Arrow. Идеальна для ETL на одной машине💪 Документация Чем-то пользовались из списка?💅
2.9K
просмотров
1303
символов
Да
эмодзи
Нет
медиа

Другие посты @from_lawyer_to_da

Все посты канала →
Я Pandas enjoyer 👴 Люблю пандас и мне реально нравится на н — @from_lawyer_to_da | PostSniper