916просмотров
60.7%от подписчиков
23 февраля 2026 г.
Score: 1.0K
У майкрософта есть технология DirectStorage - которая позволяет работать GPU c SSD памятью напрямую, т.е. как со своей внутренней, минуя обращения к CPU и RAM. Только вот используется он только... в паре игр. Но железо у нас уже получается есть. Вот бы так сделать для локальной LLM - подумал я. Найти карточку с 256 гигабайтами оперативки сложно, а SSD намного легче. Конечно, Gen5 PCI позволяет гонять максимум 32GB/s на линию, что не идет ни в какое сравнение с скоростями памяти GPU (от 300 GB/s до более 1000GB/s) но если очень захочется качества с готовностью пожертвовать скоростью это была бы интересная бюджетная альтернатива для билда куда можно засунуть полноценную модель. Ну при условии что получится хотя бы эти 32GB/s выжать Но все что я нашел это флаг у llama.cpp --n-gpu-layers который делает offload на диск. Это очень медленный путь через GPU -> RAM -> CPU -> SSD который direct storage призван срезать. У Apple был эксперимент в 2023 году "LLM in a Flash" в котором им удалось сделать нечто подобное - и это дало прирост в 4-5x на iPhone, 20-25x на Mac 🤯. Но судя по всему дальше экспериментов не пошло (почему?). А вот в опенсорсе ничего не нашлось. Может я плохо ищу? На фоне дефицита оперативной памяти это становится еще более актуальной темой, должно же быть хоть что-то