1.3Kпросмотров
39.5%от подписчиков
13 декабря 2025 г.
stats📷 ФотоScore: 1.4K
OMC25: Новый стандарт данных для моделирования молекулярных кристаллов Опубликован OMC25 - самый масштабный на сегодняшний день набор данных по молекулярным кристаллам, рассчитанный с использованием теории функционала плотности (DFT) в VASP. Происхождение данных
Датасет базируется на траекториях релаксации кристаллов. Генерация исходных структур производилась инструментом Genarris 3.0 на основе молекул из проверенного набора OE62. Это гарантирует надежность химических структур при беспрецедентном масштабе выборки. Объем и структура
- Тренировочная выборка: ~25 млн фреймов (207 тыс. кристаллов, полученных из 44 тыс. уникальных молекул).
- Валидационная выборка: ~1,4 млн фреймов.
- Формат: Данные упакованы в LMDBDatabase (стандарт ase-db), что облегчает интеграцию в ML-пайплайны. Инструментарий и метки
Работа с датасетом осуществляется через библиотеку fairchem. Структуры представлены в виде объектов ASE Atoms. Для обучения потенциалов доступны ключевые физические параметры («каноническая троица»):
1. Полная энергия (DFT).
2. Силы, действующие на атомы.
3. Тензор напряжений. В качестве бонуса авторы предоставляют чекпоинт модели eSEN-S, уже обученной на этом массиве данных. 📜 Лицензия: CC-BY-4.0 (свободное использование с указанием авторства). 🟡Датасет
🟡Модель
🟡GitHub 👉 @bigdata_1