В настоящее время в химии накоплен большой массив экспериментальных данных. В связи с этим, возникает необходимость совершенствования вычислительных методов хранения, обработки экспериментальных данных. В данном подходе органические соединения представляется в виде набора дескрипторов, характеризующих особенности химической структуры молекул. На практике переход в газовую фазу термодинамически возможен не только для жидкостей, но и для веществ, находящихся в твердом состоянии. Для большого числа органических соединений возможен их переход из твердого состояния в газообразное минуя жидкую фазу. Данный процесс называется сублимацией. Количественной характеристикой такого перехода является энтальпия сублимации, которая обозначается как Hsub. Данный параметр является важной термодинамической характеристикой и несомненно представляет практический интерес. Данные об октановых числах для органических соединений были взяты из литературных источников. В базу данных для нашей работы была включена информация об энтальпии сублимации для 845 органических веществ. Для упрощения анализа представления органических соединений, мы использовали 208 дескрипторов RDKit, поскольку они являются одними из лучших дескрипторов для прогнозирования свойств химических соединений. Данные дескрипторы создаются на основе общих ключей подструктуры. Кроме того, модели были рассчитаны с использованием молекулярных отпечатков Моргана, также известных как циркулярные отпечатки с радиусом 2. В рамках данной работы были реализованы гребневая регрессия, алгоритм случайного леса, метод ближайших соседей kNN, метод опорных векторов (SVM), искусственные нейронные сети. Для обучающей выборки полученная классификационная модель случайного леса показала безошибочную классификацию, ошибка прогноза для нее равна 0. Статистические характеристики построенной модели гребневой регрессии для выборки имеют следующие значения: R2 =0.88 и ошибкой предсказания RMSE=13.05 кДж/моль.
БОЛЬШИЕ ДАННЫЕ, ИНДУСТРИЯ 4.0, ЭНТАЛЬПИЯ СУБЛИМАЦИИ, МАШИННОЕ ОБУЧЕНИЕ, ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ