Россия
В настоящее время в химии накоплен большой массив экспериментальных данных. В связи с этим, возникает необходимость совершенствования вычислительных методов хранения, обработки экспериментальных данных. Температура вспышки органических соединений является важным факторов, обеспечивающим безопасность химических производств. Современная химическая промышленность в условиях перехода к Индустрии 4.0 претерпевает глубокие цифровые трансформации из-за повышенных требований к безопасности химических производств. Использование цифровых двойников процессов вызвали значительные изменения в организации химического производства. Так, в настоящее время активно развиваются такие направления Индустрии 4.0 как аддитивные технологии, Интернет вещей и т.д. В таких условиях применение алгоритмов машинного обучения является ключевым инструментом для выявления факторов, влияющих на температуру вспышки органических соединений и повышения эффективности прогнозирования данного параметра. В базу данных для данной работы была включена информация о температурах вспышки для 1741 органических веществ. Данные о температурах вспышки органических соединений были взяты из базы данных PubChem. Для упрощения анализа представления органических соединений, мы использовали 208 дескрипторов RDKit, поскольку они являются одними из лучших дескрипторов для прогнозирования свойств химических соединений. Данные дескрипторы создаются на основе общих ключей подструктуры. Кроме того, модели были рассчитаны с использованием молекулярных отпечатков Моргана, также известных как циркулярные отпечатки с радиусом 2. В рамках данной работы был реализован градиентный бустинг. XGBoost построен на принципах усиления градиента с использованием древовидных алгоритмов обучения для повышения возможностей прогнозного моделирования. Для обучающей выборки полученная классификационная модель градиентного бустинга показала безошибочную классификацию, ошибка прогноза для нее равна 0. Статистические характеристики построенной модели гребневой регрессии для выборки имеют следующие значения: R2 =0.74 и ошибкой предсказания RMSE=36.36 К.
БОЛЬШИЕ ДАННЫЕ, ИНДУСТРИЯ 4.0, ТЕМПЕРАТУРА ВСПЫШКИ, ГРАДИЕНТНЫЙ БУСТИНГ, ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ



