В статье приведено исследование возможности использования методов машинного обучения для классификации экзопланет на основе астрономических данных. Объектом исследования являются экзопланеты, а предметом - подходы к построению и интерпретации моделей классификации экзопланет по их физическим и орбитальным характеристикам. Набор данных Exoplanet Classification Dataset содержит 19761 наблюдение и 16 признаков, включающих параметры звезд, данные фотометрии, а также результирующую метку класса. Разделен набор данных на выборки: обучающая выборка (12646 объектов - 64 %), валидационная выборка (3162 объектов - 16 %), тестовая выборка (3953 объектов - 20 %). Распределено количество объектов по классам: класс 0 - 6311 объектов, класс 1 - 7413 объектов, класс 2 - 6015 объектов, класс 3 - 22 объекта. Выполнена предобработка данных, включающая нормализацию признаков, обработку пропусков и балансировку классов методом SMOTE (Synthetic Minority Over-sampling Technique). Для реализации модели машинного обучения выбран алгоритм Random Forest. Описано сравнение алгоритма Random Forest с другими алгоритмами классификации: логистической регрессией, методом опорных векторов (Support Vector Machine, SVM), градиентным бустингом и простой нейронной сетью (MLP). Проведен сравнительный анализ использования метода SMOTE. Проведена оценка адекватности разработанной модели с использованием метрик точности (Precision), полноты (Recall). Итоговая точность классификации экзопланет на тестовой выборке составила 75 %. На основе полученных моделей определена важность физических признаков, влияющих на принадлежность экзопланет к различным типам, что позволяет интерпретировать результаты не только с точки зрения машинного обучения, но и с позиции астрофизики. Разработанная модель машинного обучения является основой для интеллектуальных систем поддержки научных открытий в современных космических исследованиях.
ЭКЗОПЛАНЕТЫ, МАШИННОЕ ОБУЧЕНИЕ, КЛАССИФИКАЦИЯ, МОДЕЛЬ МАШИННОГО ОБУЧЕНИЯ, RANDOM FOREST



