АНАЛИЗ ЭФФЕКТИВНОСТИ РЕКУРРЕНТНЫХ НЕЙРОННЫХ СЕТЕЙ В ЗАДАЧЕ КАТЕГОРИЗАЦИИ ТЕКСТОВ СРЕДСТВ МАССОВОЙ ИНФОРМАЦИИ

Колобова Дарья Алексеевна

doi:doi:10.55421/3034-4689_2025_28_4_97

Главная / Журналы / ВЕСТНИК ТЕХНОЛОГИЧЕСКОГО УНИВЕРСИТЕТА / Том 28 Номер 4 / АНАЛИЗ ЭФФЕКТИВНОСТИ РЕКУРРЕНТНЫХ НЕЙРОННЫХ СЕТЕЙ В ЗАДАЧЕ КАТЕГОРИЗАЦИИ ТЕКСТОВ СРЕДСТВ МАССОВОЙ ИНФОРМАЦИИ

АНАЛИЗ ЭФФЕКТИВНОСТИ РЕКУРРЕНТНЫХ НЕЙРОННЫХ СЕТЕЙ В ЗАДАЧЕ КАТЕГОРИЗАЦИИ ТЕКСТОВ СРЕДСТВ МАССОВОЙ ИНФОРМАЦИИ

Отправить рукопись Скачать PDF
Текст

Цитировать

Цитирований:

АНАЛИЗ ЭФФЕКТИВНОСТИ РЕКУРРЕНТНЫХ НЕЙРОННЫХ СЕТЕЙ В ЗАДАЧЕ КАТЕГОРИЗАЦИИ ТЕКСТОВ СРЕДСТВ МАССОВОЙ ИНФОРМАЦИИ

Журнал: ВЕСТНИК ТЕХНОЛОГИЧЕСКОГО УНИВЕРСИТЕТА Том 28 № 4 , 2025

Рубрики: 3. ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

Колобова Дарья Алексеевна ¹

Информация об авторах и публикации

Авторы:

1. Казанский национальный исследовательский технический университет им. А.Н. Туполева (АСОИУ, инженер)
сотрудник

Казанский национальный исследовательский технический университет им. А.Н. Туполева
студент с 01.01.2024 по настоящее время

Тип:

Статья

DOI:

https://doi.org/10.55421/3034-4689_2025_28_4_97

Страницы:

с 97 по 101

Статус:

Опубликован

Получено:

12.05.2025

Одобрено:

01.08.2025

Опубликовано:

01.08.2025

Язык материала:

русский

Ключевые слова:

НЕЙРОННЫЕ СЕТИ, КЛАССИФИКАЦИЯ ТЕКСТОВ, ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА, ТОКЕНИЗАЦИЯ, РЕКУРРЕНТНЫЕ НЕЙРОННЫЕ СЕТИ, ПРЕДОБРАБОТКА ТЕКСТА

Аннотация и ключевые слова

Аннотация:
В статье исследуются современные методы и подходы к решению задачи классификации новостных текстов, что является актуальной проблемой в условиях большого объема информации, доступной пользователям. Классификация новостей играет ключевую роль в оптимизации процесса поиска информации, способствует созданию персонализированного контента и помогает анализировать общественные тренды, что особенно важно в эпоху цифровизации. В ходе работы рассматриваются основные концепции и принципы, связанные с обработкой и анализом текста, включая этапы предобработки текста, составления словаря, токенизации, создания батчей из текстовых последовательностей и классификации текстов. Особенное внимание уделяется различным архитектурам рекуррентных нейронных сетей (RNN), их особенностями, преимуществами и недостатками в контексте задачи классификации текста. Рекуррентные нейронные сети являются мощным инструментом для обработки последовательных данных, таких как текст, и позволяют учитывать контекст при классификации. Проведены эксперименты с различными моделями рекуррентных нейронных сетей, выполнен подбор оптимальных параметров, обеспечивающих высокую точность классификации новостных текстов, и выявлена наилучшая модель - GRU_model512_2layers_dropout_epoch10, состоящая из двух рекуррентных слоев архитектуры GRU, содержащая по 512 нейронов в скрытом слое, с дропаутом 20%, обученная на 10 эпохах. Она занимает меньше места в памяти (на 10 мб), чем модель с архитектурой LSTM и такими же параметрами, поскольку архитектура GRU имеет более простое строение. В связи с этим она также быстрее обучается (на 17 с/эпоха быстрее, чем модель с архитектурой LSTM). Также она показывает более высокую точность (91,6 %), чем модели с более простой архитектурой, склонные к переобучению. Для программной реализации алгоритма классификации новостных текстов используется язык программирования Python, а также фреймворк машинного обучения с открытым исходным кодом PyTorch и библиотека обработки естественного языка NLTK. Процесс классификации новостного текста выполняется в следующей последовательности: загрузка текста, его обработка, классификация и вывод категории, к которой данный текст принадлежит. Для обучения моделей и проверки результатов используется набор данных, содержащий образцы новостных текстов четырех категорий.

Ключевые слова:
НЕЙРОННЫЕ СЕТИ, КЛАССИФИКАЦИЯ ТЕКСТОВ, ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА, ТОКЕНИЗАЦИЯ, РЕКУРРЕНТНЫЕ НЕЙРОННЫЕ СЕТИ, ПРЕДОБРАБОТКА ТЕКСТА

Текст

Текст (PDF): Читать Скачать

Отправить рукопись Скачать PDF
Текст JATS XML

Цитировать

Цитирований:

Подтверждение

Регистрация