Herald of Technological University

ВЕСТНИК ТЕХНОЛОГИЧЕСКОГО УНИВЕРСИТЕТА

3034-4689

98707

10.55421/3034-4689_2025_28_4_97

3. Информатика, вычислительная техника и управление

3. Information teory, computer technology and control

3. Информатика, вычислительная техника и управление

ANALYSIS OF THE EFFECTIVENESS OF RECURRENT NEURAL NETWORKS IN THE TASK OF CATEGORIZING MEDIA TEXTS

АНАЛИЗ ЭФФЕКТИВНОСТИ РЕКУРРЕНТНЫХ НЕЙРОННЫХ СЕТЕЙ В ЗАДАЧЕ КАТЕГОРИЗАЦИИ ТЕКСТОВ СРЕДСТВ МАССОВОЙ ИНФОРМАЦИИ

Колобова

Дарья Алексеевна

Kolobova

Dar'ya Alekseevna

darya.kolobova@inbox.ru

Казанский национальный исследовательский технический университет им. А.Н. Туполева Kazan National Research Technical University named after A.N. Tupolev

01 08 2025

28 4 97 101

https://elibrary.ru/item.asp?id=81207651

В статье исследуются современные методы и подходы к решению задачи классификации новостных текстов, что является актуальной проблемой в условиях большого объема информации, доступной пользователям. Классификация новостей играет ключевую роль в оптимизации процесса поиска информации, способствует созданию персонализированного контента и помогает анализировать общественные тренды, что особенно важно в эпоху цифровизации. В ходе работы рассматриваются основные концепции и принципы, связанные с обработкой и анализом текста, включая этапы предобработки текста, составления словаря, токенизации, создания батчей из текстовых последовательностей и классификации текстов. Особенное внимание уделяется различным архитектурам рекуррентных нейронных сетей (RNN), их особенностями, преимуществами и недостатками в контексте задачи классификации текста. Рекуррентные нейронные сети являются мощным инструментом для обработки последовательных данных, таких как текст, и позволяют учитывать контекст при классификации. Проведены эксперименты с различными моделями рекуррентных нейронных сетей, выполнен подбор оптимальных параметров, обеспечивающих высокую точность классификации новостных текстов, и выявлена наилучшая модель - GRU_model512_2layers_dropout_epoch10, состоящая из двух рекуррентных слоев архитектуры GRU, содержащая по 512 нейронов в скрытом слое, с дропаутом 20%, обученная на 10 эпохах. Она занимает меньше места в памяти (на 10 мб), чем модель с архитектурой LSTM и такими же параметрами, поскольку архитектура GRU имеет более простое строение. В связи с этим она также быстрее обучается (на 17 с/эпоха быстрее, чем модель с архитектурой LSTM). Также она показывает более высокую точность (91,6 %), чем модели с более простой архитектурой, склонные к переобучению. Для программной реализации алгоритма классификации новостных текстов используется язык программирования Python, а также фреймворк машинного обучения с открытым исходным кодом PyTorch и библиотека обработки естественного языка NLTK. Процесс классификации новостного текста выполняется в следующей последовательности: загрузка текста, его обработка, классификация и вывод категории, к которой данный текст принадлежит. Для обучения моделей и проверки результатов используется набор данных, содержащий образцы новостных текстов четырех категорий.

The article examines modern methods and approaches to solving the problem of classifying news texts, which is an urgent problem in the context of a large amount of information available to users. News classification plays a key role in optimizing the information retrieval process, contributes to the creation of personalized content and helps analyze social trends, which is especially important in the era of digitalization. In the course of the work, the main concepts and principles related to text processing and analysis are considered, including the stages of text preprocessing, dictionary compilation, tokenization, creation of batches from text sequences and text classification. Special attention is paid to various architectures of recurrent neural networks (RNNs), their features, advantages and disadvantages in the context of the text classification task. Recurrent neural networks are a powerful tool for processing sequential data, such as text, and allow for context-based classification. Experiments have been conducted with various models of recurrent neural networks, optimal parameters have been selected to ensure high classification accuracy of news texts, and the best model has been identified - GRU_model512_2layers_dropout_epoch10, consisting of two recurrent layers of the GRU architecture, containing 512 neurons each in a hidden layer, with a dropout of 20%, trained on 10 epochs. It takes up less memory space (by 10 MB) than a model with the LSTM architecture and the same parameters, since the GRU architecture has a simpler structure. In this regard, it is also faster to learn (17 s/epoch faster than the LSTM architecture model). It also shows higher accuracy (91.6%) than models with simpler architectures, which are prone to overfitting. For the software implementation of the news text classification algorithm, the Python programming language is used, as well as the open source PyTorch machine learning framework and the NLTK natural language processing library. The process of classifying a news text is performed in the following sequence: loading the text, processing it, classifying it, and outputting the category to which the text belongs. To train the models and verify the results, a dataset containing samples of four categories of news texts is used.

НЕЙРОННЫЕ СЕТИ КЛАССИФИКАЦИЯ ТЕКСТОВ ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА ТОКЕНИЗАЦИЯ РЕКУРРЕНТНЫЕ НЕЙРОННЫЕ СЕТИ ПРЕДОБРАБОТКА ТЕКСТА

NEURAL NETWORKS TEXT CLASSIFICATION NATURAL LANGUAGE PROCESSING TOKENIZATION RECURRENT NEURAL NETWORKS TEXT PREPROCESSING