сотрудник
В статье исследуются современные методы и подходы к решению задачи классификации новостных текстов, что является актуальной проблемой в условиях большого объема информации, доступной пользователям. Классификация новостей играет ключевую роль в оптимизации процесса поиска информации, способствует созданию персонализированного контента и помогает анализировать общественные тренды, что особенно важно в эпоху цифровизации. В ходе работы рассматриваются основные концепции и принципы, связанные с обработкой и анализом текста, включая этапы предобработки текста, составления словаря, токенизации, создания батчей из текстовых последовательностей и классификации текстов. Особенное внимание уделяется различным архитектурам рекуррентных нейронных сетей (RNN), их особенностями, преимуществами и недостатками в контексте задачи классификации текста. Рекуррентные нейронные сети являются мощным инструментом для обработки последовательных данных, таких как текст, и позволяют учитывать контекст при классификации. Проведены эксперименты с различными моделями рекуррентных нейронных сетей, выполнен подбор оптимальных параметров, обеспечивающих высокую точность классификации новостных текстов, и выявлена наилучшая модель - GRU_model512_2layers_dropout_epoch10, состоящая из двух рекуррентных слоев архитектуры GRU, содержащая по 512 нейронов в скрытом слое, с дропаутом 20%, обученная на 10 эпохах. Она занимает меньше места в памяти (на 10 мб), чем модель с архитектурой LSTM и такими же параметрами, поскольку архитектура GRU имеет более простое строение. В связи с этим она также быстрее обучается (на 17 с/эпоха быстрее, чем модель с архитектурой LSTM). Также она показывает более высокую точность (91,6 %), чем модели с более простой архитектурой, склонные к переобучению. Для программной реализации алгоритма классификации новостных текстов используется язык программирования Python, а также фреймворк машинного обучения с открытым исходным кодом PyTorch и библиотека обработки естественного языка NLTK. Процесс классификации новостного текста выполняется в следующей последовательности: загрузка текста, его обработка, классификация и вывод категории, к которой данный текст принадлежит. Для обучения моделей и проверки результатов используется набор данных, содержащий образцы новостных текстов четырех категорий.
НЕЙРОННЫЕ СЕТИ, КЛАССИФИКАЦИЯ ТЕКСТОВ, ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА, ТОКЕНИЗАЦИЯ, РЕКУРРЕНТНЫЕ НЕЙРОННЫЕ СЕТИ, ПРЕДОБРАБОТКА ТЕКСТА