Программный комплекс аспирантки ТюмГУ внедрен в «Национальный корпус русского языка»
Программный комплекс автоматической классификации текстов на основании их возрастной аудитории разработала аспирантка Института математики и компьютерных наук ТюмГУ Анна Глазкова.
Программа, названная «Расчет оценки степени близости категорий текстов при решении задач классификации электронных документов», получила свидетельство о государственной регистрации.
Как пояснила автор проекта, говоря о точности классификации, метод оценки близости текстов составляет 74,16%, нейросетевой метод — 72,07%.
Разработанный А. Глазковой комплекс стал применяться в некоммерческом партнерстве по содействию развития науки и образования «Национальный корпус русского языка».
«Исследования, связанные с анализом структуры базы данных метатекстовой разметки, были использованы для коррекции ее текстового состава и учтены при создании обновленной версии, — пояснила директор НП „Национальный корпус русского языка“ Светлана Савчук. — Выявленное соотношение текстов в базе детской литературы послужило основанием для оценки ее балансировки и выработки стратегии для дальнейшего пополнения. В дальнейшем планируется апробация программного комплекса для оценки возможности его использования в отборе текстов для пополнения бах данных и их автоматической аннотации».
Отметим, что интеллектуальная система для автоматической классификации текстов позволяет идентифицировать адресата текста с точки зрения его возрастной группы. Ее применение возможно в информационных системах, электронных библиотеках и системах e-learning. Для более широкого применения А. Глазкова планирует включить в комплекс определение адресованности по полу, уровня образованности, рода занятий
Источник:
Управление стратегических коммуникаций ТюмГУ