Программный комплекс аспирантки ТюмГУ внедрен в «Национальный корпус русского языка»

Программный комплекс автоматической классификации текстов на основании их возрастной аудитории разработала аспирантка ТюмГУ Анна Глазкова.
Программный комплекс аспирантки ТюмГУ внедрен в «Национальный корпус русского языка»
Программный комплекс аспирантки ТюмГУ внедрен в «Национальный корпус русского языка»

Программный комплекс автоматической классификации текстов на основании их возрастной аудитории разработала аспирантка Института математики и компьютерных наук ТюмГУ Анна Глазкова.

Программа, названная «Расчет оценки степени близости категорий текстов при решении задач классификации электронных документов», получила свидетельство о государственной регистрации.

Как пояснила автор проекта, говоря о точности классификации, метод оценки близости текстов составляет 74,16%, нейросетевой метод — 72,07%.

Разработанный А. Глазковой комплекс стал применяться в некоммерческом партнерстве по содействию развития науки и образования «Национальный корпус русского языка».

«Исследования, связанные с анализом структуры базы данных метатекстовой разметки, были использованы для коррекции ее текстового состава и учтены при создании обновленной версии, — пояснила директор НП „Национальный корпус русского языка“ Светлана Савчук. — Выявленное соотношение текстов в базе детской литературы послужило основанием для оценки ее балансировки и выработки стратегии для дальнейшего пополнения. В дальнейшем планируется апробация программного комплекса для оценки возможности его использования в отборе текстов для пополнения бах данных и их автоматической аннотации».

Отметим, что интеллектуальная система для автоматической классификации текстов позволяет идентифицировать адресата текста с точки зрения его возрастной группы. Ее применение возможно в информационных системах, электронных библиотеках и системах e-learning. Для более широкого применения А. Глазкова планирует включить в комплекс определение адресованности по полу, уровня образованности, рода занятий и т. д.


Источник:

Управление стратегических коммуникаций ТюмГУ

Рубрики:
Меню