ИИ учится извлекать ключевые знания из студенческих работ
Учёные ТюмГУ, НГУ и НП «Национальный корпус русского языка» проверили, как ИИ‑модели извлекают ключевые термины из студенческих работ.
июн
В рамках эксперимента они протестировали разные методы автоматического извлечения предметно‑ориентированных сущностей (ПОС) из студенческих отчётов ИТ‑направлений.
«Предметно‑ориентированных сущностей представляют собой ключевые термины, навыки и именованные сущности, которые отражают суть текста. Например, названия технологий, алгоритмов, инструментов разработки. В эксперименте мы использовали корпус из 2 933 текстов студенческих отчётов. Наши исследования показали, что стратегия выделения ПОС в тексте точнее, чем извлечение в виде списка. Когда модель отмечает нужные фрагменты прямо в тексте (например, выделяет термины специальными тегами), результат получается точнее, чем если она составляет отдельный список. Автоматическое извлечение ПОС нужно для быстрой обработки студенческих работ, формирования баз знаний и глоссариев по дисциплинам, анализа навыков в резюме и вакансиях и создания умных поисковых систем по научным и техническим текстам», — рассказала старший преподаватель Школы компьютерных наук Антонина Мельникова.
Учёные сравнили несколько подходов, используя традиционный инструмент для извлечения ключевых слов rutermextract и mBART — языковую модель, дообученную на специализированных данных, а также модели YandexGPT, Saiga и Tlite, основанные на инструкциях.
В ходе экспериментов модель mBART показала высокую эффективность, но только когда ей предоставили достаточно материала для обучения. Модели на инструкциях обошли rutermextract. Они оказались перспективнее при работе с небольшими объёмами данных. Особенно выделилась модель Saiga: она лучше других выявляла «ядро» сущностей — то есть отделяла главное от второстепенного.
Однако, как пояснили в Школе компьютерных наук, ошибки всё ещё встречаются. Самыми частыми оказываются ложноположительные извлечения. Отдельная категория ошибок — случаи, когда ИИ верно определяет ядро сущности, но добавляет к нему лишние слова: например, версию технологии или избыточные уточнения.
«Задача извлечения ПОС пока не решена полностью. Чтобы повысить точность, нужны более сложные инструкции и дополнительные исследования. В будущем это поможет создавать интеллектуальные системы, которые быстрее и качественнее анализируют специализированные тексты», — сказала профессор ШКН Марина Воробьева.
Исследование выполнялось при поддержке Минобрнауки России в рамках госзадания (FEWZ-2024−0052). Результаты опубликованы в журнале «Труды института системного программирования РАН».
«Предметно‑ориентированных сущностей представляют собой ключевые термины, навыки и именованные сущности, которые отражают суть текста. Например, названия технологий, алгоритмов, инструментов разработки. В эксперименте мы использовали корпус из 2 933 текстов студенческих отчётов. Наши исследования показали, что стратегия выделения ПОС в тексте точнее, чем извлечение в виде списка. Когда модель отмечает нужные фрагменты прямо в тексте (например, выделяет термины специальными тегами), результат получается точнее, чем если она составляет отдельный список. Автоматическое извлечение ПОС нужно для быстрой обработки студенческих работ, формирования баз знаний и глоссариев по дисциплинам, анализа навыков в резюме и вакансиях и создания умных поисковых систем по научным и техническим текстам», — рассказала старший преподаватель Школы компьютерных наук Антонина Мельникова.
Учёные сравнили несколько подходов, используя традиционный инструмент для извлечения ключевых слов rutermextract и mBART — языковую модель, дообученную на специализированных данных, а также модели YandexGPT, Saiga и Tlite, основанные на инструкциях.
В ходе экспериментов модель mBART показала высокую эффективность, но только когда ей предоставили достаточно материала для обучения. Модели на инструкциях обошли rutermextract. Они оказались перспективнее при работе с небольшими объёмами данных. Особенно выделилась модель Saiga: она лучше других выявляла «ядро» сущностей — то есть отделяла главное от второстепенного.
Однако, как пояснили в Школе компьютерных наук, ошибки всё ещё встречаются. Самыми частыми оказываются ложноположительные извлечения. Отдельная категория ошибок — случаи, когда ИИ верно определяет ядро сущности, но добавляет к нему лишние слова: например, версию технологии или избыточные уточнения.
«Задача извлечения ПОС пока не решена полностью. Чтобы повысить точность, нужны более сложные инструкции и дополнительные исследования. В будущем это поможет создавать интеллектуальные системы, которые быстрее и качественнее анализируют специализированные тексты», — сказала профессор ШКН Марина Воробьева.
Исследование выполнялось при поддержке Минобрнауки России в рамках госзадания (FEWZ-2024−0052). Результаты опубликованы в журнале «Труды института системного программирования РАН».
Источник:
Управление стратегических коммуникаций ТюмГУ
Рубрики:
Теги:
Читайте также