Алексей Сорокин: Компьютерная лингвистика – это не страшно

Алексей Сорокин: Компьютерная лингвистика – это не страшно

4 Февраля 2019 3784

Может ли машина думать и понимать речь? Этот вопрос из разряда философских постепенно переходит в технические. Сценарии распознавания речи, а также роль компьютерной лингвистики в современном мире оказались в поле зрения молодежной научно-практической конференции «Множественность интерпретаций – 7: цифровая перезагрузка», организованной Тюменским государственным университетом при поддержке Российского фонда фундаментальных исследований. Один из спикеров конференции, программист-исследователь в проекте iPavlov, преподаватель МГУ Алексей Сорокин, в течение многих лет занимающийся разработкой курсов компьютерной лингвистики, рассказал об этом перспективном направлении в науке.

Сорокин Алексей.jpg 

ЗАЧЕМ ДЛЯ БИЗНЕС-ЗАДАЧИ НУЖНЫ МОРФОЛОГИЯ, СИНТАКСИС И СЕМАНТИКА

– Давайте для начала разберемся, что такое компьютерная лингвистика, чтобы обыватель не боялся этого термина.

– Чтобы объяснить этот термин, рассмотрим прикладную бизнес-задачу. Например, владелец кинотеатров хочет понять, почему у него падают продажи, и выяснить, на какие фильмы люди ходят и как они к этим фильмам относятся. В результате исследования он имеет массу отзывов с разных соцсетей, с сайта заказов билетов и других источников. Что ему нужно делать? Ему нужно понять, какие тексты положительные, какие отрицательные. Он обращается к автоматическому анализу тональности. Далее ему нужно понять, к какому аспекту относится этот негативный отзыв: к кинотеатру, к самому фильму, к вкусовым качествам попкорна в этом кинотеатре. Это значит, что ему надо понимать структуру предложения, отсюда идет морфология, синтаксис и семантика. И, соответственно, для такой бизнес-задачи, в которой нет никакой науки на первый взгляд, на самом деле нужна вся современная компьютерная лингвистика.

– Когда у вас проснулся интерес к этой науке?

– По базовому образованию я – математик-теоретик, хотя популярные книги про компьютерную лингвистику читал еще в старшей школе. Именно это определило то, что я пошел на механико-математический факультет МГУ и на кафедру математической логики. До защиты кандидатской диссертации занимался теоретической математикой, которая хотя и имела выход на лингвистику, но на практике это по большому счету не использовалось. После защиты диссертации понял, что надо переориентироваться на другую область. Как раз за несколько лет до этого я прослушал вводные курсы по компьютерной лингвистике в школе Яндекса, понял, что это интересно, начал читать статьи, захотелось реализовать какие-то свои идеи и так постепенно пришел к полноценной научной работе.

 

НАУЧИТЬ МАШИНУ ПОНИМАТЬ ТЕКСТЫ

– С какого времени развивается компьютерная лингвистика и каким образом она достигла востребованности в современном мире?

– Математическая лингвистика появилась в начале 50-х годов. И в Советском Союзе, и в США уделялось большое внимание работе с машинным переводом, чтобы переводить различные тексты с языка вероятного противника. Несмотря на то что в этом направлении трудились лучшие умы математики и лингвистики, качество машинных переводов оставляло желать лучшего и чаще было пищей для анекдотов. Ренессанс компьютерной лингвистики пришелся на 90-е годы. Люди поняли, что важно иметь больше данных и меньше предположений, как эти данные устроены. Из самих данных можно извлечь гораздо больше информации, чем из наших представлений о них.

– В каких ситуациях применяется это направление?

– Сегодня компьютерная лингвистика вышла на новый уровень своего развития и применяется в повседневной жизни во многих сферах. Все мы пользуемся онлайн-переводчиками. Реклама, которая всплывает на сайте по ключевым словам, также основана на компьютерной лингвистике. Компьютерную лингвистику используют акулы бизнеса в очень многих ситуациях. Такие крупные компании, как Сбербанк или Самсунг, открывают отделы компьютерной лингвистики, набирают туда сотрудников, чтобы автоматизировать некоторые процессы взаимодействия с клиентами. Это разработка диалоговых помощников и интеллектуальных систем работы с клиентами. Таким образом, можно сделать вывод, что компьютерная лингвистика – перспективное направление для развития бизнеса. Разумеется, и просто как область науки она очень интересна и развивается семимильными шагами.

– Какие задачи вы решаете, когда рассказываете студентам об алгоритме работы в компьютерной лингвистике? Какой отклик это вызывает?

– Я преподаю в Московском государственном университете на отделении теоретической прикладной лингвистики и в Московском физико-техническом институте. Если говорить о преподавании в МГУ, моя задача рассказать людям, которые приходят с теоретической базовой подготовкой, о том, что компьютерная лингвистика – это не страшно, и о том, что математические формулы – это инструмент, язык, но понимание лежит за этим языком. На самом деле какие-то вещи в компьютерной лингвистике через несколько лет после того, как они появились, можно объяснить простыми человеческими словами. Поэтому я стараюсь, во-первых, дать студентам понимание идей, на которых основаны современные методы, во-вторых, научить их пользоваться прикладными средствами, потому что очень многие задачи можно решать десятью строчками кода. Но эти десять строчек нужно еще правильно написать, а люди порой не понимают, где их искать.

– Если говорить о Тюменском государственном университете, на ваш взгляд, есть у вуза перспективы и потенциал для развития этого направления?

– Пока мне сложно говорить, насколько это развито в Тюмени, но я вижу, что желание и возможности для развития компьютерной лингвистики в Тюменском университете есть. Если захотеть, то на развитие этого направления понадобится не так много времени. Пять лет назад даже в Московском государственном университете это направление было на уровне 15-летней давности. Достаточно пару увлеченных людей, разбирающихся в задачах, чтобы суметь за несколько лет кардинально улучшить обстановку. И, как мне кажется, такие люди в Тюменском государственном университете есть.

– Вы готовы помочь им в этом?

– Безусловно.

 

ПРОЦЕСС, КОТОРЫЙ НИКОГДА НЕ ОСТАНОВИТСЯ

– Каковы перспективы развития этой науки в России?

– В России задач, которые предстоит решить, на наш век хватит. Задачи верификации текстов с помощью компьютерных методов, которые для английского худо-бедно уже умеют решать, на других языках пока не очень развиты. Это не только проблема с русским языком, но и с любым другим мировым языком – будь то немецкий, испанский и так далее. О менее популярных языках и говорить нечего. Задачи, которые для английского успешно решаются, для других языков непонятно, как решать, потому что нет размеченных данных. Это основная проблема.

Нужно либо разрабатывать более эффективные методы, чтобы работать с меньшим количеством данных? Либо как-то эффективно их размечать не только привычным людским трудом, потому что качество разметки чаще всего получается не очень высоким на выходе или требует слишком много усилий по верификации. Соответственно, если мы сделаем для русского языка то, что уже умеем делать для английского, то это уже будет очень большой вклад. За то время, пока мы будем это делать, из прикладной области придет десяток новых задач, которые тоже надо будет решать. Я думаю, этот процесс никогда не остановится.

– То есть впереди еще много работы?

– Когда качество машинного перевода будет таким, что даже самый «прожженный» гуманитарий не будет над этим результатом смеяться, можно будет сказать, что задача решена. Но до этого еще очень далеко.

– Можно сказать, что в Россия в этом направлении находится на самом начальном пути?

– Нет, сказать, что мы находимся в самом начале, было бы ошибкой.  В России есть научные школы, правда, к сожалению, они больше располагаются в европейской части страны. В Сибири, насколько я знаю, школа прикладной лингвистики есть только в Новосибирске. Уровень лучших российских представителей этого направления ничуть не хуже, чем уровень лидеров мировой науки. Проблема в том, что в Стэнфорде таких лидеров десятки и они все друг с другом взаимодействуют. В России их десяток на всю страну, и они работают в разных городах над разными задачами. То есть само сообщество у нас гораздо меньше. Я думаю, в одной Кремниевой долине в Калифорнии людей, которые занимаются компьютерной лингвистикой в индустрии или науке, в десяток раз больше, чем в целом в России.

– Зарубежный опыт в этом направлении ценен для России?

– Несомненно. Но половину прорывных работ для английского языка обеспечивают научные отделы Гугла и Фейсбука. Они перекупают, переманивают лучших исследователей из институтов Европы, США, России. В то же время научный отдел Яндекса что-то публикует, но их вклад в науку даже в пределах России гораздо меньше, чем от зарубежных компаний того же статуса, и гораздо слабее, чем от академических исследователей. Но у чистых учёных по определению не будет тех вычислительных ресурсов и такого количества данных, как у бизнес-компаний, например, из архива поиска в Гугле или Яндексе можно извлечь безумное количество информации. И если у зарубежных компаний эти данные хоть частично, но работают на науку, притом не только внутри них самих, то в России с этим куда хуже. 

 

 

Источник:

Управление стратегических коммуникаций ТюмГУ

Подготовила Вероника Белоусова

 


Поделиться