Методы обработки естественного языка для извлечения концепт-карт: кейс для текстов на английском, казахском и русском языках

Авторы

  • A. B. Nugumanova
  • Aizhan Soltangalienva Tlebaldinova Восточно-Казахстанский университет имени С.Аманжолова
  • Ye. M. Baiburin
  • Ye. V. Ponkina

DOI:

https://doi.org/10.26577/JMMCS.2021.v112.i4.08

Ключевые слова:

концепт-карты, извлечение концепт-карт, обработка естественного языка, малоресурсные языки, язык R

Аннотация

Концепт-карты используются для визуализации знаний посредством представления входного текста или предметной области на концептуальном уровне. Концепт-карты отражают системные отношения между ключевыми понятиями текста/предметной области и тем самым способствуют более глубокому пониманию идей предметной области, экономя время, затрачиваемое на чтение и анализ. Однако сам процесс построения концептуальных карт трудоемок и требует много времени. В настоящее время проводится много исследований, связанных с идеей автоматической генерации концепт-карт из текстов на естественном языке. Задача имеет высокую практическую ценность, но теоретически методы ее решения в основном являются языко-зависимыми. Такие методы требуют качественных лингвистических ресурсов с аннотациями, что представляет серьезную трудность для таких малоресурсных языков, как казахский. В этой работе мы анализируем проблемы, связанные с языко-зависимыми подходами, и представляем нашу экспериментальную работу по автоматической генерации концептуальных карт из текстов на английском, казахском и русском языках. Мы используем хорошо известный, языко-зависимый метод ReVerb, который изначально был разработан для английского языка, и на примере этого метода анализируем проблемы его переноса на казахский и русский язык.

Загрузки

Опубликован

2021-12-31

Как цитировать

Методы обработки естественного языка для извлечения концепт-карт: кейс для текстов на английском, казахском и русском языках. (2021). Вестник КазНУ. Серия математика, механика, информатика, 112(4). https://doi.org/10.26577/JMMCS.2021.v112.i4.08