Определение лексической сочетаемости слов по векторам специализированных слов

Авторы

DOI:

https://doi.org/10.26577/JMMCS.2020.v107.i3.07

Ключевые слова:

векторы слов, модель Skip-gram, лексическое сочетаемость слов

Аннотация

В системе суда секретарь является ответственным за заполнение протоколов. Маленькая ошибка может привести к недопониманию между людьми. Поэтому секретарь должен стараться не допускать каких-либо ошибок. В данной работе был выполнен анализ слов по их лексической сочетаемости. Лексическая сочетаемость слов была определена по модели Skip-gram. Модель Skip-gram представляет слова в виде векторов. В модели Skip-gram векторы слов, имеющие схожий смысл и лексические сочетаемые слова должны иметь приблизительно одинаковое направление. Поэтому чтобы вычислить лексическое сочетаемость двух слов был определен косинус угла между соответствующими векторами. Если два слова лексический сочетаемы друг с другом, то значение косинуса должен быть приблизительно равным 1. В противном случае, значение косинуса должен быть примерно равным -1. В данной работе в качестве тестирования был взят текст статьи конституции Республики Казахстан. Когда авторы вводили слова не связанные с контекстом, их система должна была определить введенные слова. Система для некоторых слов показала высокую, а для некоторых слов низкую точность. По мнению авторов, это связано тем, что, несмотря на то, что введенные слова не были связаны с контекстом, они были лексический сочетаемы с соседними словами. Например, слово компьютер по смыслу не был связан с текстом конституции, но это слово может употребляться со словом бұрынғы казахского языка. Данная работа выполняется в рамках грантового проекта Министерства Образования и Науки Республики Казахстан "Разработка и внедрение инновационной компетентностной модели полиязычного IT-специалиста в условиях модернизации отечественного образования"

Библиографические ссылки

[1] I.V. Bondareva, D.G. Lagerev. 2018, Issledovanie metodov vektornogo predstavlenija tekstovoj informacii dlja reshenija zadachi analiza tonal’nosti, Vserossijskaja nauchnaja konferencija "Informacionnye tehnologii intellektual’noj podderzhki prinjatija reshenij Ufa-Stavropol, Russia, 2018, 10-15 p.

[2] Gerhard Wohlgenannt, Ekaterina Chernyak, Dmitry Ilvovsky, 2016, Extracting Social Networks from Literary Text with Word Embedding, Proceedings of the Workshop on Language Technology Resources and Tools for Digital Humanities (LT4DH), December 11-17 2016. pages 18–25.

[3] http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/. Accessed date: 10.06.2020.

[4] David Meyer, 2016, How exactly does word2vec work? July 31, 2016. Pages 1-18.

[5] https://hmkcode.com/ai/backpropagation-step-by-step/. Accessed date: 10.06.2020.

[6] https://www.kdnuggets.com/2018/04/implementing-deep-learning-methods-feature-engineering-text-data-skip-gram.html. Accessed date: 10.06.2020.

[7] Nawal Ould-Amer, Philippe Mulhem, Mathias Gery, Karam Abdulahhad, 2016, Word Embedding for Social Book Suggestion, Clef 2016 Conference, 09.05.2016, Volume 1609

[8] Ensaf Hussein Mohamed, Eyad Mohamed Shokry, 2020, QSST: A Quranic Semantic Search Tool based on word embedding, Journal of King Saud University –Computer and Information Sciences, 4 January 2020

[9] https://code.google.com/archive/p/word2vec/. Accessed date: 10.06.2020.


[10] https://sites.google.com/site/rmyeid/projects/polyglot. Accessed date: 10.06.2020.

Загрузки

Опубликован

2020-09-30