Определение лексической сочетаемости слов по векторам специализированных слов
DOI:
https://doi.org/10.26577/JMMCS.2020.v107.i3.07Ключевые слова:
векторы слов, модель Skip-gram, лексическое сочетаемость словАннотация
В системе суда секретарь является ответственным за заполнение протоколов. Маленькая ошибка может привести к недопониманию между людьми. Поэтому секретарь должен стараться не допускать каких-либо ошибок. В данной работе был выполнен анализ слов по их лексической сочетаемости. Лексическая сочетаемость слов была определена по модели Skip-gram. Модель Skip-gram представляет слова в виде векторов. В модели Skip-gram векторы слов, имеющие схожий смысл и лексические сочетаемые слова должны иметь приблизительно одинаковое направление. Поэтому чтобы вычислить лексическое сочетаемость двух слов был определен косинус угла между соответствующими векторами. Если два слова лексический сочетаемы друг с другом, то значение косинуса должен быть приблизительно равным 1. В противном случае, значение косинуса должен быть примерно равным -1. В данной работе в качестве тестирования был взят текст статьи конституции Республики Казахстан. Когда авторы вводили слова не связанные с контекстом, их система должна была определить введенные слова. Система для некоторых слов показала высокую, а для некоторых слов низкую точность. По мнению авторов, это связано тем, что, несмотря на то, что введенные слова не были связаны с контекстом, они были лексический сочетаемы с соседними словами. Например, слово компьютер по смыслу не был связан с текстом конституции, но это слово может употребляться со словом бұрынғы казахского языка. Данная работа выполняется в рамках грантового проекта Министерства Образования и Науки Республики Казахстан "Разработка и внедрение инновационной компетентностной модели полиязычного IT-специалиста в условиях модернизации отечественного образования"
