Мамандандырылған сөздердiң векторлары арқылы сөздердiң лексикалық тiркесулерiн анықтау

Авторлар

DOI:

https://doi.org/10.26577/JMMCS.2020.v107.i3.07
        64 183

Кілттік сөздер:

сөздiң векторы, Skip-gram моделi, сөздердiң лексикалық тiркесулерi

Аннотация

Сот жүйесінде іс қағаздардың ұйымдастырылуына хатшы жауапты болады. Хаттамаларда қате болған жағдайда, келіспеушілік пайда болуы мүмкін. Сондықтан сөздердің дұрыс лексикалық тіркесуі маңызды. Бұл жұмыста ұйқаспайтын сөздерді табу үшін сөздердің лексикалық тіркесулері есептелінді. Сөздердің лексикалық тіркесулері Skip-gram моделімен анықталды. Skip-gram моделі сөздерді векторлармен сипаттайды. Бұл модельде мағынасы жағынан жақын сөздердің және бір-бірімен лексикалық тіркесетін сөздердің векторлары шамамен бір бағытта болулары керек. Сондықтан екі сөздің бір-бірімен лексикалық тіркесуін анықтау үшін сол сөздердің векторларының арасындағы бұрыштың косинусы есептелінді. Косинустың мәні 1-ге жақындаған сайын екі сөздің лексикалық тіркесулері жоғарлайды. Керісінше, косинустың мәні -1-ге жақындаған сайын екі сөздің лексикалық тіркесулері төмендейді. Бұл жұмыста қазақстан Республикасының конституциясының бабының мәтініне жаңа сөз енгізген кезде, авторлардың жүйесі енгізілген сөзді табу керек еді. Жүйе кейбір сөздер үшін жоғары дәлдікті көрсеткенімен, кейбір сөздерде қателіктер табылды. өйткені енгізілген жаңа сөз конституцияның бабына қатысты болмағанымен, көрші сөзбен басқа мәтіндерде тіркесе алады. Мысалы, компьютер сөзі мағынасы жағынан конституцияның бабына қатысты болмағанымен, бұл сөз бұрынғы сөзімен лексикалық тіркесе алады. Берілген жұмыс "Отандық білім беруді модернизациялау жағдайында көптілді іТ маманының құзыретті инновациялық моделін әзірлеу және енгізу" атты гранттық жоба аясында жүзеге асырылынып жатыр.

Библиографиялық сілтемелер

[1] I.V. Bondareva, D.G. Lagerev. 2018, Issledovanie metodov vektornogo predstavlenija tekstovoj informacii dlja reshenija zadachi analiza tonal’nosti, Vserossijskaja nauchnaja konferencija "Informacionnye tehnologii intellektual’noj podderzhki prinjatija reshenij Ufa-Stavropol, Russia, 2018, 10-15 p.

[2] Gerhard Wohlgenannt, Ekaterina Chernyak, Dmitry Ilvovsky, 2016, Extracting Social Networks from Literary Text with Word Embedding, Proceedings of the Workshop on Language Technology Resources and Tools for Digital Humanities (LT4DH), December 11-17 2016. pages 18–25.

[3] http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/. Accessed date: 10.06.2020.

[4] David Meyer, 2016, How exactly does word2vec work? July 31, 2016. Pages 1-18.

[5] https://hmkcode.com/ai/backpropagation-step-by-step/. Accessed date: 10.06.2020.

[6] https://www.kdnuggets.com/2018/04/implementing-deep-learning-methods-feature-engineering-text-data-skip-gram.html. Accessed date: 10.06.2020.

[7] Nawal Ould-Amer, Philippe Mulhem, Mathias Gery, Karam Abdulahhad, 2016, Word Embedding for Social Book Suggestion, Clef 2016 Conference, 09.05.2016, Volume 1609

[8] Ensaf Hussein Mohamed, Eyad Mohamed Shokry, 2020, QSST: A Quranic Semantic Search Tool based on word embedding, Journal of King Saud University –Computer and Information Sciences, 4 January 2020

[9] https://code.google.com/archive/p/word2vec/. Accessed date: 10.06.2020.


[10] https://sites.google.com/site/rmyeid/projects/polyglot. Accessed date: 10.06.2020.

Жүктелулер

Жарияланды

2020-09-30

Как цитировать

Baimuratov, O. A., & Ayazbayev, D. A. (2020). Мамандандырылған сөздердiң векторлары арқылы сөздердiң лексикалық тiркесулерiн анықтау. Қазұу Хабаршысы. Математика, механика, информатика сериясы, 107(3), 67–73. https://doi.org/10.26577/JMMCS.2020.v107.i3.07