Apache Lucene көмегiмен жаңалықтар классификациясы

Авторлар

  • S. S. Aubakirov Әл-Фараби атындағы Қазақ ұлттық университеті image/svg+xml
  • D. Zh. Akhmed-Zaki Әл-Фараби атындағы Қазақ ұлттық университеті image/svg+xml
  • P.S. Trigo Instituto Superior de Engenharia de Lisboa, Biosystems and Integrative Sciences Institute Agent and Systems Modeling

Кілт сөздер:

Бинарлы классификация, оқыту алгоритмдер, Apache Lucene

Аңдатпа

Бұл мақалада Apache Lucene қалыптамасы көрсеткiштерiнiң негiзiнде мәтiндiк хабарламаларды бинарлық топтау есебi қарастырылған. Нақты уақыт бойынша түсетiн мәтiндiк жаңалықтарды топтау есебi қойылған. Оқытуды талдап және тестiлеп алудың әдiстемелерi, сондай-ақ топтау дәлдiгiн бағалайтын әдiстемелер өркендетiлген. Зерттеу барысында Apache Lucene көрсеткiштерiне және топтау дәлдiгiне салдар ретiнде ықпал ететiн негiзгi үш атрибут таңдап алынған. Көрсеткiштердiң өзi сөздерден құрылатындықтан атибуттың бәрi сөз болып табылады. Бiз сөздердiң орнына Ngram ұғымын пайдаланамыз, мұндағы N бiрден беске дейiн ауытқиды. Екiншi атрибут – мәтiндi алдын ала өңдеу әдiсi, дәлiрек айтсақ мәтiндi қалыптау және тоқтау-сөздердi сұрыптау. Ал үшiншi атрибут – топтастыру пiшiнiн құру алгоритмi. Зерттеу кезiнде бiз төмендегi екi алгоритмдi таңдап алдық: «К – ең жақын көршiлер» және «Ангалдық байестiк топтаушы» әдiстерiмен топтау. Алғашқы екi атрибуттың өзгерiсi көрсеткiш қасиеттерiнiң өзгерiсiне әкеледi, нәтижесiнде әр түрлi көрсеткiш түрлерi қалыптасады. Жұмыста топтаушыларды оқытуда олардың көрсеткiштерге байланысы мен құрастырудың практикалық жағынан жүзеге асыру жағдайлары қарастырылған. Көрсеткiш түрлерiнiң топтаушылар дәлдiгiне ықпал етуiне талдау жүргiзiлген.

Жарияланды

2017-11-20