X-CUT++: ҚАЗАҚ ТIЛIНДЕГI ГАЗЕТТЕРДI ТАНУҒА АРНАЛҒАН ҚҰРЫЛЫМҒА СЕЗIМТАЛ OCR КОНВЕЙЕРI
DOI:
10.26577/JMMCS1302202613Кілт сөздер:
макет талдауы, проекциялық профильдер, адаптивтi бинаризация, HSV сегментация, Хаф түрлендiруi, OCR, ресурсы шектеулi тiлдер, қазақ тiлi, Tesseract, құжат құрылымын қалпына келтiруАңдатпа
Оптикалық таңбаларды тану кезеңiне дейiн күрделi көпбағаналы газет макеттерiн құрылымдық декомпозициялау мәселесi қарастырылады. X-Cut++ деп аталатын гибридтi, толық интерпретацияланатын конвейер ұсынылады. Ол адаптивтi бинаризацияны, тегiстелген горизонталь және вертикаль проекциялық профильдердi, морфологиялық кеңейтудi, HSV кеңiстiгiндегi түстiк аймақтарды анықтауды, бөлгiш сызықтарды табуға арналған Хафтың ықтималдық түрлендiруiн және мақаланың канондық құрылымын (тақырып / аннотация / автор / негiзгi мәтiн) қалпына келтiретiн ережеге негiзделген пост-OCR модулiн бiрiктiредi. Әдiс геометриялық және аудандық шектеулермен реттелетiн бiрөлшемдi проекциялық кесулер каскады ретiнде формалданған, бұл нәтижелердiң детерминирленуi мен қайталанғыштығын қамтамасыз етедi. Egemen Qazaqstan газетiнiң көпвыпусты деректер жиынында (5 шығары лым, 2024 ж. қаңтар–ақпан, 72 редакциялық бет, 300 DPI) жүргiзiлген тәжiрибелер X-Cut++ әдiсiнiң толық беттердi тұрақты түрде мақала деңгейiндегi құрылымдық фрагменттерге бөлетiнiн көрсеттi. Жүйе барлығы 230 фрагмент (бiр бетке орташа 3.19) қалыптастырды. Қолмен тексерiлген 15 фрагментте құрылымдық модуль тақырыптар мен аннотацияларды толық дұрыс анықтап, барлық бар автор жолдарын дәл қалпына келтiрдi, бұл пост-OCR құрылымдық реконструкцияның сенiмдiлiгiн растайды.










