X-CUT++: A LAYOUT-AWARE OCR PIPELINE FOR KAZAKH-LANGUAGE NEWSPAPERS

Assel Ospan; Madina Mansurova; Aisha Sailau; Talshyn Sarsembayeva

doi:10.26577/JMMCS1302202613

Авторлар

Әсел Оспан Әл-Фараби атындағы Қазақ ұлттық университетi, Алматы, Қазақстан https://orcid.org/0000-0002-1860-6997
Мадина Мансурова Әл-Фараби атындағы Қазақ ұлттық университетi, Алматы, Қазақстан https://orcid.org/0000-0002-9680-2758
Айша Сайлау Әл-Фараби атындағы Қазақ ұлттық университетi, Алматы, Қазақстан https://orcid.org/0009-0003-8251-3327
Талшын Сәрсембаева Әл-Фараби атындағы Қазақ ұлттық университетi, Алматы, Қазақстан https://orcid.org/0009-0005-5533-9997

DOI:

10.26577/JMMCS1302202613

Кілт сөздер:

макет талдауы, проекциялық профильдер, адаптивтi бинаризация, HSV сегментация, Хаф түрлендiруi, OCR, ресурсы шектеулi тiлдер, қазақ тiлi, Tesseract, құжат құрылымын қалпына келтiру

Аңдатпа

Оптикалық таңбаларды тану кезеңiне дейiн күрделi көпбағаналы газет макеттерiн құрылымдық декомпозициялау мәселесi қарастырылады. X-Cut++ деп аталатын гибридтi, толық интерпретацияланатын конвейер ұсынылады. Ол адаптивтi бинаризацияны, тегiстелген горизонталь және вертикаль проекциялық профильдердi, морфологиялық кеңейтудi, HSV кеңiстiгiндегi түстiк аймақтарды анықтауды, бөлгiш сызықтарды табуға арналған Хафтың ықтималдық түрлендiруiн және мақаланың канондық құрылымын (тақырып / аннотация / автор / негiзгi мәтiн) қалпына келтiретiн ережеге негiзделген пост-OCR модулiн бiрiктiредi. Әдiс геометриялық және аудандық шектеулермен реттелетiн бiрөлшемдi проекциялық кесулер каскады ретiнде формалданған, бұл нәтижелердiң детерминирленуi мен қайталанғыштығын қамтамасыз етедi. Egemen Qazaqstan газетiнiң көпвыпусты деректер жиынында (5 шығары лым, 2024 ж. қаңтар–ақпан, 72 редакциялық бет, 300 DPI) жүргiзiлген тәжiрибелер X-Cut++ әдiсiнiң толық беттердi тұрақты түрде мақала деңгейiндегi құрылымдық фрагменттерге бөлетiнiн көрсеттi. Жүйе барлығы 230 фрагмент (бiр бетке орташа 3.19) қалыптастырды. Қолмен тексерiлген 15 фрагментте құрылымдық модуль тақырыптар мен аннотацияларды толық дұрыс анықтап, барлық бар автор жолдарын дәл қалпына келтiрдi, бұл пост-OCR құрылымдық реконструкцияның сенiмдiлiгiн растайды.

Автор өмірбаяндары

Әсел Оспан, Әл-Фараби атындағы Қазақ ұлттық университетi, Алматы, Қазақстан

Оспан Әсел Ғалымжанқызы – жүйелiк инженерия мамандығы бойынша философия докторы (PhD), әл-Фараби атындағы Қазақ ұлттық университетiнiң Жасанды интеллект және Big Data кафедрасының аға оқытушысы (Алматы, Қазақстан, электрондық пошта: assel.ospan@kaznu.edu.kz)
Мадина Мансурова, Әл-Фараби атындағы Қазақ ұлттық университетi, Алматы, Қазақстан

Мансурова Мадина Есiмханқызы – физика-математика ғылымдарының кандидаты, профессор, әл-Фараби атындағы Қазақ ұлттық университетiнiң механика-математика факультетiнiң деканы (Алматы, Қазақстан, электрондық пошта: madina.mansurova@kaznu.edu.kz)
Айша Сайлау, Әл-Фараби атындағы Қазақ ұлттық университетi, Алматы, Қазақстан

Сайлау Айша – әл-Фараби атындағы Қазақ ұлттық университетiнiң Жасанды интеллект және Big Data кафедрасының ғылыми қызметкерi (Алматы, Қазақстан, электрондық пошта: aishasailau3@gmail.com)
Талшын Сәрсембаева, Әл-Фараби атындағы Қазақ ұлттық университетi, Алматы, Қазақстан

Сәрсембаева Талшын Сағдатбекқызы – медицинадағы жасанды интеллект мамандығы бойынша философия докторы (PhD),әл-Фараби атындағы Қазақ ұлттық университетiнiң Жасанды интеллект және Big Data кафедрасының аға оқытушысы, ғылыми-инновациялық қызмет жөнiндегi кафедра меңгерушiсiнiң орынбасары (Алматы, Қазақстан, электрондық пошта: talshyn.sagdatbek@kaznu.edu.kz)

X-CUT++: ҚАЗАҚ ТIЛIНДЕГI ГАЗЕТТЕРДI ТАНУҒА АРНАЛҒАН ҚҰРЫЛЫМҒА СЕЗIМТАЛ OCR КОНВЕЙЕРI

Авторлар

DOI:

Кілт сөздер:

Аңдатпа

Автор өмірбаяндары

Жүктеулер

Жарияланды

Журналдың саны

Бөлім

Дәйексөзді қалай келтіруге болады

Тіл

Ақпарат

Ссылки