X-CUT++: A LAYOUT-AWARE OCR PIPELINE FOR KAZAKH-LANGUAGE NEWSPAPERS

Assel Ospan; Madina Mansurova; Aisha Sailau; Talshyn Sarsembayeva

doi:10.26577/JMMCS1302202613

Авторы

Асель Оспан Казахский национальный университет имени аль-Фараби, Алматы, Казахстан https://orcid.org/0000-0002-1860-6997
Мадина Мансурова Казахский национальный университет имени аль-Фараби, Алматы, Казахстан https://orcid.org/0000-0002-9680-2758
Айша Сайлау Казахский национальный университет имени аль-Фараби, Алматы, Казахстан https://orcid.org/0009-0003-8251-3327
Талшын Сарсембаева Казахский национальный университет имени аль-Фараби, Алматы, Казахстан https://orcid.org/0009-0005-5533-9997

DOI:

10.26577/JMMCS1302202613

Ключевые слова:

анализ макета, проекционные профили, адаптивная бинаризация, HSV-сегментация, преобразование Хафа, OCR, малоресурсные языки, казахский язык, Tesseract, восстановление структуры документа

Аннотация

Рассматривается задача структурной декомпозиции сложных многостраничных газетных макетов казахскоязычных изданий перед этапом оптического распознавания текста. Предлагается гибридный, полностью интерпретируемый конвейер X-Cut++, объединяющий адаптивную бинаризацию, сглаженные горизонтальные и вертикальные проекционные профили, морфологическое расширение, цвето-зависимое выделение областей в пространстве HSV, вероятностное преобразование Хафа для линий-разделителей, а также правило-ориентированный пост-OCR модуль, восстанавливающий каноническую структуру статьи заголовок / аннотация / автор / основной текст. Метод формализован как каскад одномерных проекционных разрезов с рекурсивным вертикальным и горизонтальным делением, ограниченным геометрическими и площадными критериями, что обеспечивает детерминированность и воспроизводимость результата. Эксперименты на много выпусковом наборе данных газеты Egemen Qazaqstan (5 выпусков, январь–февраль 2024 г., 72 редакционные страницы, 300 DPI) показывают, что X-Cut++ стабильно декомпозирует полные страницы в структурированные фрагменты уровня статей. Система формирует 230 фрагментов (в среднем 3.19 на страницу). На вручную проверенной выборке из 15 фрагментов структурный модуль обеспечивает полное извлечение заголовков и аннотаций и корректно определяет все присутствующие строки авторов, подтверждая надёжность пост-OCR реконструкции структуры.

Биографии авторов

Асель Оспан, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

Оспан Асель Галымжановна – доктор философии (PhD) по специальности «Системная инженерия», старший преподаватель кафедры искусственного интеллекта и Big Data Казахского национального университета имени аль-Фараби (Алматы, Казахстан, электронная
почта: assel.ospan@kaznu.edu.kz)
Мадина Мансурова, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

Мансурова Мадина Есимхановна – кандидат физико-математических наук, профессор, декан механико-математического факультета Казахского национального университета имени аль-Фараби (Алматы, Казахстан, электронная почта: madina.mansurova@kaznu.edu.kz)
Айша Сайлау, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

Сайлау Айша – научный сотрудник кафедры искусственного интеллекта и Big Data Казахского национального университета имени аль-Фараби (Алматы, Казахстан, электронная почта: aishasailau3@gmail.com)
Талшын Сарсембаева, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

Сарсембаева Талшын Сагдатбековна – доктор философии (PhD) по специальности "ИИ в медицине", старший преподаватель кафедры искусственного интеллекта и Big Data, заместитель заведующего кафедрой по научно-инновационной деятельности Казахского национального университета имени аль-Фараби (Алматы, Казахстан, электронная почта: talshyn.sagdatbek@kaznu.edu.kz)

X-CUT++: КАСКАДНО-ОРИЕНТИРОВАННЫЙ OCR-КОНВЕЙЕР ДЛЯ РАСПОЗНАВАНИЯ КАЗАХОЯЗЫЧНЫХ ГАЗЕТ

Авторы

DOI:

Ключевые слова:

Аннотация

Биографии авторов

Загрузки

Опубликован

Выпуск

Раздел

Как цитировать

Язык

Информация

Ссылки