X-CUT++: КАСКАДНО-ОРИЕНТИРОВАННЫЙ OCR-КОНВЕЙЕР ДЛЯ РАСПОЗНАВАНИЯ КАЗАХОЯЗЫЧНЫХ ГАЗЕТ
DOI:
10.26577/JMMCS1302202613Ключевые слова:
анализ макета, проекционные профили, адаптивная бинаризация, HSV-сегментация, преобразование Хафа, OCR, малоресурсные языки, казахский язык, Tesseract, восстановление структуры документаАннотация
Рассматривается задача структурной декомпозиции сложных многостраничных газетных макетов казахскоязычных изданий перед этапом оптического распознавания текста. Предлагается гибридный, полностью интерпретируемый конвейер X-Cut++, объединяющий адаптивную бинаризацию, сглаженные горизонтальные и вертикальные проекционные профили, морфологическое расширение, цвето-зависимое выделение областей в пространстве HSV, вероятностное преобразование Хафа для линий-разделителей, а также правило-ориентированный пост-OCR модуль, восстанавливающий каноническую структуру статьи заголовок / аннотация / автор / основной текст. Метод формализован как каскад одномерных проекционных разрезов с рекурсивным вертикальным и горизонтальным делением, ограниченным геометрическими и площадными критериями, что обеспечивает детерминированность и воспроизводимость результата. Эксперименты на много выпусковом наборе данных газеты Egemen Qazaqstan (5 выпусков, январь–февраль 2024 г., 72 редакционные страницы, 300 DPI) показывают, что X-Cut++ стабильно декомпозирует полные страницы в структурированные фрагменты уровня статей. Система формирует 230 фрагментов (в среднем 3.19 на страницу). На вручную проверенной выборке из 15 фрагментов структурный модуль обеспечивает полное извлечение заголовков и аннотаций и корректно определяет все присутствующие строки авторов, подтверждая надёжность пост-OCR реконструкции структуры.










