QURMA: A TABLE EXTRACTION PIPELINE FOR KNOWLEDGE BASE POPULATION

A. B. Nugumanova; K. S. Apayev; Y. M. Baiburin; M. Mansurova; A. G. Ospan

doi:10.26577/JMMCS.2022.v114.i2.08

Авторы

A. B. Nugumanova ВОСТОЧНО-КАЗАХСТАНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМЕНИ САРСЕНА АМАНЖОЛОВА http://orcid.org/0000-0001-5522-4421
K. S. Apayev D. Serikbayev East Kazakhstan Technical University http://orcid.org/0000-0001-9292-4785
Y. M. Baiburin
M. Mansurova Казахский национальный университет имени аль-Фараби http://orcid.org/0000-0002-9680-2758
A. G. Ospan Казахский национальный университет имени аль-Фараби http://orcid.org/0000-0002-1860-6997

DOI:

https://doi.org/10.26577/JMMCS.2022.v114.i2.08

Ключевые слова:

веб-таблицы, извлечение таблиц, распознавание таблиц, понимание таблиц, заполнение базы знаний

Аннотация

В этой статье мы предлагаем конвейер, предназначенный для автоматического извлечения
таблиц из разнородных веб-источников, таких как страницы HTML, файлы PDF и изоб-
ражения. Извлечение таблиц - одно из активно развивающихся направлений извлечения
информации, для которого в настоящее время разрабатывается множество приложений,
библиотек и фреймворков. Тем не менее, большинство этих инструментов ориентировано
на решение каких-то конкретных задач, например, только на распознавание таблиц,
представленных в виде изображений. Мы предлагаем объединить эти задачи в единый
конвейер, который будет поддерживать полный цикл обработки таблиц - начиная с этапов
их поиска, распознавания и извлечения и заканчивая этапами семантического анализа и
интерпретации, например понимание таблиц и пополнение (заполнение) баз знаний (графов
знаний) значимой информацией, содержащейся в этих таблицах, является конечной целью
нашего проекта. В первой части работы представлены методы обнаружения таблиц на
веб-страницах, pdf документах, также автоматическое выявление атрибутов и значении
объектов. Во второй части представлена архитектура инструмента Qurma и его структура.
В результатах показаны реализация парсера для темы авипоиска Алматы-Усть-Каменогорск.