Qurma: конвейер извлечения таблиц для пополнения базы знаний
DOI:
https://doi.org/10.26577/JMMCS.2022.v114.i2.08Ключевые слова:
веб-таблицы, извлечение таблиц, распознавание таблиц, понимание таблиц, заполнение базы знанийАннотация
В этой статье мы предлагаем конвейер, предназначенный для автоматического извлечения
таблиц из разнородных веб-источников, таких как страницы HTML, файлы PDF и изоб-
ражения. Извлечение таблиц - одно из активно развивающихся направлений извлечения
информации, для которого в настоящее время разрабатывается множество приложений,
библиотек и фреймворков. Тем не менее, большинство этих инструментов ориентировано
на решение каких-то конкретных задач, например, только на распознавание таблиц,
представленных в виде изображений. Мы предлагаем объединить эти задачи в единый
конвейер, который будет поддерживать полный цикл обработки таблиц - начиная с этапов
их поиска, распознавания и извлечения и заканчивая этапами семантического анализа и
интерпретации, например понимание таблиц и пополнение (заполнение) баз знаний (графов
знаний) значимой информацией, содержащейся в этих таблицах, является конечной целью
нашего проекта. В первой части работы представлены методы обнаружения таблиц на
веб-страницах, pdf документах, также автоматическое выявление атрибутов и значении
объектов. Во второй части представлена архитектура инструмента Qurma и его структура.
В результатах показаны реализация парсера для темы авипоиска Алматы-Усть-Каменогорск.
