Qurma: конвейер извлечения таблиц для пополнения базы знаний

Авторы

DOI:

https://doi.org/10.26577/JMMCS.2022.v114.i2.08

Ключевые слова:

веб-таблицы, извлечение таблиц, распознавание таблиц, понимание таблиц, заполнение базы знаний

Аннотация

В этой статье мы предлагаем конвейер, предназначенный для автоматического извлечения
таблиц из разнородных веб-источников, таких как страницы HTML, файлы PDF и изоб-
ражения. Извлечение таблиц - одно из активно развивающихся направлений извлечения
информации, для которого в настоящее время разрабатывается множество приложений,
библиотек и фреймворков. Тем не менее, большинство этих инструментов ориентировано
на решение каких-то конкретных задач, например, только на распознавание таблиц,
представленных в виде изображений. Мы предлагаем объединить эти задачи в единый
конвейер, который будет поддерживать полный цикл обработки таблиц - начиная с этапов
их поиска, распознавания и извлечения и заканчивая этапами семантического анализа и
интерпретации, например понимание таблиц и пополнение (заполнение) баз знаний (графов
знаний) значимой информацией, содержащейся в этих таблицах, является конечной целью
нашего проекта. В первой части работы представлены методы обнаружения таблиц на
веб-страницах, pdf документах, также автоматическое выявление атрибутов и значении
объектов. Во второй части представлена архитектура инструмента Qurma и его структура.
В результатах показаны реализация парсера для темы авипоиска Алматы-Усть-Каменогорск.

Загрузки

Опубликован

2022-06-24

Как цитировать

Qurma: конвейер извлечения таблиц для пополнения базы знаний. (2022). Вестник КазНУ. Серия математика, механика, информатика, 114(2). https://doi.org/10.26577/JMMCS.2022.v114.i2.08