QURMA: A TABLE EXTRACTION PIPELINE FOR KNOWLEDGE BASE POPULATION

A. B. Nugumanova; K. S. Apayev; Y. M. Baiburin; M. Mansurova; A. G. Ospan

doi:10.26577/JMMCS.2022.v114.i2.08

Авторлар

A. B. Nugumanova Sarsen Amanzholov East Kazakhstan University http://orcid.org/0000-0001-5522-4421
K. S. Apayev D. Serikbayev East Kazakhstan Technical University http://orcid.org/0000-0001-9292-4785
Y. M. Baiburin
M. Mansurova Al-Farabi Kazakh National University http://orcid.org/0000-0002-9680-2758
A. G. Ospan Al-Farabi Kazakh National University http://orcid.org/0000-0002-1860-6997

DOI:

https://doi.org/10.26577/JMMCS.2022.v114.i2.08

394 308

Кілттік сөздер:

веб-кестелер, кестелер шығару, кестелердi тану, кестелердi түсiну, білім базасын толтыру

Аннотация

Бұл мақалада бiз HTML парақтары, PDF файлдары және суреттер сияқты ұқсас веб-
көздерден кестелердi автоматты түрде шығаруға арналған құбырды ұсынамыз. Кестелердi
шығару-қазiргi уақытта көптеген қосымшалар, кiтапханалар мен жақтаулар құрастырылып
жатқан ақпарат алудың белсендi дамып келе жатқан бағыттарының бiрi. Алайда, бұл құрал-
дардың көпшiлiгi кейбiр нақты мәселелердi шешуге бағытталған, мысалы, тек суреттер түрiн-
де ұсынылған кестелердi тануға бағытталған. Тексттiк кестелердi танитын, оқитын, оларды
топтарға жiктейтiн бағдарламалар кең танылмаған, және дайын кiтапханалар неемесе құрал-
дар жоқ. Бiз бұл тапсырмаларды кестелердi өңдеудiң толық циклын қолдайтын бiртұтас құ-
бырға бiрiктiрудi ұсынамыз – оларды iздеу, тану және шығарып алу кезеңдерiнен бастап,
семантикалық талдау мен түсiндiру кезеңдерiне дейiн, мысалы, кестелердi түсiну және бiлiм
базаларын (бiлiм графиктерiн) осы кестелердегi маңызды ақпаратпен толтыру бiздiң жо-
бамыздың түпкi мақсаты болып табылады. Жұмыстың бiрiншi бөлiмiнде веб-беттерде, pdf
құжаттарында кестелердi анықтау, сонымен қатар атрибуттар мен объектiлердiң мәнiн ав-
томатты түрде анықтау әдiстерi берiлген. Екiншi бөлiмде Qurma құралының архитектурасы
және оның құрылымы көрсетiлген. Нәтижелерде Алматы-өскемен авипоискi тақырыбына ар-
налған парсердiң iске асырылуы көрсетiлген.

Библиографиялық сілтемелер

[1] Embley D.W., Tao C., Liddle S.W., "Automating the extraction of data from HTML tables with unknown structure" , Data & Knowledge Engineering, 54 (1) (2005): 3–28.
[2] Ell B., Hakimov S., Braukmann P., et al., "Towards a Large Corpus of Richly Annotated Web Tables for Knowledge Base Population" , 15th International workshop on Linked Data for Information Extraction (LD4IE) at ISWC2017, Vienna.
[3] Kruit B., Boncz P., Urbani J., "Extracting novel facts from tables for knowledge graph completion" , International Semantic Web conference. Springer. Cham., (2019): 364–381.
[4] Ros´en G., Analysis of Tabula: A PDF-Table extraction tool. (2019).
[5] Liu Y., TableSeer: automatic table extraction, search, and understanding. (2009).
[6] Perez-Arriaga M.O., Estrada T., Abad-Mota S., "TAO: system for table detection and extraction from PDF documents" , The Twenty-Ninth International Flairs Conference, (2016).
[7] Kruit B., Boncz P., Urbani J., "TAKCO: A Platform for Extracting Novel Facts from Tables" , Companion Proceedings of the Web Conference, (2021): 705–707.
[8] Paliwal S.S. et al., "TableNet: Deep learning model for end-to-end table detection and tabular data extraction from scanned document images" , International Conference on Document Analysis and Recognition (ICDAR). IEEE, (2019): 128–133.
[9] Wang N.X.R., Burdick D., Li Y., "TableLab: An Interactive Table Extraction System with Adaptive Deep Learning" 26th International Conference on Intelligent User Interfaces, (2021): 87–89.
[10] Mikhailov A.A., Shigarov A., Kozlov I.S., PyTabby: a Docreader’s module for extracting text and tables from PDF with a text layer. (2021).
[11] Camelot: PDF Table Extraction for Humans. Camelot 0.8.2 documentation (Jan. 29, 2021).
URL: https://camelot-py.readthedocs.io/en/master/ (visited on 10.10.2021).
[12] Limaye G., Sarawagi S., Chakrabarti S., "Annotating and SearchingWeb Tables Using Entities, Types and Relationships" , PVLDB, 3 (1-2) (2010): 1338–1347.
[13] Venetis P., Halevy A., Madhavan J., Paca M., Shen W., Wu F., Miao G., Wu C., "Recovering Semantics of Tables on the Web" , PVLDB, 4 (2011): 528–538.
[14] Wang J., Shao B., Wang H., "Understanding Tables on the Web" , In: ER, 1 (2010): 141–155
[15] Mulwad V., Finin T., Joshi A., "Semantic Message Passing for Generating Linked Data from Tables" , In: Proceedings of ISWC, (2013): 363–378.
[16] Hassanzadeh O., Ward M.J., Rodriguez-Muro M., Srinivas K., "Understanding a Large Corpus of Web Tables Through Matching with Knowledge Bases: an Empirical Study" , In: Proceedings of OM at ISWC, (2015): 25–34.
[17] Petar Petrovski, Christian Bizer, "Extracting Atribute-Value Pairs from Product Specifications on theWeb" , Web Intelligence (WI’17). Leipzig, Germany. ACM, (2017) 978-1-4503-4951-2/17/08. DOI: 10.1145/3106426.3106449.
[18] Gabor Melli, "Shallow Semantic Parsing of Product Offering Titles (for better automatic hyperlink insertion)" , In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, (2014): 1670–1678.
[19] Stefano Ortona, "An analysis of duplicate on web extracted objects" , In Proceedings of the companion publication of the 23rd international conference on World wide web companion, (2014): 1279–1284.
[20] Petar Ristoski and Peter Mika, "Enriching Product Ads with Metadata from HTML Annotations" , In Proceedings of the 13th Extended SemanticWeb Conference (To Appear), (2016).
[21] Ihler A.T. et al., "Loopy belief propagation: convergence and effects of message errors" , Journal of Machine Learning Research, 6 (5) (2005).
[22] https://aviapoisk.kz/raspisanie/aeroporta/ustkamenogorsk.

Qurma: халықтың бiлiм базасына арналған кестенi шығарып алу құбыры

Авторлар

DOI:

Кілттік сөздер:

Аннотация

Библиографиялық сілтемелер

Жүктелулер

Как цитировать

Шығарылым

Бөлім

Тіл

Ақпарат

Жылдам сілтемелер