DAGOBAH : Un système d’annotation sémantique de données tabulaires indépendant du contexte

Chabot, Yoan; Labbé, Thomas; Liu, Jixiong; Troncy, Raphaël
IC 2020, 31èmes Journées francophones d'Ingénierie des Connaissances, 30 June 2020-3 July, Angers, France

Cet article présente le système DAGOBAH permettant d’annoter sémantiquement des tables à l’aide d’entités Wikidata et DBPedia. Le système proposé annote les cellules et les colonnes d’une table et identifie des relations entre ces colonnes. Pour cela, un processus allant du pré-traitement des tables jusqu’à l’enrichissement d’un graphe de connaissances existant en utilisant uniquement les informations contenues dans la table est utilisé. Pour répondre au problème spécifique du typage des colonnes des tables, deux techniques sont introduites pour sélectionner des types suffisamment représentatifs tout en restant à un niveau de spécificité porteur d’informations. Les types ainsi identifiés sont ensuite utilisés dans un processus de désambiguisation des cellules. Le système a été évalué lors du challenge SemTab2019 (Jiménez-Ruiz et al., 2020) de la conférence ISWC 2019 où il a obtenu des résultats prometteurs (Chabot et al., 2019b).
 
 

HAL
Type:
Conference
City:
Angers
Date:
2020-06-29
Department:
Data Science
Eurecom Ref:
6301
Copyright:
© CNRS Editions. Personal use of this material is permitted. The definitive version of this paper was published in IC 2020, 31èmes Journées francophones d'Ingénierie des Connaissances, 30 June 2020-3 July, Angers, France and is available at :

PERMALINK : https://www.eurecom.fr/publication/6301