L'Extraction d'entités nommées
une opportunité pour le secteur culturel ?
Bulletin : I2D 2 - juin 2016
Auteurs
Numéros de page :
10 p. / p. 70-79
Les champs de métadonnées non structurés tels que « description » offrent une plus-value considérable à la compréhension pour les utilisateurs finals. Néanmoins, leur caractère non structuré les rend peu exploitables dans un contexte électronique et d'automatisation. Cet article explore les possibilités et les limitations de la reconnaissance d'entités nommées (« Named-Entity Recognition », NER) et de l'extraction terminologique (« Term Extraction », TE) dans la prospection de données non structurées afin d'en extraire des concepts significatifs. Ces concepts permettent de tirer parti d'une recherche et d'une navigation améliorées, mais peuvent également jouer un rôle très important dans la recherche en humanités numériques. A travers une étude de cas basée sur les champs de description des archives historiques de la ville de Québec, les auteurs, Simon Hengchen, Seth van Hooland, Ruben Verborgh et Max De Wilde, proposent une évaluation de quatre services tiers d'extraction d'entités afin de promouvoir l'expérimentation de la reconnaissance d'entités nommées et l'extraction terminologique. Dans le but de couvrir autant le NER que la TE, ils utilisent, pour l'évaluation des entités nommées, une approche quantitative basée sur la précision, le rappel et le F-score calculés sur la base d'un référent manuel (« gold standard corpus »). Une seconde approche, plus qualitative, permet ensuite de prendre en compte la pertinence des termes extraits et aborde la question du multilinguisme.
Note Générale :