Du texte à la carte ou comment dépouiller automatiquement les petites annonces des journaux

actu20190103 Depouillement automatique NicolasGutehrleNicolas Gutehrlé, titulaire d’un master en traitement automatique des langues, a rejoint la MSHE Ledoux comme ingénieur pour six mois dans le cadre de l’action ORTEP Revitalisation. Son travail, qui a débuté en septembre 2018, s’inscrit plus particulièrement dans l’opération transversale de l’ORTEP « Observer et accompagner la revitalisation : une approche par le patrimoine numérique ». Cette dernière vise à développer des méthodes, protocoles et outils adaptés à la sauvegarde, l’exploitation et la valorisation du patrimoine numérique régional. La mission confiée à Nicolas Gutehrlé, menée en collaboration avec Virginie Lethier du laboratoire ELLIADD (1), est d’explorer des méthodes automatisées permettant de projeter sur une carte les toponymes d’un texte, c’est-à-dire les noms de lieux qui y sont cités. Par « lieu », il faut entendre les commune, quartier, rue… mais aussi les lieux naturels (telle une colline) ou les monuments (fontaine, église…) pour peu qu’ils soient identifiés par un nom propre. Cela suppose donc, dans la masse d’informations que contient un texte, de repérer les toponymes, de les extraire pour ensuite les associer à des données géolocalisées – le tout de manière automatique.  
Pour arriver à élaborer de tels processus automatisés, Nicolas Gutehrlé s’appuie sur un corpus composé des annonces parues dans l’hebdomadaire de Salins-les-Bains Le Salinois entre 1839 et 1931. Les 4 732 numéros publiés ont été entièrement numérisés par la médiathèque de Salins-les-Bains. Nicolas Gutehrlé a ensuite passé un mois à préparer les fichiers. Cette étape essentielle – nommée OCR pour optical character recognition – consiste à transformer les fichiers numérisés sous forme d’images en fichiers textes exploitables informatiquement. Le corpus finalement retenu est constitué des annonces relatives à la vente ou à la location. Leur structure similaire – commençant par « à vendre » / « à louer » et se terminant par « s’adresser à » – facilite en effet leur extraction dans une base de données.

A vendre. Un PRESSOIR portatif pouvant convenir à un petit propriétaire. Cette machine peut fonctionner dans tout espace offrant un mètre carre de superficie. La caisse contient un hectolitre. — Prix : 15o francs. S'adresser à M. Bourgeois, à Bracon.
Le Salinois, n°2, 8 décembre 1839
 
A vendre. Un très beau Billard, avec son assortiment complet, monté dans la maison de M. Meyer, Brasseur à Salins. Pour le voir et en traiter, s’adresser audit sieur Meyer.
Le Salinois, n°17, 22 mars 1840
 
Le corpus représente ainsi un ensemble de 23 480 annonces publiées en près d’un siècle. Comment en extraire automatiquement tous les noms de lieux, et autres éléments utiles à leur projection sur une carte ? Cartographier toutes les informations contenues dans les annonces présuppose en effet de repérer automatiquement – outre les toponymes – les noms propres et les dates, pour permettre d’extraire les annonces concernant le nom de famille Bourgeois par exemple ou celles parues une année donnée. En traitement automatique des langues, cela revient à mettre au point un système de reconnaissance des entités nommées. Pour les toponymes, Nicolas Gutehrlé s’est appuyé sur ce qu’il appelle les « indices formels » présents dans l’environnement des informations recherchées, par exemple les prépositions « à » ou les noms « rue »… Cependant cette méthode, employée seule, est insuffisante pour obtenir des résultats parfaits : « à M. Bourgeois » serait étiqueté toponyme au même titre que « à Bracon ».
Le jeune chercheur a donc développé un programme informatique en langage python comprenant différentes étapes d’analyse pour mieux filtrer les résultats. Le programme opère une première sélection, par exemple des groupes prépositionnels contenant un nom propre, puis la passe au crible d’autres critères. Plusieurs méthodes sont utilisées. L’une d’elles consiste à se servir des expressions régulières. Par exemple les noms de personnes sont généralement précédés de « M. », « sieur » ou « Mme ». « Le programme utilise ces expressions pour identifier que le groupe prépositionnel “à M. Bourgeois” n’est pas un toponyme – explique Nicolas Gutehrlé – et il l’élimine de la liste qu’il va finalement produire ». Une autre méthode surtout adoptée comme un ultime filtrage est le recours aux lexiques. Dans les annonces, les départements sont très souvent cités entre parenthèse ce qui constitue un moyen de les repérer. Mais il arrive que des prénoms soient également cités entre parenthèse. Pour que le programme ne confonde pas « (Jura) » et « (Philibert) », il les recherche dans un lexique des prénoms, constitué par Nicolas Gutehrlé à partir de Wikipédia. Si le mot entre parenthèse n’est pas contenu dans ce lexique, le programme le retient comme toponyme. « A la fin, le programme ne retient que les mots qui ont validé toutes les conditions et il les rassemble dans une base de données » poursuit le jeune chercheur. La liste des toponymes est ensuite associée à une autre base contenant les données géolocalisées. Créée par le pôle géomatique de la MSHE Ledoux, cette base contient les lieux situés en Franche-Comté et dans les zones limitrophes. Elle croise plusieurs sources de données géographiques (2) qui pour la plupart sont actuelles. Ce qui n’est pas sans poser problème. En effet, les noms de lieux ont parfois évolué au cours des deux siècles qui nous sépare des premiers numéros du Salinois. Chaux-sur-Champagny est devenu Chaux-Champagny à l’inverse Arc-Senans est devenu Arc-et-Senans. Le système de reconnaissance des entités nommées élaboré par Nicolas Gutehrlé est actuellement en phase de test, afin de répertorier erreurs et difficultés et trouver comment les solutionner. Quelques esquisses de carte ont déjà été produites grâce à ce protocole, leur développement va se poursuivre en collaboration avec le pôle géomatique de la MSHE.

(1) Édition, Littératures, Langages, Informatique, Arts, Didactique, Discours, université de Franche-Comté
(2) Il s’agit pour l’essentiel des données de l’IGN (institut national de l’information géographique et forestière), de la base gratuite GeoNames, du fichier FANTOIR des voies et lieux-dits et de la Base Adresse Nationale BAN.