Pôle 4 : Outils pour l'établissement des bases textuelles en français moderne et contemporain

Responsable : Jean-Marie VIPREY

Télécharger la fiche de l'action.

Rassembler les compétences nationales et internationales autour de certains problèmes de constitution des ressources textuelles en français moderne et contemporain, avec pour impératif d'assurer l'établissement scientifique de ressources authentiques, fines, riche, interopérables et pérennes, en vue de leur analyse, aussi bien linguistique que discursive et socio-historique.

Objectifs de l'action :
Rassembler les compétences nationales et internationales autour de certains problèmes de constitution des ressources textuelles en français moderne et contemporain.
Ces problèmes découlent de l'impératif suivant : assurer l'établissement scientifique des ressources dans le souci de leur authenticité, de leur finesse, de leur richesse et de leur interopérabilité dans le cadre des environnements d'analyse, aussi bien linguistique que discursive et socio-historique.
Un objectif premier est de maîtriser la chaîne d'acquisition, notamment à partir des documents papier (collections de presse, ouvrages) ou des documents de type Pdf (web). A ce stade le problème majeur est celui de la correction des fautes d'OCR (à distinguer des coquilles éditoriales).
Un second objectif est de perfectionner un environnement d'annotation lexicale, morphologique et syntaxique désautomatisé, i.e. assurant une saisie interactive de décisions quant aux cas ambigus ne pouvant être traités avec certitude par un automate.
Un troisième objectif est de mettre au point un environnement d'annotation riche correspondant à des besoins ciblés de recherche (catégorisation sémantique, repérage de segments significatifs, annotation cumulative, etc).
Enfin, tous ces objectifs seront poursuivis avec le souci de suivre les progrès des moyens communs internationaux de l'interopérabilité et de la pérennité des ressources, notamment à ce jour XML-TEI pour les formats, les diverses pistes majeures pour le dépôt, et les grands projets français et francophones pour la mise à disposition.
Les compétences rassemblées autour de l'équipe ADCoST dans l'EA ELLIADD de l'UFC, sont celles du centre ATO de l'UQAM, celle de Lou Burnard au titre de la TEI et du projet MEET dans le TGE ADONIS, et celles des spécialistes en format de données fédérés dans la branche correspondante des réseaux Textometrie (ANR 2007-10) et JADT.

Durée de l'action : 2011-2015

twitterYoutubeFacebook
Annuaire
de la MSHE
Contact : - 03 81 66 51 51
© 2017 MSHE Ledoux. Tous droits réservés