%A David Nadeau
%T Cr?ation de surcouche de documents hypertextes et traitement du langage naturel
%X Cet article pr?sente une extension aux algorithmes de
cr?ation de surcouche de documents hypertextuels.
Il s?agit de diversifier la granularit? de
l?information qu?il est possible de capturer en
utilisant des techniques de traitement du langage
naturel. Une surcouche de document Web (web page wrapper)
est une vue sur des noeuds HTML contenant une information
donn?e et d?sir?e. Par exemple, dans une manchette de
journal, une surcouche peut baliser le nom de l?auteur,
la date ou m?me toutes les r?f?rences ? un lieu ou a
une compagnie quelconque. Nous avons ?tendu le
fonctionnement d?un algorithme de cr?ation de
surcouchage afin de d?passer la limite des noeuds HTML
et d?extraire de l?information du contenu textuel qui
s?y retrouve. Nous appliquons cette technique ? la
cr?ation automatique de lexiques (liste de mots).
%D 2005
%K Web page wrapper, information extraction
%L cogprints4604