2005-11-12Z2011-03-11T08:56:13Zhttp://cogprints.org/id/eprint/4604This item is in the repository with the URL: http://cogprints.org/id/eprint/46042005-11-12ZCréation de surcouche de documents hypertextes et traitement du langage naturelCet article présente une extension aux algorithmes de
création de surcouche de documents hypertextuels.
Il s’agit de diversifier la granularité de
l’information qu’il est possible de capturer en
utilisant des techniques de traitement du langage
naturel. Une surcouche de document Web (web page wrapper)
est une vue sur des noeuds HTML contenant une information
donnée et désirée. Par exemple, dans une manchette de
journal, une surcouche peut baliser le nom de l’auteur,
la date ou même toutes les références à un lieu ou a
une compagnie quelconque. Nous avons étendu le
fonctionnement d’un algorithme de création de
surcouchage afin de dépasser la limite des noeuds HTML
et d’extraire de l’information du contenu textuel qui
s’y retrouve. Nous appliquons cette technique à la
création automatique de lexiques (liste de mots).David Nadeaupythonner