Nadeau, David (2005) Création de surcouche de documents hypertextes et traitement du langage naturel. [Conference Paper]
Full text available as:
|
PDF
69Kb |
Abstract
Cet article présente une extension aux algorithmes de création de surcouche de documents hypertextuels. Il s’agit de diversifier la granularité de l’information qu’il est possible de capturer en utilisant des techniques de traitement du langage naturel. Une surcouche de document Web (web page wrapper) est une vue sur des noeuds HTML contenant une information donnée et désirée. Par exemple, dans une manchette de journal, une surcouche peut baliser le nom de l’auteur, la date ou même toutes les références à un lieu ou a une compagnie quelconque. Nous avons étendu le fonctionnement d’un algorithme de création de surcouchage afin de dépasser la limite des noeuds HTML et d’extraire de l’information du contenu textuel qui s’y retrouve. Nous appliquons cette technique à la création automatique de lexiques (liste de mots).
Item Type: | Conference Paper |
---|---|
Keywords: | Web page wrapper, information extraction |
Subjects: | Computer Science > Language |
ID Code: | 4604 |
Deposited By: | Nadeau, David |
Deposited On: | 12 Nov 2005 |
Last Modified: | 11 Mar 2011 08:56 |
References in Article
Select the SEEK icon to attempt to find the referenced article. If it does not appear to be in cogprints you will be forwarded to the paracite service. Poorly formated references will probably not work.
Metadata
- ASCII Citation
- Atom
- BibTeX
- Dublin Core
- EP3 XML
- EPrints Application Profile (experimental)
- EndNote
- HTML Citation
- ID Plus Text Citation
- JSON
- METS
- MODS
- MPEG-21 DIDL
- OpenURL ContextObject
- OpenURL ContextObject in Span
- RDF+N-Triples
- RDF+N3
- RDF+XML
- Refer
- Reference Manager
- Search Data Dump
- Simple Metadata
- YAML
Repository Staff Only: item control page