TALN
Nouvel article de méthodologie : Entités nommées
Sébastien Heymann — jeu, 06/04/2009 - 12:14
Notre second article de méthodologie concerne les entités nommées, qui traitent des noms d'individus et d'organisations, de lieux, d'expressions temporelles et numériques.
Appliquées à la veille technologique ou à la recherche d'informations en génétique, elles font depuis peu l'objet d'un intérêt particulier pour améliorer les moteurs de recherche en corpus ouvert (Web), devenir des systèmes robustes et performants pour traiter de grandes quantités de documents en flux continue, ou encore automatiser la génération de contenus pour les technologies liées au Web Sémantique.
- Le blog de Sébastien Heymann
- Vous devez vous identifier ou créer un compte pour écrire des commentaires
Extraction d'information : stop words
Sébastien Heymann — lun, 02/16/2009 - 19:29
Voici le retour sur web-mining.fr des anti-dictionnaires de mots et d'expressions disponibles en plusieurs langues dont le français, l'anglais, le roumain et l'arabe. Ces listes permettent d'éliminer les "mots outils" (de, la, avec, car...) des textes analysés, et font ainsi office de filtres de pré-traitement en text-mining.
- Le blog de Sébastien Heymann
- Vous devez vous identifier ou créer un compte pour écrire des commentaires
Sous tâche de l'extraction d'informations, elle traite des noms d'individus et d'organisations, de lieux, d'expressions temporelles et numériques. Appliquées à la veille technologique ou à la recherche d'informations en génétique, elles font depuis peu l'objet d'un intérêt particulier pour améliorer les moteurs de recherche en corpus ouvert (Web), devenir des systèmes robustes et performants pour traiter de grandes quantités de documents en flux continue, ou encore automatiser la génération de contenus pour les technologies liées au Web Sémantique.




Flux général