• GEPHI
  • MAGELLAN
  • RTGI
  • WEBATLAS

Web-mining.fr

  • forum
  • technologies
  • méthodes
  • liens
  • science
Accueil

TALN

Nouvel article de méthodologie : Entités nommées

Sébastien Heymann — jeu, 06/04/2009 - 12:14

Notre second article de méthodologie concerne les entités nommées, qui traitent des noms d'individus et d'organisations, de lieux, d'expressions temporelles et numériques.

Appliquées à la veille technologique ou à la recherche d'informations en génétique, elles font depuis peu l'objet d'un intérêt particulier pour améliorer les moteurs de recherche en corpus ouvert (Web), devenir des systèmes robustes et performants pour traiter de grandes quantités de documents en flux continue, ou encore automatiser la génération de contenus pour les technologies liées au Web Sémantique.

Accéder à l'article

  • entité nommée
  • information retrieval
  • Named Entities
  • TALN
  • Le blog de Sébastien Heymann
  • Vous devez vous identifier ou créer un compte pour écrire des commentaires

Extraction d'information : stop words

Sébastien Heymann — lun, 02/16/2009 - 19:29

Voici le retour sur web-mining.fr des anti-dictionnaires de mots et d'expressions disponibles en plusieurs langues dont le français, l'anglais, le roumain et l'arabe. Ces listes permettent d'éliminer les "mots outils" (de, la, avec, car...) des textes analysés, et font ainsi office de filtres de pré-traitement en text-mining.

Accéder aux stop lists

  • information retrieval
  • stop word
  • TALN
  • Le blog de Sébastien Heymann
  • Vous devez vous identifier ou créer un compte pour écrire des commentaires

Entités nommées

Chapeau: 
Ceci est un modeste état de l'art synthétique des techniques et méthodes de reconnaissance et de classification des entités nommées. Il résulte d'un travail universitaire par Sébastien Heymann et Laurine Sailly à l'<a href="http://www.utc.fr">UTC</a>.

Sous tâche de l'extraction d'informations, elle traite des noms d'individus et d'organisations, de lieux, d'expressions temporelles et numériques. Appliquées à la veille technologique ou à la recherche d'informations en génétique, elles font depuis peu l'objet d'un intérêt particulier pour améliorer les moteurs de recherche en corpus ouvert (Web), devenir des systèmes robustes et performants pour traiter de grandes quantités de documents en flux continue, ou encore automatiser la génération de contenus pour les technologies liées au Web Sémantique.

Open publication - Free publishing - More taln
  • casebased reasonning
  • information retrieval
  • ingénierie documentaire
  • machine learning
  • ontologie
  • pattern matching
  • TALN
  • Web

Syndiquer le contenu Syndiquer le contenu

Connexion utilisateur

  • Créer un nouveau compte
  • Demander un nouveau mot de passe

Tags

blogosphère carte communauté crawling design Firefox Flem Gephi Google graphe information retrieval interface graphique Internet Navicrawler science search engine Social Network Analysis système d'information web sémantique TALN visualisation Web WebAtlas Wikipedia
plus de tags

Recherche

Actu blog

  • Cours UTC-IC05 : Analyse Exploratoire de Données Numériques
  • DevWeb, moteur de recherche spécialisé pour les développeurs
  • WebCSTI Rencontres OCIM 2009
  • gexf.net, un nouveau site web pour le format de fichier de graphe GEXF
  • Konodeo - Les Maîtres de l'Arctique
  • Konodeo - Portail de démonstration Arctique
  • Livre blanc WebAtlas : Du Nuage aux Abymes
  • Communautés de logiciel libre : un écosystème des motivations
  • Le web scientifique européen cartographié
  • CPAN-Explorer : la cartographie de l'univers Perl
en savoir plus

Actu forum

  • libellés
  • gephi et navicrawler
  • crawl sémantique ?
  • cartographie de réseau d'influence
  • citizen-boycott.org
en savoir plus

Partenaires


WebAtlas, le projet de recherche dirigé par Franck Ghitalla, qui a vu naître le Navicrawler de Mathieu Jacomy, une petite merveille pour l'exploration du Web.


RTGI SAS, dont l'Observatoire Présidentielle 2007 a fait beaucoup de bruit, avec notamment sa blogopole cartographiant la blogosphère politique, et désormais aux Etats-Unis.


Gephi, le logiciel libre d'exploration et de manipulation des réseaux, permet de représenter et d'interpréter des structures complexes. Il est téléchargeable gratuitement.

Syndication

  • Flux général
  • Flux général des commentaires
  • Flux du Forum

Network Sciences, web mining, data mining, text mining, crawling, scrapping, graph viz, data viz, small worlds, clustering, social networks, social network analysis, link analysis, maps, cartographie, indexation, moteurs de recherche, Firefox, Web 2.0

Flux RSS

Syndiquer le contenu
sitemap
  • forum
  • technologies
  • méthodes
  • liens
  • science