• GEPHI
  • LINKFLUENCE
  • MAGELLAN
  • WEBATLAS

Web-mining.fr

  • forum
  • technologies
  • méthodes
  • liens
  • science
Accueil

Web

  • : Function split() is deprecated in /var/www/web-mining.fr/htdocs/modules/filter/filter.module on line 895.
  • : Function split() is deprecated in /var/www/web-mining.fr/htdocs/modules/filter/filter.module on line 895.

Analyse de la controverse sur la Tour Triangle

Sébastien Heymann — ven, 06/26/2009 - 10:13

Des étudiants de SciencesPo ont créé un site présentant leurs travaux sur la controverse de la Tour Triangle. Le site est superbement réalisé.

Lien: http://ionesco.sciences-po.fr/com2009/tours/wordpress/

  • carte
  • controverse
  • Social Network Analysis (SNA)
  • Web
  • 1 commentaire

Le web scientifique européen cartographié

Sébastien Heymann — jeu, 06/25/2009 - 11:29

Quels sont les sites internet qui parlent de science ? A quoi ressemble la toile scientifique ? Est-elle dense, éclatée, peuplée d'îlots perdus dans internet ? Quelles sont les interactions entre institutions, associations, médias ou blogs sur les questions de science ?

Le projet européen Eurosis a tenté d'y répondre en menant des études dans 12 pays*. Le résultat est un ensemble de points plus ou moins gros, reliés par des fils de plusieurs couleurs. Chacun de ces points est un acteur possédant un site internet (université, journal, musée...). Chaque fil indique que les pages web d'un nœud pointent vers le nœud voisin. Au centre sont représentés les nœuds majeurs recueillant beaucoup de liens. En périphérie se trouvent les sites internet isolés, peu cités et citant peu. Ces cartes ne mesurent donc pas la popularité ou l'activité d'un site mais les connections existantes ou non entre les différents acteurs des relations science et société. Elles sont une manière de visualiser le tissu, invisible jusqu'à présent, structurant ce domaine.

Carte générale EuroSiS

Il apparaît d’emblée que les pays sont peu liés entre eux, barrière de la langue oblige. Les frontières virtuelles reproduisent donc les frontières géographiques.

Quant aux toiles scientifiques nationales elles n'ont pas toutes la même allure. Le réseau italien est peu dense et très faiblement connecté. Les réseaux finlandais, belges ou français sont bien plus compacts avec bon nombre de nœuds vers lesquels beaucoup de sites pointent. En France, la Cité des Sciences, Agrobiosciences et le portail du ministère de la recherche (science.gouv.fr) font partie des acteurs majeurs selon les critères de cette méthode. Le réseau italien paraît fragile: la suppression de quelques nœuds isolerait d'autres sites les uns des autres. Le Portugal est également peu dense mais plus solide avec donc plus de nœuds jouant le rôle de carrefour vers les autres.

Pour obtenir ces cartes, des responsables ont dressé dans chaque pays la liste de sites estampillés "science et société". Puis des robots explorateurs du web sont partis à la découverte de nouveaux sites à partir de cette première liste, répertoriant les liens entre tous les nœuds. La nouvelle liste a ensuite été validée par les responsables nationaux. Au total 1750 sites ont été recensés dont 200 en France.

Ensuite, des algorithmes de visualisation ont positionné tous les nœuds afin de dresser une carte lisible. Les sites les moins liés aux autres se retrouvent en périphérie et les gros carrefours, souvent cités, au centre. Un code couleur différencie aussi l'origine des sites qui peuvent être des musées, des universités, des médias, des associations...

Les logiciels utilisés pour l'exploration et la visualisation ont été développés par l'association webatlas partenaire du projet, co-fondée par Franck Ghitalla, de l'Institut national de l'information scientifique et technique (Inist), et Mathieu Jacomy, ingénieur de Paris Tech Telecom. L'ensemble a enfin été aggloméré pour proposer une carte d'Europe comprenant ces douze pays. Tous ces résultats viennent d'être mis en ligne (voir le site d'Eurosis).

Cette cartographie révèle que le rôle des associations ou ONG n'est pas identique selon les pays. Absentes d'Italie ou du Portugal, elles sont très structurantes en France ou en Belgique. Autre enseignement, les colonnes vertébrales de ces réseaux sont essentiellement fournies par les universités, les centres de vulgarisation et les médias.

"Ces cartes ne fournissent pas de résultats fermes, résume Mathieu Jacomy. Elles permettent d'observer une situation, de découvrir des propriétés, de faire des hypothèses... Finalement elles posent plus de questions qu'elles n'apportent de réponses".

Parmi ces questions, on peut ainsi s'étonner, en France, de l'absence d'organismes de recherche comme le CEA ou l'Inserm. Ou bien de celle de Greenpeace alors que sur les mêmes terrains on trouve les Amis de la Terre ou France Nature Environnement. La forte présence sur la carte des musées et autres centres de vulgarisation scientifique soulève également des interrogations.

David Larousserie
Sciences-et-Avenir.com
25/06/09

Repris de l'article du NouvelObs

Accéder aux cartes

*Arménie, Belgique, Bulgarie, Estonie, Finlande, France, Hongrie, Italie, Montenegro, Pologne, Portugal, République Tchéque.

  • carte
  • EuroSiS
  • science
  • Web
  • WebAtlas
  • Le blog de Sébastien Heymann
  • 1 commentaire

Taille du Web : un trillion de liens selon Google

archive — ven, 12/26/2008 - 00:45

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

Du temps a coulé depuis l'estimation du diamètre du Web par R.Albert, H.Jeong et A.Barabasi, déclarant en 1999 un ordre de grandeur de 10^8 documents.

Google a annoncé récemment avoir approximé non pas le nombre de documents, mais le nombre de liens entre eux, à grosso modo un trillion (10^12).

J'en profites enfin pour vous faire part d'un site vous permettant de connaître la taille des index des moteurs de recherche : http://www.worldwidewebsize.com/, donnant environ 27 milliards de documents indexés.

A quand une grande carte ?  /)

  • diamètre
  • Google
  • Link Analysis
  • Web
  • Link Analysis (LA)
  • Vous devez vous identifier ou créer un compte pour écrire des commentaires

Aurora : le futur du navigateur selon Mozilla

archive — ven, 12/26/2008 - 00:42

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

Paru dans Digg, donc certains seront déjà tombés dessus. Pour les autres, ça mérite le coup d'oeil :
http://www.vimeo.com/1450211

C'est une vidéo qui présente un concept de navigation. Pardonnons-lui l'habillage sonore inspiré de la Wii, qui plaira surtout aux ménagères de moins de 12 ans. C'est le premier concept que je vois qui associe infoviz poussée et web sémantique à l'ancienne. Sans surprise, la partie sémantique me paraît peu crédible hormis quelques cas particuliers, et leur exemple est tout ce qu'il y a de plus naïf. En revanche le design très up to date de deux dispositif me paraît intéressant : la présence d'un autre usager dans le navigateur, et les clusters. Dommage que ça soit en 3D en revanche (vous remarquerez qu'une souris 3D remplace la traditionnelle).
A quand les clusters-bulles dans Géphi ?

  • Firefox
  • Web
  • Divers
  • Vous devez vous identifier ou créer un compte pour écrire des commentaires

Tentative de cartographie des forums français

archive — ven, 12/26/2008 - 00:41

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

Une tentative de cartographie des forums de discussions français

http://www.ouinon.net/index.php?2008/07/16/357-cartographie-forums-franc...

les PDFs:

Le poster : http://www.ouinon.net/documents/carte-forums.pdf
Explications sur la démarche : http://www.ouinon.net/documents/pourquoi-comment.pdf

ps: apparemment l'auteur est un récidiviste, c'est le même qui a réalisé ceci :
http://www.ouinon.net/documents/cartoblog2.1.pdf

  • carte
  • Web
  • Link Analysis (LA)
  • 1 commentaire

walk2web

archive — ven, 12/26/2008 - 00:04

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

Walk2web est une interface de navigation produisant des arbres de navigation à partir d'un crawl en temps réel sur les sites en question (d'abord la page en cours, puis d'autres si on demande plus de résultats). Il dispose aussi d'une gestion communautaire avec les "walk2web teams" pour faire de la navigation à plusieurs.

Je l'ai trouvé excellent, bien que je trouve discutable de représenter un parcours par un arbre (un graphe sans propriété particulière mais avec un marquage des noeuds par couleur aurait permis de restituer les liens entre sites). Beaucoup de techno pour faire tourner ça.

  • Applications et interfaces
  • Web
  • Vous devez vous identifier ou créer un compte pour écrire des commentaires

Data-mining des sites de psychanalyse

archive — jeu, 12/25/2008 - 23:19

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

Bonjour tout le monde
Je souhaite utiliser navicrawler pour explorer la webosphère psychanalytique.
Je me concentre uniquement sur les sites institutionnels, c'est à dire sur les sites des principales associations de psychanalyse. 14 sites ont été retenus Je me limite également au domaine francophone. Je cherche à comprendre comment est ce que la psychanalyse diffuse sur l'Internet et plus exactement comment est ce que les discours institutionnels sont produits et diffusés sur l'Internet.

Je donnnerai une visualisation par site, et ensuite (si je le peux) un vision générale regroupant les 14 sites

La recherche porte sur plusieurs dimensions
1. Avoir une "photographie" des liens mis sur les pages d'accueil
2. Explorer les liens que les sites des associations de psychanalyse entretiennent avec d'autres domaines ou avec d'autres associations de psychanalyse

L'idée est d'utiliser ensuite Pajek pour construire une visualisation.

  • crawling
  • Navicrawler
  • Web
  • Soutiens de vos projets
  • 47 commentaires

Le Deep Web

archive — jeu, 12/25/2008 - 23:18

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

Tiens si on parlais du Deep Web ! C'est quoi ? qu'en sais t-on ? Ou sont les frontières ? Est-ce un territoire numérique ? Quels sont les enjeux de sa connaissance pour un moteur de recherche ? ...

Ce site est un bon point de départ :

http://deepwebresearch.blogspot.com/

  • Deep Web
  • Web
  • Link Analysis (LA)
  • Vous devez vous identifier ou créer un compte pour écrire des commentaires

Les noms de domaine des pays(.fr, .com, .us) représentées sur une carte du monde

archive — jeu, 12/25/2008 - 22:55

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

Vu sur le tout nouveau Webilus, voici une carte de toutes les extensions des noms de domaine de pays dont la taille est proportionnelle à leur utilisation :

L'article explicatif

  • Applications et interfaces
  • Web
  • 1 commentaire

Du Web à l'idée du Web : conception d'outils pour les sciences humaines

Date de publication: 
Octobre 2008
Auteurs: 
Sébastien Heymann
Mots clés: 
web mining, système d'information web, instrumentation scientifique, visualisation et manipulation d'informations, création de connaissance
Chapeau: 
Depuis près de deux ans, le partenariat entre le programme de recherche TIC-Migrations de Fondation Maison des Sciences de l'Homme et de l'association de recherche et d'ingénierie WebAtlas a donné naissance à des méthodologies, des protocoles et des outils visant à étudier les pratiques du Web. Ces éléments sont constitutifs de « briques » d'un Système d'Information Web (SIW) où des logiciels offrent une prise à l'exploration de cet immense réseau de plusieurs dizaines de milliards de pages, et permettent de collecter, de stocker des données indexées, de les traiter et de les analyser, et dont les informations produites sont rendues consultables et manipulables via des interfaces. Cette instrumentation est rendue nécessaire par la nature du Web, un réseau à la fois technique et culturel. Nous avons cependant le sentiment que cette approche ne reflète qu'imparfaitement, en tout cas pas complètement les usages de ces "briques" dans la Recherche en SHS : elles ne vont pas jusqu'à intégrer l'objectif final, qui est de construire de la connaissance. Pourtant, sur les cartographies que nous imprimons ou dans les articles que nous publions, ce ne sont pas de l'accumulation d'informations tel qu'un SIW en fournit que nous avons là, mais le fruit d'un travail d'analyse, d'interprétation et de synthèse. <br /><br /> Manquerait-il alors une "brique" supplémentaire au concept de SIW, une sorte de « chaîne éditoriale scientifique » ? Après avoir remis en cause la notion de donnée en provenance du Web en affirmant une vision plus constructiviste de celui-ci, nous montrerons comment les concepts du SIW peuvent s'assouplir vers des modalités de collecte et d'exploration inédites, se réarticuler, s'enrichir, et se généraliser pour traiter tout type « d'univers numérique ». Nous proposerons alors un nouveau cadre pour la conception de méthodes et de technologies, assumé comme un « cyber-laboratoire artisanal ».
Open publication - Free publishing - More shs
  • crawling
  • Navicrawler
  • SHS
  • Social Network Analysis
  • système d'information web
  • Web
  • Vous devez vous identifier ou créer un compte pour écrire des commentaires
  • 1 fichier attaché
  • 1
  • 2
  • suivant ›
  • dernier »

Syndiquer le contenu Syndiquer le contenu

Connexion utilisateur

  • Créer un nouveau compte
  • Demander un nouveau mot de passe

Tags

blogosphère carte communauté crawling design Firefox Flem Gephi Google graphe information retrieval interface graphique Internet Navicrawler science search engine Social Network Analysis système d'information web sémantique TALN visualisation Web WebAtlas Wikipedia
plus de tags

Recherche

Actu blog

  • Introduction de Gephi 0.7 en vidéo
  • Cours UTC-IC05 : Analyse Exploratoire de Données Numériques
  • DevWeb, moteur de recherche spécialisé pour les développeurs
  • WebCSTI Rencontres OCIM 2009
  • gexf.net, un nouveau site web pour le format de fichier de graphe GEXF
  • Konodeo - Les Maîtres de l'Arctique
  • Konodeo - Portail de démonstration Arctique
  • Livre blanc WebAtlas : Du Nuage aux Abymes
  • Communautés de logiciel libre : un écosystème des motivations
  • Le web scientifique européen cartographié
en savoir plus

Actu forum

  • jeu de données
  • compatibilité avec firefox > 3.5
  • Une autre base de données orientée graphe
  • Détection de communautés dans les réseaux sociaux
  • libellés
en savoir plus

Partenaires


WebAtlas, le projet de recherche dirigé par Franck Ghitalla, qui a vu naître le Navicrawler de Mathieu Jacomy, une petite merveille pour l'exploration du Web.


Linkfluence, dont l'Observatoire Présidentielle 2007 a fait beaucoup de bruit, avec notamment sa blogopole cartographiant la blogosphère politique, et désormais aux Etats-Unis.


Gephi, le logiciel libre d'exploration et de manipulation des réseaux, permet de représenter et d'interpréter des structures complexes. Il est téléchargeable gratuitement.

Syndication

  • Flux général
  • Flux général des commentaires
  • Flux du Forum

Network Sciences, web mining, data mining, text mining, crawling, scrapping, graph viz, data viz, small worlds, clustering, social networks, social network analysis, link analysis, maps, cartographie, indexation, moteurs de recherche, Firefox, Web 2.0

Flux RSS

Syndiquer le contenu
sitemap
  • forum
  • technologies
  • méthodes
  • liens
  • science