crawling
Portail de recherche sur les nanotechnologies
Sébastien Heymann — sam, 01/17/2009 - 20:36
L'équipe Magellan a travaillé en collaboration avec WebAtlas sur le domaine des nanotechnologies pour proposer un portail du domaine, ouvert au public.
Il est volontairement simplifié en fonctionnalités, mais permet de donner un aperçu de l'efficacité d'un moteur de recherche à l'échelle d'une communauté.
Vous y trouverez donc un moteur de recherche au sein du corpus, un aggrégateur de flux des sites du corpus, et une cartographie réalisée par WebAtlas. Le crawl a été effectué avec focus, c'est à dire que seules ont été retenues les pages qui parlaient effectivement de nanotechnologies.
Il s'agit encore d'un prototype, qui peut accuser quelques faiblesses, et les retours utilisateurs sont donc bien évidemment bienvenus.
- Le blog de Sébastien Heymann
- Vous devez vous identifier ou créer un compte pour écrire des commentaires
VizCrawler
archive — ven, 12/26/2008 - 00:31
Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...
Bonjour,
Pour ceux qui étaient présents en ic05 ce matin, je n'ai malheureusement pas pu faire la démonstration de mon projet.. un pdf c'est pas mal mais une vidéo c'est mieux..
Facecrawl
archive — jeu, 12/25/2008 - 23:30
Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...
Bonjour à tous
J'ai réalisé une extension firefox pour crawler facebook et tracer le graphe du réseau des étudiants UTCéens.
Pour cela, il faut :
- Avoir un compte sur facebook et appartenir au réseau de l'UTC (sinon, faut crawler un autre network)
- Avoir firefox :D
- Installer l'extension :http://paulpoirel.is-a-geek.org/~canard/facecrawl/facecrawl.xpi
(soyez indulgents, je me suis mis à XUL ce matin, tout était en HTML/javascript avant, et je n'y connais pas grand chose)
- Lancer l'URL chrome://facecrawl/content/facecrawl.xul
- Renseigner le network et l'utilisateur (par défaut, c'est moi et le réseau de l'UTC, les ids sont dans les liens, faut chercher un peu ...)
- Lancer le crawl et aller boire un café (désactiver les images pour accelerer)
- Appuyer sur output pour générer le code gdf, qui peut donner un fichier visualisable sous guess.
Là j'ai un souci, mon PC plante dès qu'il y a un peu trop de noeuds dans guess. J'espère que vous aurez plus de chance ...
A venir :
- Export du fichier gdf directement
- Enregistrement et réouverture de session
- Un lien dans le menu de firefox dès que j'aurais appris les overlays en xul
Enjoy !
Paul
Data-mining des sites de psychanalyse
archive — jeu, 12/25/2008 - 23:19
Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...
Bonjour tout le monde
Je souhaite utiliser navicrawler pour explorer la webosphère psychanalytique.
Je me concentre uniquement sur les sites institutionnels, c'est à dire sur les sites des principales associations de psychanalyse. 14 sites ont été retenus Je me limite également au domaine francophone. Je cherche à comprendre comment est ce que la psychanalyse diffuse sur l'Internet et plus exactement comment est ce que les discours institutionnels sont produits et diffusés sur l'Internet.
Je donnnerai une visualisation par site, et ensuite (si je le peux) un vision générale regroupant les 14 sites
La recherche porte sur plusieurs dimensions
1. Avoir une "photographie" des liens mis sur les pages d'accueil
2. Explorer les liens que les sites des associations de psychanalyse entretiennent avec d'autres domaines ou avec d'autres associations de psychanalyse
L'idée est d'utiliser ensuite Pajek pour construire une visualisation.
- Vous devez vous identifier ou créer un compte pour écrire des commentaires
Le projet Magellan, qui est aujourd'hui une association loi 1901, est un projet qui a été initié par trois étudiants ingénieurs de l'UTC.
- Vous devez vous identifier ou créer un compte pour écrire des commentaires
Le Navicrawler est une extension pour le navigateur web Firefox. En l’installant, vous pourrez produire des graphes de l’ensemble des sites web sur lesquels vous aurez navigués, mais aussi classer ces sites et en faire des listes. Le Navicrawler collecte ces données pendant que vous naviguez et vous aide à faire le point sur votre exploration. Il produit des graphes comme format de données mais pour les visualiser, vous devrez utiliser un autre logiciel comme Guess ou Pajek.
- Vous devez vous identifier ou créer un compte pour écrire des commentaires





