• GEPHI
  • MAGELLAN
  • RTGI
  • WEBATLAS

Web-mining.fr

  • forum
  • technologies
  • méthodes
  • liens
  • science
Accueil

Navicrawler

Navicrawler et Firefox 3.0

archive — ven, 12/26/2008 - 00:33

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

Bonjour
Est ce qu'un mise à jour de Navicrawler est prévue pour le rendre compatible avec Firefox 3.0 ?

  • Navicrawler
  • Navicrawler
  • 2 commentaires

Twitter, what else ?

archive — ven, 12/26/2008 - 00:24

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

Bonjour tout le monde
Le truc du moment, c'est twitter. C'est tout à fait étonnant de voir comment une application aussi simple peut rendre autant de services. Pourtant, au départ, les bonnes fées ne semblaient pas s'etre penchées sur son cas : un nombre de caractères limité (140), pas d'images, une interface spartiate. Bref, twitter semblait tourner le dos au Web 2.0

Et pourtant, c'est aujourd'hui une application phare
On peut en faire des choses assez poetiques, comme twistori : http://twistori.com/#i_love ou encore prendre une application dans la liste toujours plus grande des mashups

Il serait intéressant de voir comment sont organisés les différents réseaux. Les petits réseaux fonctionnement ils de la même manière que les grands réseaux (certains ont des centaines de follower). Est ce que certaines variables sont fonctions du nombre de tweet/jour ou des réponses ?

L'avantage de tweetter, c'est que son coté spartiate met en avant le réseau : chaque compte "suit" des personnes et est suivi par d'autres. Ce qui ouvre d'emblée a un premier choix : celui de la réciprocité. Je peux suivre ceux qui me suivent. Je peux ne pas le faire. Est ce que cela modifie le fonctionnement du réseau ? et comment ?

L'inconvénient, c'est qu'on ne peut pas le crawler avec navicraler. Les "suiveurs" sont a une adresse http://www.twitter.com/nom_du_compte que navicrawler ne discrimine pas. Il serait intéressant d'avoir un outil spécifique pour le faire, et en plus je pense que twitter sera beaucoup moins tatillon que Facebook pour les crawls sur son domaine

Qu'en pensez vous ?

  • Applications et interfaces
  • Navicrawler
  • Social Network Analysis
  • 2 commentaires

Dysfonctionnement Navi Crawler

archive — ven, 12/26/2008 - 00:16

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

Bonjour,
Je comptais rédiger un billet pour Navi Crawler mais voilà après l'installation de la version 1.032 sur Firefox 2.0.0.14 il ne se passe strictement rien.
Mon panneau atéral est bien ouvert, en bas à droite il est bien stipulé que Navicrawler est "on" mais quand je navigue sur une page web il ne reconnaît tout simplement pas la page, et l'onglet Nav reste désespérément vierge... (Je suis sous Windows Vista, et j'ai fait un test sous Windows XP, cela fonctionne...)
Une idée? Incompatibilité Vista?
Bien cordialement,
Frederic Martinet
www.actulligence.com

  • Navicrawler
  • Navicrawler
  • 4 commentaires

Quelques suggestions pour Navicrawler

archive — ven, 12/26/2008 - 00:09

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

Bonjour tout le monde
J'ai quelques suggestions pour navicrawler
Je trouve assez pénible de refuser un a un toute une série d'adresse genre foobar.aaa.com; foobar.bbb.com. Aussi je rêve de pouvoir avoir les fonctions suivantes
* suppression d'une liste d'url
* suppression des urls par mot clé (par exemple toutes les adresses foo.bar)

et puis pour plus tard, peut etre pourrait on extraire des pages des tags clouds ?

Peut être serait il possible de profiter de flem (je sais maintenant pourquoi c'est une application dont JE suis la larve) en permettant
* de libeller les adresse pendant le diaporama en utilisant des raccourcis (CTRL+1 = libellé 1, CTRL+2=libellé 2 etc)

  • Navicrawler
  • Navicrawler
  • 4 commentaires

Méthodologie

archive — ven, 12/26/2008 - 00:01

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

Sur une étude de corpus, je m'intéresse surtout aux blogs.
Si un blog A fait parti du corpus, mais que tout ses liens ne sont que des "amis" sans lien avec le corpus, est ce que je peut mettre le blog A en frontière? (tout en le taguant )

  • Navicrawler
  • Navicrawler
  • 4 commentaires

lien vers un site inexistant

archive — ven, 12/26/2008 - 00:01

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

Suite au bug "plusieurs sessions blabla" j'ai supprimer le mauvais site.
Par contre quand j'importe le wxsf il me met tres souvent en commentaire de chargement (au dessus de la barre de progression) "lien vers un site inexistant"
C'est normal ou en virant le site incriminé j'ai chambouler tout le reste?

  • Navicrawler
  • Navicrawler
  • 2 commentaires

Navicrawler au MIT

archive — jeu, 12/25/2008 - 23:56

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

Le Navicrawler est désormais une ressource référencée par le site Mapping Controversies du MIT avec la note maximale, 5 étoiles !

  • Navicrawler
  • Navicrawler
  • 1 commentaire

Les libellés

archive — jeu, 12/25/2008 - 23:26

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

C'est moi ou les libellés et les groupes de libellés ne fonctionnent pas bien sur le navicrawler ?

  • Navicrawler
  • Navicrawler
  • 3 commentaires

Data-mining des sites de psychanalyse

archive — jeu, 12/25/2008 - 23:19

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

Bonjour tout le monde
Je souhaite utiliser navicrawler pour explorer la webosphère psychanalytique.
Je me concentre uniquement sur les sites institutionnels, c'est à dire sur les sites des principales associations de psychanalyse. 14 sites ont été retenus Je me limite également au domaine francophone. Je cherche à comprendre comment est ce que la psychanalyse diffuse sur l'Internet et plus exactement comment est ce que les discours institutionnels sont produits et diffusés sur l'Internet.

Je donnnerai une visualisation par site, et ensuite (si je le peux) un vision générale regroupant les 14 sites

La recherche porte sur plusieurs dimensions
1. Avoir une "photographie" des liens mis sur les pages d'accueil
2. Explorer les liens que les sites des associations de psychanalyse entretiennent avec d'autres domaines ou avec d'autres associations de psychanalyse

L'idée est d'utiliser ensuite Pajek pour construire une visualisation.

  • crawling
  • Navicrawler
  • Web
  • Soutiens de vos projets
  • 47 commentaires

En cas de plantage ?

archive — jeu, 12/25/2008 - 23:05

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

Bonjour,

voici quelques semaines que je me suis lancé dans l'exploitation du crawler. Entre les problèmes d'install de guess, des résultats pas folichon sous pajek... ça avance pas très vite, mais bon l'apprentissage est en bonne voix  :D

Première question

car, je n'ai pas trop de notion (ça devrait venir) sur la lisibilité d'un graphe.

par exemple, j'ai laissé tourner pendant un peu plus de 24h, le crawler avec comme paramètres
- profondeur 3
- distance 3

Au bout de ces 24 heures j'étais à a peu près 70 sites référencés pour quelques milliers de pages et 20 sites frontières.

Vous pensez que c'est exploitable, trop, pas assez ??? vous allez me dire que ça dépend du sujet, ben oui forcément, enfin c'est juste pour avoir une notion  :P

Second point, quelques remarques
Au passage quelques comportements assez embétants :


    [li]une alerte répétitive  [tt]object : ! XMLHttpRequest[/tt] sur le site www.publicsenat.fr
    et sur un autre site de nombreuses ouverture du panneau 'imprimer'[/li]
    [li][/li]

Si vous avez des astuces là dessus, je suis preneur.

troisième point

Donc voilà ou j'étais rendu quand d'un coup, firefox a planté.  :o

Donc ma question est simplement de savoir s'il y a un [glow=red,2,300]moyen de récupérer les logs après un plantage[/glow] ?

si oui  :P comment ?

si non  :'( quelle bonne pratique peut on conseiller ?
- faire un backup régulier, mais cela ne risque t-il pas de perturber la nav ?
- time boxer la navigation ?

bon en même temps j'ai découvert que je pouvais intervenir directement pour accélérer la navigation et squizer certains cites manuellement. Mais quand même, je me suis bien galérer pendant près de 24 pour nada  :-\

sinon ben merci encore pour ce bel outil, (si très sérieusement) et d'avance pour vos réponses.

@+
simon.

  • Navicrawler
  • Navicrawler
  • 2 commentaires
  • 1
  • 2
  • suivant ›
  • dernier »

Syndiquer le contenu Syndiquer le contenu

Connexion utilisateur

  • Créer un nouveau compte
  • Demander un nouveau mot de passe

Tags

blogosphère carte communauté crawling design Firefox Flem Gephi Google graphe information retrieval interface graphique Internet Navicrawler science search engine Social Network Analysis système d'information web sémantique TALN visualisation Web WebAtlas Wikipedia
plus de tags

Recherche

Actu blog

  • Cours UTC-IC05 : Analyse Exploratoire de Données Numériques
  • DevWeb, moteur de recherche spécialisé pour les développeurs
  • WebCSTI Rencontres OCIM 2009
  • gexf.net, un nouveau site web pour le format de fichier de graphe GEXF
  • Konodeo - Les Maîtres de l'Arctique
  • Konodeo - Portail de démonstration Arctique
  • Livre blanc WebAtlas : Du Nuage aux Abymes
  • Communautés de logiciel libre : un écosystème des motivations
  • Le web scientifique européen cartographié
  • CPAN-Explorer : la cartographie de l'univers Perl
en savoir plus

Actu forum

  • libellés
  • gephi et navicrawler
  • crawl sémantique ?
  • cartographie de réseau d'influence
  • citizen-boycott.org
en savoir plus

Partenaires


WebAtlas, le projet de recherche dirigé par Franck Ghitalla, qui a vu naître le Navicrawler de Mathieu Jacomy, une petite merveille pour l'exploration du Web.


RTGI SAS, dont l'Observatoire Présidentielle 2007 a fait beaucoup de bruit, avec notamment sa blogopole cartographiant la blogosphère politique, et désormais aux Etats-Unis.


Gephi, le logiciel libre d'exploration et de manipulation des réseaux, permet de représenter et d'interpréter des structures complexes. Il est téléchargeable gratuitement.

Syndication

  • Flux général
  • Flux général des commentaires
  • Flux du Forum

Network Sciences, web mining, data mining, text mining, crawling, scrapping, graph viz, data viz, small worlds, clustering, social networks, social network analysis, link analysis, maps, cartographie, indexation, moteurs de recherche, Firefox, Web 2.0

Flux RSS

Syndiquer le contenu
sitemap
  • forum
  • technologies
  • méthodes
  • liens
  • science