Wikipedia
Un projet de base de donnée sémantique basé sur Wikipedia
archive — ven, 12/26/2008 - 00:37
Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...
Cela s'apelle "dbpedia".
Ce projet vise à maintenir une base de données sémantiques basée sur wikipedia et d'autres bases sémantiques
Les "pages" sont disponibles sous différents formats (rdf etc) :
http://dbpedia.org/page/France
http://dbpedia.org/data/Air_France?output=xml
On peut également effectuer des requêtes en SPARQL, le langage de requête pour le RDF, qui ressemble d'ailleur au SQL, et récolter un graphe au format XML, ou le visualiser. Ou récupérer simplement les données sémantiques.
Exemple ici :
http://ccgi.arutherford.plus.com/website/flex/dbPedia/sparqlQueryViewer/
(appuyez sur le bouton execute en haut à gauche)
Une explication sur le contenu des données :
http://wiki.dbpedia.org/Datasets
- Vous devez vous identifier ou créer un compte pour écrire des commentaires
Six Degrees of Wikipedia
archive — ven, 12/26/2008 - 00:26
Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...
http://www.netsoc.tcd.ie/~mu/wiki/
Wikipedia has 2301486 articles with 55550003 links between them (at least in my dataset, those numbers have definitely changed by now). The largest "strongly-connected-component" of wikipedia has 2111480 articles. That is, there are 2111480 articles with the property that from any of them, it is possible to get to any other one. The rest are mostly pages that no-one has linked to or disambiguation pages. For the graph-theory nerds, there is no other disjoint strongly connected component of more than about 3 articles. For everyone else, the remaining 190006 articles are pretty boring, linkwise.
This link database forms a directed graph where the nodes are articles and the edges are links from one article to another. There were 2301486 nodes (articles) and 55550003 edges (links). This made for quite a sparse graph, with each node having an average of about 25 links (out of possible millions). In the complexities below, I just use "n" to denote either number of nodes or number of edges. Since the graph is so sparse, they're mostly interchangeable.
le projet visait juste à calculer les degrés...
pas de viz, et on ne peut pas télécharger le graphe malheureusement ! :(
Web-mining de wikipedia simplifié ?
archive — jeu, 12/25/2008 - 23:11
Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...
Tout à l'heure en cherchant comment monter un compte SSH distant sur ma machine (astuce que je recommande d'ailleurs fortement, vous avez juste besoin d'installer sshfd), je suis tombé sur un module de filesystem virtuel nommé... Wikipedia FS
http://wikipediafs.sourceforge.net/index_fr.htm
Ce module vous permet de monter wikipedia comme un simple répertoire, éditer et contribuer à l'encyclopédie avec votre éditeur texte favori, ouvrir les pages en quelques lignes de code avec des scripts perl, java, C ou autres, sans se soucier du protocole HTTP, authentification, proxy etc.. qui sont gérés par wikipediaFS.
Une utilisation avancée de WikipediaFS inclut notamment le développement facilité de scripts et de bots. En effet, les programmes ont simplement à se soucier des fichiers : c'est WikipediaFS qui prend en charge la couche HTTP. Par exemple, il serait possible d'utiliser WikipediaFS pour réaliser une migration de contenu massive entre un site existant et un Mediawiki.
WikipediaFS est un logiciel libre, publié sous licence GNU General Public License et fourni sans garantie de toute sorte.
ça ne fonctionne que sous linux et macosx cependant




Flux général