Analyse de fr.wikiquote.org

July 1, 2014

Cet article évoque l'analyse technique du contenu des articles de la version française de Wikiquote. Elle donne un éclairage instructif sur la qualité du contenu de cette base en terme structurel.

Wikiquote ?

Si vous l'ignoriez encore, wikiquote est un des projets Wikimedia qui contient entre autres la très connue Wikipedia, l'encyclopédie libre et à laquelle tout le monde peut participer. Wikiquote, lui, vise à rassembler des citations, et à les organiser par auteur et par thème.

Dans le cadre de mes projets personnels, j'avais besoin de voir s'il était possible de parser les données Wikiquote pour en extraire les citations de manière aussi structurée que possible.

Et alors ?

Après quelques expériences, le format de fr.wikiquote.org est relativement structuré, les citations sont dans des modèles } et les références dans des ``. J'ai finalement fini par écrire un parser simple du format du markup utilisé dans fr.wikiquote.org, il est disponible ici, pour les curieux et il vous faudra un dump de wikiquote, ou le lancer sur l'échantillon qui est dans le projet.

Des stats !

Alors voilà les statistiques livrées par la machine. Pour chaque balise, j'ai listé les attributs les plus fréquement utilisés (avec leur % d'adoption). On voit ici que la variabilité est assez considérable, et qu'en particulier, les citations ne sont probablement pas toutes sourcées (vu l'écart entre les Réf et les Citation).

Néanmoins, il devrait être possible d'extraire un sacré paquet de citations de manière automatisée et d'avoir quelque chose d'exploitable. Prochaine étape, faire un mini site qui permet de naviguer dans ces citations de manière structurée.

citation (42883 occ.)

Je n'ai mis que le début des stats (tout les modèles présents plus de 1000 fois), parce qu'il y en a un petit paquet et que c'est pas forcément très trépidant. N'hésitez pas à me faire du retour sur ces données si vous avez des choses à dire :)

(relecture par Alexis)

Contact? Question?

Comments

Commentaires
I am Pierre Baillet, senior software engineer. I write here mostly on computers and code, games, life and server stuff.