Afficher sur Wikipédia des centaines de liens vers un site web

Wikipédia est un site web collaboratif, mais dès que l'on souhaite faire une modification en masse, il faut demander l'autorisation. Il en est ainsi pour afficher de nombreux liens vers un site internet. Le pied de page des articles proposés sur la Wikipédia francophone est particulièrement riche en liens externes. Il est géré par le projet Bases qui permet d'afficher automatiquement des informations stockées dans Wikidata. Le modèle économique de l'encyclopédie ne nécessite pas de conserver l'internaute sur la plateforme, du coup, il n'est pas rare de trouver des articles Wikipédia comportant des dizaines ou des centaines de liens vers d'autres sites web. Cela contribue à la découvrabilité de ressources de qualité. Exemple :

Concrètement, il suffit d'ajouter cinq lettres (le modèle Liens) dans l'article consacré à Esther Duflo, pour que l'article affiche automatiquement une cinquantaine de liens externes susceptibles d'intéresser l'internaute. Voyons comment cela fonctionne à l'aide d'un exemple :

Archelec, les archives électorales de Sciences Po

Propriété Wikidata

Si ce n'est pas déjà fait, il faut proposer une nouvelle propriété. Quelques semaines plus tard, il est possible d'ajouter des informations dans Wikidata. Cela consiste à ajouter aux éléments Wikidata des députés, la propriété P12865 "identifiant d'une personne sur Archelec" et l'identifiant d'Archelec. Exemple : propriété, débat de proposition.

Aligner Wikipédia et Archelec

Plusieurs méthodes ou outils permettent de faire ce travail d'alignement entre Wikipédia et Archelec. J'ai utilisé l'outil Mix'n'match développé par Magnus Manske, biochimiste au Wellcome Sanger Institute et développeur bénévole de nombreux outils pour Wikimédia. Il faut dans un premier temps importer les données dans Mix'n'Match. Étape réalisée par le wikimédien Kirilloparma : https://mix-n-match.toolforge.org/#/catalog/6364.

Il y a plusieurs façons d'utiliser Mix'n'Match. Archelec comporte les professions de foi des candidats aux législatives. Or Wikipédia ne consacre d'articles qu'aux candidats élus aux élections législatives, soit 2200 identifiants sur les 33000 dans Archelec. J'ai donc utilisé le mode "Ne rechercher que dans ce catalogue" accessible via le menu Action. Il faut saisir le nom des députés dans le moteur de recherche. Les noms sont récupérés des pages de résultats des élections, par exemple : https://fr.wikipedia.org/wiki/Élections législatives de 1978 en Ille-et-Vilaine.

Tout en bas de la page, il y a une boîte de navigation permettant de naviguer entre les départements et les petites flèches permettent de changer d'année.

La recherche peut donner les cas suivants :

  • Wikipédia et Archelec sont déjà alignés, il n'y a rien à faire.
  • L'alignement suggéré est exact, il faut cliquer sur confirmer pour publier l'information sur Wikidata.
  • L'alignement suggéré est erroné, il faut cliquer sur supprimer puis saisir l'identifiant Wikidata. Wikidata se mettra à jour.
  • Aucun élément d'associé ou de préassocié, il faut saisir l'identifiant Wikidata. Wikidata se mettra à jour.

Module Bases

La prochaine étape consiste à demander l'autorisation d'afficher automatiquement ces identifiants Archelec en pied de page des articles de la Wikipédia francophone. Il faut pour cela déposer la demande sur le projet Bases et attendre plusieurs semaines. Si la demande est approuvée, il faut que quelqu'un configure le module Lua correspondant. Dans le cas d'Archelec, il s'agit de Module:Bases/vie publique. Puis la mise à jour des articles se fait automatiquement mais prend un peu de temps (24h à 48h pour les deux milliers de liens d'Archelec).

Statistiques 

Vérifications

Des comptes rendus de violations de contraintes sont générés. Cela permet de détecter des erreurs d'alignement, par exemple est-ce que tous les éléments sur lesquels figurent un identifiant Archelec sont des êtres humains ?
La dernière étape consiste à vérifier que tous les articles Wikipédia contiennent le modèle affichant automatiquement Archelec. Pour cela, il faut utiliser PetScan, un outil également codé par Magnus Manske :
  • Indiquer dans le premier onglet Page utilisant P12865 à la ligne Categories
  • Indiquer dans le quatrième onglet la requête SPARQL suivante qui permet d'obtenir la liste des éléments Wikidata qui comportent la propriété P12865.
SELECT ?item
WHERE {?item wdt:P12865 ?archelec.}
  •  Et tout en bas de la page, dans la ligne Combination, il faut indiquer sparql NOT categories.

Voici la configuration complète (https://petscan.wmcloud.org/?psid=35376995) qui permet d'obtenir la liste des articles Wikipédia qui n'affichent pas Archelec parce que le modèle Liens est absent. Il faut généralement remplacer les lignes :

* {{Autorité}}
* {{Bases}}
...

par :

{{Liens}} # ne mettez pas d'astérisque


Voilà comment ajouter des centaines ou des milliers de liens vers une ressource externe de qualité : 


 

Commentaires