Wikipedia et les liens externes

 

Pointeur de souris en forme de main au-dessus d'un hyperlien Wikipédia.
Bernard Ladenthin, CC0


Des acteurs de la presse française viennent d'annoncer la signature d'une charte de la traçabilité de l'information. La charte prévoit que les médias citent correctement leurs sources et qu'ils insèrent des liens hypertextes dans les articles. Aucun roman d'anticipation n'avait sans doute imaginé qu'en 2020 l'humanité serait capable de telles prouesses ! Au-delà de cette pic amicale, je suis content que les médias traditionnels adoptent les bonnes pratiques des pure players et de Wikipédia. La gestion des sources et des hyperliens est complexe et chronophage. Bon courage aux nouveaux titres de presse qui se lancent dans l'aventure.

S'ils leur restent du temps, ce serait bien également de correctement créditer les photos qu'ils prennent sur Wikipédia ou Wikimédia Commons. Bien souvent les médias ne citent pas la licence libre utilisée par le créateur ou utilisent les fameux Droits réservés (DR). Outre le fait que c'est illégal, il est de plus en plus important de pouvoir retracer l'origine des images afin de s'assurer de leurs exactitudes et que les légendes correspondent bien aux photos.

Hasard du calendrier, j'étais depuis plusieurs jours en train de me dépêtrer à faire des requêtes SQL pour mieux connaître les liens externes qui se trouvent sur la Wikipédia francophone.

Liens externes

Les hyperliens qui mènent vers d'autres sites web sont très fréquents sur Wikipédia. Une série de recommandations leurs sont consacrées sur la page Wikipédia:Liens externes. Dans les articles de Wikipédia, on peut en trouver à deux endroits différents. Tout d'abord dans la liste des sources permettant de vérifier ce qui est écrit dans l'article. Ce type de lien externe, aussi appelé source ou référence, est généralement regroupé dans une section intitulée Références ou bien Notes et références. La nature des références est fonction de l'article. Un article d'actualité va utiliser la presse alors qu'un article d'histoire utilisera des monographies.

Un deuxième endroit possible pour les liens externes est une section tout simplement appelée Liens externes en toute fin d’article. Le plus souvent cette section contient le site officiel ou de nombreux liens vers d'autres bases de données. Les wikimédiens consacrent beaucoup de temps pour relier Wikipédia ou Wikidata à des notices d'autorité (base Léonore de la Légion d’honneur, base Mérimée des monuments historiques, IMDb, etc.) ainsi qu'à d'autres sites de référence (Who's Who, Universalis, Maitron, etc.).
 
La Joconde

Requêtes SQL

L'outil Quarry permet d'interroger en live une copie de la base de données de Wikipédia à l'aide du langage SQL. N'y connaissant rien, je me suis contenté de réutiliser une requête faite par un collègue étranger. Les résultats ne sont pas directement utilisables car on y trouve quelques sites internes à Wikimédia et des sites identiques sous plusieurs urls (ex. books.google.com et books.google.fr ou wordlcat.org et www.worldcat.org). Il faut donc penser à agréger certains résultats.

Top 20

Voici les 1 173 sites avec plus de 1000 occurrences dans l'espace principal (= articles) de la Wikipédia francophone et le top 20 :
  1. Insee 624 477
  2. BnF  602 667
  3. Google Livres 405 050
  4. Virtual International Authority File (VIAF) 360 287
  5. Worldcat 253 081
  6. International Standard Name Identifier (ISNI) 213 875
  7. Internet Archive 210 916
  8. culture.gouv.fr 209 686
  9. Bibliothèque du Congrès 191 409
  10. Digital object identifier (DOI) 166 590
  11. Deutsche National Bibliothek (DNB) 161 763
  12. Identifiants et Référentiels pour l'Enseignement supérieur et la Recherche (IdRef) 146 490
  13. Internet Movie Database (IMDb) 128 210
  14. National Center for Biotechnology Information (NCBI) 124 115
  15. Bibliothèque royale du Pays-Bas 110 484
  16. Le Monde 85 010
  17. NASA 80 586
  18. Catalogue of Life 75 291
  19. Inventaire de l'Agence flamande du patrimoine 71 256
  20. Légifrance 75 278
  21. YouTube 70 973

Top 20 français

  1. Insee 624 477
  2. BnF 602 667
  3. culture.gouv.fr 209 686 
  4. IdRef (Identifiants et Référentiels pour l'Enseignement supérieur et la Recherche) 146 490
  5. Le Monde 85 010
  6. Légifrance 75 278
  7. Allociné 67 576 
  8. archive.wikiwix.com 56919
  9. Persée 56 107 
  10. Cassini 51 889 
  11. Le Figaro 46 372 
  12. L'Equipe 39 983 
  13. Le Parisien 30 547 
  14. Ministère de l'intérieur 30 464 
  15. Libération 28 997 
  16. Ouest France 25 578
  17. mondedufoot.fr 25 239 
  18. Cairn 24 096 
  19. Assemblée nationale 22 784
  20. L'Express 20 763 

Médias 

Voici les différents classements pour la presse d'information générale (sans le sport en gros).

Presse française

  1. Le Monde 85 010
  2. Le Figaro 46 372 
  3. Le Parisien 30 547
  4. Libération 34 461
  5. Ouest France 25 578
  6. L'Express 20 763 
  7. Le Point 19 082 
  8. Les Échos 15 409 
  9. Obs 12 733
  10. RFI 11 915 
  11. 20 Minutes 11 425 
  12. La Croix 9 637 
  13. France TV info 8 613 
  14. Sud Ouest 8 215 
  15. Télégramme  7 818
  16. Jeune Afrique 7 597
  17. L'Humanité 7 373 
  18. Télérama 6 900
  19. France Culture 6 633 
  20. Le Monde diplomatique 5 567 

Presse francophone

  1. Radio Canada 11 039
  2. La Presse 10 441
  3. Le Soir 8 942
  4. RTBF 8 384
  5. Le Temps 7 520
  6. Le Devoir  6 223
  7. RTS 5 436
  8. DH Les Sports+ 3 803
  9. Tribune de Genève 2 914
  10. L'Avenir 2 265

Presse étrangère

  1. BBC 41 395
  2. New-York Times 31 282
  3. Guardian 20 579
  4. Telegraph 7 972
  5. Washington Post 7 020
  6. Los Angeles Times 6 579
  7. Independent 5 991
  8. Daily mail 4 210
  9. Forbes 3 658
  10. CBC 3 528

Sites gouvernementaux

  1. www.culture.gouv.fr et www2.culture.gouv.fr 144 174
  2. www.legifrance.gouv.fr et legifrance.gouv.fr 75 278
  3. www.pop.culture.gouv.fr 61 290
  4. www.interieur.gouv.fr 30 464
  5. www.assemblee-nationale.fr 22 784
  6. elections.interieur.gouv.fr 16 018
  7. www.geoportail.gouv.fr 13 293
  8. www.senat.fr 10 353
  9. www.banatic.interieur.gouv.fr 7 824
  10. www.georisques.gouv.fr 5 432
  11. www.data.gouv.fr et entreprise.data.gouv.fr 7 436
  12. cites.application.developpement-durable.gouv.fr 4 876
  13. www.siv.archives-nationales.culture.gouv.fr 4 222
  14. www.education.gouv.fr 3 785
  15. www.defense.gouv.fr 3 681
  16. www.inao.gouv.fr 3 334
  17. www.diplomatie.gouv.fr 3 308
  18. www.loiret.gouv.fr 2 702
  19. www.collectivites-locales.gouv.fr 2 377
  20. www.memoiredeshommes.sga.defense.gouv.fr 2 338
  21. www.developpement-durable.gouv.fr 2 172
  22. alize2.finances.gouv.fr 1 693
  23. www.aisne.gouv.fr 1 681
  24. www.culturecommunication.gouv.fr 1 628
  25. www.gouvernement.fr 1 513
  26. www.annuaires.justice.gouv.fr 1 486
  27. agreste.agriculture.gouv.fr 1 259
  28. carmen.developpement-durable.gouv.fr 1 149
  29. www.statistiques.developpement-durable.gouv.fr 1 104

Sites Wikimedia

De nombreux liens renvoient vers des sites Wikimedia. Il y a tout d'abord les liens vers les autres versions linguistiques de Wikipedia. Il ne s'agit pas des interwikis permettant de passer d'une langue à l'autre mais de liens générés par des modèles tels que {{Traduction/Référence}} ou {{Lien}}.

Il y a également quasiment 200 000 liens vers la ferme de serveurs qui héberge des outils (tools.wmflabs.org) tels que GeoHack, KMLexport, Chemistral Abstracts Service number links, etc.

 Et Wikidata est massivement utilisé avec plus de 3 millions de liens.

Robots

CodexBot


Je terminerai en présentant les travaux des robots. Il y a tout d'abord les outils d'archivage. Les pages internet peuvent avoir une durée de vie assez courte. Afin de permettre l'accès à ces liens morts, la Wikipédia Francophone utilise deux services :

  • La Wayback Machine d'Internet Archive : 210 916 liens
  • Et un service similaire (Wikiwix) proposé par la société française Linterweb : archive.wikiwix.com 56 919

CodexBot sert à mettre en forme les hyperliens laissés par les rédacteurs bénévoles. La Wikipédia francophone utilise principalement trois modèles afin d'harmoniser la présentation des sources :

  • Ouvrage : utilisé 1 064 113 de fois sur 305 392 pages distinctes.
  • Article : utilisé 808 734 de fois sur 238 253 pages distinctes.
  • Lien web : utilisé 3 366 315 de fois sur 679 393 pages distinctes.

Ce robot analyse quotidiennement 2500 citations de livres et en améliore 1500. Il traite également 1000 articles de presse, articles académiques et pages web. Enfin, il signale une trentaine de cas nécessitant une vérification humaine.

 

[Mise à jour] Ajout de requêtes SQL listant les liens par projet

Commentaires

Enregistrer un commentaire