Wikipedia et les liens externes
![]() |
Bernard Ladenthin, CC0 |
Des acteurs de la presse française viennent d'annoncer la signature d'une charte de la traçabilité de l'information. La charte prévoit que les médias citent correctement leurs sources et qu'ils insèrent des liens hypertextes dans les articles. Aucun roman d'anticipation n'avait sans doute imaginé qu'en 2020 l'humanité serait capable de telles prouesses ! Au-delà de cette pic amicale, je suis content que les médias traditionnels adoptent les bonnes pratiques des pure players et de Wikipédia. La gestion des sources et des hyperliens est complexe et chronophage. Bon courage aux nouveaux titres de presse qui se lancent dans l'aventure.
S'ils leur restent du temps, ce serait bien également de correctement créditer les photos qu'ils prennent sur Wikipédia ou Wikimédia Commons. Bien souvent les médias ne citent pas la licence libre utilisée par le créateur ou utilisent les fameux Droits réservés (DR). Outre le fait que c'est illégal, il est de plus en plus important de pouvoir retracer l'origine des images afin de s'assurer de leurs exactitudes et que les légendes correspondent bien aux photos.
Hasard du calendrier, j'étais depuis plusieurs jours en train de me dépêtrer à faire des requêtes SQL pour mieux connaître les liens externes qui se trouvent sur la Wikipédia francophone.
Liens externes
![]() |
La Joconde |
Requêtes SQL
- Principaux sites
- Principaux sites en .com
- Principaux sites en .fr (France)
- Principaux sites en .re (Ile de la Réunion)
- Principaux sites en .pm (Saint-Pierre et Miquelon) : aucun résultat
- Principaux sites en .tf (Terres australes et antarctiques) : aucun résultat
- Principaux sites en .yt (Mayotte)
- Principaux sites en .wf (Wallis et Futuna)
- Principaux sites en .ca (Canada)
- Principaux sites en 2017
- Principaux sites en 2019
- Principaux sites en 2020
- Principaux sites en 2021
- Principaux sites en 2023
- Principaux sites en 2024 (nouvelle méthode)
- Principaux sites en 2025 (nouvelle méthode)
- Principaux sites sur les biographies
- Principaux sites du projet Cinéma
- Principaux sites du projet Communes de France
- Principaux sites sur du projet Monuments historiques
Top 20
- Insee 624 477
- BnF 602 667
- Google Livres 405 050
- Virtual International Authority File (VIAF) 360 287
- Worldcat 253 081
- International Standard Name Identifier (ISNI) 213 875
- Internet Archive 210 916
- culture.gouv.fr 209 686
- Bibliothèque du Congrès 191 409
- Digital object identifier (DOI) 166 590
- Deutsche National Bibliothek (DNB) 161 763
- Identifiants et Référentiels pour l'Enseignement supérieur et la Recherche (IdRef) 146 490
- Internet Movie Database (IMDb) 128 210
- National Center for Biotechnology Information (NCBI) 124 115
- Bibliothèque royale du Pays-Bas 110 484
- Le Monde 85 010
- NASA 80 586
- Catalogue of Life 75 291
- Inventaire de l'Agence flamande du patrimoine 71 256
- Légifrance 75 278
- YouTube 70 973
Top 20 français
- Insee 624 477
- BnF 602 667
- culture.gouv.fr 209 686
- IdRef (Identifiants et Référentiels pour l'Enseignement supérieur et la Recherche) 146 490
- Le Monde 85 010
- Légifrance 75 278
- Allociné 67 576
- archive.wikiwix.com 56919
- Persée 56 107
- Cassini 51 889
- Le Figaro 46 372
- L'Equipe 39 983
- Le Parisien 30 547
- Ministère de l'intérieur 30 464
- Libération 28 997
- Ouest France 25 578
- mondedufoot.fr 25 239
- Cairn 24 096
- Assemblée nationale 22 784
- L'Express 20 763
Médias
Presse française
- Le Monde 85 010
- Le Figaro 46 372
- Le Parisien 30 547
- Libération 34 461
- Ouest France 25 578
- L'Express 20 763
- Le Point 19 082
- Les Échos 15 409
- Obs 12 733
- RFI 11 915
- 20 Minutes 11 425
- La Croix 9 637
- France TV info 8 613
- Sud Ouest 8 215
- Télégramme 7 818
- Jeune Afrique 7 597
- L'Humanité 7 373
- Télérama 6 900
- France Culture 6 633
- Le Monde diplomatique 5 567
Presse francophone
- Radio Canada 11 039
- La Presse 10 441
- Le Soir 8 942
- RTBF 8 384
- Le Temps 7 520
- Le Devoir 6 223
- RTS 5 436
- DH Les Sports+ 3 803
- Tribune de Genève 2 914
- L'Avenir 2 265
Presse étrangère
- BBC 41 395
- New-York Times 31 282
- Guardian 20 579
- Telegraph 7 972
- Washington Post 7 020
- Los Angeles Times 6 579
- Independent 5 991
- Daily mail 4 210
- Forbes 3 658
- CBC 3 528
Sites gouvernementaux
- www.culture.gouv.fr et www2.culture.gouv.fr 144 174
- www.legifrance.gouv.fr et legifrance.gouv.fr 75 278
- www.pop.culture.gouv.fr 61 290
- www.interieur.gouv.fr 30 464
- www.assemblee-nationale.fr
22 784
- elections.interieur.gouv.fr 16 018
- www.geoportail.gouv.fr 13 293
- www.senat.fr
10 353
- www.banatic.interieur.gouv.fr 7 824
- www.georisques.gouv.fr 5 432
- www.data.gouv.fr et entreprise.data.gouv.fr 7 436
- cites.application.developpement-durable.gouv.fr 4 876
- www.siv.archives-nationales.culture.gouv.fr 4 222
- www.education.gouv.fr 3 785
- www.defense.gouv.fr 3 681
- www.inao.gouv.fr 3 334
- www.diplomatie.gouv.fr 3 308
- www.loiret.gouv.fr 2 702
- www.collectivites-locales.gouv.fr 2 377
- www.memoiredeshommes.sga.defense.gouv.fr 2 338
- www.developpement-durable.gouv.fr 2 172
- alize2.finances.gouv.fr 1 693
- www.aisne.gouv.fr 1 681
- www.culturecommunication.gouv.fr 1 628
- www.gouvernement.fr 1 513
- www.annuaires.justice.gouv.fr 1 486
- agreste.agriculture.gouv.fr 1 259
- carmen.developpement-durable.gouv.fr 1 149
- www.statistiques.developpement-durable.gouv.fr 1 104
Sites Wikimedia
De nombreux liens renvoient vers des sites Wikimedia. Il y a tout d'abord les liens vers les autres versions linguistiques de Wikipedia. Il ne s'agit pas des interwikis permettant de passer d'une langue à l'autre mais de liens générés par des modèles tels que {{Traduction/Référence}} ou {{Lien}}.
Il y a également quasiment 200 000 liens vers la ferme de serveurs qui héberge des outils (tools.wmflabs.org) tels que GeoHack, KMLexport, Chemistral Abstracts Service number links, etc.
Et Wikidata est massivement utilisé avec plus de 3 millions de liens.
Robots
![]() |
CodexBot |
- La Wayback Machine d'Internet Archive : 210 916 liens
- Et un service similaire (Wikiwix) proposé par la société française Linterweb : archive.wikiwix.com 56 919
CodexBot sert à mettre en forme les hyperliens laissés par les rédacteurs bénévoles. La Wikipédia francophone utilise principalement trois modèles afin d'harmoniser la présentation des sources :
- Ouvrage : utilisé 1 064 113 de fois sur 305 392 pages distinctes.
- Article : utilisé 808 734 de fois sur 238 253 pages distinctes.
- Lien web : utilisé 3 366 315 de fois sur 679 393 pages distinctes.
Ce robot analyse quotidiennement 2500 citations de livres et en améliore 1500. Il traite également 1000 articles de presse, articles académiques et pages web. Enfin, il signale une trentaine de cas nécessitant une vérification humaine.
[Mise à jour] Ajout de requêtes SQL listant les liens par projet
21ème : YouTube... à quoi cela peut-il bien servir ?
RépondreSupprimerThank you ffor writing this
RépondreSupprimer