Le trafic anormal de Wikipédia

Serveurs Wikimedia en 2012 (Helpameout, CC-BY-SA-3.0)
L'analyse du trafic d'un site Internet est délicat, notamment celui de Wikipédia. En ce moment, l'actualité (pandémie, décès, fêtes et commémorations), mais aussi le programme télé qui porte généralement sur l'article du film, du livre dont est inspiré le film ou les acteurs. Mais durant le confinement l'émission Qui veut gagner des millions a également mis en avant des articles qui ne figurent rarement dans le top 10 des articles les plus consultés (allégorie de la Justice, pharaons, roi de pique, pissenlit, limace...). Enfin nos amis les robots peuvent facilement venir perturber les résultats.

Jusqu'à présent les outils à notre disposition distinguaient deux types d'agent utilisateur (user agent) :
  • utilisateur (users): les êtres humains qui consultent Wikipédia sur un ordinateur ou un téléphone, ainsi que les rédacteurs de l'encyclopédie,
  • robot d'indexation (crawlers) : les robots des moteurs de recherche qui indexent le web (Google, Bing, Qwant, BNF...).
Cette distinction n'était pas parfaite. On voyait bien que le trafic de certains articles ou de l'ensemble d'un wiki certains jours était anormalement élevé. C'est particulièrement visible dans les classements mensuels ou annuels. Des robots devaient sans doute y être pour quelques choses. Jusqu'à présent, il fallait donc retirer les articles dont la part du trafic provenant d'un téléphone était très faible.

Trafic automatisé

L'équipe Analytics du département Technologie de la Wikimedia Foundation vient d'ajouter un troisième agent utilisateur (Automated) pour prendre en compte ce trafic automatisé.

Nouvelle option dans PageViews

Cela réduit en tout le trafic provenant des humains de 5,6% sur un mois. Pour mars 2020, le trafic est de 72% pour les êtres humains, 23% pour les robots d'indexation et 6% pour le trafic automatisé. L'impact de ce changement méthodologique varie fortement d'un site à un autre. Pour la Wikipédia anglophone l'impact est situé entre 8 et 10%, alors qu'il est inférieur à 1% pour la Wikipédia en japonais.

Impact sur le nombre de vues Utilisateur de la page d'accueil de la Wikipédia anglophone
Cela permet d'en savoir un peu plus sur ce phénomène encore peu analysé sur Wikipédia. L'équipe évoque deux cas de figures :


  • des robots vandales qui tentent de mettre en tête des articles les plus consultés des articles traitant de  la sexualité, la pornographie ou la politique,


  • des robots spammeurs, plus fréquents, qui font la même chose mais de manière ponctuelle et de moindre ampleur pour un article ou une thématique.
Un des cas documenté sur la Wikipédia francophone est l'article comptabilité. Il n'y avait aucune raison que ce sujet devienne tendance du jour au lendemain un 6 juin 2018.

Impact sur le nombre de vues Utilisateur de l'article Comptabilité sur la Wikipédia francophone


Autres cas de la Wikipédia francophone : Coucou, Alfred Werner Maurer

Pour en savoir plus

Commentaires