24 mai 2006

Statistiques Web : La perfection n'existe pas

Hits, session d'utilisateur, visiteur, fichier, site, pages vues et visiteurs unique sont tous des termes employés dans les outils de statistiques Web. La plupart de de ces outils ne sont pas adéquats ou mal configuré.

Les chiffres obtenus peuvent souvent varié du simple au quintuple (et plus) selon les solutions employées. Voyons les 2 principales méthodes d'acquisition des statistiques :

Fichiers journaux (log files analyzer)

L'ancêtre des métriques Web. Le fichier journal est un fichier contenant les connexions demandées par les utilisateurs d'un site Web. Logeant sur le seveur Web, ce fichier comprend diverses informations comme; l'adresse IP, la date et l'heure, le document demandé, les code de statut du transfert, le nombre de kilo-octets transféré, etc.
[127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326]
À partir de chacune de ces lignes d'entrée du fichier journal, le logiciel d'analyse nous brosse des rapport un peu plus conviviaux.

Avantages
  • Peu onéreux
  • Souvent installé par défaut chez les hébergeurs
  • Archivage simple
  • Consultation sur la période souhaitée
  • Détection aisé des erreurs de transfert et précision de la bande passante utilisée
  • Rapport configurable à souhait
  • Contournement aisé des murs coupe-feu
Inconvénients
  • Sur des sites à grand trafic, le temps d'analyse des fichier journaux peut-être très long
  • L'analyse des fichiers doit être fait sur un réseau interne contenant aussi un serveur de noms de domaine
  • Assez grande imprécision des statistiques dû aux serveurs cache des FAI
  • Difficilement configurable pour sites à serveurs multiples
  • Mauvaise détection des utilisateurs versus robots indexeurs
  • Rapport statistiques pas toujours conviviaux pour tous
  • Mauvaise interprétation des adresses IP dynamiques

Système d'étiquetage
(tags, web beans)

Les statistiques par étiquettes utilise un petit code javascript qu'on insère sur chaque page du site. Ceci permet de faire la lecture des informations au niveau du client Web et non plus au niveau du serveur du site. La plupart des ces solutions utilise aussi un/des cookie(s) enregistré sur l'ordinateur du client.

Avantages
  • Suivit possible en temps réel
  • Permet d'avoir beaucoup plus d'informations sur le client
  • Consultation aisée selon l'outil utilisé
  • Erreurs de transfert et précision de la bande passante utilisée
  • Contournement aisé des proxy
  • Permet des statistiques sur un réseau de sites grâce aux cookies
  • Filtrage automatique des robots
Inconvénients
  • Impossible d'obtenir des statistiques si le navigateur a son JavaScript désactivé
  • Mesures déficientes si l'anti-virus (ou autre système de sécurité) du client bloque les cookies
  • Les murs coupe-feu (firewalls) peuvent bloquer les étiquettes
  • Les temps de réponses des serveurs distants peuvent altérer les statistiques
  • Pas facilement configurable dans les zones sécurisés
  • Erreurs dans les pages plus difficilement détectables
  • Origine exacte du référants pas toujours disponible
Conclusion

Le système par étiquetage est tout de même mieux que la seule analyse des fichiers journaux. Idéalement le tracking des étiquettes devrait être implanté sur le même serveur où se situe le site Web, ce qui est rarement le cas.

Cybermétrie idéale

La cybermétrie idéale combine les deux solutions ci-haut et même avec deux systèmes d'étiquetage différents et une solution d'analyse des fichiers journaux.

Technorati Tags: , , , , ,

Aucun commentaire :