2006-09-03

Calcul humain de masse et Etiquetage ludique 2.0

Au départ, j'étais un peu sceptique sur le concept du jeu du Google Images Labeler et surtout de la valeur des résultats.

L'idée ici est de résoudre un des grands problèmes informatique, la reconnaissance et l'étiquetage sémantique de photographies et d'images. Les ordinateurs sont impuissant à l'heure actuelle a résoudre ce problème. Comme il y a des centaines de millions d'images et de photographies sur le Web sans valeur informationnelle précise, le problème est titanesque. Et l'informatique actuellle est impuissante à résoudre ce problème. La preuve ultime de ce constat est l'utilisation de CAPTCHA sur les formulaire, pour s'assurer que c'est bien un humain qui remplit le formulaire en question et non pas un programme informatique créer pour flouer le formulaire ou sondage en ligne. Assez paradoxal tout de même de créer un programme informatique que seul l'humain pourra résoudre !

Solution : L'ESP Game qui inspira le Google Image Labeler

Le jeu consiste a mettre en temps réel deux joueurs au hasard ensemble (ceci pour empêcher le SPAM) pour qu'ils puissent étiqueter (tag) des photos provenant de Google Image. Comme le jeu est chronométré, la pertinance des mots-clés doit en patir me dis-je.

Comment bien définir une photo de Martha Stewart par exemple ? Le premier mot venant à l'esprit est "femme" évidemment, mais ceci n'est pas très sémantiquement précis. "Femme d'affaires" ou "Martha Stewart" serait déja mieux. "Criminelle" pourrait aussi lui convenir. Alors comment gérer ces multiples possibilités ?



Tout simplement en re-soumettant une même image plusieurs fois à différents joueurs en leurs mentionnant que certaines étiquettes sont déja utilisées comme le "Off Limits" dans le jeu présenté ci-haut. Ce concept assez génial d'utiliser le procrastinateur internet comme main d'oeuvre gratuite vient du chercheur américain Luis von Ahn du département de science informatique de l'université Carnegie Mellon. Voir cette excellente présentation du bonhommme en question.

Possible d'étiqueter la grande majorité des images du Web ?

Certains en doute, mais moins de 100 heures après le lancement du jeu, les 5 joueurs les plus "intoxiqués" par ce jeux ont déja étiquetés, - à eux cinq seulement-, près de 50,000 images !

Génial !!!

Technorati Tags: , , , , ,

3 commentaires :

cow a dit...

Une image a plusieurs valeurs sémantiques et pas seulement dans une seule langue, la réduire à la some statistique des réponses données va modifier les critères de façon significative.

Oui c'est bien en première approximation mais cela démontre une fois de plus le dommage fait par le nivellement (applanissement) sémantique du tag qui lui est au moins inconfortable, si ce n'est dangereux.

Ex: (photo d'homme barbu du moyen-orient) = terrorist

Eric Baillargeon a dit...

Je suis d'accord Karl, mais c'est tout de même une première étape.

Comme je l'ai écrit en commentaire sur le carnet de Batelle, une deuxième étape serait le traitement algorithmique de ces étiquettes pour de meilleurs résultats.

kim a dit...

Au delà des images, les valeurs sémantiques de certains sujets font preuve de débat ("Dieu" dans Wikipedia). Rien de nouveau.

De toutes façons, le "tagging" s'effectue déjà dans Flickr, et ce, avec le plus grand succès.

Alors rien de nouveau de la part de Google, si ce n'est que l'idée d'en faire un jeu.

On peut également pousser l'idée. Je crois qu'il serait intelligent de laisser les auteurs de sites ajouter un nouvel attribut aux images, en plus de "title" ou "alt".

Comme par exemple, pour la photo d'Éric:

tag="éric baillargeon, photo (au contraire d'un dessin), portrait, mauvaise resolution, lunettes, pinch".