25 nov. 2014

Voir votre site comme un moteur de recherche

Depuis une dizaine d'année, j'ai évalué plusieurs applications qui analyse les sites Web. Malheureusement la grande majorité étaient bien du coté technique, mais comportaient de sérieuses lacune du coté sémantique et surtout en langue française.

Les moteurs de recherche ne tiennent pas compte des "stop words" du point de vue sémantique. Ces mots sont habituellement des articles ou de courts mots de 2-3 lettres.

La plupart des outils avaient beaucoup de difficultés à ciblé précisement les expressions clés "en vedette" et de bien analyser les contenus des pages Web.

Découvert depuis quelques années cet outil m'a définitivement séduit. Voici le coté technique :



Et le meilleur est son coté sémantique de l'analyse des pages :

Vous aurez aussi une troisième section qui vous montre sous l'effet "cloud" tout le contenu de vos pages. Un des meilleurs outils d'analyse !

8 nov. 2014

Le site Insecam pourrait même compromettre la sécurité nationale

Suite à quelques articles publiés hier un peu partout sur la planète, je trouve bizarre que peu ou pas de journalistes de chez nous nous aient mentionner ce fait. Seule CBC au Manitoba a publié un article.

Pourtant moi, en 5 minutes chrono, j'ai trouvé cinq caméras de sécurité (une vrai joke) qui filme en temps réel une des plus importante infrastucture du Québec et qui pourrait ainsi permettre de déjoué la sécurité ou facilité un attentat. Tout ça pour des mots passe laissé par défaut par une des plus grande société d'état.

On parle d'État Islamique à tour de bras aux nouvelles mais ici on laisse des incompétents gérer une des infrastructure névralgique du Québec !!!

7 nov. 2014

Les débuts du Web sémantique et la recherche navigationnelle vs informationnelle

En 2003, une étude intitulé la recherche sémantique, a été publié par Ramanathan Guha d'IBM, Rob McCool de Knowledge Systems Lab de l'Université de Stanford, et Eric Miller du W3C et le MIT. L'objectif déclaré dans ce document est de prendre les technologies telles que les services Web et le Web sémantique et les utiliser pour améliorer la recherche web traditionnelle.

Ce document a été produit avant que Ramanathan Guha rejoigne Google, qu'il créer Google Custom Search Engines, Trustrank et introduise Schema.

Cette aperçu du Web sémantique propose des réflexions à partir d'au moins une personne, Ramanathan Guha, qui a joué un rôle majeur dans la façon dont le Web sémantique fait de plus en plus partie de la recherche chez Google.

Il y a une section dans cette étude sur la recherche sémantique qui présente quatre concepts importants sur la recherche sémantique qui sont encore là aujourd'hui, et valent la peine d'y réfléchir si vous faîte du SEO.

Recherche navigationnelle vs Recherche informationnelle

Avant que l'étude en arrive à ces concepts, elle introduit deux types de recherches:

Recherche navigationnelle: Dans ces recherches , un chercheur soumet une phrase ou une combinaison de mots qui devraient se trouver dans des documents sur le Web. Une simple et raisonnable interprétation de ces mots n'est pas demandé en termes de dénoter un concept. Le chercheur utilise un moteur de recherche comme un outil de navigation pour essayer de trouver notamment le document prévu. Tel est l'objectif de la plupart des personnes faisant mal leur SEO, et les auteurs de cette étude nous disent,
"Nous ne sommes pas intéressés par cette classe de recherches."

Recherche informationnelle: Un chercheur fournit le moteur de recherche avec une phrase destinée à désigner un objet sur lequel l'utilisateur tente de rassembler/recueillir de l'information sur la recherche. Le chercheur n'a pas un document particulier à l'esprit, et n'a même pas souvent deviner si il en existence un. Le chercheur espère que certains documents qui fournissent ces réponses peuvent exister et lui donneront les informations qu'il ou elle, essaie de trouver. Ce sont cette classe de recherche, que les auteurs de l'étude sont intéressés quand ils utilisent l'expression «recherche sémantique».

Google semble vouloir évoluer pour devenir un moteur de recherche qui peut être utile pour aider les gens avec les deux types des requêtes tout en amélorant petit à petit la recherche informationnelle avec des Knowledge Graph" et autres modifications aux algorithmes.

Voici d'autres éléments que l'étude dit à ce sujet peut nous aider à distinguer entre le Web sémantique et le Web HTML.

Documents vs objets du monde réel: - Quand nous pensons au Web HTML, nous pensons au www rempli de pages web, avec des photos, des vidéos, et d'autres documents que le robot d'indexation tels que Googlebot peut forer, et utiliser des choses telles que les liens entre eux, de la pertinence des mots qui apparaissent sur eux ou avec eux ou pointant vers eux (dans le texte d'ancre) pour le classement dans les résultats de recherche, et pour nous aider à les trouver.

Contrairement au Web HTML, le Web sémantique n'est pas un Web de documents, mais plutôt un "réseau de relations entre les ressources désignant des objets du monde réel, à savoir, des objets tels que des personnes, des lieux et des événements." Lorsque quelque chose arrive à l'une de ces entités du monde réel, les informations à leur sujet sur le Web sémantique devraient changer.

 Humain vs Assimilation automatique de l'information: - Le point important sur le Web sémantique est qu'il contient de l'information riche et assimilable par les ordinateurs sur les ressources trouvées. Alors que la plupart du HTML sur une page Web indique aux visiteurs comment la page doit être affiché dans un navigateur, la plupart des données sur cette page sont presque toutes compréhensible par les ordinateurs.

Relation entre le HTML et le Web sémantique: - L'étude nous dit que le Web sémantique est une extension du Web actuel, et qu '«il est un riche ensemble de liens à partir des nœuds du Web sémantique pour les documents HTML." Le Web HTML et le Web sémantique sont censés être reliés entre eux et ils aident un autre en reliant les deux.

L'étude a été rédigé avant le balisage comme Schema.org est été créé, et il nous dit que certaines pages peuvent contenir une sorte de balisage sémantique. Comme je l'ai mentionné au début de cet article, l'auteur R. Guha était la personne qui a officiellement présenté le concept de balisage, ou microformat, de Schema.org dans le monde chez Google dans le blog officiel de Google en 2009 -. Six ans après que l'étude a été publié.

Le dernier point soulevé dans le document est important:

Extensibilité distribué: - Différents sites peut fournir des données sur une ressource particulière. Amazon.com peut avoir des données sur les albums de Yo-Yo Ma. Ebay peut contenir des données sur les ventes aux enchères liées à Yo-Yo Ma. Ticketmaster peut prospecter des données sur son calendrier de concerts, AllMusic dispose de données sur l'endroit où il est né (Paris), Aucun de ces sites ne doit obtenir la permission spécifique d'une autorité centralisée pour inclure ces informations à propos de Yo-Yo Ma. Comme l'étude le dit, "ils peuvent tous étendre la connaissance cumulative sur le Web sémantique sur toutes les ressources de manière distribuée."