Chef Projet Web

Référencer moins pour Mieux Référencer !

Lors d'un premier travail de référencement, il est souvent utile de se concentrer sur les parties les plus importantes de votre site, quitte à exclure du référencement une bonne partie de votre site.

Quelle parties référencer, quelles parties exclure ?

Pour faire ce choix, les questions à vous poser sont : Quelles sont les pages qui déclenchent l'achat (site d'e-commerce) ?, Quelles sont les informations que viennent chercher mes clients ? Quelles sont les pages permanentes, quelles sont les pages temporaires (dont la durée de vie est inférieures à 8 semaines) ?

Ainsi pour un site d'e-commerce, vous privilégierez les pages présentant vos produits et les résultats de recherche. Vous exclurez dans un premier temps les pages événements (temporaire) et les pages dont vous n'avez pas pris le temps d'optimiser pour le référencement. Vous exclurez définitivement les pages suivantes : les pages d'aide, les pages de votre processus de commandes, les pages d'administration du site. En effet, si les robots de référencement (spider) parcourent ces pages, ils ne parcourront peut-être pas des pages plus importantes de votre site.

Comment exclure des pages ; comment déclarer que ces pages ne doivent pas être référencer ?

Nous allons utiliser trois techniques conjointement : balise meta, robots.txt, balise >a<. Je vous recommande l'utilisation de ces trois techniques à la fois afin d'être exhaustif avec l'ensemble des spiders.

Utilisation de la balise meta no-cache.

Historiquement, cette balise indique au navigateur et au proxy de ne pas mettre en cache la page (i.e. de ne pas l'enregistrer temporairement). Le robot (spider) ne la sauvegardera pas et, ne la présentera pas en résultat de recherche. Utilisation du robots.txt. Le robots.txt a pour objet de dire aux robots ce qu'ils ne doivent pas aller voir. On définit ici les répertoires et les pages à exclure. On indique aussi les robots concernés ; je vous conseille d'avoir d'indiquer le même comportement pour tous les robots. Historiquement, on indiquait les pages d'administration du site ; je vous le déconseille maintenant pour des raisons de sécurité. Cela donne une information essentielle aux hackers.

Attention, le robots.txt n'a pas pour destination de dire ce que le robot (spider) doit aller voir. Il faut utiliser un sitemap pour cela. On peut néanmoins déclarer l'adresse du sitemap dans un robots.txt

Utilisation de la balise <a> et de l'attribut rel:"no-follow".

OK, cet attribut n'est pas conforme W3c ... Il est tout de même fort utile. Il permet d'indiquer aux robots (spiders) de ne pas suivre un lien. Ainsi, le robot (spider) se concentrera sur le contenu à référencer et ne perdra pas de temps à suivre des liens qui mènent à des pages à ne pas référencer (où vous aurez placer la balise <meta pragma no-cache />.

Vous me direz "Mais rel:'no-follow'" et robots.txt, c'est la même chose !" Je répondrais oui, mais dans la mesure où le comportement des robots (spiders) est obscure autant mettre toutes les chances de son coté !

Comment pousser le référencement de la partie à référencer ?

Utililiser le Sitemap ! Le sitemap est un outil récent (2005, je crois). Les robots (spiders) des moteurs de recherche suivant l'utilise : Google, MSN, Yahoo. Dans le sitemap, vous indiquez quelles pages le robot (spider) doit aller voir. En théorie, vous devez indiquez toutes les pages à aller consulter. Si ce nombre est supérieur à 10 000, vous devez créer un autre sitemap. De plus, vous indiquez la date de la dernière mise à jour de la page, la fréquence de visite et une priorité entre les pages. Cet outil est très intéressant, vous controlez les pages référencables. Néanmoins, il n'y a que trois moteurs qui l'utilisent et on ne sait pas ce que font les robots (spiders) de ces informations.


dernière mise à jour le 03 aout 2008.