Lors d'un premier travail de référencement, il est souvent utile de se concentrer sur les parties les plus importantes de votre site, quitte à exclure du référencement une bonne partie de votre site.
Pour faire ce choix, les questions à vous poser sont : Quelles sont les pages qui déclenchent l'achat (site d'e-commerce) ?, Quelles sont les informations que viennent chercher mes clients ? Quelles sont les pages permanentes, quelles sont les pages temporaires (dont la durée de vie est inférieures à 8 semaines) ?
Ainsi pour un site d'e-commerce, vous privilégierez les pages présentant vos produits et les résultats de recherche. Vous exclurez dans un premier temps les pages événements (temporaire) et les pages dont vous n'avez pas pris le temps d'optimiser pour le référencement. Vous exclurez définitivement les pages suivantes : les pages d'aide, les pages de votre processus de commandes, les pages d'administration du site. En effet, si les robots de référencement (spider) parcourent ces pages, ils ne parcourront peut-être pas des pages plus importantes de votre site.
Nous allons utiliser trois techniques conjointement : balise meta, robots.txt, balise >a<. Je vous recommande l'utilisation de ces trois techniques à la fois afin d'être exhaustif avec l'ensemble des spiders.
Vous me direz "Mais rel:'no-follow'" et robots.txt, c'est la même chose !" Je répondrais oui, mais dans la mesure où le comportement des robots (spiders) est obscure autant mettre toutes les chances de son coté !
Utililiser le Sitemap ! Le sitemap est un outil récent (2005, je crois). Les robots (spiders) des moteurs de recherche suivant l'utilise : Google, MSN, Yahoo. Dans le sitemap, vous indiquez quelles pages le robot (spider) doit aller voir. En théorie, vous devez indiquez toutes les pages à aller consulter. Si ce nombre est supérieur à 10 000, vous devez créer un autre sitemap. De plus, vous indiquez la date de la dernière mise à jour de la page, la fréquence de visite et une priorité entre les pages. Cet outil est très intéressant, vous controlez les pages référencables. Néanmoins, il n'y a que trois moteurs qui l'utilisent et on ne sait pas ce que font les robots (spiders) de ces informations.