Chef Projet Web

Les Spiders

Objectif :

Le spider, ou robots d'indexation, fonctionne d'une manière similaire aux "aspirateurs de sites". De manière opposé, on peut dire que les "aspirateurs de sites" ont le même fonctionnement qu'un spider. Ainsi, afin de simuler un robot d'indexation passant sur votre site, vous pouvez utiliser un aspirateur de site.

Contexte d'utilisation :

L'utilisation d'un aspirateur de site validera les points suivants :

  1. Est-ce que mon site est crawlable ?
  2. Est-ce que la technologie de mon site ne génère pas trop de "Duplicate Content"?
  3. Est-ce qu'il existe des liens morts ?

En effet, la crawlabilité de votre site est un point essentiel. Les liens de navigation doivent être accessible à un robot, spider de moteur de recherche. Ainsi, si l'aspirateur ne voit pas de liens, alors considérez qu'un spider ne les verra pas non plus.

Le Duplicate-content (technologie breveté par Google) fait partie des facteurs à la bonne indéxation de votre site. Idéalement, Il ne faut pas que votre site ait du contenu dupliqué. Ainsi, si au passage du robot, vous vous apercevez que pour une page, il en génère plusieurs... alors considérez qu'un spider verra du contenu dupliqué (duplicate content). Le moteur de recherche vous blacklistera en considèrant que vous cherchez à le dupper. Ce cas vous paraît étonnant : l'utilisation d'URL-Rewriting peut entrainer ce cas de figure.

Enfin, s'il manque des images, s'il manque des pages, la consultation des loggs du moteur de recherche vous les détectera.

Les Outils :

Les outil pour simuler des spiders que j'utilise sont

dernière mise à jour le 31 mai 2007.