Le terme «robot d’exploration» est assez souvent utilisé dans les articles de conception Web et d’optimisation des moteurs de recherche, mais de quoi s’agit-il exactement? Et pourquoi est-il essentiel au fonctionnement d’Internet?
Table des matières
Définition de Web Crawler
Alors que les images d’araignées robotiques grimpant sur les sites Web me viennent à l’esprit, une meilleure métaphore pour ce programme serait un bibliothécaire. Tout site Web est composé de fichiers – .php ou .html ou .asp ou autre – et le robot d’exploration est simplement un programme de collecte de données automatisé – conçu pour acquérir uniquement les données dont le créateur du robot d’exploration a besoin.
Comment un robot d’exploration trouve-t-il votre site?
La science de l’optimisation des moteurs de recherche est presque entièrement conçue pour rendre les sites Web attrayants pour les robots d’exploration, également connus sous le nom de «robots». La raison pour laquelle les gens cherchent à avoir leur site lié à autant d’autres sites que possible est que le programme « bot » trouve votre site via ces hyperliens – souvent en « explorant » un autre site. Plus vous avez de liens, plus il est probable que plus d’un bot trouvera votre site – et c’est la première information que les moteurs de recherche (qui utilisent la majorité de ces programmes) récupèrent: c’est un logiciel populaire site.
Les robots d’exploration sont également conçus pour collecter beaucoup plus d’informations. Les moteurs de recherche sont très intéressés par le contenu des sites Web, donc toute information sur le texte ou les images de votre site devient également importante. C’est pourquoi des éléments tels que les balises « alt » et les descriptions d’images et de vidéos deviennent essentiels au référencement de tout site. Ils ne peuvent pas réellement « voir » les images ou les vidéos – toutes les informations qu’ils collectent sont textuelles, qu’il s’agisse d’un paragraphe sur les vampires dans Crépuscule: Eclipse ou la taille de l’image de Jacob disponible en téléchargement.
Les moteurs de recherche utilisent ces informations pour compiler des statistiques sur les mots clés ainsi que sur la popularité du site – c’est ainsi que Google, par exemple, est en mesure de commercialiser avec succès son programme AdSense. Si vous utilisez AdSense sur un site populaire (trouvé par de nombreux robots d’exploration) et dont le contenu contient un pourcentage élevé de mots clés, il est fort probable que les annonceurs auront plus de chance de vendre à votre public. Sans le bot pour «spider» le Web, ce serait une proposition aléatoire.
Pas seulement des statistiques Web
Alors que la grande majorité de ces scripts « bot » d’indexation sont utilisés par les moteurs de recherche (tels que SLURP de Yahoo, MSNBOT de Microsoft et le WebCrawler éponyme, qui a été utilisé pour créer le premier index de texte intégral du Web), les programmeurs peuvent recueillir plus d’informations que mots-clés et liens. Certains de ces scripts sont utilisés pour archiver le Web ou pour suivre les parties d’un site qui changent. Les linguistes peuvent les utiliser pour voir quel type de langue les gens utilisent sur les blogs et les forums ou via Twitter, par exemple. Tout le monde peut configurer son propre robot d’exploration Web, en fait, en utilisant des applications open source telles que Aspseek. Vous pouvez l’utiliser pour vérifier votre propre site pour les hyperliens cassés, ou pour vous assurer que toutes les images ont des balises alt appropriées.
Problèmes d’exploration
Malheureusement, les esprits criminels ont également configuré les robots d’exploration pour collecter des informations moins légitimes – comme essayer de trouver des numéros de sécurité sociale, des numéros de compte bancaire et d’autres informations de «hameçonnage». Puisque les robots d’exploration doivent demander au serveur de fournir des informations, ils peuvent être configurés pour être « impolis » et demander des informations à un rythme qui finit par paralyser le serveur et le faire planter ou exposer d’une manière ou d’une autre une faiblesse. Cela arrive en fait à l’occasion avec des «robots» légitimes qui cataloguent un site Web, et de nombreux protocoles ont été mis en place pour garantir que chaque robot d’exploration est «poli» lorsqu’il demande des informations sur le serveur.
Un autre problème de ces types de « bots » d’indexation réside simplement dans le fait que le Web est énorme et en constante évolution. Les chances sont qu’au moment où il a fini de regarder la dernière page d’un site, la première page aura été modifiée. Bien qu’ils soient essentiels au Web, ils constituent une méthode inefficace et ne peuvent couvrir efficacement qu’une fraction de l’Internet complet. À un moment donné, il est probable que les futurs utilisateurs Web regarderont les robots d’exploration de la même manière que les gens regardent maintenant les catalogues de cartes dans la bibliothèque – un artefact pittoresque.
Lisez plus d’astuces sur le design web ici, et n’oubliez pas de partager l’article sur Facebook !