Pompos est un outil puissant de d'analyse de documents à des fins d'indexation
et de classement du Web. Le but du robot Pompos est de collecter le plus de
documents possible sur le web, et ce pour le moteur dir.com. Sur cette page, vous trouverez les réponses
aux questions les plus fréquement posées sur le fonctionnement
de Pompos.
robots.txt
sur mon site ?robots.txt ?A quelle vitesse Pompos récupère-t-il les pages de mon site ?
Afin de ne pas perturber le bon fonctionnement des sites visités, Pompos a été configuré pour visiter chaque page d'un même site avec un délai de 1 à 50 secondes entre chaque visite en fonction du nombre de pages. Cependant, du fait de la nature du réseau Internet, le manque de disponibilité d'une partie du réseau peut ralentir la fréquence de visite des pages d'un site. Si vous considérez que Pompos perturbe de façon significative le bon fonctionnement de votre site, vous pouvez nous avertir en utilisant le formulaire à la fin de cette page.
Comment demander à Pompos de ne pas visiter certaines pages de mon site ?
Le fichier robots.txt est un document standard qui
précise à Pompos si il peut visiter votre site en totalité,
en partie ou pas du tout. La syntaxe du fichier robots.txt est
précisée dans le Robot
Exclusion Standard . Si vous souhaitez effectuer une différenciation
de traitement pour chaque robot, les visites de Pompos peuvent être dirigées
dans le robots.txt en précisant un User-Agent
débutant par "Pompos". Si aucune entrée particulière
à Pompos n'est présente dans le robots.txt, Pompos
suivra les directives du User-Agent "*".
Exemple de fichier robots.txt, dans le cas ci-dessous
tous les robots sont concernés par l'exclusion de visite sur les répertoire
/stats/, /cgi-bin/ et /img/.
User-agent:*
Disallow:/stats/
Disallow:/cgi-bin/
Disallow:/img/
Autre exemple de fichier robots.txt, une exclusion de visite est
ici formulée pour Pompos sur les répertoires /stats/,
/cgi-bin/, /img/ et /tmp/.
User-agent:pompos
Disallow:/stats/
Disallow:/cgi-bin/
Disallow:/img/
Disallow:/tmp/
User-agent:*
Disallow:/stats/
Disallow:/cgi-bin/
Disallow:/img/
Pourquoi Pompos demande un fichier
robots.txt sur mon site ?
robots.txt est un document standard qui indique
aux robots de récupération de pages web de ne pas accéder à
tout ou partie d'un site web. Pour savoir comment ecrire votre propre fichier
robot.txt veuillez consulter The
Robot Exclusion Standard. Si vous souhaitez juste éviter l'accumulation
de lignes d'erreur dans vos logs, il vous suffit de créer un document
vide que vous nommerez robots.txt et que vous placerez à
la racine de votre site.
Pourquoi Pompos essaie t'il de récupérer des pages inexistantes sur mon site ? Ou sur un serveur qui n'existe pas ?
Une des caractéristiques du Web est la présence d'un nombre important de liens cassés ou de sites qui n'existent plus. Lorsqu'un site présente un lien de façon incorrecte ou qui n'existe plus vers votre site, il sera impossible à tout visiteur d'accéder au document lié. De la même façon, Pompos essaie d'accéder à ce document à partir d'un lien erroné ou périmé. Cela explique pourquoi vous voyez apparaitre dans vos logs d'erreur, des tentatives de récupération de pages par Pompos. Généralement ces echecs sont renseignés par votre serveur Web sous un code d'erreur 404.
Pourquoi Pompos récupère t'il des pages de notre site "privé" ?
Il est parfois impossible de garder un site dit "secret" même en ne publiant aucun liens vers celui-ci. Dès qu'un visiteur de ce site "secret" suit un lien vers un autre site, son adresse de provenance (normalement "secrète") apparait dans la variable d'environnement referer dans les logs de cet autre site. Cette adresse de provenance peut alors être stockée et publiée par le site. Ce lien, une fois publié n'importe où sur le Web pourra donc être trouvé par Pompos ou un autre robot qui le visitera.
Pourquoi Pompos n'obéit-il pas aux directives
de mon fichier robots.txt ?
A chaque passage sur votre site, Pompos commence d'abord à
récupérer le fichier robots.txt afin de tenir compte de
vos directives de visite. Chaque changement du fichier robots.txt
ne sera pris en compte qu'à la prochaine visite de Pompos sur votre site.
Ainsi, assurez vous bien de la bonne syntaxe de votre fichier robots.txt
en consultant http://www.robotstxt.org/wc/exclusion.html#robotstxt.
La plupart des problèmes proviennent d'un mauvais placement de ce fichier
sur le site. Ce dernier doit impérativement être placé à
la racine de votre site. Placer le fichier robots.txt dans un sous-répertoire
de votre site n'aura aucun effêt sur le comportement de Pompos. Si toutefois
les problèmes persistent, veuillez nous le faire savoir en utilisant le formulaire à la fin de cette page.
Pourquoi j'observe plusieures connexions de machines différentes sur mon site avec comme signature Pompos 1.3 ?
Pompos est un robot puissant de récupération qui necessite plusieures machines sous plusieurs adresses IP différentes. Plusieurs robots peuvent donc être amenés à visiter votre site simultanément.
Quels sont les types de liens suivis par Pompos lors de son passage ?
Le robot Pompos ne suit que les liens présents dans les balises HREF d'un document.
Pompos tient compte du metatag "revisit-after". Ce tag vous permet de spécifier l'écart souhaité entre deux
passages du robot et ainsi d'économiser des ressources mais surtout de privilégier la récupération des pages récentes
afin de les voir rapidement à jour sur dir.com. Vous pouvez spécifier cet écart de deux façons:
1) par une balise META:
<meta name="revisit-after" content="10 days">2) dans le fichier robots.txt
User-agent: Pompos revisit-after 2 months: /archives* revisit-after 100 mins: / revisit-after 7: /bulletin_hebdomadaire*l'unité par défaut étant la journée. La seconde solution permet de spécifier le nom du robot, offrant ainsi un comportement spécifique par moteur.
Je ne trouve pas de réponse à ma question dans cette liste, que faire ?
Vous pouvez nous adresser toutes vos questions concernant Pompos en remplissant ce formulaire: