Pompos 1.3

Votre site Web à été visité par Pompos 1.3 ?

Pompos est un outil puissant de d'analyse de documents à des fins d'indexation et de classement du Web. Le but du robot Pompos est de collecter le plus de documents possible sur le web, et ce pour le moteur dir.com. Sur cette page, vous trouverez les réponses aux questions les plus fréquement posées sur le fonctionnement de Pompos.

Questions

  1. A quelle vitesse Pompos récupère-t-il les pages de mon site ?
  2. Comment demander à Pompos de ne pas visiter certaines pages de mon site ?
  3. Pourquoi Pompos demande un fichier robots.txt sur mon site ?
  4. Pourquoi Pompos essaie-t-il de récupérer des pages inexistantes sur mon site ? Ou sur un serveur qui n'existe pas ?
  5. Pourquoi Pompos récupère-t-il des pages de notre site "privé" ?
  6. Pourquoi Pompos n'obéit-il pas aux directives de mon fichier robots.txt ?
  7. Pourquoi j'observe plusieures connexions de machines différentes sur mon site avec comme signature Pompos 1.3 ?
  8. Quels sont les types de liens suivis par Pompos lors de son passage ?
  9. Utilisation de revisit-after
  10. Je ne trouve pas de réponse à ma question dans cette liste, que faire ?

Réponses

A quelle vitesse Pompos récupère-t-il les pages de mon site ?

Afin de ne pas perturber le bon fonctionnement des sites visités, Pompos a été configuré pour visiter chaque page d'un même site avec un délai de 1 à 50 secondes entre chaque visite en fonction du nombre de pages. Cependant, du fait de la nature du réseau Internet, le manque de disponibilité d'une partie du réseau peut ralentir la fréquence de visite des pages d'un site. Si vous considérez que Pompos perturbe de façon significative le bon fonctionnement de votre site, vous pouvez nous avertir en utilisant le formulaire à la fin de cette page.

haut

Comment demander à Pompos de ne pas visiter certaines pages de mon site ?

Le fichier robots.txt est un document standard qui précise à Pompos si il peut visiter votre site en totalité, en partie ou pas du tout. La syntaxe du fichier robots.txt est précisée dans le Robot Exclusion Standard . Si vous souhaitez effectuer une différenciation de traitement pour chaque robot, les visites de Pompos peuvent être dirigées dans le robots.txt en précisant un User-Agent débutant par "Pompos". Si aucune entrée particulière à Pompos n'est présente dans le robots.txt, Pompos suivra les directives du User-Agent "*".

Exemple de fichier robots.txt, dans le cas ci-dessous tous les robots sont concernés par l'exclusion de visite sur les répertoire /stats/, /cgi-bin/ et /img/.

User-agent:*
Disallow:/stats/
Disallow:/cgi-bin/
Disallow:/img/

Autre exemple de fichier robots.txt, une exclusion de visite est ici formulée pour Pompos sur les répertoires /stats/, /cgi-bin/, /img/ et /tmp/.

User-agent:pompos
Disallow:/stats/
Disallow:/cgi-bin/
Disallow:/img/
Disallow:/tmp/

User-agent:*
Disallow:/stats/
Disallow:/cgi-bin/
Disallow:/img/

haut

Pourquoi Pompos demande un fichier robots.txt sur mon site ?

robots.txt est un document standard qui indique aux robots de récupération de pages web de ne pas accéder à tout ou partie d'un site web. Pour savoir comment ecrire votre propre fichier robot.txt veuillez consulter The Robot Exclusion Standard. Si vous souhaitez juste éviter l'accumulation de lignes d'erreur dans vos logs, il vous suffit de créer un document vide que vous nommerez robots.txt et que vous placerez à la racine de votre site.

haut

Pourquoi Pompos essaie t'il de récupérer des pages inexistantes sur mon site ? Ou sur un serveur qui n'existe pas ?

Une des caractéristiques du Web est la présence d'un nombre important de liens cassés ou de sites qui n'existent plus. Lorsqu'un site présente un lien de façon incorrecte ou qui n'existe plus vers votre site, il sera impossible à tout visiteur d'accéder au document lié. De la même façon, Pompos essaie d'accéder à ce document à partir d'un lien erroné ou périmé. Cela explique pourquoi vous voyez apparaitre dans vos logs d'erreur, des tentatives de récupération de pages par Pompos. Généralement ces echecs sont renseignés par votre serveur Web sous un code d'erreur 404.

haut

Pourquoi Pompos récupère t'il des pages de notre site "privé" ?

Il est parfois impossible de garder un site dit "secret" même en ne publiant aucun liens vers celui-ci. Dès qu'un visiteur de ce site "secret" suit un lien vers un autre site, son adresse de provenance (normalement "secrète") apparait dans la variable d'environnement referer dans les logs de cet autre site. Cette adresse de provenance peut alors être stockée et publiée par le site. Ce lien, une fois publié n'importe où sur le Web pourra donc être trouvé par Pompos ou un autre robot qui le visitera.

haut

Pourquoi Pompos n'obéit-il pas aux directives de mon fichier robots.txt ?

A chaque passage sur votre site, Pompos commence d'abord à récupérer le fichier robots.txt afin de tenir compte de vos directives de visite. Chaque changement du fichier robots.txt ne sera pris en compte qu'à la prochaine visite de Pompos sur votre site. Ainsi, assurez vous bien de la bonne syntaxe de votre fichier robots.txt en consultant http://www.robotstxt.org/wc/exclusion.html#robotstxt. La plupart des problèmes proviennent d'un mauvais placement de ce fichier sur le site. Ce dernier doit impérativement être placé à la racine de votre site. Placer le fichier robots.txt dans un sous-répertoire de votre site n'aura aucun effêt sur le comportement de Pompos. Si toutefois les problèmes persistent, veuillez nous le faire savoir en utilisant le formulaire à la fin de cette page.

haut

Pourquoi j'observe plusieures connexions de machines différentes sur mon site avec comme signature Pompos 1.3 ?

Pompos est un robot puissant de récupération qui necessite plusieures machines sous plusieurs adresses IP différentes. Plusieurs robots peuvent donc être amenés à visiter votre site simultanément.

haut

Quels sont les types de liens suivis par Pompos lors de son passage ?

Le robot Pompos ne suit que les liens présents dans les balises HREF d'un document.

haut

Utilisation de revisit-after

Pompos tient compte du metatag "revisit-after". Ce tag vous permet de spécifier l'écart souhaité entre deux passages du robot et ainsi d'économiser des ressources mais surtout de privilégier la récupération des pages récentes afin de les voir rapidement à jour sur dir.com. Vous pouvez spécifier cet écart de deux façons:
1) par une balise META:

<meta name="revisit-after" content="10 days">
2) dans le fichier robots.txt
User-agent: Pompos

revisit-after 2 months: /archives*
revisit-after 100 mins: /
revisit-after 7: /bulletin_hebdomadaire*
l'unité par défaut étant la journée. La seconde solution permet de spécifier le nom du robot, offrant ainsi un comportement spécifique par moteur.

Sans ces tags revisit-after, Pompos calcule lui-même une fréquence de passage après plusieurs cyles de récupération, privilégiant ainsi la récupération des pages souvent modifiées par rapport aux pages au contenu invariable.

haut

Je ne trouve pas de réponse à ma question dans cette liste, que faire ?

Vous pouvez nous adresser toutes vos questions concernant Pompos en remplissant ce formulaire:

Votre email:

haut