Você sabia que robôs visitam o seu site? Esteja preparado!

Calcula-se que a web possua mais de 10 bilhões de páginas, agora imagine o trabalho que os sites de busca tem para visitar e armazenar este conteúdo. Some agora as atualizações que devem ser checadas nestes documentos e as novas páginas que surgem a cada dia. Seria um trabalho para milhares de pessoas.

Para conseguir visitar e armazenar tantos sites, as ferramentas de busca contam com um recurso especial: o spider. Conhecido também como robôs, bots, agentes ou crawlers, os spiders tem a função de automatizar a tarefa de catalogar as páginas visitadas para a consulta em uma busca, além de descobrir novas páginas presentes em links nas páginas já conhecidas.

Cada ferramenta de busca tem o seu próprio spider. O spider do Google é o Googlebot enquanto o spider do Yahoo! é o Slurp. O novato do MSN Search, é o MSNBot. Existem bots também para multimídia por exemplo. São exemplos o Googlebot-Image, o yahoo-mmcrawler e o psbbot (Picture Search da MSN). Mas como funcionam estes spiders?

A primeira coisa que um spider faz ao visitar o seu site, é procurar por um arquivo de texto chamado robots.txt. É nele que a ferramenta recebe as orientações de como deve tratar o seu site. Por exemplo, se você tem uma área protegida que não quer que a ferramenta catalogue, basta colocar o parâmetro necessário no arquivo robots e ele vai obedecer. Se o spider visitar o seu site e não encontrar o arquivo, ele recebe a mensagem de erro 404 e, dependendo do site de busca, decide se indexa ou não. A maioria dos spiders opta por indexar.

De qualquer maneira é uma boa prática ter este arquivo. É bem simples. Basta criar um novo arquivo de texto com o nome “robots.txt”, inserir os comandos necessários e colocá-lo na raiz do site. Veja um exemplo de robots.txt.

Basicamente, o arquivo possui dois tipos de instrução: o User-agent e o Disallow. A instrução User-agent informa qual spider deve obedecer ao comando, enquanto na linha de baixo, a instrução Disallow informa o que deve ser bloqueado. Se a opção User-agent vier com um asterisco, significa que a regra é para todos os spiders. Já o Disallow informa a pasta que deve ser bloqueada. Se não for informado o parâmetro para o Disallow, todo site fica liberado para o spider.

O parâmetro do Disallow pode ser um diretório ou arquivo. Imagine que você tem uma pasta chamada “privado” onde estão arquivos pessoais que você não quer que as ferramentas visitem. Basta colocar o comando: “Disallow: /privado/”. Se ao invés de colocar “/privado/” você colocar “/”, todo site estará bloqueado para os spiders. Você pode colocar quanto diretórios e arquivos desejar.

Um bom site para entender mais a fundo é o www.robotstxt.org, porém se quiser simplesmente o código do arquivo para colocar no seu site, basta visitar marketingdebusca.com.br/robots-txt/ para utilizar a ferramenta que monta dinamicamente para você todo o código necessário para o arquivo.

Publicado na revista www.com.br