Definição de Spidering e Web Crawlers

Spiders e Web Crawlers: o que você precisa saber para proteger os dados do site

Spiders são programas (ou scripts automatizados) que "rastreiam" através da Web à procura de dados. As aranhas viajam por meio de URLs de sites e podem extrair dados de páginas da Web, como endereços de e-mail. As aranhas também são usadas para alimentar informações encontradas em sites para mecanismos de busca.

Spiders, que também são chamados de "web crawlers", pesquisam na Web e nem todos são amigáveis ​​em sua intenção.

Spammers sites de aranha para coletar informações

Google, Yahoo!

e outros mecanismos de busca não são os únicos interessados ​​em rastrear sites - então são scammers e spammers.

Spiders e outras ferramentas automatizadas são usadas por spammers para encontrar endereços de e-mail (na internet essa prática é frequentemente chamada de "colheita") em sites e, em seguida, usá-los para criar listas de spam.

As aranhas também são uma ferramenta usada pelos mecanismos de busca para descobrir mais informações sobre o seu site, mas deixadas desmarcadas, um site sem instruções (ou 'permissões') sobre como rastrear seu site pode apresentar grandes riscos à segurança das informações. As aranhas viajam seguindo os links, e são muito competentes em encontrar links para bancos de dados, arquivos de programas e outras informações às quais você talvez não queira que eles tenham acesso.

Os webmasters podem visualizar os registros para ver o que os spiders e outros robôs visitaram em seus sites. Essas informações ajudam os webmasters a saber quem está indexando o site e com que frequência.

Essas informações são úteis porque permitem que os webmasters ajustem seu SEO e atualizem arquivos robot.txt para impedir que determinados robôs rastreiem o site no futuro.

Dicas para proteger seu site de rastreadores de robôs indesejados

Existe uma maneira bastante simples de manter os rastreadores indesejados fora do seu site. Mesmo que você não esteja preocupado com o rastreamento de spiders maliciosos no seu site (o endereço de e-mail ofuscante não o protegerá da maioria dos rastreadores), você ainda deve fornecer instruções importantes aos mecanismos de pesquisa.

Todos os sites devem ter um arquivo localizado no diretório raiz chamado arquivo robots.txt. Esse arquivo permite que você instrua os rastreadores da Web onde deseja que eles procurem páginas de índice (a menos que indicado de outra forma nos metadados de uma página específica para não serem indexados) se eles forem um mecanismo de pesquisa.

Assim como você pode informar aos rastreadores desejados onde deseja que eles naveguem, também é possível dizer a eles onde eles não podem ir e até mesmo bloquear rastreadores específicos de todo o site.

É importante ter em mente que um arquivo robots.txt bem unido terá um enorme valor para os mecanismos de pesquisa e pode até ser um elemento-chave para melhorar o desempenho do seu site, mas alguns rastreadores de robôs ainda ignoram suas instruções. Por esse motivo, é importante manter todos os seus softwares, plug-ins e aplicativos atualizados o tempo todo.

Artigos e informações relacionadas

Devido à prevalência da coleta de informações usada para fins nefastos (spam), a legislação foi aprovada em 2003 para tornar certas práticas ilegais. Estas leis de defesa do consumidor estão abrangidas pela Lei CAN-SPAM de 2003.

É importante que você reserve um tempo para ler a Lei CAN-SPAM se a sua empresa se envolver em alguma correspondência em massa ou coleta de informações.

Você pode descobrir mais sobre as leis antispam e como lidar com spammers, e o que você, como proprietário de uma empresa, pode não fazer, lendo os seguintes artigos: