Web Scraper – Parte 5

Reaproveitamento de Sitemap

Os únicos casos em que é possível reaproveitar uma configuração de sitemap é quando você quer extrair outro conteúdo do mesmo site que esteja na mesma estrutura que a raspagem anterior. Por exemplo, o primeiro exercício que fizemos é possível ser reutilizado para extrair conteúdos de outras ​ hashtags, ​ basta efetuar uma busca avançada assim como fizemos, com ​ hashtag ​ ou palavra que desejar e copiar o novo link ​ e executar os passos a seguir. Assim também é com exercício referente a Netshoes, é possível reutilizar aquela configuração para pegar a descrição e preço de outras categorias, sendo necessário apenas copiar o link da categoria desejada e seguir estes passos.

Passos para reaproveitamento de Sitemap:

1. Após copiar o link de uma página com a mesma estrutura, abra o Web Scraper. Quando ele abrir você verá os sitemaps já criados ou importados por você.
2. Escolha o que deseja editar e clique sobre ele.
3. Com sitemap aberto, acesse “Sitemap + nome do seu sitemap” e selecione “Edit metadata”.
4. Com “Edit metadata” aberto é só alterar o nome do seu sitemap em “Sitemap name” e substituir no campo “Start URL” a sua nova URL pela que estava lá.
5. Feito esse passos, clique em “Save Sitemap”. Dessa forma, é só rodar o Web Scraper que ele vai extrair novos resultados.

Exportação e importação de sitemaps

Bem até agora aprendemos a instalar e manusear o Web Scraper, e também a reaproveitar um sitemap. Agora, vamos aprender a exportar e importar um sitemap, o que é bastante útil caso você queira compartilhar com alguém. Primeiramente é necessário exportar o sitemap.

Passos exportação:

1. Acesse o seu sitemap
2. Com sitemap aberto, acesse “Sitemap + nome do seu sitemap” e selecione “Export Sitemap”.3. Agora copie todo o código que apareceu e salve em um documento de texto. Seu sitemap está exportado.

Passos importação:

1. Copie todo o código que você salvou em um documento de texto ao exportar o sitemap;
2. Abra o Web Scraper;
3. Em “Create new sitemap”, clique em “Import Sitemap”;
4. Em Sitemap JSON, cole todo o código.
5. No espaço “Rename Sitemap”, atribua o nome que desejar. Pronto, o sitemap foi importado.

Depois de importação, você pode reutilizar o sitemap da maneira que desejar desde que respeite os passos de reaproveitamento que você viu nesse tutorial.

Em alguns momentos pode ser que o programa apresente comportamento inesperado, não permitindo selecionar o “Parent Selector” que desejar ou até mesmo na raspar quando você colocar ele para funcionar. Caso se depare com algum desses cenários, feche o navegador, reabra o Web Scraper. Em casos extremos, reinicie a máquina e reinstale o Web Scraper.

Com isso, finalizamos a série de tutoriais sobre o Web Scraper, uma ferramenta simples e bastante eficaz, que serve para automatizar o processo cansativo que é ter de copiar conteúdo de páginas da Web e colar em uma planilha Excel. Espero que você tenha compreendido bem os exercícios e as explicações referente a ferramenta. Caso tenha ficado alguma dúvida, utilize o espaço de comentários. Todas as publicações dessa série serão compilados em um arquivo PDF e em breve estará disponível aqui.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *