Web Scraper – Parte 3

Diferente do exemplo anterior, vamos aprender a configurar no Web Scraper a função de clicar sobre algum produto ou link, entrar e capturar os dados que for configurados. O nome dessa função é Link, e ela se encontra em “Type”, assim como a função usada anteriormente.

Neste exemplo vamos capturar todos os preços e descrição de camisetas da categoria infantil do ​ e-commerce ​ Netshoes. O que difere esse exemplo do anterior é estrutura da página e dos dados. Anteriormente foi visto uma página dinâmica, em que os dados iam aparecendo na tela na medida em que a rolagem era feita. Já agora é uma página estática, os dados estão postos. Esse tipo de página é muito comum em ​ e-commerce ​ e pode ser bastante útil aplicar a raspagem para ter noção dos preços, gerar gráficos comparativos e para fins didáticos como agora.

Exemplo 2

Ao entrar no site e selecionar a categoria camisetas infantis você verá que há mais de 15 páginas, todas com a mesma estrutura. Ter conhecimento dessa característica é importante para não ser surpreendido no meio da raspagem.

Esse exemplo é ligeiramente mais complicado que o anterior devido o Web Scraper ter de entrar em cada uma das páginas dessa categoria e raspar tudo o que for demandado. Como o interesse desse material é apenas o instruir a manusear o Software, será configurado para o programa retornar apenas a descrição e preço dos produtos.

Passos configuração do Sitemap Neshoes:

1.Acesse o site da Netshoes, nas categorias, vá em crianças, roupas e selecione camisetas ou vá direto pelo ​ link​ .
2.Copie o link e cole ele em “Start URL” e atribua o nome que desejar em “Sitemap name”, na parte de criar o sitemap. Não se esqueça das regras do nome.
3.Clique em “Add new selector”. Em “Id”, coloque “paginacao” e em “Type”
selecione “Link”.
4.Agora role a página até encontrar o número das páginas, são 17 no total, mas esse valor pode variar dependendo da data em que você estiver lendo esse material.
5.Clique em Selector, escolha “select”. Passe o mouse sobre sobre a “bolinha” com o número dois e clique. Faça o mesmo com a de número 3, assim todas vão ficar marcadas de vermelho. Isso significa que o programa reconheceu todas as páginas que ele deve entrar.
6.Marque a ​ checkbox de “Multiple”. Isso é importante para que o Web Scraper entenda que são várias páginas e que elas são diferentes. Com isso, ele vai raspar apenas uma vez cada página.
7.Em “Delay”, deixe 0, as páginas são estáticas.
8.Em “Parent Selectors” tenha bastante atenção. Diferente do exemplo 1, o seletor Link deve estar em todos o níveis de navegação, se não, o Web Scraper só recupera dados da primeira página. No teclado, aperte a tecla Control ​ e com o mouse selecione “_root” e “paginacao”, assim o ​ software vai navegar em todas as páginas. Observe como fica na imagem a seguir.9. Certifique que suas configurações estão iguais. Confirme clicando em “Save selector”.
10. Adicione um novo seletor. Nele vai ser configurado a estrutura da página, onde estão os dados que queremos.
11. Defina “Id” como item e “Type” como “element”.
12. Role a página até encontrar os primeiros produtos.
13. Clique em Selector, escolha “select”. Passe o mouse sobre sobre o primeiro produto até fique uma caixa verde em torno da imagem e descrição do produto.

14. Quando conseguir, clique, e assim a caixa passa ser vermelha. Faça o mesmo com a segunda. Assim todos os demais produtos ficaram marcados com a mesma caixa.15. Observe se todas foram realmente selecionadas. Confirme clicando em “Done selecting!”.
16. Marque a checkbox ​ multiple.
17. Não altere o valor de “Delay”.
18. Certifique de que em “Parent Selectors” “paginacao” está selecionado de cinza, se não, selecione.

19. Com isso finalizamos a configuração de identificação de estrutura das páginas. Salve clicando em “Save selector”.

Nos passos acima foi configurado a navegação no site. Nos passos abaixo serão configurados para que o Web Scraper raspe a descrição e preço de cada item. Portanto, é imprescindível que a etapa anterior esteja corretamente configurada.
20. Clique em item e adicione um novo seletor.
21. Em “Id”, preencha como “descricao” e em “Type” selecione “text”.
22. Clique em Selector, escolha “select”, primeiro produto deve ficar com uma caixa amarela em volta. Passe o mouse sobre sobre a descrição da camiseta que está entre a imagem e o preço, clique e ela ficará alaranjada. Clique em “Done selecting!”.
23. Deixe o restante como está. Certifique de que “item” esteja selecionado em “Parent Selectors”, caso não, selecione.24. Observe se tudo está devidamente configurado. Salve.
25. Adicione um novo seletor. Esse será o dos preços.
26. Em “Id”, preencha como “preco” e em “Type” selecione “text”.
27. Clique em “Selector”, escolha “select”, primeiro produto deve ficar com uma caixa amarela em volta. Passe o mouse sobre sobre o preço da camiseta que está logo abaixo da descrição. Clique e ele ficará selecionado de vermelho. Clique em “Done selecting!”.28. Deixe o restante como está. Certifique de que “item” esteja selecionado em “Parent Selectors”, caso não, selecione.
29. Concluído esses passos, o Sitemap para Netshoes está configurado. Acesse o gráfico de toda essa configuração clicando no nome do seu sitemap, entre “Sitemaps” e “Create new sitemap”, e depois em “Selector graph”. Você consegue expandir os nós em azul clicando neles, caso o seu esteja reduzido, dessa forma ele deve ficar semelhante ao da imagem abaixo:Depois de todos esse passos, agora é só colocar para funcionar seu sitemap. Para isso, acesse “Sitemap + nome do seu sitemap”, entre em “Sitemaps” e “Create new sitemap”, e depois em “Scrape”. Posteriormente, na tela que abriu, clique em “Start scraping”. Uma nova janela do Google Chrome abre já no link informado no início da configuração. Aguarde ele navegar. Não feche nem altere nada. O tempo de raspagem da velocidade de conexão a internet.

Ao final, uma mensagem aparece na tela que estávamos trabalhando, informando que a raspagem foi realizada. Para baixar os dados, acesse “Sitemap + nome do seu sitemap, entre “Sitemaps” e “Create new sitemap”, e depois em“Export data as CSV”. Aguarde um pouco e em seguida clique em “Download Now”, escrito em azul. Com isso finalizamos o segundo exemplo.

2 thoughts to “Web Scraper – Parte 3”

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *