Ei pessoal. Construímos o ParseHub para que você possa obter dados de sites super complicados e interativos. Como eu gosto de dizer – sites de festas como em 1999. Você pode tentar aqui .
Todos aqui provavelmente podem construir um script de web scraping para um site ou página estática simples. É exatamente assim que o ParseHub começou a escrever nossos algoritmos também. Então, descobrimos toda a complexidade necessária para extrair dados onde o conteúdo é carregado com AJAX e Javascript. Fizemos a missão de ser o melhor raspador de web do mercado (em termos de tecnologia) – mas deixarei que você julgue isso. 🙂
Aqui estão algumas coisas que o ParseHub pode fazer:
– Obter dados de páginas de rolagem infinita
– Obter dados por trás de um login. Tudo que você precisa fazer é inserir seu e-mail e senha
– Preencher automaticamente nossos formulários e enviá-los
– Baixar imagens e arquivos para o DropBox
– Gerenciar paginação – até mesmo paginação AJAX e rastrear milhões de páginas
– Obter HTML, atributos e limpar dados com RegEx
– Faça os dados estruturados da maneira que você deseja com loops for e condicionais para filtrar nossos resultados e texto
– Clique em vários menus suspensos aninhados e obtenha dados que carregam dinamicamente
– Insira milhares de consultas de pesquisa em uma caixa de pesquisa para obter os resultados
– Pule de um site para outro para que você possa fazer coisas como obter salários e, em seguida, converter a moeda em outro site
– Abrir guias, pop-ups e elementos ocultos ao passar o mouse
– Obter dados de mapas
– Inserir milhares de links para o ParseHub rastrear
Se você tem um site muito ruim – como um site do governo, por exemplo, envie-o do meu jeito e eu garantirei que possamos obter os dados dele.
Você pode tentar aqui .
Obrigado: D