Alternativa ubot

O UBot Studio é conhecido por sua capacidade de extrair inúmeras informações da web. Sua capacidade de trabalhar com bancos de dados, manipular listas e tabelas e salvar arquivos como arquivos .txt ou .csv abre muitas portas para o que você pode fazer com as informações. O UBot Studio até incorpora alguma automação do Windows, permitindo que você extraia e salve arquivos de e para o seu computador, entre muitas outras coisas. O UBot Studio pode ser usado para criar software, então se você quiser vender o seu bot criado para outras pessoas fazendo tarefas semelhantes às suas, você pode recuperar rapidamente os custos iniciais de compra. Para mais informações sobre o que o UBot Studio pode fazer, confira

UBot Studio

Se você já usa o Scrapy e está familiarizado com o Python, não o aconselharia a procurar muito.

Scrapy Cloud -

http://goo.gl/OhlZs

- Executa seus projetos Scrapy na nuvem e também tem uma IU fácil de usar que pode definitivamente acelerar as coisas para tarefas mais fáceis:

http://goo.gl/K2y4U

A API Scraper foi projetada para simplificar a coleta da web. Algumas coisas a considerar antes de começarmos:

  • Cada solicitação será repetida até que possa ser concluída com êxito (até 60 segundos). Lembre-se de definir o tempo limite para 60 segundos para garantir que o processo ocorra sem problemas. Nos casos em que cada solicitação falha em 60 segundos, retornaremos um erro 500, você pode tentar a solicitação novamente e não será cobrado pela solicitação malsucedida (você só será cobrado por solicitações bem-sucedidas, códigos de status 200 e 404). Certifique-se de detectar esses erros! Eles ocorrerão em cerca de 1-2% das solicitações de sites difíceis de raspar. Você pode copiar imagens, PDFs ou outros arquivos da mesma forma que faria com qualquer outro URL, mas lembre-se de que há um limite de 2 MB por solicitação.
  • Se você exceder o limite de conexão simultânea do seu plano, a API responderá com um código de status 429. Isso pode ser resolvido diminuindo a taxa de solicitação
  • Não há excesso permitido no plano gratuito; se você exceder 1000 solicitações por mês no plano gratuito, receberá um erro 403.
  • Cada solicitação retornará uma string contendo o HTML bruto da página solicitada, junto com quaisquer cabeçalhos e cookies.
  • Oferecemos SDKs para NodeJS, Python, Ruby e PHP.

assim

Scraper API

é a melhor opção para você extrair seus dados de desejo de qualquer site.

Se você deseja experimentar a API de raspador, aqui está um cupom de 10% para você - apiscraping10

O Scrapy é um rastreador muito bom.

Claro, se você quiser usar algo além do Scrapy, isso significa que você quer coisas muito específicas.

Essas coisas de que você precisa podem ser únicas ou contínuas. Dependendo da magnitude da personalização necessária.

Você deve considerar duas coisas.

  1. Trabalhar com uma empresa específica que pode escrever soluções personalizadas para você. Estou trabalhando na Aitomation. Então é claro que vou dizer use-os. Para consultoria gratuita, clique aqui. No entanto, existem muitos outros também. Isso fornece rastreadores muito específicos. Por exemplo, Visual Web ripper web ripper é outra ótima ferramenta para raspar dados online, permitindo que você raspe vários tipos de dados e, em seguida, organize as informações extraídas em conjuntos de dados que podem ser muito úteis. O custo é de $ 349. O raspador de hélio é um raspador de dados bem desenvolvido que pode realizar diferentes finalidades. O custo começa em $ 99.
  2. A segunda maneira é trabalhar com uma lancetora livre. Isso é mais adequado para você, se você precisar de um site específico de um determinado site ou de um pequeno número de sites. Então não há necessidade de ir para as empresas. A vantagem é que podem ser baratos.

    1. Upwork, pessoas por hora.

Claro que sim! Tenho usado o Easy Data Feed para meus sites. Eu os considero excelentes rastreadores de código aberto. É um software de extração de dados projetado para varejistas on-line que estão insatisfeitos com os dados digitais de seus fornecedores de envio direto para inventário, preços e até mesmo informações universais de produtos. Está integrado ao re-preço em

Shopping.CartElite

para que você possa espionar os sites de seus concorrentes, eBay, Amazon ou centenas de sites ao mesmo tempo.

A resposta geral para sua pergunta é "depende de suas necessidades". O que você quer dizer com "melhor"? Acho que você precisa especificar pelo menos alguns critérios, que Scrapy, como você pensa, não satisfaz. Qual deve ser a alternativa?

Mais barato? Mas o Scrapy é grátis.

Mais simples? O que pode ser mais simples do que python?

Portia

? Mas é baseado em Scrapy.

Flexível? Estou escrevendo vários novos spiders quase todos os dias úteis durante o ano passado e ainda não vi nenhum site que não possa ser analisado pelo Scrapy.

Quanto a esses critérios - preço, simplicidade e flexibilidade - então não, não vejo nenhuma ferramenta de raspagem melhor do que o Scrapy agora. Mas se existir - ficarei feliz em saber sobre isso.

Eu usei o scrapy e poucas de suas limitações me levaram à busca por um rastreador da web mais forte.

Selênio

é uma alternativa muito melhor devido aos seguintes fatores:

  • O scrapy rastreia páginas estáticas e, portanto, uma página da web que é dinâmica e tem muitas consultas ajax em execução no momento do carregamento, o scrapy acabaria rastreando uma página vazia. Selenium, por outro lado, aguarda o carregamento da página inteira e começa a rastrear
  • Você pode fazer coisas como clicar em um botão, rolar, enviar um formulário, etc. usando o Selenium
  • Se você gosta de programar em python, então Selenium tem um suporte de documentação muito bom. Além disso, as pessoas trabalharam em muitas extensões em torno do Selenium, principalmente por causa da grande popularidade dele.
  • Código aberto, suporta todos os navegadores como IE, Firefox, Mozilla, Safari, suporta todos os sistemas operacionais, suporta todas as linguagens de programação Java, Ruby, C # e Python.
  • Por último e mais importante, muito fácil de codificar!

Comece hoje com isso

Código de amostra

BeautifulSoup é uma ferramenta que ajuda o programador a extrair rapidamente dados válidos de páginas web, sua API é muito amigável para o desenvolvedor novato, e também pode lidar muito bem com marcações malformadas. No entanto, na maioria dos casos, o BeautifulSoup sozinho não consegue realizar o trabalho, você precisa usar outro pacote, como “urllib2” ou “solicitações” para ajudá-lo a baixar a página da web e então você pode usar o BeautifulSoup para analisar o código-fonte HTML. O documento do BeautifulSoup é muito abrangente, você pode obter muitos exemplos e aprender rapidamente como usá-lo.

BeautifulSoup funciona bem em Python 2 e Python 3, então a compatibilidade não será um problema. BeautifulSop é muito fácil de aprender, você pode usá-lo rapidamente para extrair os dados que deseja, na maioria dos casos, você também precisará de um downloader para ajudá-lo a obter o código-fonte HTML, é altamente recomendável usar o pacote “requests” ao invés de “ urllib2 ”da biblioteca python embutida para implementar esta função.

Além disso, o BeautifulSoup funciona perfeitamente bem com serviços de proxy que são necessários durante a coleta, para que você possa evitar restrições geográficas, ser hackeado ou ser detectado e banido do site que está copiando. Os proxies podem ser úteis por vários motivos. Mais sobre este tópico pode ser encontrado aqui -

Web scraping: por que as pequenas empresas deveriam aproveitar esta oportunidade?

Se você está procurando um rastreador baseado em python, Scrapy é provavelmente sua melhor aposta.

No entanto, existem alternativas de python mais simples e outros scrapers de código aberto em Java, Ruby e PHP. Eu fiz a curadoria de uma lista de vários web scrapers de código aberto para esta questão do Quora: Quais são alguns bons web scrapers / técnicas de scraping gratuitos?

Para uma coleta simples sem muito esforço de programação, você pode verificar estas soluções:

  • uBot (http://ubotstudio.com/) é um web scraper com uma interface GUI bastante robusta. É extremamente versátil, mas há uma curva de aprendizado. Custo = $ 245
  • Planilhas Google ... Eu sei, certo ?! Aqui está um artigo detalhando como você pode usar o Excel para extrair os dados que deseja usando a função "importxml" e xpath (http://j.mp/gFy4p0). Custo = grátis

Se você precisar de uma solução hospedada, eu recomendo fortemente 80legs (http://www.80legs.com/) ou Mozenda (http://www.mozenda.com/)

Na verdade, toda ferramenta de web scraping possui suas vantagens e desvantagens. Dito isso, a resposta para “existe um rastreador melhor do que o Scrapy” dependerá muito do que você deseja da ferramenta de web scraping.

Para mim, eu adoraria dizer, Octoparse (

Ferramenta Web Scraping e Rastreadores da Web Gratuitos

) é melhor do que qualquer outra ferramenta de web scraping.

Primeiro, o modelo de tarefa Octoparse (

Apresentando o Easy Template, uma solução de raspagem para trouxas

) função é realmente maravilhosa. Literalmente falando, todos podem extrair dados em minutos com cliques. Como uma pessoa que não gosta de programas, eu realmente não quero aprender uma linguagem de computador do zero. É por isso que Octoparse é realmente adequado para mim e para minha situação.

Em segundo lugar, construir um rastreador com Octoparse é muito fácil! Existem apenas 5 etapas.

Abra o software - Insira o URL de destino - Crie um item de Loop - Selecione os campos copiados - Execute o rastreador.

Não preciso saber nada sobre codificação, linguagens de computador e blablabla. E a coisa está feita.

Então, na minha opinião, Octoparse é melhor que os outros.

Vamos definir "melhor". É mais rápido, mais barato, mais fácil, clique e construa, tem uma GUI, tem um aplicativo iOS, roda em hardware comum? - melhor assim?

Existem tantas coisas que podem parecer melhores com base no seu uso.

Scrapy é um dos pacotes Python baseados em programação mais populares usados ​​para fazer scrapy em sites da web. Tem uma boa documentação e muitos tutoriais de "introdução rápida" em toda a web.

Se você não conhece Python, obviamente não é "melhor" do que o software de raspagem visual que existe. Esses são muito "melhores"

No entanto, se você conhece Python (ou alguma programação), usou scrapy e está procurando ferramentas ou estruturas que sejam mais fáceis de usar ou mais rápidas de executar ou escalonáveis ​​em um ambiente de nuvem, então suas opções são limitadas.

Tendo usado scrapy por muitos anos em meu trabalho, eventualmente atingimos uma parede com escalabilidade e velocidade (e eu estou falando de 1000 páginas por SEGUNDA velocidade) em servidores virtuais baseados em nuvem de commodities, não em hardware dedicado de meio milhão de dólares.

Se você está trabalhando nessa (ou mais) escala, provavelmente precisará construir a sua própria e foi isso que fizemos na ScrapeHero (http://scrapehero.com) - apenas tivemos que fazer.

Se você tem necessidades menores do que isso e não se importa, desperdício é excelente.

O mundo precisa de outra linguagem de programação do Google ou da Microsoft - provavelmente não. O mundo precisa de outra estrutura de raspagem - quem sabe. Esses argumentos não impediram a ousadia (ou tolice) e provavelmente não o farão.