O que é aws emr

Para EMR versus EC2, consulte Quais são as vantagens / desvantagens de executar a distribuição do Cloudera para o Hadoop nas instâncias do EC2, em vez de usar o Serviço de redução de mapas elásticos da Amazon?

Além dos benefícios de custo e escalabilidade apontados por outras pessoas, o que mais me empolga com o EMR é o EMRFS. O EMRFS é uma implementação do HDFS usada para ler e gravar arquivos regulares do Amazon EMR diretamente no Amazon S3. Oferecer uma opção para separar completamente o armazenamento da computação é teoricamente impressionante e não exige que instale instâncias do EC2 ou provisione volumes EBS apenas para adicionar mais armazenamento.

CUSTO - EC2 é caro - EMR é ainda mais caro.

Se você tem uma configuração local e possui IP estático - isso deve economizar milhares de dólares - e nós fizemos - estamos migrando lentamente para a nuvem local / privada para nossas operações de Big Data.

Nota: tudo isso vem com o custo operacional de Manutenção e Responsabilidade de manter o Armazenamento, a Rede, etc. - mas vale todo o esforço na execução diária.

Se você tiver outros aplicativos em execução no EC2 (potencialmente por meio de um provedor SaaS de terceiros que também esteja usando a hospedagem Amazon EC2) e desejar usar o hadoop para processar em lotes os dados deles (por exemplo, processamento de logs, análises na extração de um SQL de produção cluster do servidor de banco de dados, ...) ou, por outro lado, deseja enviar o resultado do processo hadoop em lote para os bancos de dados de produção, e executar o Hadoop no EC2 poupará o tempo de transferência de dados (+ taxas baratas para transferências de dados dentro das taxas de banda de gravação EC2 com a palavra externa).

Além disso, a Amazon possui vários conjuntos de dados públicos que podem levar muito tempo para baixar no seu datacenter, caso contrário:

http://aws.amazon.com/datasets

Olá,

Sua escolha dependerá do seu caso de uso específico e do custo efetivo nessas plataformas.

  • Se você não deseja investir tempo no gerenciamento e atualização de sua distribuição, o AWS EMR será a melhor opção para você.
  • Se seus dados estiverem armazenados no S3 e você desejar executar um trabalho ocasional nos dados e despejar os resultados de volta no S3, fará sentido que você use o Elastic Map / Reduce (EMR).
  • Se você precisar executar uma pilha completa do Hadoop / HBase 24 × 7 e possuir um formato de dados personalizado (diferente de S3), o Cloudera será a melhor opção para você.
  • Se você precisar depurar os problemas e integrá-lo a outro software, o Cloudera será a melhor opção para você.

Se você estiver procurando mais detalhes, visite nosso blog

Amazon EMR VS Cloudera no EC2: o que é realmente melhor em 2017?

para mais detalhes.

Fico feliz em ajudar se você tiver alguma dúvida.

Felicidades,

Kapil

  1. A instalação fácil economiza tempo - você pode iniciar rapidamente um novo cluster Hadoop rapidamente ou adicionar mais servidores ao cluster existente do Amazon EMR.
  2. Serviço gerenciado - O Amazon EMR fornece uma interface mais simples e gerenciada para a configuração do Hadoop, rede, instalação do servidor, configuração de segurança. Assim como o Amazon RDS, você economiza tempo pensando em configuração, atualizações de segurança etc.
  3. Bem integrado a outros serviços da AWS - você pode integrar facilmente seu ambiente Hadoop a outros serviços, como Amazon S3, Amazon Kinesis, Amazon Redshift e Amazon DynamoDB. De fato, o Amazon EMR usa o S3 como sua camada de armazenamento por meio do conector EMRFS.
  4. Capacidade dinâmica - Com o Amazon EMR, você pode criar clusters com a capacidade necessária e usar o Auto Scaling para expandir e dimensionar dinamicamente os nós.
  5. Aplicativos adicionais - Você pode instalar e integrar-se facilmente a outros aplicativos como Presto, Spark ou usar o novo mecanismo de execução Tez

tl; dr EMR é mais rápido pelo mesmo preço quando comparado ao EC2. A instalação local não será tão dimensionável e elástica quanto a nuvem quando houver um pico repentino ou baixa demanda. (você pode morder instâncias EC2 a um preço muito baixo se não se importar em perdê-las)

EC2 v / s EMR

O EMR é uma coleção de instâncias do EC2 com o Hadoop (e, opcionalmente, o Hive e / ou Pig) instalado e configurado neles. Se você estiver usando seu cluster para executar tarefas do Hadoop / Hive / Pig, o EMR é o caminho a seguir. Uma instância EMR custa um pouco mais em comparação com uma instância do EC2.

Uma verificação rápida dos preços da Amazon hoje revela que pequenas instâncias do EC2 custam US $ 0,08 / hora (podem mudar com a região e o tipo de instância), enquanto uma instância pequena do EMR custa US $ 0,015 / hora

http://extra.In

Na minha opinião, vale totalmente a pena pagar esse dinheiro extra para poupar o trabalho de instalar e configurar o Hadoop (junto com o Hive e Pig), criar e manter a AMI e usá-la. Além disso, a versão do Hadoop e Hive da EMR tem alguns patches que pelo menos não estão disponíveis) no Apache Hive.

Se você usa o EC2, provavelmente estará usando o Apache Hadoop e o Hive (ou pode ser, as distribuições cloudera) e não terá acesso a esses patches (como suporte nativo ao S3 ou comandos como ALTER TABLE my_table RECOVER PARTITIONS

Nota: A versão do Aado do Hadoop instalada quando você inicia um cluster do Amazon EMR é baseada no Apache Hadoop, mas teve várias correções e melhorias adicionadas para fazê-lo funcionar eficientemente na AWS. Onde apropriado, as melhorias escritas pela equipe do Amazon EMR foram enviadas à base de código do Apache Hadoop. Para obter mais informações sobre os patches aplicados ao AWS Hadoop, consulte

Patches do Hadoop aplicados no Amazon EMR

.

O Aazon EMR é um serviço gerenciado do Hadoop na nuvem da AWS. Você pode criar um cluster do Hadoop de qualquer tamanho por meio do console da interface do usuário ou da CLI ou programaticamente. Coisas importantes a ter em mente

  • Seus dados e software são carregados do S3 no HDFS e, uma vez concluída a carga de trabalho, você pode encerrar o cluster, pagando apenas pela duração do seu trabalho.
  • Você paga pelo tempo de rotação e desmontagem do cluster, que eu vi que pode levar mais de 10 minutos. O tempo de execução do cluster é arredondado para a próxima hora. Portanto, se o cluster for executado por 1 hora: 1 min, você terminará pagando por 2 horas.
  • Você pode escolher o Apache Hadoop ou o MapR para executar no cluster do Amazon EMR.
  • Para a maioria das instâncias do EC2, a sobrecarga do EMR é de ~ 27 centavos por hora por nó. Embora, para instâncias menores, isso possa chegar a 7 centavos por hora por nó.
  • Competição EMR: Azure HDInsight, Qubole, Altiscale

Um cluster Hadoop 'simples' exige que você leve seu Hadoop (CDH, HDP, Apache) para execução em seu cluster. Pontos importantes a considerar

  • Você precisa decidir se seu cluster será executado na nuvem (Amazon, Microsoft, Google) ou local no seu data center
  • Para a maioria das organizações, você também paga pela sua distribuição do Hadoop (Cloudera, Hortonworks, MapR, IBM et al).
  • Você provavelmente precisará de uma pessoa Ops (equipe) para gerenciar o Hadoop e o cluster. Lojas menores tendem a ter uma equipe de DevOps pelo menos para seus clusters de desenvolvimento e teste

Resumindo, se você possui tarefas que precisam ser executadas periodicamente, mas nem sempre - digamos, um relatório diário criado com a execução de um mapa do Hadoop reduz a tarefa - você pode considerar o EMR. Se você fizer check-out

Pepperdata for EMR

. Ajudamos você a manter todos os dados de desempenho muito tempo após o encerramento do cluster.

Com relação ao EMR vs. Hadoop no EC2, o preço por hora de instância do EMR é marginalmente mais caro que o EC2: http://aws.amazon.com/elasticmapreduce/#pricing Quando li isso pela primeira vez, não percebi que pagou o preço EC2 MAIS o preço EMR. (Eu errei totalmente quando publiquei uma resposta, desde então corrigi)

Também achei a configuração do EMR muito mais fácil de instalar do que o Hadoop tradicional. No entanto, o projeto Whirr pode tornar essa diferença insignificante com o tempo: http://incubator.apache.org/whirr/ Mas, no momento, nada é mais fácil de executar do que o EMR.

Para mim, a escolha de usar o EMR realmente se resumia à rapidez com que eu conseguia configurar as máquinas, rodar meu código personalizado. O segundo fator foi o custo do tempo de execução. Na minha avaliação, a EMR venceu o teste "velocidade para a utilidade". O tempo de execução é um pouco mais do que o EC2 Hadoop e estou avaliando se vale a pena a comodidade adicional. Provavelmente é para mim. Sua milhagem certamente irá variar.

Da maneira como a maioria das pessoas usa o EMR, elas não se beneficiam do Hadoop File System. A maioria dos casos de uso envolve o armazenamento de dados para uso no EMR no S3 da Amazon, que possui uma latência mais alta e não localiza os dados nos seus nós computacionais. Portanto, a E / S de arquivo no EMR é mais lenta e latente que a E / S no seu próprio cluster Hadoop ou no seu próprio cluster EC2. Você pode usar o sistema de arquivos Hadoop no EMR, mas isso requer a execução do cluster do EMR para preservar os dados. Se alguém deixar um cluster EMR Hadoop em funcionamento por longos períodos de tempo, poderá executar os números e descobrir que a hospedagem ou hospedagem no EC2 faz mais sentido financeiramente.

Para o meu caso de uso, a IO do arquivo não foi considerada, pois estou fazendo simulações vinculadas à CPU, mas não à IO.

Cloudera no EC2 vs Amazon EMR

Principalmente, você pode escolher entre a distribuição Cloudera na distribuição EC2 e Amazon EMR como seu cluster Hadoop na AWS. Cada opção tem seu próprio conjunto de vantagens e limitações.

Vantagens do Amazon EMR

  • Cluster de dimensionamento automático
  • O EMR segrega nós escravos em dois subtipos - nós principais e nós de tarefas. O nó principal atua como o nó de dados e o nó do trabalhador, enquanto o nó da tarefa atua apenas como nó do trabalhador. Além da escalabilidade, essa segregação permite aos usuários as seguintes vantagens principais:

    • Sem perda de dados do HDFS - Você pode remover os nós de tarefa (escalonamento) sem perder os dados do HDFS, pois esses nós não atuam como DataNodes.
    • Custos mais baixos - O uso de instâncias spot para os nós da tarefa reduz os custos em um fator de 10.

    Além disso, o AWS CloudWatch pode ser usado para monitorar e dimensionar o cluster com base em várias regras predefinidas - utilização de memória, contêineres livres restantes etc.

    • Orquestração dinâmica de cluster
    • Você pode orquestrar dinamicamente um novo cluster sob demanda dentro de um período muito curto. Após a conclusão bem-sucedida dos trabalhos, este cluster pode ser encerrado por sua vez, melhorando a utilização e reduzindo drasticamente os custos.

      • Acessando dados no S3
      • Você pode acessar os dados no S3 do EMR diretamente ou através das Tabelas do Hive. O EMR é altamente otimizado para trabalhar com dados no S3 por meio de binários proprietários da AWS.

        • Nós escravos altamente disponíveis
        • O Serviço EMR monitora continuamente os nós escravos e substitui qualquer nó não íntegro por um novo nó, nos bastidores.

          • Software como serviço
          • A AWS gerencia o serviço EMR Hadoop, bem como a infraestrutura subjacente da AWS. Isso resulta em menos atrito e sobrecarga ao obter suporte.

            Desvantagens do Amazon EMR

            • Ausência do Console de Gerenciamento Hadoop
            • A AWS não fornece nenhum console de gerenciamento semelhante ao Ambari ou Cloudera Manager do Apache, para EMR. Isso dificulta o gerenciamento e o monitoramento de vários serviços Hadoop em um cluster em execução.

              • Não há alta disponibilidade para o nó principal
              • O nó principal do cluster EMR não está configurado para Alta Disponibilidade, por sua vez, tornando-o o único ponto de falha.

                • Substituição automática de nós não íntegros
                • O serviço EMR monitora continuamente os nós escravos e substitui qualquer nó não íntegro, de forma transparente. Embora ofereça uma vantagem distinta de manutenção aos administradores, esse recurso também arrisca a perda de dados que residem no nó não íntegro.

                  • O cluster do EMR não pode ser desligado
                  • O cluster do EMR não pode ser desligado e só pode ser finalizado conforme o design.

                    Vantagens do Cloudera no EC2

                    • Gerente e Diretor Cloudera
                    • O Cloudera Manager possui uma interface web fácil de usar. Isso ajuda a gerenciar e monitorar serviços Hadoop, cluster e hardware de host físico.

                      Além disso, a Cloudera também fornece ao Cloudera Director a habilitação de autoatendimento para o uso do CDH na nuvem. Ele fornece uma experiência de administração de painel único para a TI central, para reduzir custos e oferecer agilidade, e para os usuários finais, que fornecem e escalam clusters com facilidade.

                      • Configuração de segurança
                      • A configuração da segurança (Kerberos, Sentry etc.) é comparativamente mais fácil em um cluster cloudera, devido à extensa documentação e à experiência local da CDH.

                        • Opções no local e na nuvem
                        • Ao contrário do EMR, o Cloudera oferece opções no local e na nuvem. Isso ajuda a reutilizar a experiência no local - experiência, recursos humanos e aprendizados.

                          Desvantagens do Cloudera no EC2

                          • Sem subcategorização de nós escravos
                          • Ao contrário do EMR, o EC2 não categoriza nós escravos em nós principais e de tarefas. Isso aumenta o risco de perda de dados do HDFS no caso de um nó ser removido / perdido.

                            • Sem acesso ao código proprietário da AWS para S3
                            • O EC2 usa as bibliotecas Apache (s3a) para acessar dados no s3. Por outro lado, o EMR usa o código proprietário da AWS para ter acesso mais rápido ao s3.

                              Isenção de responsabilidade: Sou especialista em Big Data e Cloud (Serviços Profissionais) na Informatica na equipe de Big Data. As opiniões e opiniões expressas nesta resposta são minhas (com base na minha experiência pessoal) e não refletem a política ou posição oficial da Informatica LLC.