Qual é a principal diferença entre kafka e hadoop?

Kafka e Hadoop, as duas ferramentas de Big Data servem a propósitos diferentes. Kafka é um sistema de mensagens pub-sub, enquanto o Hadoop é uma estrutura para armazenar e processar Big Data. O componente principal do Hadoop é o HDFS (Hadoop Distributed File System), ou seja, a parte de armazenamento do Hadoop, e o YARN (Yet Another Resource Negotiator), que gerencia os recursos durante o processamento.

Para saber mais sobre o Hadoop, você pode ir

.

Apache Kafka

O Apache Kafka é um sistema de mensagens de publicação / assinatura distribuída.

O sistema de mensagens tradicionalmente tem dois modelos: enfileiramento e publicação-assinatura. Em uma fila, um pool de consumidores pode ler de um servidor e cada registro vai apenas para um deles; enquanto na publicação-assinatura, o registro é transmitido a todos os consumidores, para que vários consumidores possam obter o registro.

O cluster kafka é distribuído e tem várias máquinas rodando em paralelo. É por isso que o Kafka é rápido, escalável e tolerante a falhas. Vamos entender isso brevemente nos próximos slides.

O Kafka é desenvolvido no Linkedin e depois se tornou parte do Projeto Apache.

Passe por isso

Lista de reprodução de vídeo tutorial do Hadoop

&

Série de blogs do Tutorial do Hadoop

aprender mais. Seu aprendizado deve estar alinhado com

Certificação Hadoop

.

Há uma grande diferença. Geralmente as pessoas fazem essas perguntas quando os dois parecem semelhantes. Não tenho certeza de qual resposta você espera disso. Então, eu vou abreviar.

  • O Hadoop é uma estrutura distribuída de código aberto usada para armazenar e processar big data. Enquanto o Kafka é um serviço de mensagens de código aberto.
  • Kafka é usado para transmitir dados no cluster Hadoop. Os dados são armazenados no HDFS e processados ​​usando o mapreduce ou outra estrutura de streaming do Hadoop.
  • Kafka usa o conceito de produtor e consumidor. O produtor coleta os dados em seu sistema de mensagens, que é particionado, a menos que o consumidor os consuma. Enquanto em outros sistemas de mensagens, os dados são perdidos se não consumidos.

Espero que ajude

O Kafka é um sistema de mensagens de publicação e assinatura, enquanto o Hadoop é um ecossistema (onde é possível implementar vários componentes de Big Data para processamento e armazenamento).

Em palavras simples, o Kafka é como um pipeline que coleta dados em tempo real e envia para o Hadoop. O Hadoop processa-o internamente e, de acordo com o requisito, atende a outros consumidores (painéis, BI, etc.) ou armazena-o para processamento adicional.

Hmm, acho que deveria ser

Kafka vs HDFS ou Kafka SDP vs Hadoop

para fazer uma comparação decente. Como o núcleo Kafka expõe APENAS uma abstração de armazenamento e é comparável ao HDFS, mas o Hadoop expõe uma abstração de armazenamento (HDFS) e uma abstração de processamento (MR) nativamente e outras estruturas de processamento não nativas por meio do YARN. O Kafka SDP, por outro lado, expõe uma espinha dorsal de mensagens, conectores e fluxos.

De qualquer forma, aqui está a minha opinião.

Se Dados for água, Kafka (núcleo) é uma mangueira e o Hadoop é uma combinação de um tanque de água (HDFS), uma bomba / motor de água (M / R), um sistema de monitoramento / alocação de água (YARN) e alguns outros truques habilidades para esguichar água sob demanda e assim por diante, tudo em um. Você pode comprar e anexar ferramentas diversas, como verificador de nível de água, etc., conforme desejar.

Agora, se fecharmos uma extremidade da mangueira enquanto alguma água ainda estiver fluindo, a água poderá ser potencialmente armazenada em uma mangueira, mas isso não a tornará um tanque de água.

É claro que se poderia dizer que é uma simplificação exagerada, mas que deve lhe dar a idéia.

Kafka (núcleo e SDP) é o que você deve pensar quando tiver casos de processamento de dados em movimento, também conhecido como processamento de fluxo. O Hadoop é o que você pensa quando você tem casos armazenando e processando grandes volumes de dados em repouso.