Redshift vs spark

Deixe-me fazer uma analogia. Qual é o melhor, uma máquina de lavar louça ou uma geladeira? Qual deles você deve escolher? Ambos são aparelhos elétricos, mas servem a propósitos diferentes. Definir qual é o melhor depende se você deseja lavar a louça ou refrigerar alimentos e bebidas.

É a mesma coisa para Spark e Redshift.

O Spark é um mecanismo de processamento de dados capaz de lidar com processos complexos de dados na memória, como aprendizado de máquina e streaming de dados.

Redshift é um data warehouse distribuído em larga escala.

Tanto quanto eu sei (nenhuma experiência prática minha), o Spark é capaz de fornecer consultas tabulares de SQL, como Redshift, mas realmente brilha como um mecanismo de processamento de dados na memória.

Você deve usar os dois? Depende dos seus casos de uso. Por exemplo, usamos Redshift massivamente no Miniclip. É o data warehouse central das equipes sob BI. Apenas alguns dias atrás, eu estava discutindo com alguns de meus colegas sobre um projeto em potencial que envolvia algoritmos de aprendizado de máquina em tempo real e imediatamente o Spark surgiu como uma possibilidade.

Qual é melhor? Nenhum. Podemos construir um caso a favor do Spark, admito. Se ele faz o que faz e pode atender às necessidades de consulta, pode-se argumentar que é melhor. Mas, até eu mesmo tentar, continuo com a noção de que eles servem a diferentes casos de uso e que os casos de uso determinam a ferramenta a ser usada.