Qual é a diferença entre um data lake e uma plataforma de gerenciamento de dados?

Armazéns de dados e lagos de dados são dois tipos diferentes de repositórios de armazenamento de dados. Os data warehouses integram dados de várias fontes e os estruturam para relatórios de negócios. Os lagos de dados armazenam dados brutos, estruturados e não estruturados, de qualquer forma que a fonte de dados forneça. A visão geral a seguir define cada uma dessas estratégias e identifica diferenças fundamentais:

Principais diferenças entre um data warehouse e um data lake

Um data lake é um repositório de armazenamento que armazena grandes quantidades de dados estruturados e não estruturados, independentemente da forma que a fonte de dados fornecer até que seja necessária - ela armazena dados em sua forma original e os processa posteriormente sob demanda.

Um data warehouse é uma moderna plataforma de gerenciamento de dados que armazena dados históricos resumidos de muitos aplicativos diferentes. Pode ser considerada uma visão consolidada de um repositório de dados físico ou lógico coletado de vários sistemas - é um sistema que reúne dados de várias fontes diferentes dentro de uma organização para geração de relatórios e análises. Os relatórios criados a partir de consultas complexas em um data warehouse são usados ​​para tomar decisões de negócios.

Os data warehouses têm seu próprio significado, pois armazenam dados altamente processados: orientados ao assunto, integrados, variantes no tempo e não voláteis. Apesar dessas características de qualidade, os Data Warehouses foram superados pelo Data Lake em termos de capacidade e flexibilidade de armazenamento. O data lake como um grande repositório aceita todos os tipos de dados, estruturados, semiestruturados ou não estruturados.

Clique aqui para obter mais informações

Uma plataforma tradicional de gerenciamento de dados limita as perguntas que podem ser feitas sobre os dados, prescrevendo a seleção e a agregação de atributos para responder a perguntas que são conhecidas por serem valiosas antes do tempo. O processo de filtragem e agregação de dados significa que qualquer nova pergunta que possa surgir só poderá ser respondida se (por sorte) os atributos necessários tiverem sido mantidos no nível de granularidade necessário.

Por outro lado, um Data Lake contém o nível mais baixo de dados em sua forma original de um ou mais sistemas. O Data Lake pode ser usado para preencher data marts existentes ou um data warehouse e (mais importante) também pode ser usado para responder a quaisquer novas perguntas que surgirem no futuro.

A diferença entre um Data Lake e uma plataforma tradicional de Gerenciamento de Dados é a diferença entre vinculação tardia e avaliação ansiosa. Em um Data Lake, os dados são ingeridos sem cerimônia em um armazenamento distribuído como o HDFS, sem muita preocupação em garantir que os dados estejam no formato 'correto'. A idéia é que o formulário 'correto' seja descoberto através de muitas iterações ao longo do tempo. Por outro lado, uma plataforma tradicional de gerenciamento de dados exige que os dados geralmente se ajustem a um formulário bem definido. A metodologia tradicional é gastar muito design inicial construindo um modelo canônico universal. Os dados que são ingeridos também requerem um laborioso desenvolvimento de scripts ETL para se ajustar ao novo modelo. Os Data Lakes são mais ágeis e iterativos, enquanto a abordagem tradicional era mais como um modelo em cascata que estava em processo abrupto. Vejo:

Data Lakes e a Responsive 21st Century Corporation

Data Lakes e agilidade.