A ciência de dados e o big data são iguais? existe alguma diferença entre eles ou ambos significam o mesmo?

A resposta simples é

NÃO

.

Por que ter dois termos diferentes, se ambos são iguais ???

Bem, para analisar as diferenças entre os dois, preciso incorporar mais um termo que também está intimamente relacionado com esses dois ... Para ser preciso, o terceiro membro é Análise de dados ... Agora é hora de identificar as diferenças entre esses três …

Data Science vs Big Data vs Análise de Dados:

Espero que isso seja mais do que suficiente para provar que os três são diferentes, embora todos se concentrem no single

DADOS

Aproveitando o poder dos dados !!!

Fundamentalmente, eles são muito diferentes da finalidade / intenção de uso.

Data Science é um campo para extrair informações e subsequentemente conhecimento dos dados e sistemas dentro de uma organização. Você pode procurar detalhes explicações aqui

Agora, quando falamos sobre Big Data (que é um tipo de conceito) e Hadoop (que é a estrutura para armazenar e analisar dados), precisamos entender que essa abordagem pode ser feita por alguns motivos.

  • Ter a capacidade de armazenar dados de maneira distribuída e usar técnicas de processamento para realizar o processamento paralelo. As técnicas de ciência de dados como o Spark ML também podem usar o armazenamento distribuído do Hadoop.
  • Use puramente o Hadoop como uma camada de armazenamento para fins de arquivamento e processamento limitado nesse estilo de processamento em lote ou puramente.
  • Quando os dados estiverem no HDFS, use outras técnicas de processamento além das ferramentas de ciência de dados [que são puramente para fins analíticos] como Hive, Pig etc. para obter informações dos dados.

Então, para resumir, eles são basicamente conceitos diferentes, mas se fundem em certo sentido, pois o objetivo de ambos é entender e analisar dados.

As ferramentas para os dois são diferentes, mas o armazenamento de dados para a Data Science seria de fato HDFS [Hadoop Distributed File System, que é a camada de armazenamento].

Faz sentido?

Suponho que você pensou que "ciência de dados" e "Big Data Hadoop" fossem duas coisas diferentes, mas na verdade são três. Data Science, Big Data e Hadoop têm significados diferentes.

Vamos supor que você é um aluno da 10ª classe. Você foi incumbido de encontrar a média de notas em cada disciplina pontuada por seus colegas de classe. Você tem 50 alunos em sua turma estudando 5 disciplinas cada. Encontrar a média não é ciência do foguete, então você faz tudo isso em uma planilha do Excel. Agora, seu professor solicita que você faça o mesmo cálculo para todas as seções A, B e C, de cerca de 150 alunos. A planilha do Excel é suficiente novamente. Agora, você quer saber quais seriam as notas médias para a Science obtidas por estudantes da 10ª classe em todo o país, que são cerca de 14.31.861 estudantes em 2016. Você não pode armazenar tantos dados em uma planilha do Excel para armazená-los. em um banco de dados como MySQL ou Oracle. Você executa uma consulta SQL para encontrar a média. Agora você está curioso para saber a tendência de como as médias mudaram desde os últimos 20 anos na Science para a classe 10, que é de cerca de 3000000 registros. Se você encontrasse a média de todas as 5 disciplinas e não apenas a ciência, estaria lidando com 30000000 x 5 registros. Os dados são grandes agora, também chamados de

"Big Data".

Big Data - conjuntos de dados extremamente grandes que podem ser analisados ​​computacionalmente para revelar padrões, tendências e associações, especialmente relacionadas ao comportamento e interações humanas.

Você provavelmente não deve armazenar tantos dados no MySQL ou Oracle e executar sua consulta SQL em milhões de registros. Eu nunca lidei com tantos dados em um banco de dados SQL, por isso não vou comentar sobre seu desempenho, mas usei o Hadoop para lidar com uma quantidade enorme de conjuntos de dados, muito maiores do que o banco de dados de alunos sobre o qual estamos falando. O Hadoop é uma estrutura que distribui os dados em vários sistemas para que todos os sistemas possam fazer cálculos em paralelo, aumentando assim a velocidade geral da computação, também chamada de Computação Distribuída.

O Hadoop possui seu próprio sistema de arquivos, que é um sistema de armazenamento de dados para Big Data.

A ciência de dados em termos leigos é uma ciência do entendimento do que fazer com os dados, grandes ou pequenos. Até agora, estávamos apenas tentando encontrar a média das pontuações, mas um cientista de dados iria além e procuraria maneiras de descobrir o que pode ser feito com a média. Para uma organização, ele os ajudará a tomar decisões de negócios e encontrar padrões que ajudem os chefes a tomar melhores decisões e alocar recursos para aumentar os lucros. A maioria dos cientistas de dados pode nem usar o Hadoop se não estiver lidando com Big Data, eles geralmente usam Rang ou Python para seus cálculos.

O Big Data é um conceito, o Hadoop é uma ferramenta. A Ciência de Dados é um campo da ciência da computação.

Não definitivamente NÃO.

Vamos discutir esse problema em três partes:

Data Science é uma especialização para resolver diferentes problemas usando métodos diferentes de Estatística, Combinatória, Matemática e Ciência da Computação etc.)

Big Data: Big Data em uma visão ampla é um conceito de manipulação de dados enormes (o termo enorme é relativo) fora dos métodos tradicionais.

Hadoop: O Hadoop é uma estrutura ou podemos dizer um ambiente que pode ser usado para gerenciar e analisar grandes conjuntos de dados usando diferentes ferramentas (PIG, HIVE, Scoop, Fume etc.)

Referências :

Tutorial do Hadoop

Ciência de dados

Big data