Qual é a diferença entre um analista de dados e um cientista de dados?

Vi o termo cientista de dados aplicado a funções que passaram de "alta experiência em SQL" a "preparar relatórios do Excel para executivos". Naturalmente, não concordo com nenhum deles, mas, por outro lado, não acho que exista uma visão unificada do que é um cientista de dados.

Na minha opinião, se você pensa em um espectro que vai da engenharia aos negócios, os engenheiros de dados estão do lado da engenharia, os cientistas de dados do meio e os analistas de dados do lado dos negócios. Sua linguagem e ferramentas se sobrepõem consideravelmente, especialmente para o cientista de dados.

Para ser sincero e honesto, um cientista de dados é um analista de dados. A diferença, a meu ver, são as ferramentas e a saída. Para ilustrar melhor, usarei o exemplo do Miniclip:

  • Um analista de dados ou jogos do Miniclip é alguém que analisa nossos jogos e os jogadores de nossos jogos. Os analistas de jogos realizam análises ad-hoc, realizam experimentos e são responsáveis ​​pelas operações diárias de todas as análises de jogos de seus jogos. Sua saída vem na forma de painéis e relatórios. Sua formação é matemática ou ciências. Suas ferramentas são R e SQL e envolvem-se com grandes dados diariamente. Um cientista de dados do Miniclip é alguém que usa nossos dados para criar produtos que não seriam possíveis de serem criados por ferramentas padrão. Eu chamo esses "produtos de dados". Eles são interativos, permitindo que os usuários comerciais se envolvam com os dados de maneiras que normalmente não podem, ou automatizados, o que geralmente significa modelos preditivos de aprendizado de máquina. As ferramentas são muito mais orientadas para a engenharia, Python e CLI são usadas, mas R e SQL também estão presentes.

Isso não significa necessariamente que os analistas de dados não criem produtos de ciência de dados. Eles fazem! Mas não é sua principal responsabilidade. O mesmo se aplica aos nossos engenheiros de dados. Nosso engenheiro de dados líder é provavelmente o nosso cientista de dados mais experiente no momento em que escrevo isso. Da mesma forma, isso não significa que os cientistas de dados não executem análises ad-hoc ... novamente ... eles fazem! mas geralmente com o objetivo de apoiar o desenvolvimento de produtos de ciência de dados.

Vi o termo cientista de dados aplicado a funções que passaram de "alta experiência em SQL" a "preparar relatórios do Excel para executivos". Naturalmente, não concordo com nenhum deles, mas, por outro lado, não acho que exista uma visão unificada do que é um cientista de dados.

Na minha opinião, se você pensa em um espectro que vai da engenharia aos negócios, os engenheiros de dados estão do lado da engenharia, os cientistas de dados do meio e os analistas de dados do lado dos negócios. Sua linguagem e ferramentas se sobrepõem consideravelmente, especialmente para o cientista de dados.

Para ser sincero e honesto, um cientista de dados é um analista de dados. A diferença, a meu ver, são as ferramentas e a saída. Para ilustrar melhor, usarei o exemplo do Miniclip:

  • Um analista de dados ou jogos do Miniclip é alguém que analisa nossos jogos e os jogadores de nossos jogos. Os analistas de jogos realizam análises ad-hoc, realizam experimentos e são responsáveis ​​pelas operações diárias de todas as análises de jogos de seus jogos. Sua saída vem na forma de painéis e relatórios. Sua formação é matemática ou ciências. Suas ferramentas são R e SQL e envolvem-se com grandes dados diariamente. Um cientista de dados do Miniclip é alguém que usa nossos dados para criar produtos que não seriam possíveis de serem criados por ferramentas padrão. Eu chamo esses "produtos de dados". Eles são interativos, permitindo que os usuários comerciais se envolvam com os dados de maneiras que normalmente não podem, ou automatizados, o que geralmente significa modelos preditivos de aprendizado de máquina. As ferramentas são muito mais orientadas para a engenharia, Python e CLI são usadas, mas R e SQL também estão presentes.

Isso não significa necessariamente que os analistas de dados não criem produtos de ciência de dados. Eles fazem! Mas não é sua principal responsabilidade. O mesmo se aplica aos nossos engenheiros de dados. Nosso engenheiro de dados líder é provavelmente o nosso cientista de dados mais experiente no momento em que escrevo isso. Da mesma forma, isso não significa que os cientistas de dados não executem análises ad-hoc ... novamente ... eles fazem! mas geralmente com o objetivo de apoiar o desenvolvimento de produtos de ciência de dados.

Vi o termo cientista de dados aplicado a funções que passaram de "alta experiência em SQL" a "preparar relatórios do Excel para executivos". Naturalmente, não concordo com nenhum deles, mas, por outro lado, não acho que exista uma visão unificada do que é um cientista de dados.

Na minha opinião, se você pensa em um espectro que vai da engenharia aos negócios, os engenheiros de dados estão do lado da engenharia, os cientistas de dados do meio e os analistas de dados do lado dos negócios. Sua linguagem e ferramentas se sobrepõem consideravelmente, especialmente para o cientista de dados.

Para ser sincero e honesto, um cientista de dados é um analista de dados. A diferença, a meu ver, são as ferramentas e a saída. Para ilustrar melhor, usarei o exemplo do Miniclip:

  • Um analista de dados ou jogos do Miniclip é alguém que analisa nossos jogos e os jogadores de nossos jogos. Os analistas de jogos realizam análises ad-hoc, realizam experimentos e são responsáveis ​​pelas operações diárias de todas as análises de jogos de seus jogos. Sua saída vem na forma de painéis e relatórios. Sua formação é matemática ou ciências. Suas ferramentas são R e SQL e envolvem-se com grandes dados diariamente. Um cientista de dados do Miniclip é alguém que usa nossos dados para criar produtos que não seriam possíveis de serem criados por ferramentas padrão. Eu chamo esses "produtos de dados". Eles são interativos, permitindo que os usuários comerciais se envolvam com os dados de maneiras que normalmente não podem, ou automatizados, o que geralmente significa modelos preditivos de aprendizado de máquina. As ferramentas são muito mais orientadas para a engenharia, Python e CLI são usadas, mas R e SQL também estão presentes.

Isso não significa necessariamente que os analistas de dados não criem produtos de ciência de dados. Eles fazem! Mas não é sua principal responsabilidade. O mesmo se aplica aos nossos engenheiros de dados. Nosso engenheiro de dados líder é provavelmente o nosso cientista de dados mais experiente no momento em que escrevo isso. Da mesma forma, isso não significa que os cientistas de dados não executem análises ad-hoc ... novamente ... eles fazem! mas geralmente com o objetivo de apoiar o desenvolvimento de produtos de ciência de dados.

Normalmente, separamos as funções de dados em três posições distintas, mas sobrepostas; O analista de dados, cientista de dados e engenheiro de dados.

O analista de dados normalmente realiza consultas em relação a novos dados para encontrar tendências importantes para a organização e ajudar a preparar dados para os cientistas de dados. Os analistas de dados geralmente são muito bons em SQL, além de conhecer as principais métricas que uma organização considera importantes. Eles também podem escrever scripts e produzir visuais intuitivos.

O Data Scientist tem como principal tarefa criar modelos usando o aprendizado de máquina. Espera-se que esses modelos engendram o software de uma organização com recursos do produto que preveem e explicam; tornando os aplicativos adaptáveis. A qualidade dos modelos de um cientista de dados depende diretamente de quão bem eles entendem e preparam os dados; portanto, eles trabalharão com o analista de dados quando se trata de entender e preparar dados para construir modelos melhores.

O engenheiro de dados pega o que é criado no "laboratório" e ajuda a colocá-lo em produção. Eles trabalham com cientistas de dados para garantir que a engenharia implementada lide com os modelos de aprendizado de máquina corretamente (quanto os modelos precisam ser dimensionados, como os modelos são treinados, como os modelos são mantidos atualizados etc.). Em algumas empresas, os engenheiros de dados também trabalharão com analistas de dados para garantir que a ingestão e a conversão de dados levem em conta as métricas corretas, das fontes corretas etc.

Todas as três funções ajudam a suportar a conversão de dados brutos em recursos implantados nos produtos. Aqui está uma comparação geral de algumas habilidades essenciais, mas lembre-se de que todos os indivíduos de uma equipe variarão em termos de pontos fortes e foco.