Onde estão as lacunas no software de ciência de dados?

[Publicado originalmente em 2015]

Você precisa encontrar maneiras de obter dados grandes, feios e pesados ​​e obter algo significativo deles de uma maneira que seja mais rápida e melhor do que outras pessoas fizeram.

Como você observa, há um belo software disponível para cientistas de dados. O problema é que quase nenhum software resolve os problemas mais difíceis. Na medida em que o software foi escrito para resolver os problemas mais difíceis, ele fica preso nas empresas de criação de dados. Eles estão tentando usá-lo para obter vantagens competitivas.

Quais são os problemas mais difíceis? Eles têm a ver com extração de significado de escala via leitura de máquina e vários tipos de reconhecimento, maneiras automatizadas de ajudar na preparação de dados, integração, detecção de correlação, inferências, consistência semântica ...

Pense na base da pirâmide do entendimento. Na base está o reconhecimento. Ensinar máquinas a reconhecer as coisas é um enorme desafio, e as empresas estão apenas conseguindo treinar máquinas para fazer uma peça muito pequena de cada vez.

Uma das questões fundamentais é o próprio reconhecimento de dados. Como uma peça se encaixa com a outra? Essa é uma grande perda de tempo. Alguns que estudaram o tópico da ciência de dados estimaram que os cientistas gastam 70 a 80% mais do seu tempo na preparação de dados mundanos - não um bom uso do tempo. Muitos fornecedores de software de preparação de dados parecem assumir que os dados tabulares são tudo e tudo. Não é. Esse é apenas um ponto de partida. Os dados do gráfico ainda estão em sua infância,

[Atualizado em 13/3/20]

tecnologia de conhecimento gráfico

está melhorando aos trancos e barrancos.

É aí que está a promessa, porque os gráficos podem modelar a realidade com maior fidelidade e mais precisão 3D em escala do que as tabelas jamais serão.

O Gartner fez um webcast em 4/11/2014 e mencionou essas ferramentas de preparação de dados orientadas ao Hadoop:

AlteryxClearStoryPaxataTamrTrifactaWaterlineIBMInformaticaTalendTeradata

Várias ferramentas nesta categoria estão ficando mais inteligentes com a ajuda de técnicas de PNL, como extração de entidades e relacionamentos, indexação semântica latente, reconhecimento estatístico de padrões e similares. Isso sem mencionar o que o reconhecimento de padrões baseado em aprendizado profundo pode ser capaz de fazer.

Depois, há o ângulo humano, a capacidade de reconhecimento humano de crowdsourcing que as máquinas não serão capazes de reunir em nossas vidas, se é que alguma vez. Empresas como a Tagasausis são especialistas em motivar as pessoas a marcar imagens com a ajuda do assistente de máquina. Essa mesma habilidade será essencial em qualquer quadrante principal de reconhecimento. Humanos e máquinas precisam trabalhar juntos em ciclos de feedback gigantescos para resolver problemas.

Alguns dos melhores e mais brilhantes cientistas da computação das empresas de web de maior sucesso do mundo, como Google, Apple, Baidu e Facebook, focaram-se no aprendizado de máquina não supervisionado, porque isso promete aumentar o reconhecimento. Isso é algo difícil de fazer, que levou décadas e apenas o poder de processamento bruto ao longo das linhas de farms de 8 bilhões de GPUs de transistor mais farms de memória está possibilitando agora, em pequena escala.

Você precisa analisar vários dados do conjunto de treinamento para tornar isso possível. Onde você consegue os conjuntos de treinamento? Pessoas como o Google exploram todos os vídeos de gatos do YouTube apenas para reconhecer rostos de gatos, para que possam aprender como começar a reconhecer outras coisas. Você não tem como obter esse volume de vídeos de gatos. Sem chance. O usuário do YouTube gera os dados que o Google precisa. Está fornecendo grãos para o moinho de aprendizado profundo.

Como a pesquisa de um professor de Toronto revolucionou a inteligência artificial | Toronto Star

Esse é um grande benefício para o Google e uma enorme barreira para a entrada de outros.

Professores como Hinton, LeCun e Bengio fizeram o trabalho da sua vida. Mas ainda há uma paisagem enorme por explorar, lugares intocados.

Em algum lugar por aí, existem algumas pessoas (treinadas como cientistas reais) que podem dar uma contribuição nessa área, em um nicho além do que as empresas de criação de dados (também conhecidas como empresas de redes sociais) estão prestes a fazer. Você teria que encontrar um punhado e se aliar com as pessoas na periferia que serão importantes e farão valer a pena trabalhar com você. Suponho que talvez sua contribuição esteja do lado do UX? Difícil de saber.

Mas o verdadeiro desafio não é apenas criar uma interface bonita ou ajudar as pessoas a mexer com linhas e colunas em uma planilha do Excel; esse tipo de coisa não compensa mais e já foi feito até a morte. Está fazendo com que muitos e muitos dados mudos, feios e pesados ​​falem conosco quando não eram capazes antes. Parte disso é descobrir as partes de um gráfico que importam, para que você possa ignorar o resto. A visualização de gráficos ainda é difícil de se dar bem, a propósito.

Seria tremendamente útil se você soubesse mais sobre a paisagem que existe. Alguém sabe onde estão as lacunas mais promissoras nessa matriz? Você sabe onde estão as fraquezas? Se você se importa o suficiente, você faz o trabalho braçal. Você precisará saber o suficiente para sentir a lacuna que deseja explorar mais. As pessoas não serão capazes de lhe dar a resposta.

[Gráfico atualizado em 13/3/2020]

Matt Turck et al.,

Um ano turbulento: o cenário de dados e IA de 2019

Esperar que essa mesa dê algumas idéias, de qualquer maneira. Muitos cientistas de dados precisarão de ajuda com seu UX.