Diferença entre aprendizado supervisionado e não supervisionado

Algoritmos Supervisionados

Por exemplo: "Preciso começar a prever quando os usuários cancelarão suas assinaturas".

Observe que a saída do seu modelo já está definida: “o usuário X cancelará sua assinatura”. O que você talvez ainda não saiba é como entender quais usuários cancelarão. Portanto, você pode usar um conjunto de dados existente para "treinar" um modelo para prever esse aspecto específico do usuário. O treinamento do modelo geralmente usa parte dos dados para "aprender" e parte dos dados para validar e medir a precisão do modelo.

Por exemplo, se você tiver 10.000 histórico de uso do usuário. Destes, talvez 5.000 foram cancelados e 5.000 ainda estão usando seu produto. Portanto, o que você pode fazer é obter dados de 4.500 usuários que cancelaram e 4.500 de usuários ainda usando o produto (dados de 9.000 usuários no total). Treine seu modelo com esses dados, deixando "ver" quais cancelados e quais estão sendo usados. Depois que seu modelo é treinado, está pronto para começar a prever, então agora você pode alimentar seu modelo com os dados dos 1.000 usuários que você deixou de fora, exceto que não permitirá que o modelo veja quais cancelados e quais não. O modelo fará o melhor para prever o status do usuário e você poderá comparar com o valor real. Se dentre os 1.000 usuários, o modelo previu corretamente 891, o modelo tem uma precisão de 89,1%.

Algoritmos não supervisionados

Com algoritmos não supervisionados, você ainda não sabe o que deseja sair do modelo ainda. Você provavelmente suspeita que deve haver alguns tipos de relacionamentos ou correlação entre os dados que você possui, mas os dados são muito complexos para tentar adivinhar. Portanto, nesses casos, você normaliza seus dados em um formato que faça sentido para comparar e, em seguida, deixa o modelo funcionar como é mágico e tenta encontrar alguns desses relacionamentos. Uma das características especiais desses modelos é que, embora o modelo possa sugerir maneiras diferentes de categorizar ou ordenar seus dados, cabe a você fazer mais pesquisas sobre eles para descobrir algo útil. Você pode pensar nisso como aumentar seus dados com informações sobre relacionamentos internos, mas cabe a você entender essas novas informações.

Por exemplo, após o processamento de todos os dados relacionados aos usuários de todos os seus produtos com um algoritmo não supervisionado, pode haver uma maneira de agrupar seus usuários em 2 grupos. Após inspecionar e comparar esses dois grupos, você pode perceber que o grupo A está em uma localização geográfica e o grupo B em outro. Se você pode agir com base nessa segmentação específica dos dados, é você quem decide e, se não, talvez possa remover ou reorganizar os dados sobre a localização do usuário para forçar uma segmentação diferente.