Além da resposta de Dennis (que pode ser encontrada na íntegra em
Diferentes algoritmos de árvore de decisão com comparação de complexidade ou desempenho
) Gostaria também de mencionar mais uma diferença. Como você provavelmente sabe, os algoritmos de aprendizado de máquina geralmente tentam minimizar algum tipo de função de custo (ou perda). Ao treinar uma árvore de decisão, ele precisa descobrir quais recursos são "mais importantes" para as classificações, para que possam ser verificados anteriormente na árvore. E ID3 e CART usam critérios diferentes (acho que funções de custo) para conseguir isso:
Uma árvore de decisão é um classificador que particiona dados recursivamente para formar grupos ou classes. Este é um algoritmo de aprendizado supervisionado que pode ser usado em dados discretos ou contínuos para classificação ou regressão. O algoritmo usado nas árvores de decisão é ID3, C4.5, CART, C5.0, CHAID, QUEST, CRUISE etc. A árvore de decisão consiste em nós que formam uma árvore enraizada, o que significa que é uma árvore direcionada com um nó chamado “Raiz” que não possui arestas recebidas. Todos os outros nós têm exatamente uma borda de entrada. Um nó com arestas de saída é chamado de nó interno ou de teste. Todos os outros nós são chamados de folhas
A divisão dos nós é decidida por algoritmos como ganho de informação, qui quadrado, índice de gini.
ID3
, ou Dicotomizador Iternativo, foi a primeira de três implementações da Árvore de Decisão desenvolvidas por Ross Quinlan
Ele cria uma árvore de decisão para os dados fornecidos de maneira descendente, iniciando a partir de um conjunto de objetos e uma especificação de
propriedades Recursos e informações.
cada nó da árvore, uma propriedade é testada com base na maximização do ganho de informações e na minimização da entropia, e os resultados são usados para dividir o conjunto de objetos. Esse processo é feito recursivamente até que o conjunto em uma subárvore seja homogêneo (ou seja, contém objetos pertencentes à mesma categoria). O algoritmo ID3 usa uma pesquisa gananciosa. Ele seleciona um teste usando o critério de ganho de informações e nunca explora a possibilidade de escolhas alternativas.
Desvantagens
CARRINHO
Desvantagens
C4.5
Versão aprimorada no ID 3 da Quinlan. Os novos recursos (versus ID3) são: (i) aceita recursos contínuos e discretos; (ii) lida com pontos de dados incompletos; (iii) resolve o problema de ajuste excessivo por meio da técnica bottom-up (muito inteligente), geralmente conhecida como "poda"; e (iv) pesos diferentes podem ser aplicados aos recursos que compõem os dados de treinamento.
Desvantagens
A próxima evolução disso é C5.0.