Quais são as diferenças entre id3, c4.5 e cart?
  • O ID3, ou Dicotomizador Iternativo, foi a primeira de três implementações da Árvore de Decisão desenvolvidas por Ross Quinlan (Quinlan, JR 1986. Indução de Árvores de Decisão. Mach. Learn. 1, 1 (março de 1986), 81-106.)
  • CART, ou árvores de classificação e regressão é frequentemente usado como um acrônimo genérico para o termo Árvore de Decisão, embora aparentemente tenha um significado mais específico. Em suma, a implementação do CART é muito semelhante à C4.5; a única diferença notável é que CART constrói a árvore com base em um critério de divisão numérica aplicado recursivamente aos dados, enquanto C4.5 inclui a etapa intermediária da construção de * conjuntos de regras * s.
  • C4.5, próxima iteração de Quinlan. Os novos recursos (versus ID3) são: (i) aceita recursos contínuos e discretos; (ii) lida com pontos de dados incompletos; (iii) resolve o problema de ajuste excessivo por meio da técnica bottom-up (muito inteligente), geralmente conhecida como "poda"; e (iv) pesos diferentes podem ser aplicados aos recursos que compõem os dados de treinamento. Destes, os três primeiros são muito importantes - e eu sugeriria que qualquer implementação de DT que você escolher tivesse todos os três. A quarta (ponderação diferencial) é muito menos importante

Além da resposta de Dennis (que pode ser encontrada na íntegra em

Diferentes algoritmos de árvore de decisão com comparação de complexidade ou desempenho

) Gostaria também de mencionar mais uma diferença. Como você provavelmente sabe, os algoritmos de aprendizado de máquina geralmente tentam minimizar algum tipo de função de custo (ou perda). Ao treinar uma árvore de decisão, ele precisa descobrir quais recursos são "mais importantes" para as classificações, para que possam ser verificados anteriormente na árvore. E ID3 e CART usam critérios diferentes (acho que funções de custo) para conseguir isso:

  • ID3 e C.4.5 usam Shannon Entropy para selecionar recursos com o maior ganho de informações como nós. Como exemplo, digamos que gostaríamos de classificar os animais. Você provavelmente faria perguntas mais gerais (como "É um mamífero") primeiro e, uma vez confirmado, continue com perguntas mais específicas (como "é um macaco"). Em termos de informações, as perguntas gerais do nosso exemplo de brinquedo oferecem mais informações, além do que você já sabe (que é um animal).
  • O CART usa Gini Impurity. Gini Impurity é uma medida da homogeneidade (ou "pureza") dos nós. Se todos os pontos de dados em um nó pertencerem à mesma classe, esse nó será considerado "puro". Portanto, minimizando a Gini Impurity, a árvore de decisão encontra os recursos para separar os dados da melhor maneira.

Uma árvore de decisão é um classificador que particiona dados recursivamente para formar grupos ou classes. Este é um algoritmo de aprendizado supervisionado que pode ser usado em dados discretos ou contínuos para classificação ou regressão. O algoritmo usado nas árvores de decisão é ID3, C4.5, CART, C5.0, CHAID, QUEST, CRUISE etc. A árvore de decisão consiste em nós que formam uma árvore enraizada, o que significa que é uma árvore direcionada com um nó chamado “Raiz” que não possui arestas recebidas. Todos os outros nós têm exatamente uma borda de entrada. Um nó com arestas de saída é chamado de nó interno ou de teste. Todos os outros nós são chamados de folhas

A divisão dos nós é decidida por algoritmos como ganho de informação, qui quadrado, índice de gini.

ID3

, ou Dicotomizador Iternativo, foi a primeira de três implementações da Árvore de Decisão desenvolvidas por Ross Quinlan

Ele cria uma árvore de decisão para os dados fornecidos de maneira descendente, iniciando a partir de um conjunto de objetos e uma especificação de

propriedades Recursos e informações.

cada nó da árvore, uma propriedade é testada com base na maximização do ganho de informações e na minimização da entropia, e os resultados são usados ​​para dividir o conjunto de objetos. Esse processo é feito recursivamente até que o conjunto em uma subárvore seja homogêneo (ou seja, contém objetos pertencentes à mesma categoria). O algoritmo ID3 usa uma pesquisa gananciosa. Ele seleciona um teste usando o critério de ganho de informações e nunca explora a possibilidade de escolhas alternativas.

Desvantagens

  • Os dados podem ter excesso de classificação ou classificação excessiva, se uma pequena amostra for testada.
  • Apenas um atributo de cada vez é testado para tomar uma decisão.
  • Não manipula atributos numéricos e valores ausentes.

CARRINHO

  • CART significa árvores de classificação e regressão. É caracterizado pelo fato de que ele constrói árvores binárias, ou seja, cada nó interno possui exatamente duas arestas de saída. As divisões são selecionadas usando o critério twoing e a árvore obtida é removida pela remoção de complexidade de custos. O CART pode lidar com variáveis ​​numéricas e categóricas e pode lidar facilmente com outliers.

Desvantagens

  • Pode dividir em apenas uma variável
  • Árvores formadas podem ser instáveis

C4.5

Versão aprimorada no ID 3 da Quinlan. Os novos recursos (versus ID3) são: (i) aceita recursos contínuos e discretos; (ii) lida com pontos de dados incompletos; (iii) resolve o problema de ajuste excessivo por meio da técnica bottom-up (muito inteligente), geralmente conhecida como "poda"; e (iv) pesos diferentes podem ser aplicados aos recursos que compõem os dados de treinamento.

Desvantagens

  • C4.5 constrói ramificações vazias com valores zero
  • O ajuste excessivo ocorre quando o modelo do algoritmo coleta dados com características incomuns, especialmente quando os dados são ruidosos.

A próxima evolução disso é C5.0.