Qual é a diferença entre gini impurity e entropy na decision tree?

Gini impureza e entropia são chamadas de critério de seleção para árvores de decisão. Essencialmente, eles ajudam a determinar o que é um bom ponto de divisão para nós raiz / decisão em árvores de classificação / regressão (os exemplos abaixo estão em uma árvore de classificação). As árvores de decisão são divididas no recurso e no ponto de divisão correspondente que resulta no maior ganho de informação (IG) para um determinado critério (gini ou entropia neste exemplo). Vagamente, podemos definir o ganho de informações como

IG = informações antes da divisão (pai) - informações após a divisão (filhos)

Para uma compreensão mais clara dos pais e filhos, consulte a árvore de decisão abaixo.

Uma fórmula mais adequada para a fórmula de ganho de informações está abaixo.

Como as árvores de classificação têm divisões binárias, a fórmula pode ser simplificada na fórmula abaixo.

Dois critérios comuns I, usados ​​para medir a impureza de um nó, são o índice de Gini e a entropia.

Para entender um pouco melhor essas fórmulas, a imagem abaixo mostra como o ganho de informações foi calculado para uma árvore de decisão com o critério Gini.

A imagem abaixo mostra como o ganho de informação foi calculado para uma árvore de decisão com entropia.

Não vou entrar em mais detalhes sobre isso, pois deve-se notar que diferentes medidas de impureza (índice de Gini e entropia)

geralmente produzem resultados semelhantes

. O gráfico abaixo mostra que o índice de Gini e a entropia são critérios de impureza muito semelhantes. Estou supondo que uma das razões pelas quais Gini é o valor padrão no scikit-learn (biblioteca Python) é que a entropia pode ser um pouco mais lenta de calcular (porque faz uso de um logaritmo).

Diferentes medidas de impureza (índice de Gini e entropia)

geralmente produzem resultados semelhantes

. Graças a

Pilha de ciência de dados

e

Sebastian Raschka

para a inspiração para este gráfico.

Se você quiser saber mais sobre como as árvores de decisão funcionam, sinta-se à vontade para clicar em

aqui para saber mais

.