Gini impureza e entropia são chamadas de critério de seleção para árvores de decisão. Essencialmente, eles ajudam a determinar o que é um bom ponto de divisão para nós raiz / decisão em árvores de classificação / regressão (os exemplos abaixo estão em uma árvore de classificação). As árvores de decisão são divididas no recurso e no ponto de divisão correspondente que resulta no maior ganho de informação (IG) para um determinado critério (gini ou entropia neste exemplo). Vagamente, podemos definir o ganho de informações como
IG = informações antes da divisão (pai) - informações após a divisão (filhos)
Para uma compreensão mais clara dos pais e filhos, consulte a árvore de decisão abaixo.
Uma fórmula mais adequada para a fórmula de ganho de informações está abaixo.
Como as árvores de classificação têm divisões binárias, a fórmula pode ser simplificada na fórmula abaixo.
Dois critérios comuns I, usados para medir a impureza de um nó, são o índice de Gini e a entropia.
Para entender um pouco melhor essas fórmulas, a imagem abaixo mostra como o ganho de informações foi calculado para uma árvore de decisão com o critério Gini.
A imagem abaixo mostra como o ganho de informação foi calculado para uma árvore de decisão com entropia.
Não vou entrar em mais detalhes sobre isso, pois deve-se notar que diferentes medidas de impureza (índice de Gini e entropia)
geralmente produzem resultados semelhantes. O gráfico abaixo mostra que o índice de Gini e a entropia são critérios de impureza muito semelhantes. Estou supondo que uma das razões pelas quais Gini é o valor padrão no scikit-learn (biblioteca Python) é que a entropia pode ser um pouco mais lenta de calcular (porque faz uso de um logaritmo).
Diferentes medidas de impureza (índice de Gini e entropia)
geralmente produzem resultados semelhantes. Graças a
Pilha de ciência de dadose
Sebastian Raschkapara a inspiração para este gráfico.
Se você quiser saber mais sobre como as árvores de decisão funcionam, sinta-se à vontade para clicar em
aqui para saber mais.