Oi
O CountVectorizer é usado para dados de texto que são Converter uma coleção de documentos de texto em uma matriz de contagens de tokens. Essa implementação produz uma representação esparsa das contagens.
Exemplo: Corpus = [… “A Apple faz bem à saúde”,… “Apple Apple Apple not not”,….]
vetorizador = CountVectorizer () X = vetorizador.fit_transform (corpus)
print (X.toarray ())
Ele imprimirá 1 para maçã na linha1 e 3 para na linha2 conforme a presença de maçã na respectiva linha.
[[1, 1, 1, 0, 0, 1, 1] [3, 0,0,1,0,0,0]….]
Um Hot Encoder: É usado para variável categórica. Gostar
País ———— Índia
Após o One Hot Encodering, ele alterará todos os valores distintos para a coluna e adicionará 1 ou 0 conforme sua presença na linha:
Country_India Country_UK Country_USA1 0 00 1 00 0 10 0 1
obrigado
Dhirendra Misra