Qual é a diferença entre a codificação one-hot e um countvectorizer?

Oi

O CountVectorizer é usado para dados de texto que são Converter uma coleção de documentos de texto em uma matriz de contagens de tokens. Essa implementação produz uma representação esparsa das contagens.

Exemplo: Corpus = [… “A Apple faz bem à saúde”,… “Apple Apple Apple not not”,….]

vetorizador = CountVectorizer () X = vetorizador.fit_transform (corpus)

print (X.toarray ())

Ele imprimirá 1 para maçã na linha1 e 3 para na linha2 conforme a presença de maçã na respectiva linha.

[[1, 1, 1, 0, 0, 1, 1] [3, 0,0,1,0,0,0]….]

Um Hot Encoder: É usado para variável categórica. Gostar

País ———— Índia

Após o One Hot Encodering, ele alterará todos os valores distintos para a coluna e adicionará 1 ou 0 conforme sua presença na linha:

Country_India Country_UK Country_USA1 0 00 1 00 0 10 0 1

obrigado

Dhirendra Misra