Dicionário de sinônimos de vetores

Dizer word2vec é decepcionante para a extração automatizada do dicionário de sinônimos é como dizer que um isqueiro é decepcionante para grelhar bifes.

Não é que o isqueiro seja fraco. Acontece que o isqueiro foi construído para um propósito totalmente diferente.

Eu nem tenho certeza de como você leu o artigo do word2vec e chegou à conclusão de que é a ferramenta ideal para inferir sinônimos.

Se você tem memória suficiente em sua máquina, ou pode definir os vetores, experimente o GoogleNews e os vetores treinados do Freebase fornecidos pelo Google em seu site Word2Vec. Alguns de seus trabalhos são incríveis, mas, na verdade, como uma ferramenta automatizada de criação de dicionário de sinônimos, é muito ruim. Ele acha 'legal' quase 'quente' porque eles ocorrem em contextos semelhantes: "Está legal hoje." "Está calor hoje", mas na verdade as duas palavras têm significados quase opostos. Tive o mesmo problema com alguns de meus próprios programas, e a melhor resposta parece ser filtrar o resultado por meio de algum dicionário de sinônimos existente, mesmo que seja um ruim. Talvez pudéssemos inicializar um bom dicionário de sinônimos dessa maneira, mas certamente há alguma outra maneira de fazer isso além de editar um manualmente.