计算文本相似度

Posted on 2020-06-15 14:00 in NLP

词的相似度

作为一个NLP的门外汉, word2vec 算法只能看懂个大概,个人的理解就是假定一个词跟它周围的词是相关的,通过大量的数据可以训练出一个模型。

使用的话只用调用模型得出结果就行,训练模型的问题就交给大神去做了,而且目前有一些开源的。

目前使用的是 hanlp 开源的 https://github.com/hankcs/HanLP/wiki/word2vec

https://www.hankcs.com/nlp/word2vec.html

句子的相似度

句子的相似度可以把所有的词向量加起来再计算,目前也是使用 hanlp 开源的

https://zhuanlan.zhihu.com/p/37104535

https://github.com/shibing624/text2vec

文章的相似度

Google 提出的 samehash 算法,可以去搜索一下,对长文本的效果不错,对短文本的效果反而不太好。

nlp