计算中文文本相似度有哪些好用的算法？

Posted on 2018-12-18 Edited on 2025-09-05

常用的算法

基于词向量

余弦相似度
曼哈顿距离
欧几里得距离
明式距离（是前两种距离测度的推广），
在极限情况下的距离是切比雪夫距离

基于字符的编辑距离

simhash
共有字符数

基于概率统计

杰卡德相似系数

基于词嵌入模型

word2vec/doc2vec

参考：

漫谈：机器学习中距离和相似性度量方法