计算中文文本相似度有哪些好用的算法?

常用的算法

  1. 基于词向量
  • 余弦相似度
  • 曼哈顿距离
  • 欧几里得距离
  • 明式距离(是前两种距离测度的推广),
  • 在极限情况下的距离是切比雪夫距离
  1. 基于字符的编辑距离
  • simhash
  • 共有字符数
  1. 基于概率统计
  • 杰卡德相似系数
  1. 基于词嵌入模型
  • word2vec/doc2vec

参考: