自己实现文本相似度算法(余弦定理)
最近由于工作项目,需要判断两个txt文本是否相似,于是开始在网上找资料研究,因为在程序中会把文本转换成String再做比较,所以最开始找到了这篇关于 距离编辑算法 Blog写的非常好,受益匪浅。
于是我决定把它用到项目中,来判断两个文本的相似度。但后来实际操作发现有一些问题:直接说就是查询一本书中的相似章节花了我7、8分钟;这是我不能接受……
于是停下来仔细分析发现,这种算法在此项目中不是特别适用,由于要判断一本书中是否有相同章节,所以每两个章节之间都要比较,若一本书书有x章的话,这里需对比x(x-1)/2次;而此算法采用矩阵的方式,计算两个字符串之间的变化步骤,会遍历两个文本中的每一个字符两两比较,可以推断出时间复杂度至少为 document1.length × document2.length,我所比较的章节字数平均在几千~一万字;这样计算实在要了老命。
想到Lucene中的评分机制,也是算一个相似度的问题,不过它采用的是计算向量间的夹角(余弦公式),在google黑板报中的:数学之美(余弦定理和新闻分类) 也有说明,可以通过余弦定理来判断相似度;于是决定自己动手试试。
首相选择向量的模型:在以字为向量还是以词为向量的问题上,纠结了一会;后来还是觉得用字,虽然词更为准确,但分词却需要增加额外的复杂度,并且此项目要求速度,准确率可以放低,于是还是选择字为向量。
然后每个字在章节中出现的次数,便是以此字向量的值。现在我们假设:
章节1中出现的字为:Z1c1,Z1c2,Z1c3,Z1c4……Z1cn;它们在章节中的个数为:Z1n1,Z1n2,Z1n3……Z1nm;
章节2中出现的字为:Z2c1,Z2c2,Z2c3,Z2c4……Z2cn;它们在章节中的个数为:Z2n1,Z2n2,Z2n3……Z2nm;
其中,Z1c1和Z2c1表示两个文本中同一个字,Z1n1和Z2n1是它们分别对应的个数,
最后我们的相似度可以这么计算:
程序实现如下:(若有可优化或更好的实现请不吝赐教)
?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
public class CosineSimilarAlgorithm {
public static double getSimilarity(String doc1, String doc2) {
if (doc1 != null && doc1.trim().length() > 0 && doc2 != null
&& doc2.trim().length() > 0) {
Map AlgorithmMap = new HashMap();
//将两个字符串中的中文字符以及出现的总数封装到,AlgorithmMap中
for (int i = 0; i
char d1 = doc1.charAt(i);
if(isHanZi(d1)){
int charIndex = getGB2312Id(d1);
if(charIndex != -1){
int[] fq = AlgorithmMap.get(charIndex);
if(fq != null && fq.length == 2){
fq[0]++;
}else {
fq = new int[2];
fq[0] = 1;
fq[1] = 0;
AlgorithmMap.put(charIndex, fq);
}
}
}
}
for (int i = 0; i
char d2 = doc2.charAt(i);
if(isHanZi(d2)){
int charIndex = getGB2312Id(d2);
if(charIndex != -1){
int[] fq = AlgorithmMap.get(charIndex);
if(fq != null && fq.length == 2){
fq[1]++;
}else {
fq = new int[2];
fq[0] = 0;
fq[1] = 1;
AlgorithmMap.put(charIndex, fq);
}
}
}
}
Iterator iterator = AlgorithmMap.keySet().iterator();
double sqdoc1 = 0;
double sqdoc2 = 0;
double denominator = 0;
while(iterator.hasNext()){
int[] c = AlgorithmMap.get(iterator.next());
denominator += c[0]*c[1];
sqdoc1 += c[0]*c[0];
sqdoc2 += c[1]*c[1];
}
return denominator / Math.sqrt(sqdoc1*sqdoc2);
} else {
throw new NullPointerException(
" the Document is null or have not cahrs!!");
}
}
public static boolean isHanZi(char ch) {
// 判断是否汉字
return (ch >= 0x4E00 && ch
}
/**
* 根据输入的Unicode字符,获取它的GB2312编码或者ascii编码,
*
* @param ch
* 输入的GB2312中文字符或者ASCII字符(128个)
* @return ch在GB2312中的位置,-1表示该字符不认识
*/
public static short getGB2312Id(char ch) {
try {
byte[] buffer = Character.toString(ch).getBytes("GB2312");
if (buffer.length != 2) {
// 正常情况下buffer应该是两个字节,否则说明ch不属于GB2312编码,故返回'?',此时说明不认识该字符
return -1;
}
int b0 = (int) (buffer[0] & 0x0FF) - 161; // 编码从A1开始,因此减去0xA1=161
int b1 = (int) (buffer[1] & 0x0FF) - 161; // 第一个字符和最后一个字符没有汉字,因此每个区只收16*6-2=94个汉字
return (short) (b0 * 94 + b1);
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
return -1;
}
}
程序中做了两小的改进,以加快效率:
1. 只将汉字作为向量,其他的如标点,数字等符号不处理;2. 在HashMap中存放汉字和其在文本中对于的个数时,先将单个汉字通过GB2312编码转换成数字,再存放。
最后写了个测试,根据两种不同的算法对比下时间,下面是测试结果:
余弦定理算法:doc1 与 doc2 相似度为:0.9954971, 耗时:22mm
距离编辑算法:doc1 与 doc2 相似度为:0.99425095, 耗时:322mm
可见效率有明显提高,算法复杂度大致为:document1.length + document2.length。
原创blog,转载请注明http://my.oschina.net/BreathL/blog/42477
相关文章
- 人教版高中数学新课标目录
- 高中数学课本目录
- 人教版高中数学必修(1-5)目录
- 机器学习理论篇1:机器学习的数学基础
- 四川省高中数学新课程必修教材的解读与建议
- 单招考试大纲
- 分类算法总结
- 信息检索论文-文本表示模型
- 数字媒体技术导论-课后习题参考答案
高中数学新课标目录 核心提示:高中数学新课标目录介绍,这与原教材有了很大的不同,分为必修五个模块,选修五个模块. 必修一: 第一章 集合与函数概念 1.1 集合 1.2 函数及其表示 1.3 函数的基本性质 实习作业 小结 复习参考题 第二 ...
1.1 集合 :1.2 函数及其表示 :1.3 函数的基本性质 第二章 基本初等函数(Ⅰ) 2.1 指数函数 2.2 对数函数 2.3 幂函数 第三章 函数的应用 3.1 函数与方程 3.2 函数模型及其应用 第一章 空间几何体 1.1 空 ...
必修一(高一) 第一章 集合与函数概念 一 总体设计 二 教科书分析 1.1 集合 1.2 函数及其表示 1.3 函数的基本性质 实习作业 三 自我检测题 四 拓展资源 第二章 基本初等函数(Ⅰ) 一 总体设计 二 教科书分析 2.1 指数 ...
一.概述 我们知道,机器学习的特点就是:以计算机为工具和平台,以数据为研究对象,以学习方法为中心:是概率论.线性代数.数值计算.信息论.最优化理论和计算机科学等多个领域的交叉学科.所以本文就先介绍一下机器学习涉及到的一些最常用的的数学知识. ...
高中数学新课程必修教材的解读与建议(四川高中课改讲座九之1) 主讲人:钟炜(四川省自贡市荣县教研室主任) 时间:2010年12月8日 本文<高中数学新课程必修教材的解读与建议>分为四个版块: 一是高中数学新课程的课程结构与课程设 ...
一.考试范围与要求 (一)词汇 掌握常用单词的意义.固定搭配及用法:近义词在意义和用法上的差异:固定词组的特定含义等. (二)语法 1.词类 掌握名词.代词.形容词.副词.数词.动词及介词.冠词和连词的基本用法. 2.动词的时态 (1)了解 ...
分类算法 数据挖掘中有很多领域,分类就是其中之一,什么是分类, 分类就是把一些新得数据项映射到给定类别的中的某一个类别,比如说当我们发表一篇文章的时候,就可以自动的把这篇文章划分到某一个文章类别,一般的过程是根据样本数据利用一定的分类算法得 ...
文本表示模型 摘要:在互联网越来越发达的时代,如何从中快速有效地搜集信息,成为一个亟待解决的问题.而信息检索的一个关键就是建立高效的文本表示模型.本文主要讨论了信息检索.三种传统文本表示模型.及其中出现的问题. 关键词:信息检索 向量空间模 ...
数字媒体技术导论-习题参考答案 Chap1 P13~P14页 一填空题 1. 传递信息的载体 存储信息的的实体 2. 感觉媒体 表示媒体 显示媒体 存储媒体 传输媒体 3. 比特(bit ) 4. 数字化 交互性 趣味性 集成性 技术与艺术 ...