新颖的无监督特征选择方法
第39卷 第3期 电 子 科 技 大 学 学 报 V ol.39 No.3
of University of Electronic Science and Technology of China May 2010 2010年5月 Journal
新颖的无监督特征选择方法
朱颢东1,2,3,李红婵1,钟 勇2,3
(1. 郑州轻工业学院计算机与通信工程学院 郑州 450002; 2. 中国科学院成都计算机应用研究所 成都 610041;
3. 中国科学院研究生院 北京 石景山区 100039)
【摘要】针对有监督特征选择方法因为需要类信息而无法应用于文本聚类的问题,提出了一种新的无监督特征选择方法:结合文档频和K-Means 的特征选择方法。该方法首先使用文档频进行无监督特征初选,然后再通过在不同K-Means 聚类结果上使用有监督特征选择方法来实现无监督特征选择。实验表明该方法不仅能够成功地选择出最为重要的—小部分特征,而且还能提高聚类质量。
关 键 词 分类; 聚类算法; 文档频; 特征选择; K-Means
中图分类号 TP301.6 文献标识码 A doi:10.3969/j.issn.1001-0548.2010.03.019
New Unsupervised Feature Selection Method
ZHU Hao-dong1,2,3, LI Hong-chan1, and ZHONG Yong2,3
(1.School of Computer and Communication Engineering, Zhengzhou University of Light Industry Zhengzhou 450002;
2. Chengdu Institute of Computer Application, Chinese Academy of Sciences Chengdu 610041; 3. The Graduate School of the Chinese Academy of Sciences Shijingshan Beijing 100039)
Abstract Due to unavailability of class label information, supervised feature selection methods can not be applied to text clustering. In this case, a new unsupervised feature selection method combined Document Frequency with K-Means is proposed. The method firstly employs document frequency to select initial unsupervised features, and then brings into unsupervised feature selection by means of mainly performing effective supervised feature selection methods on different K-Means clustering results. Experimental results show that the new method can not only successfully select out the best small part of features, but also can significantly improve clustering performance.
Key words classification; clustering algorithms; document frequency; feature selection; K-Means
监督特征选择所得到的聚类结果,而且还优于任何有监督特征选择方法在文本分类中得到了广泛
一种无监督特征选择所得到的聚类结果。 的应用,例如IG 和CHI 两种高效的有监督特征选择
方法能移走文本中多达98%的单词而且还能不降低
1 几种无监督特征选择算法
文本分类的性能[1]。文献[1]系统地研究了用于文本
在文本聚类中最为常用的几种无监督特征选择聚类的无监督特征选择方法,通过对文档频数、单
方法有文档频、单词权、单词熵和单词贡献度[2],词权、单词熵等多种无监督特征方法进行对比分析,
下面对它们做一下简单介绍,具体请参考文献[2]。 发现这些无监督特征选择方法在不降低聚类性能的
1.1 文档频(DF) 前提下通常只能移走90%左右的单词,如果再移走
文档频(document frequency, DF)是最易理解的更多的单词,文本聚类的性能就会急剧下降。因此,
一种无监督特征选择方法。某个词的文档频是在整用于文本聚类的无监督特征选择仍是一个亟待进一
个文本集中出现该词的文本数。文档频的理论前提步研究的问题。
是:词在某个类中出现次数过多或过少对问题是无为此,本文提出了一个基于文档频和K-Means
贡献的,删除这些单词对聚类的结果不但没有负面的无监督特征选择方法,该方法使用分类领域的有
影响,而且还可能会提高聚类结果,尤其是在那些监督特征选择方法解决文本聚类领域的无监督特征
稀单词恰好是噪声单词的情况[1]。 选择问题。实验结果表明该方法不但能得到使用有收稿日期:2008 − 09 − 17;修回日期:2009 − 03 − 26
基金项目:四川省科技计划项目(2008GZ0003);四川省科技攻关项目(07GG006-019)
作者简介:朱颢东(1980 − ),男,博士,主要从事软件过程技术与方法、文本挖掘和智能信息处理方面的研究.
第3期 朱颢东 等: 新颖的无监督特征选择方法 413
文档频的优点在于它速度十分快,其时间复杂度O (n ) 同文本数成线性关系,因此非常适合于海量文本数据集的特征选择[3]。 1.2 单词权(TS)
文献[4]提出的单词权(term strength, TS)被用于删除对文本检索没有贡献的单词。该方法的主要思想是:单词在相关的文本中出现的频率越高,在不相关的文本中出现的频率越低,该词的重要性越大。
在单词权方法执行过程中,由于要计算所有文本对之间的相似度,因此,该算法的时间复杂度较高,最低为O (n 2) 。不过,单词权不依赖于类信息,是一种无监督的特征选择算法,所以能用于文本聚类。 1.3 单词熵(EN)
文献[5]提出的单词熵(entropy-based feature ranking ,EN) 是专门用于聚类问题的特征选择方法。该方法的基本思想是:不同的单词对数据的结构影响不同,单词重要性越大对数据的结构影响也就越大。该方法的缺点在于其时间复杂度太高,为O (m ×n 2) ,作用于海量数据时性能十分低。 1.4 单词贡献度(TC)
文献[6]提出的单词贡献度,其基本思想是:单词对整个文本数据集相似性的贡献程度越大其重要性也就越大,即有:
TC (t ) =
∑f (t , d ) ×f (t , d ) (1)
i
j
i ≠j
式中 f (t , d ) 表示单词t 在文档d 中的权重,该权重通常由该单词词频的对数乘以该单词的文档频,并进行归一化处理而获得[7]。文档频的使用增强了文档频低的单词的贡献,同时削弱了文档频较高的单词的贡献。通过进一步分析式(1)发现:单词的文档频越高其被累加的次数也就越多,从而平衡了单词权重和单词文档频之间的矛盾,那些只出现在1个文本中和出现在所有文本中的单词的贡献度都将为0,而那些相对出现较多且具有较高权重的单词的贡献度较大。
2 无监督特征选择方法思想
有监督特征选择在文本分类中得到了较为成功的应用,特别是IG 和CHI 两种有监督特征选择方法能移走文本中多达98%的单词而且还能略微提高文本分类的性能[8-9]。但是,有监督特征选择却因为依赖类信息而很少地被应用于文本聚类[10],即使把它们应用于文本聚类,它们也只能在不降低文本聚类性能的前提下最多移走90%左右的单词,并且随着
移走更多的单词文本聚类的性能会急剧降低[3]。在这种情况下,就很自然地产生了一个疑问:如果将那些在文本分类中被成功应用的有监督特征选择方法用于文本聚类,是否也能较大程度地提高文本聚类的性能?文献[6]做了一组较为理想的实验。在实验中事先查看了文档的类别信息,然后再使用IG 和CHI 两种有监督的特征选择方法进行特征选择。实验结果表明该两种有监督特征选择方法不但能够移走高达98%的单词而且还能持续提高文本聚类的 性能。
有监督特征选择无法直接应用于文本聚类,因为该类方法需要依赖于文档的类别信息,而文档的类别信息正是文本聚类所要解决的问题。这似乎是个矛盾,但是这种矛盾传却达了一个新的启发信息:能否在聚类的结果上使用现存的有监督特征选择方法,然后再在无监督特征选择的基础上进行重新聚类? 本文试图证明该问题。
文献[2]表明:文档频在删除90%单词时,它的性能与IG 和CHI 的性能相当,效率十分高。为此,本文在初始聚类特征选择时选用该方法。由于在众多聚类算法中,K-Means 算法过程简单、易理解,因此本文使用该算法聚类。对于将要使用的有监督特征选择方法,本文选择降维效果较好的IG 方法。
根据上面的选择,本文进行了一次实验,其过程为:首先利用文档频数在准备聚类的文档集上进行特征选择,然后再利用K-Means 算法进行多次不同的聚类,紧接着再在每一个聚类结果上使用IG 进行特征选择并再次进行聚类。该过程可以循环多次,直至达到满意的聚类效果。从实验结果发现再次聚类的结果几乎完全好于原始的聚类结果,而且当原始聚类的结果越好,聚类结果也就越接近理想的分类结果,在其基础上使用有监督特征选择方法选择出来的特征也就越接近于理想情况下使用相同方法所选择出来的特征,进而再次聚类的结果也就越好。
然而,在实际执行的过程中面临很大的问题:(1) 对待聚类的海量文档来说,具体聚类成多少个类别很难设定;(2) 各类别文档在大多数情况下分布是极不均衡的,有的类别文档数可能很大,而有的类别文档数又可能很小,甚至小到可以作为噪声处理。在该情况下,每个聚类结果都具有很大的不确定性,它们可能把一个大类分割成很多小类,也很可能把很多小类聚合成一个大类,而目前的各种方法又很难确定哪一个聚类结果更接近实际的分类。因此在单次聚类结果上进行的特征选择也具有不确定性,
414 电 子 科 技 大 学 学 报 第39卷
选出的特征集质量高就会较大提高聚类性能,反之就会降低聚类性能。
为了解决该两个问题,文献[11]突破K-Means 算法的限制,提出了一种较好的方法,该方法通过合并在不同初始条件下产生的多个不同K-Means 聚类结果得到最后的聚类结果,不但能够有效地消除单次K-Means 聚类结果的随机性,而且还能够发现任意形状的簇。受该方法的启发,发现K-Means 算法所得到的解是一个局部最优解,它能从不同角度刻画数据的分布规律,不同的解之间多多少少都存在一种互补和加强的关系,因此,通过合并在不同K-Means 聚类结果上所选择的特征集,可以很好地消除在单次聚类结果上进行特征选择的随机性。因此提出了一种新的用于聚类的无监督特征选择方法——结合文档频和K-Means 的特征选择方法。该方法首先使用文档频进行特征初选,然后再通过指定不同的K 值和初始点获得不同的K-Means 聚类结果,紧接着再在不同聚类结果上使用IG 获得特征子集,并把各特征子集合并获得最终的特征集,最后对所得的特征集进行微调以突出那些类区分能力较大的特征,并把调整后的特征子集作为最终的特征集。
之所以在最后加一个特征调整模块,主要是因为不同的词对分类的贡献是不同的,例如名词的分类能力就比助词的强。对某些文档向量进行调整时须突出分类重要词,调整的方法为:按一定比例降低非重要词所占比重。调整方法的特点为:(1) 突出分类重要词和文档本质意义;(2) 调整方法简单易行,只要扫描一遍文档词向量即可。
作为k ;
(2) 从特征集Q 中随机选择k 个初始中心点,并依次进行k-Means 聚类,得到类集C ;
(3) 以类集C 为基础,利用特征选择方法IG 进行特征选择,得到特征子集H ;
(4) P =P +H ; Endfor ;
步骤5:对特征集P 进行微调,以突出哪些贡献较大的特征词,然后输出调整后的特征集P 。
从方法流程上看,该方法相当于一个适用于聚类领域的特征选择系统框架,在步骤的3中可以用其它任何有监督特征选择方法代替IG 方法。当然步骤4的(1)和步骤4的(2)也可以用其他聚类方法代替,之所以用K-Means 是因为该聚类方法简单易理解。总的来说本文提供的是一种适用于文本聚类领域的特征提取框架。
4 实验验证
实验数据选择复旦大学计算机信息与技术系国际数据库中心自然语言处理小组构建的中文文本分类语料库。分词时采用的是中科院计算所的开源项目“汉语语法分析系统ICTCLAS ”系统。之所以选择有类别信息的语料库,是为了聚类后有个对比。分别使用文档频(可视为M =0)和本节提出的方法并使用k-Means 算法进行聚类,其中本文方法进行了16次实验仿真,也即参数M 分别为0到15。其实验结果如图1所示。
3 无监督特征选择方法描述
结合文档频和K-Means 的无监督特征选择方法如下。
输入:N 个待聚类的文档,最小文档频MIN_DF,最大文档频MAX_DF,最大聚类个数MAX_K,最小聚类个数MIN_K,聚类次数M ,特征选择方法IG 。
输出:一个集合P ,该数组集合为最终所选择的特征子集,初始P 为空;
步骤1:对整个文档集进行自动分词;
步骤2:根据停用词表去除停用词,称为第一次特征过滤,并统计词频和单词的文档频;
步骤3:移除DF 值大于MAX_DF和低于MIN_DF的词,进行第二次特征过滤得到特征集Q ;
步骤4:For(j =1;j
(1) 随机地从[MIN_K,MAX_K]中选择一个数
聚类精度/(%)
M /个
图1 聚类精度随M 增加的变化趋势
从图1可以看出随着M 的增加聚类精度增加,并且M 达到一定次数时聚类精度就几乎不会再增加了,符合实际。因为聚类精度不可能随着M 的无限增大而增大,毕竟所采用的聚类算法也有自身的不足。需要说明的是,图1并不是用于说明聚类算法的
第3期 朱颢东 等: 新颖的无监督特征选择方法 415
精度大小的,而是用于证明本文所提出的方法思想,即聚类算法的精度是随着M 的增加而增加,并最终趋于一个平衡状态的。
5 结 束 语
本文把分类领域的有监督特征选择方法用于聚类领域,提出了一种结合文档频和K-Means 的无监督特征选择方法。该方法通过在不同聚类结果上使用有监督特征选择的思想,将那些在文本分类中非常有效但无法直接应用于文本聚类的有监督的特征选择方法成功地应用于文本聚类中,极大地降低了文本向量空间的维度,显著地提高了文本聚类的性能。实验表明该方法不仅能够成功地选择出较优秀的特征子集,而且还能显著提高聚类性能,从而在一定程度上解决了文本聚类中的无监督特征选择问题,该方法在文本聚类中有一定的实用价值。
参 考 文 献
[1] YANG Y, PEDERSEN I O. A comparative study on feature selection in text categorization[C]//Proc of International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers, 1997: 412-420.
[2] 刘 涛, 吴功宜, 陈 正. 一种高效的用于文本聚类的无监督特征选择算法[J]. 计算机研究与发展, 2005, 21(3): 381-386.
LIU Tao, WU Gong-yi, CHENG Zheng. An effective unsupervised feature selection method for text clustering[J]. Journal of Computer Research and Development, 2005, 21(3): 381-386.
[3] JIANG Ning, GONG Xu-jun, SHI Zhong-zhi. Text clustering in high-dimension feature space[J]. Journal of Computer Engineer and Application, 2002, 21(2): 63-67. [4] WILBUR J W, SIROTKIN K. The automatic identification of stop words[J]. Journal of Information Science, 1992, 18(1): 45-55. [5] MANORANJAN D, LIU Huan. Feature selection for clustering[C]//Proc of Knowledge Discovery and Data Mining. Heidelberg: Springer Berlin, 2000:110-121. [6] LIU Tao, LIU Sheng-ping. An evaluation on feature selection for text clustering[C]//Proc of International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers, 2003:53-58.
[7] SALTON G. Automatic text processing: the transformation, analysis and retrieval of information by computer[C]//Proc of The ICML89. Pennsylvania: Addison-Wesley, 1989, 32(2): 11-17. [8] XU Yan. A formal study of feature selection in text categorization[J]. American Journal of Communication and Computer, 2009, 6(4): 32-41.
[9] DESTRERO A, MOSCI S, MOL C D. Feature selection for high-dimensional data[J]. Computational Management Science, 2009, 6(1): 25-40
[10] JENNIFER G D, BRODLEY C E. Feature subset selection
and order identification for unsupervised learning[C]//Proc of International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers, 2000: 88-97.
[11] FRED A, JAIN A K. Evidence accumulation clustering
based on K-means algorithm[C]//Proc of SSPR/SPR. Heidelberg: Springer Berlin, 2002: 31-37.
编 辑 蒋 晓
相关文章
- 新颖性判断中的多个数值范围问题_由实际案例_省略_件部分重叠时权利要求的新颖性判
- 国家秘书资格证考试复习资料汇总
- 心理学提纲
- 知识产权法辅导资料
- 关于评价新颖性和创造性的对比文件的公开程度
- 会计方法的选择对企业纳税筹划的意义研究
- 工业产权法
- 法律基础知识教学大纲(试行20**年0911)
- 中药考试药事管理学
新颖性判断中的多个数值范围问题 --由实际案例探析当多个数值范围与对比文件部分重叠时 权利要求的新颖性判断标准和方法 □ 石继仙 朱 科 专利审查指南对包含与对比文件部分重叠的数值范围特征的权利要求的新颖性判断做出了规定,然而未摘要: 对其 ...
文书基础 1 公文用纸为 A4 型纸 尺寸 210x297 2 公文眉首部分内容: (1)公文分数序号 (2)秘密等级(3)保密期限(4)紧急程度(5)发文 机关(6)签发人 (7)红色反线 3.联合行文时只标识主办机关发文字号 4.主体包 ...
心理学复习提纲 第一 二章 1.心理学的研究对象: 心理学的研究对象就是心理现象及其规律的学科 2.心理现象的内容: 分为两类:心理过程 个性心理 心理过程:(1)认识过程 (2)情感过程 (3)意志过程 个性心理:(1)个性倾向 (2)个 ...
<知识产权法>期末复习应考指南 一.复习应考基本要求 知识产权法课程是中央广播电视大学开放教育法学专业本科必修的一门专业课.它是为培养适应具有中国特色的社会主义市场经济和现代化要求的应用型高等法律人才服务.本课程的考核对象是法律 ...
2007年8月22日国家知识产权局专利复审委员会作出第11582号复审请求审查决定(下称第11582号决定),该决定涉及申请号为02135826.5,名称为"发动机"的发明专利申请.该申请的申请日为2002年11月20日 ...
摘要:将会计方法进行有效选择,真正将系统性的建设力度提升上来,为企业的纳税筹划事项进行有效带动,不断捕捉住较好的发展机遇,在进行全面的提升过程中,将新型的会计建设的思想进行有效融合运用,弥补不足之处,建立更加新颖的发展战略体系,使自己的能力 ...
第十四章 工业产权法律制度 本章要点有:知识产权的概念与特征:专利权的主体:专利权的客体:授予专利权的条件:专利权的保护:商标的概念及其特征:商标的分类:商标权:商标注册的申请和审查核准:商标注册的续展.转让.使用许可和争议裁定:商标使用的 ...
法律基础知识教学大纲(试行) 一.课程性质与任务 法律基础知识是中等职业学校学生必修的一门德育课程,旨在对学生进行有关法律基础知识的教育.其主要任务是使学牛了解和掌握与自己生活密切相关的法律基本知识,增强法律意识,树立法制观念,提高辨别是非 ...
药事的定义:药事是指与药品有关的事,指与药品的研制.生产.流通.使用.价格.广告.信息.监督等活动相关的事. 药事活动:药物研究.药品生产.经营.检验.价格.广告.使用.管理.药学教育. 药事管理包括哪几个方面?有何含义? 药事管理包括药事 ...