学年论文格式参考模板

学年论文

浅谈数据挖掘

姓名：班级： A05计算机导师：顾沈明

计算机科学与技术专业

浅谈数据挖掘

一、前言

对于数据挖掘这个名词，听起来好像只有少数专家才能了解的专业词汇，对于一般人，似乎有点望尘莫及，但其实，我们大多数人都和数据挖掘有很亲密的接触。相信很多人都用校内网吧，其中校内网中有一个功能：“你可能认识的人。”可以在你自己的网页上链接到这些人。它是怎么知道你认识这些人呢？这就是因为网站采用了新技术来推测你的人际关系。而这种新技术就是数据挖掘技术。不仅仅是校内网，就像我们经常购买书籍的亚马逊或当当网也一样，在浏览这类网页的时候会看到类似这样的提示：“欢迎您，下面是我们给您推荐的新书。”然后就可以在网页的某个位置看到几本新书的链接。它也是通过数据挖掘技术来了解顾客的潜在需求的。比如：从顾客买书的清单中发现与张三买过的书有几本相同的，但是还有些书张三已经买了，该顾客却还没买，就可以据此认为与该顾客有相近的阅读偏好的张三买了几本该顾客还没买的书，该顾客也会对这些书感兴趣。

从上面的例子可以看出，数据挖掘是用于大规模数据处理的一种新的思维方法和技术手段，它是在现实生活中各种数据量呈指数级不断增长，以及数据库技术为核心的信息技术逐渐成熟的背景下产生的。

随着信息技术的发展，特别是互联网的发展和信息量爆炸性增长，信息的重要性与日俱增。如何有效的获取有用的互联网信息与知识，是数据挖掘的目标所在；另一方面互联网为数据挖掘提供了良好的挖掘环境与挖掘对象，且其挖掘结果易于应用，获得直接的回报。在这种应用环境与应用需求的刺激下，数据挖掘越来越受到重视。

目前尚无关于数据挖掘的精确学科划定，从广义上来讲，数据挖掘先从巨大的数据体系或数据库里提炼出我们感兴趣的东西，或者说，从庞大的观察数据集中提炼并分析出不能轻易觉察或断言的关系，最后给出一个有用的并可以理解的结论。简单的说，数据挖掘就是在数据中发现模式、知识，或数据间的关系。

这里来看一个数据挖掘最有名的例子，即“尿布与啤酒”的故事，并以此来说明数据挖掘的几个特征。“尿布与啤酒”的故事是一个广为人知的有趣范例。

为了分析哪些商品顾客最有可能一起购买，全球最大的零售商沃尔玛公司利用数据挖掘方法，对数据库中的大量数据进行分析后意外发现，跟尿布一起购买最多的商品竟然包括啤酒。为什么两件风马牛不相及的商品会被人一起购买？经过分析发现：原来，太太们常叮嘱他们的丈夫，下班后为小孩买尿布，而丈夫们在买尿布后又随手带回几瓶啤酒。既然尿布与啤酒一起购买的机会比较多，商店就将他们摆放在一起，结果尿布与啤酒的销售量双双增长。

二、数据挖掘的技术支持

1.决策树方法

决策树是用二叉树形图来表示处理逻辑的一种工具。可以直观、清晰地表达加工的逻辑

要求。特别适合于判断因素比较少、逻辑组合关系不复杂的情况。决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如，在贷款申请中，要对申请的风险大小做出判断，图是为了解决这个问题而建立的一棵决策树，从中我们可以看到决策树的基本组成部分：决策节点、分支和叶子。

数据挖掘中决策树是一种经常要用到的技术，可以用于分析数据，同样也可以用来作预测（就像上面的银行官员用他来预测贷款风险）。常用的算法有CHAID、 CART、 Quest 和C5.0。

2.人工神经网络方法

一种模范动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。人工神经网络具有自学习和自适应的能力，可以通过预先提供的一批相互对应的输入－输出数据，分析掌握两者之间潜在的规律，最终根据这些规律，用新的输入数据来推算输出结果，这种学习分析的过程被称为“训练”。

由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的，试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。

3.模糊集合方法

用来表达模糊性概念的集合。又称模糊集、模糊子集。普通的集合是指具有某种属性的对象的全体。这种属性所表达的概念应该是清晰的，界限分明的。因此每个对象对于集合的隶属关系也是明确的，非此即彼。但在人们的思维中还有着许多模糊的概念，例如年轻、很大、暖和、傍晚等，这些概念所描述的对象属性不能简单地用“是”或“否”来回答，模糊集合就是指具有某个模糊概念所描述的属性的对象的全体。由于概念本身不是清晰的、界限分明的，因而对象对集合的隶属关系也不是明确的、非此即彼的。这一概念是美国加利福尼亚大学控制论专家L.A.扎德于 1965 年首先提出的。模糊集合这一概念的出现使得数学的思维和方法可以用于处理模糊性现象，从而构成了模糊集合论。

4.遗传算法

遗传算法（Genetic Algorithm）是模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型，是一种通过模拟自然进化过程搜索最优解的方法，它是有美国Michigan大学J.Holland教授于1975年首先提出来的，并出版了颇有影响的专著《Adaptation in Natural and Artificial Systems》。遗传算法是一类可用于复杂系统优化的具有鲁棒性的搜索算法，数据挖掘不是遗传算法应用的主要领域，但是由于数据挖掘的任务经常要归结为寻找最优解，因此遗传算法也可以用来协助完成挖掘任务。

三、数据挖掘的应用

1．数据挖掘在市场营销的应用

数据挖掘技术在企业市场营销中得到了比较普遍的应用，它是以市场营销学的市场细分原理为基础，其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。

通过收集、加工和处理涉及消费者消费行为的大量信息，确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求，进而推断出相应消费群体或个体下一步的消费行为，然后以此为基础，对所识别出来的消费群体进行特定内容的定向营销，这与传统的不区分消费者对象特征的大规模营销手段相比，大大节省了营销成本，提高了营销效果，从而为企业带来更多的利润。

基于数据挖掘的营销，常常可以向消费者发出与其以前的消费行为相关的推销材料。卡夫(Kraft)食品公司建立了一个拥有3000万客户资料的数据库，数据库是通过收集对公司发出的优惠券等其他促销手段作出积极反应的客户和销售记录而建立起来的，卡夫公司通过数据挖掘了解特定客户的兴趣和口味，并以此为基础向他们发送特定产品的优惠券，并为他们推荐符合客户口味和健康状况的卡夫产品食谱。美国的读者文摘(Reader's Digest)出版公司运行着一个积累了40年的业务数据库，其中容纳有遍布全球的一亿多个订户的资料，数据库每天24小时连续运行，保证数据不断得到实时的更新，正是基于对客户资料数据库进行数据挖掘的优势，使读者文摘出版公司能够从通俗杂志扩展到专业杂志、书刊和声像制品的出版和发行业务，极大地扩展了自己的业务。

2．数据挖掘技术在商业银行中的应用

数据挖掘技术在美国银行金融领域应用广泛。金融事务需要搜集和处理大量数据，对这些数据进行分析，发现其数据模式及特征，然后可能发现某个客户、消费群体或组织的金融和商业兴趣，并可观察金融市场的变化趋势。商业银行业务的利润和风险是共存的。为了保证最大的利润和最小的风险，必须对帐户进行科学的分析和归类，并进行信用评估。Mellon银行使用Intelligent Agent数据挖掘软件提高销售和定价金融产品的精确度，如家庭普通贷款。零售信贷客户主要有两类，一类很少使用信贷限额（低循环者），另一类能够保持较高的未清余额（高循环者）。每一类都代表着销售的挑战。低循环者代表缺省和支出注销费用的危险性较低，但会带来极少的净收入或负收入，因为他们的服务费用几乎与高循环者的相同。银行常常为他们提供项目，鼓励他们更多地使用信贷限额或找到交叉销售高利润产品的机会。高循环者由高和中等危险元件构成。高危险分段具有支付缺省和注销费用的潜力。对于中等危险分段，销售项目的重点是留住可获利的客户并争取能带来相同利润的新客户。但根据新观点，用户的行为会随时间而变化。分析客户整个生命周期的费用和收入就可以看出谁是最具创利潜能的。Mellon银行认为“根据市场的某一部分进行定制”能够发现最终用户并将市场定位于这些用户。但是，要这么做就必须了解关于最终用户特点的信息。数据挖掘工具为Mellon银行提供了获取此类信息的途径。Mellon银行销售部在先期数据挖掘项目上使用Intelligence Agent寻找信息，主要目的是确定现有Mellon用户购买特定附加产品：家庭普通信贷限额的倾向，利用该工具可生成用于检测的模型。据银行官员称：Intelligence Agent可帮助用户增强其商业智能，如交往、分类或回归分析，依赖这些能力，可对那些有较高倾向购买银行产品、服务产品和服务的客户进行有目的的推销。该官员认为，该软件可反馈用于分析和决策的高质量信息，然后将信息输入产品的算法。Intelligence Agent还有可定制能力。

3． Internet应用

Internet的迅猛发展,尤其是Web的全球普及,使得Web上信息量无比丰富,Web上的数据信息不同于数据库。数据库有规范的结构,如关系数据库的二维表结构;毕竟数据库的创建是为了机器可读,因此有统一的格式,它是一种结构化的文件。Web上的信息则不然,主要是文档,它的初始创建目的是为了人类使用。文档结构性差,好者半结构化,坏者如纯自然语言文本则毫无结构。因此Web上的开采发现需要用到不同于常规数据库开采的很多技术。下面将从信息发现和用户访问模式发现两个不同的Web开采任务角度对这方面工作的研究现状进行评述。

Web信息发现也称信息搜索或查询。它的一般过程是,用户向系统提出查询条件,系统调用搜索引擎开始工作,然后把搜索结果提交给用户。根据用户希望查找的对象可分为两种:资源发现和信息提取。前者目的在于根据用户要求找出有关的Web文档位置;后者则是能自动从有关文档中抽取出满足用户需要的信息。资源发现本质上是网上搜索,关键在于自动生成Web文档的索引。典型的索引生成系统有WebCrawler和AltaVista等等,它们能对上百万数量的Web文档进行索引,文档中的每个单词的倒排索引均保存起来,技术上类似全文检索。用户通过输入关键词就能对所有建了索引的文档进行检索。目前在用的索引系统有十几种,用户输入同样的关键词在不同的索引下可能会得到不同的返回结果。为了提高搜索的准确度,研究人员又开发了一种建立在上述索引系统之上的高层系统——MetaCrawler,它能并行地把用户输入的关键词提交给9种不同的索引系统,然后把这9种系统的查询结果进行对照比较,最终选定最佳结果返回用户。目前这方面的研究主要有两个方面:研制新的更好的索引系统、利用已有索引系统或搜索引擎(如Yahoo)开发高层次的搜索或发现系统。相比之下,后者的研究更为活跃。从技术上看,自动文档分类或归类方法将对这方面的研究有很大作用。

参考文献：

[1] 陈安. 数据挖掘技术及应用. 科学出版社.2001

[2] 梁循. 数据挖掘算法与应用. 北京大学出版社.2003

[3] Michael.A. Berry. 数据挖掘技术. 机械工业出版社.2005

[4] 周瑛，陈基漓. 遗传算法综述.计算机与信息技术.2008.1(1)

[5] 李士勇,李盼池.基于实数编码和目标函数梯度的量子遗传算法.哈尔滨工业大学学

报.2006

学年论文格式参考模板

相关文章