大数据时代的必然性

大数据时代的必然性

①硬件成本的降低②网络带宽的提升③云计算的兴起④网络技术的发展⑤智能终端的普及⑥电子商务、社交网络、电子地图等的全面应用⑦物联网 大数据的特征

①体积大:非结构化数据的超大规模和增长,总数据量的80~90%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍②多样性:大数据的异构和多样性,很多不同形式(文本、图像、视频、机器数据),无模式或者模式不明显,不连贯的语法或句义③价值密度低:大量的不相关信息,对未来趋势与模式的可预测分析,深度复杂分析(机器学习、人工智能Vs 传统商务智能)④速度快:实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效 大数据结构特征

①结构化数据:包括预定义的数据类型、格式和结构的数据 ②半结构化:具有可识别的模式并有可以解释的文本数据文件

③“准”结构化:具有不规则数据格式的文本数据,通过使用工具可以使之格式化

④非结构化:没有固定结构的数据,通常将其保存成不同类型的文档 大数据的具体趋势

①行业垂直整合:新兴产业以垂直整合的态势开疆拓土,产品成熟后走向水平分工-信息产业中靠近最终终端用户,在产业链中拥有发言权②泛互联网化

大数据的营销价值

①形成商业营销模式:租售数据模式;租售信息模式;数字媒体模式;数据使能模式;数据空间运营模式;大数据技术提供商②建立用户的忠诚度:市场策略中的“2/8定律”:一家公司80%的利润实际上是来自于20%的现存客户③开发新的客户资源- 社交网络信息挖掘:实时竞拍数字广告④创造新业务与服务:健康行业;零售行业;能源行业 数据挖掘能做什么??

①信用等级/目标客户的确定:给定包含100,000个客户的数据库,识别出哪些人在信用卡消费时最不识别出最有可能对销售促销/打折活动作出响应的顾客

②欺诈探测:给出某个特定客户的个人信息(the demographics) 和交易历史纪录

③客户关系管理(CRM): 我的哪些客户可能是最忠诚的,哪些是最可能离开成为竞争对手的客户

④数据挖掘有助于我们抽取这类信息 什么是数据仓库?

⑴W.H.Inmon 在《建立数据仓库》一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程⑵SAS 软件研究所观点:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。 数据仓库的特点

⑴数据仓库是面向主题的: 主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。

⑵数据仓库是集成的:数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向主题的大转变。

⑶数据仓库是稳定的: 数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。

⑷数据仓库是随时间变化的: 数据仓库内的数据时限在5~10年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS 进行时间趋势分析。而数据库只包含当前数据,即存取某一时间的正确的有效的数据。

⑸数据仓库的数据量很大: 大型DW 的数据是一个TB (1000GB )级数据量(一般为10GB 级DW ,相当于一般数据库100MB 的100倍) ⑹数据仓库软、硬件要求较高: 需要一个巨大的硬件平台,需要一个并行的数据库系统

●数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随

机的数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一门交叉学科,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。 数据挖掘系统的特征

⑴数据的特征①大容量: POS 数据(某个超市每天要处理高达2000万笔交易);卫星图象(NASA 的地球观测卫星以每小时50GB 的速度发回数据);互联网数据②含噪音(不完全、不正确)③异质数据(多种数据类型混合的数据源,来自互联网的数据是典型的例子)

⑵系统的特征①知识发现系统需要一个前处理过程: 数据抽取;数据清洗;数据选择;数据转换②知识发现系统是一个自动/半自动过程③知识发现系统要有很好的性能⑶模式的特征①知识发现系统能够发现什么知识?计算学习理论COLT ;以FOL 为基础的以发现关系为目的的归纳逻辑程序设计②现行的知识发现系统只能发现特定模式的知识: 规则;分类;关联 数据挖掘技术

⑴聚类: 对具有共同趋势或结构的数据进行分组(数据划分) 。将数据项分组成多个类, 类之间的数据差别应尽可能大, 类内的数据差别应尽可能小。即“最小化类间的相似性, 最大化类内的相似性”。聚类分析可以建立宏观的概念,发现数据的分布模式。是知识发现的基础

⑵分类(模式识别) :分类是研究己分类资料的特征,分析对象属性,据此建立一个分类函数或分类模型,然后运用该模型将其他未经分类或新的数据分派到不同的组中。

⑶回归: 回归算法在解决实际问题时经常会把数据拆分为两个数据集:训练数据集、测试数据集。通过数据挖掘算法对训练数据集进行建模,寻找X 和Y 之间的数学模型,然后通过测试数据集来验证该数学模型的准确率,如果误差能够达控制到一定精度,则认为该模型很好的反映了X 和Y 的关系,可以用来进行预测和分析

⑷关联:关联规则反映一个事物与其它事物之间的相互依存性和关联性;如果两个事物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其它事物预测到。关联是某种事物发生时其他事物会发生的这样一种联系。

⑸时间序列:变量随时间变化,按等时间间隔所取得的观测值序列,称时间序列。时间序列分析法主要通过与当前预测时间点相近的历史时刻的数据来预测当时时刻的值。 文本挖掘技术-

⑴分词,每个词的提取出出现次数

⑵分类,时政、社会、国际、评论、军事、文化、历史 ⑶聚类,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类,生成主题词,为用户确定类目名称提供方便。

⑷自动摘文,自动文本摘要技术对文档信息进行压缩表示,有效地降低用户的信息负载,帮助用户更好地从万维网获取各类科技情报信息,提高工作效率。

⑸倾向性分析,自动聚合网络新闻并自动进行褒贬倾向性的分析。对文章的观点进行倾向性分析和统计,识别正负面信息 图像和视频挖掘技术

⑴预处理技术:预处理算法使图像变得更清晰,更有利于视觉系统对环境的理解。主要包括图像超分辨率重建、图像去噪、图像增强、图像填充、前背景分离等。

⑵特征提取技术:主要提取用于描述图像的关键特征,包括颜色特征、纹理特征、形状特征等; ⑶目标跟踪:在需要监控的环境里,如何能够判断出进入特定区域的目标,并且能够跟踪目标的轨迹。分为两种情况:一是静态背景下的目标跟踪;二是动态背景下的目标跟踪。

⑷目标识别:指一个特殊目标(或一种类型的目标)从其它目标(或其它类型的目标)中被区分出来的过程。它既包括两个非常相似目标的识别,也包括一种类型的目标同其他类型目标的识别。 从网络中挖掘营销价值

邮件挖掘分析工具Immersion ;免费WIFI 服务搜集用户数据;用户头像纳入面部识别数据库


© 2024 实用范文网 | 联系我们: webmaster# 6400.net.cn