层次聚类法在空间犯罪热点分析中的应用
中国人民公安大学学报(自然科学版)
型旦生主蔓!必一塑盟.三Q!!
!!!竺!!生里竺£!!:!!业!堡量!!竺堕!!旦里过!望韭!!!垦!i坠!!坠也!!!!型!!!!呈!!!鳗)垫箜!!塑兰竺里!!
层次聚类法在空间犯罪热点分析中的应用
陈
鹏1,马伟2
(1.中国人民公安大学安全防范系,北京
100038;2.国家测绘产品质量检验检测中心,北京l00830)
摘要
当前,基于核密度估计的空间犯罪热点分析方法存在着无法确定热点的分布范围和难以支持警务决策等
不足。相比之下,数据挖掘中的层次聚类算法则能够根据犯罪活动的位置信息确定出不同空间尺度下的犯罪热点的分布范围和具体的热点数量,因此具有更好的优势。该文介绍了层次聚类算法的基本原理,并基于实际案例数据对层次聚类算法与核密度估计算法的热点分析结果进行了比较,并对基于层次聚类算法的犯罪热点分析在情报分析和警务决策方面的应用进行了讨论。
关键词层次聚类;犯罪热点;情报分析;警务决策
中图分类号D917
0前言
此外,随着空间情报分析的发展,犯罪活动在空间的分布规律性越来越为人们所关注,但是在具体随着警务信息化的发展,犯罪和治安案件的空的工作上,不同的业务部门对犯罪热点的关注角度间情报分析在一些具体的警务工作,包括决策指挥、是不同的。例如,社会治安管理根据不同的业务层警力调度、业务评估等方面发挥着不可忽视的作用,面就可以分为派出所、分局、市局等不同的层次。因其中,又以犯罪热点的分析和识别尤为重要。因为此,如何从不同空间尺度下来分析犯罪热点并对不犯罪活动的空间热点形态反映了犯罪活动的基本分同层次的业务部门提供相应的情报信息就显得尤为布规律,并且揭示了空间环境对治安案件的影响。重要。
因此,通过对犯罪热点的空间形态分析能够深入地近来,随着数据挖掘技术的兴起,一些聚类算法揭示犯罪活动发生的本质问题,进而为人们提供问也陆续应用到空间信息的分析挖掘中。例如,颜峻题解决的途径和方法:…。
等将动态优化窗宽算法与DENCLUDE算法相结合,在当前的犯罪热点分析中,最为普遍的一种方提出了一种新的优化聚类算法,并将其应用于人室法就是统计犯罪的数量或密度来反映犯罪活动的空盗窃犯罪热点的分析中,得到了良好的效果心。3】。间频率或集中程度,其中尤具代表性的就是核密度陆娟等提出了一种给予多尺度空间聚集的犯罪热点估计法。核密度估计法是空间插值法的一种,即通探测方法,其实验结果证明可用于犯罪高发地区和过对空间上以点表示的要素赋予一定的概率密度函高危地区的热点探测需求H1。但是这些方法大都数,然后计算整个空间上的要素概率密度分布来确偏重于热点的探测和挖掘,对热点分析结果如何应定犯罪热点的位置。这种方法在结果展示上具有良用于不同层次的警务实战工作还缺乏有力的支持。好的可视性,能够准确地反映出犯罪活动的空间分为此,本文讨论了层次聚类算法的基本原理和算法,布特征,因而在许多国家和地区的警务部门得到了以实际案例数据进行验证,并将结果与核密度估计应用。然而,在一些具体的实际工作中又陆续发现算法进行对比,最后针对结果的警务实战应用进行了核密度估计法存在的一些不足,包括算法参数的讨论与总结。
选择难以确定、可视化效果没有统一的标准,等等,1层次聚类算法的基本原理
但更为重要的则是无法准确地确定犯罪热点的分布范围并为相关部门提供决策的依据。层次聚类法是数据挖掘中的一种用于给对象进
基金项目公安部科技基础工作专项项目资助,项目编号:2012GABJC018。
作者简介
陈鹏(1981一),男,汉族,辽宁人,博士,研究方向为基于地理信息技术的治安风险分析与预防。
・64・
万方数据
陈鹏等:层次聚类法在空间犯罪热点分析中的应用
行分类的基本算法。其基本原理是将所有的样本点自底向上进行合并或自顶向下进行分裂,这两种方式分别称为凝聚和分裂。但对于犯罪分析而言,比较适用的则是凝聚算法。凝聚算法的基本原理为:基于一定的距离阈值将相近的对象合并为一个簇,然后以簇作为目标对象再次应用距离阈值进行合并,直到达到分类的要求为止,最终形成一个聚类的层次(如图1所示)。通常人们将第一次聚类过程称为一阶聚类,在第一次聚类基础上进行的聚类分析称为二阶聚类,以此类推,直至高阶聚类。
四阶聚类
三阶聚类
二阶聚类
一阶聚类
图1层次聚类基本原理图
1.1
层次聚类算法步骤
对于给定的Ⅳ个对象,层次式聚类算法的基本
步骤¨。为:
1)N个初始样本自成一类,即建立J7v个类G。(0),G:(0),…,GⅣ(0)。计算各类之间(各样本间)的距离,得到一个N×N维的距离矩阵D(0)。标号(0)表示聚类开始运算前的状态。
2)如在前一步聚类运算中,假设已求得的聚类矩阵为D(凡)(n为逐次聚类合并的次数),则找出D(rt)中的最小元素,将其对应的两类合并为一类,由此建立新的分类:G。(n+1),G:(11,+1),…,G£(n+1)。
3)计算合并后新类别之间的距离,得到距离矩阵D(I"t+1)。
4)回到步骤2),重复计算与合并,直到满足聚类结束的条件为止。
通常,层次聚类的结束条件为设定一个最少聚集数量和距离阈值r,当距离矩阵D(rt)中的最小分量超过给定的阈值丁并且聚集的类的数量达到给定要求时,算法停止,此时各类之间已经足够分开,得到的分类即为聚类的结果。
万方数据
1.2距离阈值的选择
层次聚类算法中的距离阈值r有多种定义,其中适用于犯罪热点分析的则是平均最短距离和定值距离。
1)平均最短距离。平均最短距离的定义为’61:
D…~0l-X-
5^懦
(1)
式中:A为空间区域面积,Ⅳ为样本数量。可见,平均最短距离为假设所有对象在空间上为随机分布时的相互作用距离。则该距离基于一定概率下的置信距离区间定义为曲。:
C:D晌±£×掣
(2)
√N‘/A
其中t为置信概率,服从自由度为120的学生氏分布(studentdistribution)。这里的置信概率的意义为
类间距离小于平均最短距离的百分比。例如,如果t=0.9,则表明距离矩阵D(n)中约有90%的类间距离会小于该置信距离区间。
2)定值距离。定值距离即人为指定一个距离阈值来进行类的合并。定值距离的优点是可以设定
一个精确的搜索半径来进行热点分析,这有利于对同一区域发生的不同类型犯罪活动之间的热点分布
进行比较(例如,设定1km搜索范围进行热点制图来确定不同类型犯罪活动的热点分布数量等)。但这种方法也有一个缺点,即距离阈值对人的经验有较高的要求,一旦距离阈值选择得不合理就会导致结果相差很大。2案例分析
本文采用了实际案例数据来对层次聚类法进行检验分析。犯罪数据来源于x市Y区的盗窃犯罪报警数据,时段为2007年5月至10月,案件总量为160起,其中报警数据的空间地址信息为经纬度坐标。
首先,根据盗窃犯罪的空间地址信息,将数据导入地理信息软件ArcGIS9.3,通过设定空间参考坐标系,得到盗窃犯罪活动的基本空间分布如图2所
示。
利用核密度估计算法,对盗窃犯罪活动的热点分布进行分析。其中核函数采用正态分布,带宽设为500m,得到犯罪热点的核密度分布如图3所示。从图中可见,热点分布范围主要集中在Y区的中部一带,此外在区域的东南部也存在有少量的犯罪活
・65・
法的带宽,距离阈值设为0.5km。图4为基于不同
—知
的距离阈值r所得到的犯罪热点分布效果。其中图4(a)为基于平均最短距离得到的热点分布,
・・
’?’知・’|
图4(b)为基于定值距离得到的热点分布。从图中可见,基于平均最短距离阈值得到了7个一阶聚类犯罪热点和1个二阶聚类犯罪热点,而基于定值距离阈值则得到了10个一阶聚类犯罪热点。与图3中由核密度估计算法得到的犯罪热点分布相比,层次聚类法在效果展示上没有核密度估计算法美观,但是在确定具体的犯罪热点分布范围上层次聚类法
...,jI、_一。
..。-・:’
.-!£
。|:..0‘.Z.…~。一1
。.‘'..。.…t.’:霉“i
・
巾:.咚一・・..}
f}芒厂~’
图2犯罪活动分布
具有直观和清晰的优点。
通过层次聚类分析得到的关于犯罪热点分布的统计信息如表1所示。在根据平均最短距离得到的一阶聚类犯罪热点中,最大的热点分布面积为
0.47
动高密度热点。然而,从具体的分析来看,由于犯罪活动的密度分布在空间形成了平滑的过渡效应,导致很难区分出热点的分布范围。
—■
km2,包含有10起盗窃犯罪,而二阶犯罪热点
的面积为13.73km2,内含5个一阶聚类犯罪热点。此外,还可以根据热点的面积和犯罪案件数量求出热点内的犯罪密度(见表1中第5列)。可见,层次
.
J
蓉警譬鬻
聚类法具有很好的量化功能,能够使人们对犯罪热点进行分级分类,进而确定重点和关键目标区域。3讨论
对实际犯罪数据进行层次聚类热点分析和核密度估计热点分析,并将结果进行对比,可以发现,层
、、
i
飞、攀誊iIi每、。.酩篡蠢嚣卧
晦虬h
》;争
一‘
一
图3核密度估计犯罪热点分布
次聚类算法具有原理简单、效果直观、结果可量化等优点,但在具体的聚类规则和参数选择上则需要人
采用层次聚类法对Y区盗窃犯罪活动进行热点分析。分析工具为CrimStat3.1,聚类分析结果仍然在ArcGIS9.3中进行展示。Y区域面积A=
86
们根据工作需求来指定一个大致的距离阈值范围,而距离阈值的定义会对最终的结果产生很重要的影响,因此这也是层次聚类算法的一个不足之处。
然而,总体说来,层次聚类算法有效地避免了核密度估计算法结果难以量化的缺点,并且对不同空
…8
km2,故置信概率取t=0.9,犯罪活动聚类的最小
数量均设为5个。对定值距离,参考核密度估计方
、J
十
0.
。、’
一
…
一
土
1、
。・
N
一。
‘‘、。
毫’
一-
-。‘≮.‘jo.鹳、jg
、j。
默聚拳纛、.跫j.…i名..-l挈婆挈杯乙、-。■々..?若厂J
墨=iIm
.“‰:一oL—~广一j
i~≮.=?t葛。
、
’.nj
。….j0繁易零
。、
・
。≮.‘j.:.萨‘型
层i喳类分析。、‘乙~一~
;l研J
.
o’i’.…iI墨譬A
f
。..』;i擘;厂一+‘’:h
乎均最短距离(b)定值距离
图4
・66・
基于不同距离阈值标准得到的犯罪热点分布
万方数据
表1基于不同距离阈值得到的犯罪热点统计结果
1n加屹
"弱2m观¨
加卯3m引m
屹弛4仉卯8他叭5
m砣
5n"
定值距离
6
仉
他
6
歌
丝
0.5111.821.125.370.568.901.28
4.69
间尺度下的公安情报分析和治安业务工作具有重要的现实意义。
首先,对小范围内的治安管理(如社区、派出所等),人们可以根据层次聚类分析来确定和识别出犯罪活动的聚集区域,从而有利于人们针对犯罪活动的热点分布进行相应的警力部署调度。而对于比较大范围内(如分局、市局一级等)的治安管理,人们可以在统一模型参数的基础上进行热点的层次聚类分析,从而有利于人们对不同区域内的犯罪情报进行比较分析,进而确定需要重点防范的区域。
其次,通过层次聚类分析可以发现犯罪热点之间的相关性。通常,犯罪活动的分布都具有一定的
万方数据
空间关联性,由此导致的热点分布也往往呈现出一种集中的趋势。而基于层次聚类的热点分析可以有效地识别出热点的范围和热点簇的数量,进而确定距离较近的犯罪热点,从而分析和发现犯罪热点之间的潜在关联。
第三,在不同空间尺度下分析得到的犯罪热点分布将有利于制定针对性的警务战术策略。对小范围内的犯罪热点(如派出所、社区等),人们可以通过区域管理来实现对非法活动的有效干预;而对于较大范围内形成的犯罪热点(如区、县分局等),则可以通过加强警力巡逻和制定针对性的巡逻方案来
达到对犯罪分子的震慑;而对于更大范围内形成的犯罪热点(如市局一级)则需要从宏观的角度来进行统筹规划,制定包括警力的部署调度、犯罪预防、社区管理、长期的犯罪应对策略等。因此,层次聚类法将有利于人们针对不同层面的问题采用针对性的决策方案。
参
考
文献
[1]
ChaineyS
P,Ratcliffe
J
H.GISand
crime
mapping
[M].London:WileyPress,2005.
[2]
颜峻,袁宏永,疏学明.用于犯罪空间聚集态研究的
优化聚类算法[J].清华大学学报:自然科学版,
2009。49(2):176—178.
[3]
颜峻,袁宏永,疏学明.社会安全事件空间分布研究[J].中国安全科学学报,2008,18(7):39—42.
[4]陆娟,汤国安,张宏,等.一种犯罪热点探测方法[J].测绘通报,2012(4):30—32.
[5]JohnsonSC.Hierarchicalclustering
schemes[J].Psy-
chometrika,1967(2):241—254.
[6]LevineN.CrimeStatIII:aspatialstatisticsprogramfor
theanalysisof
crime
incidentlocationsfM].Houston:
NedLevine&Associates,2004:11.
(责任编辑左萍)
・67・
层次聚类法在空间犯罪热点分析中的应用
作者:作者单位:刊名:英文刊名:年,卷(期):
陈鹏, 马伟
陈鹏(中国人民公安大学安全防范系,北京,100038), 马伟(国家测绘产品质量检验检测中心,北京,100830)
中国人民公安大学学报(自然科学版)
Journal of Chinese People's Public Security University(Science and Technology)2013,19(1)
参考文献(6条)
1. Chainey S P. Ratcliffe J H GIS and crime mapping 2005
2. 颜峻. 袁宏永. 疏学明 用于犯罪空间聚集态研究的优化聚类算法[期刊论文]-清华大学学报(自然科学版) 2009(02)3. 颜峻. 袁宏永. 疏学明 社会安全事件空间分布研究[期刊论文]-中国安全科学学报 2008(07)4. 陆娟. 汤国安. 张宏 一种犯罪热点探测方法[期刊论文]-测绘通报 2012(04)5. Johnson S C Hierarchical clustering schemes 1967(02)
6. Levine N CrimeStat Ⅲ:a spatial statistics program for the analysis of crime incident locations 2004
本文链接:http://d.wanfangdata.com.cn/Periodical_gadxxb-zrkxb201301015.aspx
相关文章
- 警用地理信息系统解决方案
- 论贿赂犯罪案件证据的确实充分
- 城市增长模拟模型研究综述
- 科学技术分类
- 试论网络洗钱犯罪的特点及防控对策
- Web主题网页内容安全监管研究
- 当代大学生犯罪原因及控制
- 电影摄影应用美学目录+自己总结知识点
- 年青年调查研究选题的问题与对策
警用地理信息系统解决方案 目 录 1 理解警用GIS 2 警用GIS 的应用 2.1警用基础数据的管理 2.1.2 视频监控管理 2.1.3 设施管理 2.1.4 重点场所管理 2.1.1 实有人口管理 2.2.1 指挥中心接处警 2.2. ...
贿赂犯罪是典型的传统型犯罪,权钱交易为这一犯罪的本质特征,它主要包括行贿罪.受贿罪及其介绍贿赂罪.贿赂犯罪在主体方面既有单位犯罪,又有自然人犯罪,其侵犯的客体主要是国家工作人员职务的廉洁性和公私财物的关系.因此,这种犯罪为广大人民群众深恶痛 ...
2014年1月 第28卷第1期总95期北京联合大学学报 JournalofBeijingUnionUniversityJan.2014 Vol.28No.1SumNo.95 城市增长模拟模型研究综述 1 孟张媛媛, 2,32 斌,朱海勇 ( ...
科学技术分类 科学的结构 19 世纪发生了第二次科学革命,恩格斯在这样的历史背景下提出了辩证唯物主义的分类理论,他把人类科学知识自然体系分为五大类:即机械运动.物理运动.化学运动.生物运动.社会运动. 19 世纪末到20世纪初,发生了第三次 ...
试论网络洗钱犯罪的特点及防控对策 赵威 何敏娜 当今世界已进入网络时代.本文拟就网络时代背景下洗钱犯罪的有关问题作初步探讨,以期对有效打击此类犯罪提供参考. 一.网络洗钱概述 反洗钱是当今世界经济领域的一个热点和难点.简单地说,洗钱就是将从 ...
摘要网络安全审计以其实时性.动态性和主动防御的特点备受青睐.目前网络安全审计系统虽然成为网络安全领域的研究热点,但许多概念有待于进一步明确,许多关键技术尚处于研究探讨之中. 关键词Web;内容安全;内容过滤;信息审计 中图分类号TP31文献 ...
摘 要 犯罪原因是指引起.影响犯罪行为发生的事物和现象.犯罪是人类进入阶级社会以来,各种社会形态中普遍存在的社会现象.但是,在不同的社会群体中,存在着不同的产生犯罪的原因. 关键词 大学生犯罪 犯罪原因 犯罪控制 中图分类号:C913.5 ...
目 录 序言 内容概要 第一章通过媒介比较研究来认识电影摄影 第一节绘画与电影摄影 1. 造型的关联性 "电影摄影"和"西方古典绘画主义"互通之处构图.色彩.造型 Eg :<乱世佳人>受古 ...
提要]选题是青年调查研究的一个重要环节,也是透视青年学科研究现状的窗口.本文在过去研究的基础上,从选题的狭窄化.选题的热点性.选题的笼统化.选题的现时性对青年调查研究中选题存在的问题进行分析,最后文章就解决对策提出作者自己的一点看法.× [ ...