网络平台用于社会管理论文提纲

2022-11-15

论文题目:Machine Learning Based Criminal Investigation on Cloud

摘要:在过去的20年中,世界各地的犯罪活动越来越频繁。分析这些犯罪活动的特征和模式,并确定它们之间的潜在模式和关系,对于有效预防和有效控制各类犯罪行为至关重要。随着计算机硬件、软件和信息技术的发展,越来越多的犯罪记录被及时详细地记录下来,为犯罪行为分析和研究提供了丰富的数据资源。面对大规模的犯罪行为数据,如何使用各种机器学习和人工智能技术进行有效分析以识别犯罪模式及规律、预测是目前该领域的研究热点之一。同时,如何使用分布式计算和云计算等高性能计算技术,对复杂机器学习算法和大规模时空数据进行高效处理,是该领域的另一个重要的研究热点。本文围绕机器学习算法在犯罪行为分析领域的应用及性能优化工作展开工作,通过机器学习算法和并行计算等关键技术来分析和预测各类犯罪行为及模型,从而促进构建一个和平安全的人类社会。分别提出基于模糊聚类的犯罪行为聚类算法、犯罪热点定位算法、犯罪模式识别系统、以及犯罪模式决策支持系统。该基础上,使用Apache Spark云计算技术,为所提出算法和系统分别设计相应的并行优化方案,有效提升算法和系统的运行性能。本文的主要工作和创新点如下:(1)提出了基于模糊聚类的犯罪行为聚类(CAC)算法。深入分析时间-空间格式的大规模历史犯罪行为数据集,使用改进的模糊聚类算法对各个国家/地区的不同时期犯罪行为进行聚类分析,并分别为各个国家/地区构建构建基于时间序列的犯罪行为犯罪模式。在此基础上,为了提升所提出CAC算法的性能和高效处理大规模犯罪行为数据,提出基于Apache Spark云计算平台的并行优化方案,对算法计算任务进行分解和并行调度。实验结果表明,所提出的CAC算法及其并行版本可以高效地对大规模时间-空间数据集进行犯罪行为聚类,得到精确聚类结果。为了有效地从大规模犯罪数据中分析和提取犯罪行为和模式,国内外学者试图将先进的计算科学技术应用于犯罪数据分析领域。尽管现有研究成果已经提出了用于犯罪模式发现的不同方法,但是在攻击类型和目标类型方面,在实现方面并没有丰富的属性。大部分方法没有使用多种属性来找出更有意义的犯罪模式。为了解决此问题,本论文分析了GTD数据库(Global Terrorism Data Base,GTD),并提出了一种犯罪活动聚类算法以有效地检测犯罪活动。进一步的,为了提高CAC算法的能力,使用Apache Spark云计算平台对所提出的算法进行并行优化。首先,从GTD数据库中收集犯罪活动数据集,该数据集包含1970年至2017年全球恐怖事件的信息,数据规模超过18万个案例。根据收集的数据集,对大约228个国家/地区于1970-2017年期间的犯罪记录进行整体统计分析。接着,提出了一种基于模糊聚类的犯罪活动聚类(Criminal Activity Clustering,CAC)算法,以检测大规模时空数据集中的潜在犯罪模式。首先引入模糊C-均值(Fuzzy CMeans,FCM)聚类算法,分别从犯罪类型、时空和时间三个角度对犯罪活动进行聚类分析。FCM聚类算法是一种基于函数优化策略的聚类算法,其使用演算计算技术以找到最佳成本函数。基于概率的聚类算法可以使用概率密度函数,并采用合适的模型以确保其向量同时属于多个聚类。在多级空间维度上,分别从区域、国家和城市等多层空间维度对犯罪数据集执行CAC算法。在区域级别,分析了全球12个区域(包括北美、中美洲/加勒比海、南美、东亚、东南亚、中亚、西欧、东欧、中东、北非、南非、大洋洲)中每种犯罪活动的聚类情况。在国家级别,分析了每个国家的每种犯罪活动的空间聚类,并获得了准确的聚类结果。在此基础上,为了提高CAC算法的性能,并且能够高效处理大规模犯罪数据集,本论文使用Apache Spark云计算平台对所提出的算法进行并行优化。Apache Spark平台是一个开源项目,提供云计算服务,该项目的创始人来自世界各地的开发人员,组织和个人。Apache Spark是高效的云计算平台,非常适合大规模数据处理以及分布式和并行数据分析。Spark平台的主要组件包括Yarn、Tachyon、HDFS、Spark Core、机器学习库(Mllib)、图形处理库(Graph X)、SQL数据库访问库(SQL Shark)和流计算模块(DStream)。本课题在长沙国家超级计算中心构建了一个Apache Spark云集群,所构建的Spark集群由一台驱动程序计算机,一台系统主计算节点和五台工作计算节点构成。接着,将CAC算法的并行程序部署在Apache Spark集群上。首先,需要启动Spark集群并初始化执行环境和相关的操作参数。CAC算法的程序从开发环境提交到Apache Spark驱动程序计算机。在接收到CAC算法的程序后,驱动程序计算机将调用RDD数据管理组件并解析程序代码中的任务。接着,RDD数据管理组件分析任务之间的逻辑依赖性和数据依赖性,并生成相应的RDD对象。在主计算节点上,激活DAG计划组件以为新到达的执行作业生成任务DAG图。在此步骤中,该组件根据DAG图中任务的依赖性将整个作业分为多个阶段。此外,它在每个阶段划分任务,并标记并行任务和非并行任务。然后将所有计算任务提交给任务调度程序,该任务调度程序负责将这些任务分配给Spark集群中的不同分布式工作程序节点。每个工作节点都配置有高性能计算单元,例如多线程,多核CPU或GPU,它们可以有效地并行工作。每个工作程序节点上都有一个或多个Executor Backend(EB)进程,每个进程都包含一个执行程序对象,并且该执行程序对象具有一个线程池,并且每个线程都启动一个任务。这样,在不同的工作节点中并行执行CAC算法的计算任务,从而提高了整个CAC算法的性能。得益于Spark云计算平台和设计的并行算法,CAC算法可以有效地处理大规模犯罪数据集并实时输出分析结果。最后,执行多组对比实验,以评估所提出的并行CAC算法的性能。实验中使用了两组具有不同样本数量的犯罪数据集。在这些实验中,Apache Spark云环境中的计算机数设置为1逐步增加到25。在每种情况下,记录并比较并行CAC进程的执行时间。实验结果表明,整个CAC算法的平均执行时间随着计算节点的增加而显着减少。例如,使用900,000个样本,单台计算机上运行的CAC算法的串行版本需要36.87秒。相反,CAC算法的并行版本在Spark集群中使用的时间更少。CAC算法的执行时间是使用5个节点时消耗23.22秒,使用10个节点时消耗17.18秒,使用15个节点时消耗14.09秒,使用20个节点时消耗12.26秒,使用25个节点时消耗10.79秒。当数据样本规模达到18万条时,CAC算法的性能优势就更加明显。例如,在单个计算机上运行的CAC算法的串行版本需要66.54秒。相比之下,并行CAC的执行时间使用5个节点仅消耗47.90秒,使用10个节点仅消耗34.97秒,使用15个节点为25.88秒,使用20个节点为19.41秒,使用25个节点为14.75秒。利用任务并行优化的优势,CAC算法在性能方面比串行版本具有明显优势。(2)提出了基于云计算的高效率犯罪模式识别(CPD)系统。在研究工作(1)所提出的犯罪行为聚类算法基础上,进一步提出犯罪率评估(CRE)算法和的犯罪热点定位(CHL)算法。在犯罪率评估算法中,采用统计理论对各个犯罪行为聚类结果进行分析,并评估各个国家/地区、不同犯罪行为类别、目标类型的犯罪率。在犯罪热点定位算法中,基于时序数据预测技术对不同时期各类别犯罪行为在各个国家地区的高发区域进行预测,并提出有针对性的预防建议。为了提升犯罪模式识别系统的运行性能,使用Apache Spark云计算平台进行系统部署和并行优化。实验结果表明,所提出的系统能够对大规模犯罪行为数据进行高效分析,并且准确识别各个目标类型的犯罪率和犯罪热点区域,为犯罪预防提供科学依据。在本项工作中,大规模犯罪活动数据集是从GTD数据库中收集得到。GTD是一个开放源代码数据库,其中包含有关1970年至2017年全球恐怖事件的信息收集到的GTD数据集中有183,000多个具有100个特征的记录,其中包含大量的犯罪信息。从事件发生地点的特征中,可以获得有关每个犯罪活动的国家,地区、城市、经度和纬度的信息,从而为聚类分析提供了准确的数据源。基于研究工作(1)所检测到的犯罪模式,进一步提出了一种犯罪率评估(Crime Rate Evaluation,CRE)算法,以识别每组地点和目标类型的犯罪率。与传统的犯罪率统计方法不同,本项工作不仅从当前的频率统计各种犯罪的犯罪率,而且从犯罪种类、犯罪地点、人员伤亡和财产损失等方面综合评估犯罪活动的影响。首先是各个国家的犯罪率评价:计算每个地区和国家/地区随时间推移的犯罪率,以及不同时间段内犯罪的变化。其次,对每个犯罪群的犯罪率评估。与每个地区/国家/地区的评估方法类似,继续计算所获得的犯罪活动类别的犯罪率。这样,通过考虑详细的犯罪信息来分别评估犯罪率,这些信息包括犯罪者信息(即犯罪者人数、犯罪者团体名称、动机)、事件信息(即怀疑恐怖主义是否适当)、攻击信息(即攻击类型)、武器信息(即武器类型)和目标/受害者信息(即目标/受害者类型)。最后,对犯罪造成的损害程度的评估。需要注意的是,由于犯罪活动的动机和目标不同,因此每种犯罪活动所造成的损害和破坏潜力是不同的。因此,本项工作从财产损失和生命损失的角度考虑犯罪造成的损害程度。考虑的因素包括死亡人数、受伤总数、财产损失价值、财产损害程度、人质/绑架受害者的总数和天数、以及支付的赎金总额。假设在时空维度上不同犯罪活动之间存在各种关系。从这个角度来看,很容易知道犯罪热点位置具有动态变化的重要特征。因此,分析犯罪活动的每个类别的动机和模式至关重要。本论文进一步提出了一种犯罪热点定位(Criminal Hotspot Locating,CHL)算法,以预测和突出显示热点区域,以防止目标地点的发生。根据所前序工作计算得到的犯罪聚类结果以及犯罪率和损害程度,进一步计算了世界不同地区在不同时间的犯罪热点位置。不仅要计算犯罪活动的发生频率,还要考虑这些活动的负面影响以及彼此之间的相关性。例如,本研究表明,伊拉克的犯罪热点比其他国家更多,并在2014年左右达到峰值。同时,可以进一步分析每个国家随时间推移的犯罪热点的迁移情况。简而言之,所提出的CPD系统可以对大规模犯罪数据集进行深入挖掘。它可以充分提取各种犯罪活动的模式以及它们的动机和破坏性潜力。此外,还可以准确地发现和跟踪犯罪热点,为政府制定相应的犯罪预防和治理策略提供科学依据。基于犯罪率评估(CRE)算法和犯罪热点定位(CHL)算法,进一步设计并实现了一个犯罪模式发现(Crime Pattern Discovery,CPD)系统,以有效地检测犯罪活动并突出显示犯罪热点。同时,为了提高建议的CPD系统的性能,在Apache Spark云计算平台上为CPD系统开发了并行化解决方案。CPD系统的并行版本称为PCPD系统。在PCPD系统中,犯罪活动聚类、犯罪率评估和犯罪热点定位分别并行执行。Apache Spark的核心编程模型是弹性分布式数据集(Resilient Distributed Datasets,RDD),它表示分布式数据集的集合,并允许不同的分布式计算机对同一RDD对象执行并行访问操作。在PCPD系统中,需要分析每个模块的数据依赖性,例如犯罪活动聚类、犯罪率评估和犯罪热点定位。在PCPD系统的并行执行中,我们需要加载大规模的犯罪活动数据集,然后另存为RDD对象。RDD对象将由多个分区组成,这些分区将分配给不同的分布式计算节点,并支持这些节点之间的并行计算。PCPD系统中需要在分布式计算集群中并行执行3种算法(即CAC、CRE和CHL),并且它们访问公共的RDD对象。在执行这些并行任务之前,需要分析每个任务的输入和输出,这些输入和输出以RDD格式保存。进一步分析了不同任务之间对RDD对象的逻辑依赖性和数据依赖性。在第一阶段(并行CAC算法),将大规模犯罪活动数据集加载到Spark Tachyon存储系统中,并以名为RDDX的RDD对象的格式保存。在Apache Spark平台中,每个RDD对象都是确定性状态的数据集的表达式,可以从先前RDD的转换中得出。即,当前任务中的RDD对象与先前任务中的RDD对象之间可能存在依赖关系。通过加载RDDX的每个分区,可以并行计算每个犯罪活动的成员矩阵和聚类中心。然后,通过f lat Map()函数获得犯罪活动聚类的结果,同时将相应结果保存到名为RDDC的RDD对象中。显然,RDDC和RDDX之间存在很大的依赖性。广泛的依赖关系意味着子RDD对象的每个分区都依赖于父RDD的多个分区。在第二阶段(并行CRE算法)中,加载具有不同特征的犯罪数据集,并与在阶段1中获得的聚类结果RDDC一起参与计算。并行计算每个犯罪活动聚类的犯罪率和损害程度,并获得相应的RDD对象RDDCR和RDDD。在第三阶段(并行CHL算法),涉及犯罪活动集群RDDC,犯罪率RDDCR和犯罪损害度RDDD来计算犯罪热点。每个犯罪热点的最终结果都保存在对象RDDH中。因此,RDDH分别对RDDC和RDDD的依赖性较小。基于PCPD系统三个阶段中的RDD依赖性,将CAC,CRE和CHL流程中的计算任务分解,以构造任务有向非循环图(Directed Acyclic Graph,DAG)。DGA中的任务分为可并行化的任务和无法并行执行的任务。最后,执行对比实验以评估所提出的PCPD系统的性能。实验中使用了两组具有不同样本数量的犯罪数据集。在这些实验中,Spark环境中的计算机数量设置为1增加到25。在每种情况下,记录并比较CAC,CRE和CHL进程的执行时间。实验结果表明,PCPD系统的平均执行时间随着计算节点的增加而显着减少。例如,使用900,000个样本,在一台计算机上运行的CPD系统的串行版本需要55.46秒。相反,并行版本的CPD系统(PCPD)在Spark集群中使用的时间更少。使用5个节点时PCPD的执行时间为36.36秒,使用10个节点时为26.64秒,使用15个节点时为21.00秒,使用20个节点时为17.38秒,使用25个节点时为14.63秒。此外,可以进一步分别比较CAC、CER和CHL算法的执行时间。当数据样本规模达到18万条时,PCPD系统的性能优势就更加明显。例如,在一台计算机上运行的CPD系统的串行版本需要99.01秒。相反,PCPD的执行时间使用5个节点为72.14秒,使用10个节点为54.23秒,使用15个节点为41.85秒,使用20个节点为32.37秒,使用25个节点为25.56秒。利用任务并行优化的优势,PCPD系统在性能方面要优于串行版本。(3)提出了犯罪模式数据挖掘以及在旅行者决策支持领域的应用。设计并构建一个基于犯罪模式发现的旅行者决策支持系统(CPD-DSST),使旅行者用户可以了解特定地区的犯罪状况,并及时提供建议以确保出行安全。为了发现和定位犯罪行为,提出一种基于时空犯罪数据的多项逻辑回归算法,用于定位和分类犯罪行为,并对犯罪率进行有效评估。实验表明,该系统可以进行准确的犯罪行为预测,系统试运行的初步结果表明该系统的功能受到用户的赞赏。本项工作提出一种基于Web的旅行者决策支持系统,以解决旅行者的安全问题。尽管已经提出了许多研究,但没有针对旅行的基于犯罪数据的决策支持系统。因此,本项工作集中解决这个问题,并通过为用户提供有关选定目的地城市的相关信息,相关犯罪活动等信息,提出了一个旅行者犯罪模式发现决策支持系统(Crime Pattern Discovery Decision Support System for Travelers,CPD-DSST)。该系统基于多项逻辑回归算法,实现了一种犯罪分类发现和定位(Crime Classifying Discovery and Location,CCDL)的高效算法,以及犯罪率评估(Crime Rate Evaluation,CRE)算法,并且能够为选定目标城市的旅行者提供报告功能和有用的信息。犯罪发现与定位(CCDL)算法结合了用于分类的多项式逻辑回归和CRE算法。该算法以一组犯罪记录(数据点)作为输入,并输出犯罪分类(不同类型犯罪类别的发生概率)。将CCDL算法应用于给CRE算法指定的开始时间和结束时间。应用CRE之后,该算法使用多项逻辑回归来计算概率。在提出的CPD-DSST系统中,CCDL通过对GTD数据库的全球犯罪活动进行进行分析,以发现各个目标区域或者城市的犯罪模式和具体位置。CRE算法的时间段用作CCDL的起点和终点。之后,CCDL读取数据集的形状(结构)并计算数据点的总数。然后程序在给定的时间段内根据softmax函数重复进行计算。为了演示基于Web的系统,请考虑以下场景:选择2019年12月作为时间,选择长沙作为城市。由于2019年12月在长沙市未发生任何犯罪,因此犯罪数据为空,可以假设这是安全的访问。在这种情况下,决定使用一个月的时间段来分析数据,因为大多数旅行者访问该地点一个月或更短的时间,并且可能想知道上个月发生了什么。如果在选定的时间段内未在系统中提供选定时间段内发生的某些犯罪或事故,系统将向旅行者/用户提供报告功能,该功能可用于输入信息进入系统。该系统还为旅行者提供了一个地方的一般旅行信息。(4)提出了机器学习和神经网络算法在指纹获取、检测、分类、识别和验证等方面的应用。提出指纹分类算法及其在刑事侦查领域应用的最新文献评估。从指纹分类、指纹匹配、特征提取、指纹和手指静脉识别以及欺骗检测等方面,比较和分析了相关的机器学习和神经网络算法。并且讨论了目前指纹分析方法和应用中的挑战以及未来的发展方向。指纹是皮肤的独特功能。由于其独特的脊线和构造,我们可以使用它来识别一个人。在我们怀孕期间胎儿的第三至第四个月,指纹的脊开始形成。形成这些脊是为了紧紧地抓住我们的物体而不会滑动。他们自己进行规则的图案排列,并且独特地具有脊特征图案的排列和组合。这些摩擦脊的样式由许多甜孔组成。汗液孔使汗液和油脂从腺体中排出。如果汗液与光滑表面上的其他物质接触,则会形成指纹。将油脂转移到表面会留下指纹,并且一些物质(例如油漆,血液)会残留在手指上,或者在软物质中留下压印。我们可以找到任何相同的指纹。即使这样,双胞胎的指纹也不一样。通常,指纹图案可分为三类:拱形、环形和螺纹形。在一个家庭中,指纹的一般模式在一级可能是相同的。但是它们在第二和第三层是不同的,因为它们不是继承的。一旦指纹的形成过程完成,它们就会在其生长过程中在各个方向上均匀地生长脊。这就是模式从未更改的原因。即使皮肤组织被撕裂,它们也不会改变,它会像以前一样打印回来。因此,指纹在我们的一生中都一样。由于指纹是由脊的特征组成的,因此在解释指纹时,脊的特征就包含在重要的环节中。岭特征是可用于识别目的的点。通常,注册的指纹可能包含100个以上的识别点。有许多不同的山脊特征。为了获得肯定的认可,需要根据脊特征的频率对各种点进行比较。由于其独特性和持久性,指纹是分析犯罪证据的必不可少的法证技术之一。不仅指纹,血液,DNA,笔迹,头发,纤维,脚印在犯罪现场的调查中也非常有用。其中,指纹在刑事调查中已经使用了多个世纪,以识别该人是犯罪嫌疑人,受害人还是证人等。当犯罪现场检查人员从犯罪现场发现印刷品时,他们会收集印刷品并进行详细分析,然后将分析结果报告给执法部门。他们从犯罪现场收集了照片后,便开始了分析过程。换句话说,可以认为是将从犯罪现场收集的未知印刷品与存储在数据库中的已知印刷品进行比较。在该指纹分析过程中,如果采集到的指纹不清晰,准确,完整,会在指纹识别过程中产生问题。由于这个原因,指纹检查者决定打印物中是否有足够的信息可用于识别。分析包括通过逐点比较直到发现与所收集的未知印刷品相匹配的可能性来确定类别特征和个体特征。指纹识别由于在诸如政府、法医和民用领域的各种应用中取得了成功而非常受欢迎。大型遗留数据库的可用性,紧凑而经济的指纹读取器提高了指纹的普及率。指纹识别系统用于验证和识别目的。在验证中,将已注册的手指与已识别的用户进行比较,以得出两个指纹是否来自同一手指(1:1)匹配的结论。在识别中,将输入指纹与所有数据库登记的指纹进行比较,以确定在与(1:N)匹配相同的条件下是否已经实现了指纹。本项工作深入讨论了应用于指纹分类的各种机器学习算法,包括指纹识别、指纹分类、指纹匹配、特征提取和手指静脉识别。其中,指纹识别是识别未知指纹并命名指纹。指纹分类是指将指纹分类为一个类别或一组。一些机器学习,深度学习方法也已用于指纹分类算法的构建,包括模糊和反向传播神经网络算法。在深度学习领域,研究学者提出了一种指纹分类算法,并采用softmax回归进行模糊分类,以提高分类准确性。它们为“可疑”指纹提供了辅助类别。此外,一种四层神经网络被嵌入到两步学习方法中,并应用于指纹图像的分类和分类状态的推导。研究人员还提出一种基于指纹特征提取的指纹分类系统,该算法使用模糊神经网络分类器根据亨利系统对输入特征码进行分类。在所提出的系统中,它包括四个步骤:分割、方向图像估计、奇异点提取和特征编码。它包括带有方向和位置的奇异点(核心和增量)编码。此外,研究人员还提出了一种使用具有多层感知器结构和提取算法的神经网络通过指纹对人进行身份验证的模型。该模型使用概率计算对输入图像子块进行分类。一种减少特征向量特征的方法被提出用于表征指纹,该方法使用反向传播神经网络(BPNN)评估了他们的方法。在机器学习领域,已经基于支持向量机(Support Vector Machine,SVM)、分类器、聚类、Apriori算法对指纹分类算法进行了许多研究。例如,研究人员提出了一种基于SVM和递归神经网络(RNN)的机器学习方法进行分类。该算法训练RNN进行指纹图像的结构化表示,并使用它来提取一组分布式特征以集成到SVM中。另有研究人员提出了一种基于定向场和支持向量机的分类方法。该方法可以从像素梯度估计方向场,然后计算方向块类别的比率。研究人员还提出了一种基于奇异点交互验证和约束非线性定向模型的算法。他们还使用SVM分类器对紧凑特征向量的输入进行分类。一种基于方向场的指纹分类算法被提出用于计算指纹图像的方向场并发现奇异点(核心),然后提取特征。该算法使用k均值分类器和3近邻分类器对特征和指纹模式(拱形,环状和螺纹状)进行分类。为了生成数字代码序列,研究人员还提出了一种有效的分类指纹技术,该方法利用数据挖掘的方法根据脊流模式对每个指纹图像进行了分类。他们将Apriori算法用于频繁项集生成技术,以便为每个类别选择一个种子。然后,使用K均值聚类对指纹图像的种子进行聚类。另外,一些研究人员已经基于图论、定向脊流、脊线和点检测方法进行了指纹分类。通过使用图论,研究人员引入了一种新的基于指纹方向图像的指纹分类结构方法。他们将指纹定向图像分割为相同方向的像素区域。研究人员还提出了一种基于核分析的指纹识别算法,用于从定向指纹图像中检测出核心点候选者,并分析每个核心候选者的附近区域。为分类步骤提取核心点方向,并消除不清楚的核心点。指纹匹配是两个指纹之间的相似度得分匹配的过程。如果两个指纹来自相同的手指,则得分将相对较高;如果两个指纹分别来自不同的手指,则得分将相对不足。指纹匹配的过程是一个具有挑战性的模式识别问题,这是因为其来自同一手指的指纹图像的类内相关多样性以及来自不同手指的指纹图像的相关相似性。这种多样性的发生尤其是由于手指压力,手指放置-旋转以及皮肤干燥和手指割伤等原因造成的。对于相关性相似的类型,仅当系统仅针对三种指纹图案类型定义打印时才会发生这种多样性(例如:拱形、圈形和螺纹形)。研究人员提出了一种分解基于细节的指纹匹配的方法。在该框架中,他们为基于细节的匹配算法提出了一种通用的分解方法。它将匹配的分数分为非常详细的过程。通过分解,任何基于细节的算法都可以适应诸如Map Reduce或Apache Spark之类的框架。研究人员还针对移动设备中的所有传感器,提出了使用细节和脊形特征(RSF)进行的新的部分指纹匹配。RSF是观察特定边缘形状的小脊段。此外,研究人员提出了一种新的密集指纹注册算法。它包括一个复合的初始注册过程和一个基于双分辨率的基于块的注册过程。特征提取算法影响现代自动指纹识别系统的性能。我们可以将指纹图案分为三个级别进行特征提取。级别1表示全局指纹模式(总体指纹脊线流)。在级别1中,它包括五个类别(左循环、右循环、螺纹、拱形和拱形拱形)。它包含摩擦脊方向,图案类型和奇异点的详细信息。全局脊流是一个定义明确的模式,即使图像质量不足,也可以轻松提取。下一级特征与脊分叉和脊末端等细节信息有关。它使每个指纹都具有唯一性。诸如分叉之类的山脊末端用于定义2级要素。在下一级(第3级)功能中,它由山脊尺寸属性(山脊路径偏差,宽度,形状,汗孔的位置,山脊的几何细节,边缘轮廓)以及其他细节(例如疤痕,初期山脊,等等。它需要使用显微镜,该水平仪尤其适用于法医检查人员。同卵双胞胎之间的差异始于3级。需要高分辨率图像才能获得更高级别的功能。例如,要从级别3提取特征,它需要分辨率超过500-ppi的图像。使用人工神经网络,研究人员提出了一种基于2级特征检测重要图像区域的指纹识别系统。随着在政府和民用领域中指纹识别系统使用的增加,人工指纹检测已经成为新的研究方向。因此,许多研究人员也将重点放在欺骗指纹的检测上。约书亚等。还提出了一种用于欺骗检测的分类器,以减少欺骗检测器的脆弱性并暴露在检测器训练期间看不到的来自欺骗的攻击。他们使用生成对抗网络(Generative Adversarial Networks,GAN)处理Raspi Reader采集的实时指纹图像。它一直使用本地二进制模式(LBP)作为指纹检测方法的最佳运算符之一。但是,它在空间支撑区域上有一些限制。由于这个原因,研究人员提出了一种基于多尺度局部二值模式(Multi-Scale Local Binary Pattern,MSLBP)的欺骗性指纹检测新方法。该方法可以通过两种方法来实现欺骗指纹检测。在这两种方法中,每个MSLBP都与一组过滤器结合在一起。并且,每个LBP圆样本都可以从大范围收集强度信息。此外,研究人员提出了一种基于深度卷积神经网络的方法,该方法利用整个指纹细节中提取的局部补丁来开发准确且可通用的算法,以检测指纹欺骗攻击。研究人员还通过创建人造指纹广泛讨论了基于指纹的生物识别系统和指纹扫描仪的潜在问题。通过使用活力检测,研究人员提出了一种基于脉搏血氧饱和度的反欺骗方法。据我们所知,以前的大多数指纹分类研究主要基于k-means聚类、神经网络、支持向量机、欧氏距离和最近邻算法进行分类和训练任务,以及基于Gabor算法进行指纹图像增强任务。而且它们通常基于打印细节特征(核心和增量)的方向和位置来实现。并且,随着我们日常生活中指纹使用的重要性不断提高,对于防止欺骗指纹(例如Master Prints)越来越重要。由于指纹可以通过化合物的质谱成像揭示我们的日常生活,因此指纹是检测嫌疑犯的最重要证据之一,因为指纹的独特性和印刷品中包含的化学信息。我们还可以结合化学技术和机器学习技术对指纹进行研究,从而不可避免地为犯罪嫌疑人准确地发现身份。关于指纹匹配算法,可以基于一般图像相关性,骨架匹配,相位匹配和细节匹配来考虑。在这四种技术中,基于细节的匹配被广泛应用。这是因为很多年前,法医已经成功地依靠了细节。而且,基于细节的表示形式可以有效地进行存储,并且在法庭上也可以接受依赖细节的嫌疑人身份的证词。本文的工作在犯罪侦查,预防和发现犯罪模式等方面具有重要的理论价值和实际意义。充分利用Apache Spark云计算平台进行分布式和并行计算,以提高可伸缩并行机器学习算法的性能,并探索了这些算法在刑事侦查和指纹识别领域的应用,为其他领域的应用推广打下坚实的基础。

关键词:机器学习;云计算;犯罪模式发现;模糊聚类;指纹识别;决策支持系统;

学科专业:Computer Science and Technology

摘要

Abstract

Chapter 1 :Introduction

1.1 Research Background and Significance

1.1.1 Criminal Behaviors and Patterns

1.1.2 Machine Learning and Cloud Computing

1.1.3 Research Motivation

1.2 Challenges

1.3 Major Contributions

1.4 Organizational Structure of The Dissertation

Chapter 2 :Literature Review

2.1 Criminal Discovering and Investigation Technology

2.2 Machine Learning Algorithms

2.2.1 Clustering Algorithms

2.2.2 Classification Algorithms

2.2.3 Regression Algorithms

2.3 Distributed Parallel Cloud Computing

2.3.1 Cloud Computing and Service Models

2.3.2 Cloud Computing Platforms

2.4 Chapter Summary

Chapter 3 :Parallel Crime Activity Clustering Algorithm Based on Fuzzy Clustering

3.1 Introduction

3.2 Contributions

3.3 Crime Activity Clustering Algorithm

3.3.1 Criminal Activity Dataset

3.3.2 Criminal Activity Clustering Algorithm

3.4 Parallel Implementation of CAC Algorithm

3.4.1 Parallel Computing Architecture

3.4.2 Parallelization Based on Apache Spark

3.5 Performance Evaluation

3.6 Chapter Summary

Chapter 4 :Parallel Crime Pattern Discovery System Based on Cloud Computing

4.1 Introduction

4.2 Contributions

4.3 Spatio-temporal Dataset

4.4 Proposed CRE and CHL Algorithms

4.4.1 Crime Rate Evaluation Algorithm

4.4.2 Criminal Hotspot Locating Algorithm

4.5 Parallel Crime Pattern Discovery System

4.5.1 Construction of Apache Spark Platform

4.5.2 Data Dependence of PCPD System

4.5.3 Parallel Process of PCPD System

4.6 Performance Evaluation

4.7 Chapter Summary

Chapter 5 :Crime Pattern Discovery Decision Support System

5.1 Introduction

5.2 Contributions

5.3 Crime Classifying Discovering and Locating Algorithm

5.3.1 Logistic Regression Method

5.3.2 Crime Discovering and Locating

5.4 The Proposed CPD-DSST System

5.4.1 Crime Dataset

5.4.2 Implementation of the CPD-DSST System

5.5 Performance Evaluation

5.6 Chapter Summary

Chapter 6 :Fingerprint Classification and Identification in Criminal Investigation

6.1 Introduction

6.2 Contributions

6.3 Fingerprint Characteristics

6.3.1 Fingerprint

6.4 Fingerprint in Criminal Investigation

6.5 Fingerprint Classification and Recognition Algorithms

6.5.1 Fingerprint Classification

6.5.2 Fingerprint Matching

6.5.3 Fingerprint Feature Extraction

6.5.4 Fingerprint and Finger-Vein Recognition

6.5.5 Spoof Fingerprint Detection

6.6 Challenges and Future Research Directions

6.7 Chapter Summary

Conclusion

References

Appendix:List of Publications

Acknowledgements

上一篇:汽车配件营销论文提纲下一篇:ERP采纳内部控制论文提纲