类分裂的代码混淆技术论文

2022-04-21

【摘要】在软件应用当中,代码混淆技术是保护软件安全的一项重要技术,在软件安全领域当中,具有十分重要的意义,受到了很多软件开发企业的重视。但是,由于其在我国产生的时间较晚,属于一项新型的技术,因此在很多方面还不够成熟。因此,本文对基于JAVA语言的混淆器设计模型及设计思路进行了研究,进而对主要的设计模块进行了分析。今天小编为大家精心挑选了关于《类分裂的代码混淆技术论文(精选3篇)》,欢迎大家借鉴与参考,希望对大家有所帮助!

类分裂的代码混淆技术论文 篇1:

基于诉讼风险分析的智能推理应用探究

摘要:人工智能技术的快速发展为诉讼规则知识库构建奠定了坚实基础。当前在诉讼风险分析中,智能推理存在司法风险规则知识库匮乏、诉讼风险分析技术较低等弊端,以致无法从根本上化解证据、诉讼时效和行为规范等方面的风险。是以,需要就案件类型化后随机抽取,并收集案例的起诉状、证据、案情和裁判文书,在对多方证据关联分析模型进行解析的基础上,设计开发诉讼时效性规则知识库、当事人行为规范性规则知识库以及证据有效性规则知识库,结合多方证据关联模型,并与法律法规知识库和诉讼风险规则知识库融合,运用决策树算法,关系网络推理技术列举分析可能存在的诉讼风险,最终达至对诉讼风险点的识别、裁判结果的精准预测和合理分流不必要的诉讼,以期为民众提供全面的诉讼决策指引。

关键词:人工智能;推理规则;诉讼风险;规则模型;分析与运用

文献标识码:A

早在1970年,布坎南(Buchanan)与亨德里克(Hendrick)发表《关于人工智能和法律推理若干问题的考察》一文[1],拉开了司法裁判领域人工智能研究的序幕[2]。作为人工智能的核心内容,推理是从一个或几个已知的判断(前提)推出新判断(结论)的过程[3],在人工智能步入以深度学习为主导的阶段,推理技术亦与此保持同步发展,将规则演绎系統、专家系统、机器学习、贝叶斯网络、知识图谱乃至事理图谱等先进的推理技术[4]应用但不限于制定法的规则之中,将在一定程度上提升诉讼风险知识库和诉讼风险预测的准确度。实践中,我国人工智能推理规则在诉讼风险预测的应用上处于初级层面,其面临诉讼风险规则知识库匮乏和诉讼分析方法技术不高两大挑战,而理论界对此关注不多。随着最高人民法院2019年《工作报告》“全面建设智慧法院,发挥司法大数据管理和服务平台作用,为群众诉讼提供服务,为科学决策提供参考”的提出[5],人工智能推理在诉讼风险分析中的研究显得极为必要和迫切。为此,本文通过对500件案例类型化后的随机调取,并收集起诉状、证据、案情和裁判文书,在解析多方证据关联分析模型的基础上,依据法律法规中的风险点,设计开发诉讼时效性规则知识库、当事人行为规范性规则知识库及证据有效性规则知识库,结合多方证据关联模型,融合法律法规知识库和诉讼风险规则知识库,运用决策树算法、关系网络推理方法列举分析可能存在的诉讼风险点,以期精准识别诉讼风险,为民众提供全面的诉讼决策指引有所裨益。

一、诉讼风险的规则模型

(一)诉讼风险的界定

诉讼风险是指当事人在诉讼活动中可能遇到的一些争议事实以外的因素,这些因素会影响案件的审理和执行,使得当事人通过诉讼以期保全的法益增添无法实现的风险[6]。这些风险集中于证据有效性、诉讼时效性以及当事人行为规范性等方面。在此,本文以民间借贷纠纷为例,以当事人起诉为视角,对上述三个方面分别进行分析。

1.证据有效性

在司法理论和实践中,证据有效性主要从证据能力和证明力两个方面进行判断。前者是指证据资格有无的问题,后者是指证据对案件事实的证明程度或者影响力,证据证明力大小取决于证据与待证事实之间的关联程度,证据是否可靠及其有多大证明价值,由法官进行判断,属于法官依法心证的范畴。而这正是证据采信标准所要解决的问题,即证据的证明力问题[7]。在民间借贷纠纷中,当债权凭证、借款支付凭证、还款凭证等不是原件且与原件不相符时,或者上述凭证不具备真实签章或公证时,存在证据不真实的诉讼风险。支付凭证、还款凭证、鉴定意见等出具主体不合法,或者证据形式与法律规定不相符,或者证据搜集程序违反法律规定,则存在着证据不合法的诉讼风险。上述凭证以及借还款事实佐证、视听资料、鉴定意见等与起诉状中相关信息比对不一致,则存在证据无关联性的诉讼风险。对于举示证据的一方与证人有利害关系,或者本金、利息、违约金、还款时间、还款金额等与起诉状、证人证言、视听资料中相关信息比对不相符,则构成证明力降低的诉讼风险。对证据来源的可靠性分析,需要结合举示证据的一方或者证人的知识水平、身份和动机进行分析,而判断证据内容是否可信,则需要就证据内容的可能性、一致性、合理性与详细性一并考虑。对证明价值的评判是法官对证据内容、意义在法律上所做出的价值判断,需要按照先单个证据或单组证据、后全部证据的顺序进行。上述情形只要存在些许瑕疵,则可能会产生证据证明力锐减甚至丧失之风险。

2.诉讼时效性

权利人在法定期限内不行使权利,其权利即依法消减的时效称为消灭时效,我国民法称其为诉讼时效[8]。从《人民法院民事诉讼风险提示书》规定来看,原告诉至法院后,被告提出原告起诉已超过法定的保护期间,而原告未对被告主张的事实提供相反的证据证明,其诉请难以得到法院支持。我国《民法典》第188条规定,在民间借贷纠纷中,超过诉讼时效的风险主要有两种情形:一种是借据、收据、欠条等债权凭证约定还款期限到期产生的风险:借款日期到诉讼风险评估之日,超过20年或催款时间到诉讼风险评估日期超过3年;另一种是上述借款凭证未约定还款期限,起诉状、借还款佐证(证人证言、微信/支付宝/短信等)信息中有债权人催款、债务人无意还款的语义及时间,催款时间到诉讼风险评估日,时间超过3年。

3.当事人行为规范性

按照我国《民事诉讼法》第121条的规定,起诉状应当记明当事人的基本情况、诉讼请求和所根据的事实与理由、证据和证据来源、证人姓名和住所等内容。对于当事人提供的基本情况或者信息不全,诉讼请求和所根据的事实与理由含糊不清、模棱两可,证据和证据来源、证人姓名和住所缺失,以及起诉状未写明日期或无原告签章等,均存在起诉行为不规范之风险。与此同时,还存在以下诉讼行为不规范之风险:诉讼主体不适格、管辖权错误等情形。

(二)规则模型的建构

依据我国诉讼法及其司法解释的规定,通过对裁判文书、当事人举示的证据材料和电子卷宗等样本的收集、梳理、数据加工,适用关键句筛选、句法分析、模式匹配和分类预测等技术,通过Bootstrapping[9]等样本采样和多分类器投票算法进行风险规则和数据关系的高效抽取,可以构建诉讼风险规则知识库,由分析规则和数据关系构建事理图谱,最终形成诉讼风险规则模型(见图1)。

1.诉讼风险规则知识库的归入

规则知识库将专家对某个领域的经验知识转化成通用规则,通过匹配输入信息和规则知识库前提条件推出结果[10]。它“涵盖大量的程序性概念和关系、相关实体之间关系的推理逻辑,集成的数据层和模式层,以及规则模型与推理模型,使当事人能够自助获取专业化诉讼意见,正确评估诉讼走向,形成合理的诉讼预判,减轻当事人的诉讼成本,分流非必要诉讼”[11]。以民间借贷纠纷为例,诉讼风险规则知识库构建采用如下方法。

首先,对诉讼法及其司法解释分别进行分句数据加工、文本分析、关键句筛选、句法分析,运用NLP技术[12],挖掘民间借贷纠纷潜在的诉讼风险点。

其次,通过剔除语义噪音,利用触发词[13]、模式匹配和分类预测,从文本中完成相关句子的筛选,将民间借贷纠纷诉讼风险点根据特征相似度分别归入行为规范性、诉讼时效性、证据有效性,并将其标签化,建成通用的数据模型,形成民间借贷纠纷诉讼风险规则。

最后,对证据有效性法条识别并分类时,将我国《民事诉讼法》第67条和第70条第1款等法条梳理得到的诉讼风险规则归入证据有效性风险规则知识库;对诉讼时效性法条识别并分类时,将由《民法典》第188条等规定总结得到的诉讼风险规则归入诉讼时效性风险规则知识库;对行为规范性法条识别并分类时,将由《民事诉讼法》第119条和第143条等规定梳理得出的诉讼风险规则归入行为规范性风险规则知识库。

2.诉讼风险规则模型的形成

在证据关联分析模型的基础上,基于多方证据、裁判文书和电子卷宗等文书以及海量案件信息,从不同类型案件进行证据的特征提取和规律描述,标记多方证据之间的逻辑关系,利用贝叶斯网络[14]选取概率最大的证据链作为最优可信的证据链条。在技术上,采用Bootstrapping等样本采样和多分类器投票算法进行风险规则和数据关系的高效抽取,使风险规则的关键词与证据关联模型中的最优可信证据链的证据要素相匹配。例如,依据我国《民事诉讼法》第70条第1款的规定,提取诉讼风险规则中的“书证”,与证据要素库中的“债权凭证”“借款支付凭证”“还款凭证”等证据要素进行匹配,将其作为构建事理图谱的最小单位。在此基础上,形成诉讼风险规则模型。从结构上来看,事理图谱是向与环的结合,节点指向事件,向边表示事件之间的关系,它依循逻辑序列,通过对类案证据的梳理和学习,按照支持度和置信度,以及逻辑关系形成一定的规则,辅之以法律专家意见,提升证据链条的精准性[15]。例如,在民间借贷纠纷中,假设存在借贷关系,“张通过银行转账借给王1万元”“李为王提供一般保证”,事理图谱有助于对张的诉请是否超过诉讼时效、诉至法院后证据链条是否闭合的判断,以及进一步预测能否通过要求李承担保证责任来实现1万元的债权等,对各个法律事实内在逻辑进行深入挖掘,得出因果、顺承逻辑关系,形成一个对诉讼风险进行预判的完整体系。证据真实性诉讼风险规则事理图谱包括“证据是否为原件、复制件与原件是否相符”和“是否具备有真实签章或公证”两个部分。将“债权凭证”“借款支付凭证”“还款凭证”“借、还款事实作证”整合到证据真实性风险规则中,即可形成证据真实性诉讼风险规则事理图谱,进而由证据能力、证明力、诉讼时效、起诉要件等规则构建诉讼风险规则模型。

二、诉讼规则的智能推理

规则推理是专家系统中常用的推理机制,其为基于规则表示的知识系统,主要采用规则知识库推理生成问题解决结果[16]。基于诉讼风险规则模型,依托多方证据关联模型,结合证据条件可信评估方法,围绕诉讼请求,采用关系推理网络正向推理,得出对诉讼时效性、行为规范性、证据有效性的风险识别与预测。由于上述“三性”所涉问题判别的特征显著,采用浅层判别模型便能以较小的成本实现风险的预测,因此,采用决策树的ID3算法,输入诉讼证据向量,输出对诉讼规范性、行为规范性和证据合理性的二分类,进行诉讼风险预测与评估。

(一)诉讼风险规则的数据来源

通过对多方证据、诉讼材料、裁判文书和电子卷宗等研究载体中的有效信息的实体识别和证据特征提取、归类、去噪等规范化、格式化处理,得出最优可信证据链的结构化证据,作为数据来源输入诉讼风险规则模型。同时,结合诉讼风险规则知识库,对诉讼风险规则的关键词与证据关联模型中的最优可信证据链的证据要素进行匹配(见图2),奠定下一步操作之基础。

(二)诉讼风险规则特征向量的提取

诉讼风险规则特征向量的提取方法是:根据结构化的证据要素模型,基于诉讼请求、案件事实输入多方证据关联图谱,由诉讼风险规则知识库和相关证据条件可信评估概率对诉讼证据进行特征提取和量化,将离散证据要素转变为特征向量。例如,在民间借贷纠纷中,证据真实性诉讼特征设计与量化是通過“证据是否是原件或与原件是否相符”将数据分为两类:若不是原件或者复印件与原件不符,则定义为有违反证据真实性的风险,编码为1;反之,进入二级分类。以“证据是否具备真实签章或公证”为标准,将数据分为两类,即若具备,则定义为无证据真实性风险,编码为0;若不具备,则定义为有证据真实性风险,编码为1(见表1)。通过二层级别分类,筛选出无真实性瑕疵的证据,此为将证据特征化的必须操作。

与此同时,在诉讼时效性、行为规范性、证据有效性的风险辅之“设定选项”“问答”方式输入,使特定向量的提取更加明确。这里以自然人之间民间借贷纠纷(非担保型)为例予以说明。

问题1:出借人是否有借款支付凭证?(*)

A.银行汇款凭证B.现金凭证C.微信/支付宝转账凭证D.无借款支付凭证

选择A对应的特征意义:银行汇款支付凭证合法

(问题1选择B的进行此项提问)问题2:现金收据凭证是否有债务人签字或盖章?(*)

A.有债务人签字或盖章B.无债务人签字或盖章

选择A对应的特征意义:现金收据支付凭证合法

选择B对应的特征意义:债务人名称不匹配或没有签字/盖章的,现金收据支付凭证合法性存在问题

(问题1选择C的进行此项提问)问题3:微信/支付宝转账凭证是否通过鉴定?(*)

A.通过鉴定B.未通过鉴定/未鉴定

选择A对应的特征意义:电子证据借款凭证与原件相同

选择B对应的特征意义:电子证据借款凭证的真实性存在问题

(未识别到借款凭证的进行此项提问)问题4:是否订立书面的借款合同或借据?(*)

A.订立书面借款合同或借据B.未签订书面借款合同或借据

问题1选择A/B/C,问题4选择A/B的风险结果:自然人之间的借款凭证可以采用书面形式或者口头形式,自出借人提供借款时生效。认定出借人已向借款人交付了借款可以从如下五个方面进行判断:(1)自借款人收到现金款项时;(2)自资金到达借款人账户时;(3)自借款人依法取得票据交付权利时;(4)自借款人依法取得对特定资金账户实际支配权时;(5)按照约定并实际履行完成时。

问题1选择D,问题4选择A/B的风险结果:自然人之间的借款合同可以采用书面形式或者口头形式,但合同的订立并不意味着借款合同的生效。自然人之间的借款合同,自出借人提供借款时生效。出借人无支付凭证或尚未将借款交付给借款人,故而借款合同虽已成立但未必生效。

(问题4选择A的进行此项提问)问题5:借款凭证是否有双方签字或盖章?(*)

A.有双方签字/盖章B.缺少双方或一方签字/盖章

选择A对应的特征意义:借款凭证合法

选择B对应的特征意义:借款凭证缺少签字/盖章,合法性存在问题

(未识别到借款凭证借款金额,如未上传支付凭证补充信息)问题6:借款实际金额为人民币元。

(借款凭证借款信息借款金额)(银行汇款单/现金收据汇款金额/收款金额)(支付宝/微信转账凭证转账金额)

(未提取到约定利息的进行此项提问)问题7:借款是否约定了利息?(*)

A.未约定利息B.约定年利率为%(书证-借款凭证-借款信息-约定利息)

(未提取到逾期利息或违约金的进行此项提问)问题8:是否约定了逾期利率?(*)

A.未约定逾期利率B.约定了逾期年利率为%(书证-借款凭证-借款信息-约定违约金)

(未提取到约定还款日期的进行此项提问)问题9:是否约定了还款时间?(*)

A.未约定还款日期B.约定了还款日期,为年月日(书证-借款凭证-借款信息-约定还款日期)

(未提取到还款支付凭证的进行此项提问)问题10:被告是否有还款行为?(*)

A.有B.无

(问题10选择A的进行此项提问)问题11:还款实际金额为人民币元(加入借款凭证-借款信息-借款金额)

(问题9选择A的进行此项提问)问题12:目前是以下哪种情况?(*)

A.借款日期到现在已超过20年B.借款日期到现在未超过20年,距离上次向被告主张还款已经超过3年C.没有上述情况

选择A/B对应的风险结果:已超诉讼时效。对已超诉讼时效的诉讼请求,法院受理后,对方当事人提出该诉讼抗辩,经查明,无中止、中断、延长事由的,将判决驳回该诉讼请求;对方当事人未提出该诉讼抗辩,则视为其自动放弃该权利,法院不得依照职权主动审查。

选择C对应的风险结果:未发现诉讼时效风险。权利人在法定诉讼时效期间内提出诉讼请求的,法院应当受理并支持其诉讼请求。

问题13:借款发生时,借款人处于何种婚姻状况?(*)

A.婚姻关系存续期间B.离婚后C.未婚

(问题13选择A的进行此项提问)问题14:请问借款人配偶是否在借贷合同上签字?(*)

A.配偶有签字B.配偶未进行签字

(问题13选择B的进行此项提问)问题15:借款用途是以下哪种情况?(*)

A.家庭日常B.夫妻双方共同经营公司或其他业务C.没有上述情况

(加入借款凭证-借款信息-借款原因)

选择A对应的风险结果:夫妻均在贷款合同上签字或者夫妻一方事后追认等共同意思表示所负的债务,一般认定为夫妻共同债务。因此,借款应当由夫妻共同偿还。

选择B和选择A对应的风险结果:在婚姻关系存续期间,夫妻一方以其名义为家庭日常生活需要所负的债务,应界定为夫妻共同债务,由夫妻共同偿还。

问题14选择B,问题15选择B对应的风险结果:夫妻一方在婚姻关系存续期间以个人名义为夫妻双方共同经营的公司或其他義务所负债务,为夫妻共同债务,应当由夫妻借款人共同偿还。

问题14选择B,问题15选择C对应的风险结果:在婚姻关系存续期间,夫妻一方以个人名义超出家庭日常生活需要所负的债务为个人债务,应界定为非夫妻共同债务。

问题16:借款人是否有如下行为?多选(*)

A.未按照约定用途使用借款B.未按照约定还款及付息

选择A对应的风险结果:借款人未按照合同约定的借款用途使用借款的,借款人构成违约。

选择B对应的风险结果:借款人收取借款后,未按照借款合同的约定返还借款、支付利息的,借款人构成违约。

问题17:原告是否出庭? (*)

A.单独出庭B.与委托代理人一同出庭C.由委托代理人代为出庭D.不出庭,也无委托他人代为出庭

选择C对应的风险结果:由代理人或律师代替出庭可能会增加诉讼风险。委托代理人无法真正代替當事人的位置,当事人本人没有出庭有些事实很难查清,会拖长审理期限。在当事人本人不出庭的情况下,当事人的知情权会受到影响,会弱化当事人对诉讼代理人的监督。如果委托代理人与当事人本人就案件事实向法院所作陈述不一致的,以当事人本人的陈述为准。如没有特殊情况,建议当事人和委托代理人一起出庭。

选择D对应的风险结果:本人不出庭,没有其他人代替出庭的诉讼风险极高。根据民事诉讼法有关规定,对不按时出庭或者中途退庭,经传票传唤,无正当理由拒不到庭,或者未经法庭许可中途退庭的原告,法院依法按自动撤回起诉处理。

(如有上传证人证言的进行此项提问)问题18:证人是否可以出庭作证?(*)

A.是B.否

选择B对应的风险结果:除法律和司法解释规定的证人确有困难难以出庭的情形之外,当事人提供证人证言的,证人应当出庭作证并接受质询。证人不出庭作证的,可能影响该证人证言的证据效力,甚至不被采信。

问题19:双方当事人是否有以下情形?(*)

A.一方或双方是外国人或港澳台居民B.借款借出地在国外或港澳台地区

选择A对应的风险结果:若当事人一方或双方为外国人或者港澳台地区的居民,即本案具有涉外因素,需按照涉外民事诉讼的相关规定确定管辖权。

选择B对应的风险结果:如果借款是在境外借出的,即本案具有涉外因素,需按照涉外民事诉讼的相关规定确定管辖权。

(未提取到借贷凭证中有争议解决约定的进行此项提问)问题20:双方当事人有无约定争议解决方式?(*)

A.已明确约定法院管辖B.已明确约定仲裁解决C.未明确约定争议解决方式

选择A对应的风险结果:在符合法定起诉条件的情形下,可以向具有管辖权的人民法院提起诉讼。

选择B对应的风险结果:不符合法院起诉条件,请向争议解决约定仲裁委提起仲裁裁决。对仲裁裁决不服,可申请法院撤销。

选择C对应的风险结果:在符合法定起诉条件的情形下,可以向具有管辖权(被告所在地或合同履行地)的人民法院提起诉讼。

(三)决策树的ID3算法

决策树是一种用树形结构构造的分类模型,其为倒树结构,由根结点、内结点、叶结点和边组成,其中根节点是最“源头”的结点,是决策树的始端,叶节点包含特征属性测试条件,每个叶节点代表一个类别,其功效在于分类或者回归,即在对决策树上的每一个内部结点分析和判断的基础上,获得一个子结点的结果。ID3算法是决策树的一种,采用自顶向下的贪婪搜索遍历数据集来建立预测模型[17]。它是以信息增益为标准,选择决策树的节点。信息熵[18]可以描述信息的不确定性,信息熵与不确定性具有正向相关性,即信息熵愈大,由此带来的不确定性愈高。计算信息熵的公式如下

(1)式中,D表示随机变量,pk表示随机变量的可能取值k所占的比例,k的取值范围是从1到K;定义为集合D的经验熵Ent(D)与特征a给定条件下D的经验条件熵Ent(D,a)之差即为特征a对训练数据集D的信息增益Gain(D,a)[19]。计算信息增益的公式如下

(2)式中,Ent(D)为数据集D的熵,Ent(Dv)是数据集Dv的熵,Dv是D中特征a取第v个值的样本子集,V是特征a取值的个数。由公式选择最优子项继续向下分裂建树,最优的子项同样具备最强的分类能力,通过对信息增益最大的特征为决策树一个节点的选取,旨在以此递归,进而获取整个决策树[20]。

利用ID3算法进行决策判定,以“是否是原件或者与原件相符的复印件”为分裂属性,则产生两个子集,其加权和为0.5,信息增益为0.5;以“是否具有真实签章或公证”为分类属性,则产生两个子集,其加权和为0.5,信息增益为0.5。通过计算得出,二者信息增益值相等,不妨以“是否是原件或者与原件相符的复印件”作为决策树的根节点,通过递归形式对子节点分类,可得出各层节点(见图3)。

图3民间借贷纠纷中部分证据真实性决策树建构图

输出末端节点,整合为格式规范的对应于诉讼时效性、行为规范性和证据有效性预测的二分类预测。例如,在民间借贷纠纷中,债权凭证不具有真实的签章,则输出“债权凭证有违反证据真实性的风险”之结果。

三、用例与实验分析

(一)实例演示

在理论推演和解析的基础上,采用HTML、CSS程序语言,使用Access数据库作为在线数据库形成诉讼风险分析预测规则知识库,开发了一款诉讼风险预测工具(见图4)。目前,涵盖借贷纠纷、婚姻家庭、劳动争议、工伤赔偿、房产纠纷、交通赔偿、遗产继承等,进入诉讼风险分析与结果预测平台,按照案件的性质,根据流程填写相关信息,能够在线出具专业性的诉讼结果预测意见书。

下面选取一个民间借贷纠纷实例予以演示,表2为源纠纷属性,通过人工分析得出诉讼风险分析结果(见表3)

在预测工具页面内直接上传民事诉状、借款、支付凭证等信息,使其主动获得目标案例属性值,如有需特别提问的问题或未检测到需上传的重要信息,可通过问与答的形式输入,如图5将源纠纷民事起诉状等信息和所回答的重要问题生成诉讼风险分析与结果预测意见书(见表4)。

通过对比表3人工诉讼风险分析结果和表4诉讼风险分析与结果预测意见书,可以发现人工智能分析不仅涵盖了人工分析的结果,而且给当事人提出更多诉讼风险分析与结果预测意见书的实用建议,初步证明了在本文理论基础上,设计的诉讼风险预测工具的有效性和可行性。

(二)性能评估与结果分析

为了保证实验结果更具说服力,在最高人民法院案例库中随机选取民间借贷纠纷、追索劳动报酬纠纷、机动车道路交通事故损害赔偿纠纷、法定继承纠纷和房屋租赁合同纠纷5类案件各100个案例进行测试,采用混淆矩阵[21]对人工智能诉讼风险预测工具进行性能评估(见表5)。

混淆矩阵对角线元素表示各风险类别能够被工具正确预测的数量,由表5数据可知,诉讼风险预测工具的准确率达到78%,说明其对实际案例适用已达至一定水平,多数情况下,与人工分析相比,混淆矩阵的效率性和准确性均得以体现,整体运行效果良好,将该工具用于实践具有可行性。但是,该工具不能预测出部分诉讼风险结果,原因在于,其规则知识库和推理机制在模型优化过程中还有进一步发展的空间。但这并不意味着这类风险预测工具的分析性能较之人工分析能力不堪一击,相反,在优化模型与增大数据样本、扩大数据库容量的基础上,人工智能诉讼风险预测的未来具有相当的可期待性和市场竞争力。

四、结语

本文通过模式匹配、分类预测等推理技术构建了诉讼时效性、当事人行为规范性、证据有效性三个规则知识库,运用事理图谱、决策树等推理技术设计出可行的诉讼风险预测模型,并基于本文理论研发了风险预测工具且进行实例测试。在验证本文理论的可操作性及实用价值的同时,78%的准确率表明其在相较人工分析的高效基础上准确率也较高。然而,“法律是灰色的,而生活之树常青”,我们应当看到现实纷争具有复杂性,现有的知识规则库难以完全覆盖,人工智能也可能因无法自主完成冲突规则、选择规则、规则缺漏和适用规则导致个案处理不公正等情形的处理,其分析速度和程序、价值判断,以及处理路径还存在着进步空间。未来,更多的法律规则将被纳入风险规则知识库并实时更新,通过优化算法、提高机器运行速率等方式,人工智能分析速度、准确性和推介路径将得到不断提升,从而更好地提高人工智能诉讼风险分析的实用价值和用户使用体验。当然,更加成熟的诉讼风险分析应用于人工智能诉讼结果的预测,为其提供评估结果输入服务和风险识别技术支撑,也会最终应用于人工智能诉讼风险分析和结果预测平台的研发。技术革新常常带来社会的变革,人工智能技术在诉讼领域的深度运用必将掀起法律服务产品标准化推广的浪潮,引领法律科技市场的蓬勃发展,在算法的缜密推理和代码的敲击声中开启一个崭新的司法时代。

参考文献:

[1]BUCHANAN B G, HEADRICK T E. Some Speculation about Artificial Intelligence and Legal Reasoning[J]. Stanford Law Review,1970(1):40.

[2]冯洁.人工智能对司法裁判理论的挑战:回应及其限度[J].华东政法大学学报,2018(2):21-31.

[3]吴飞,韩亚洪,李玺,等.人工智能中的推理:进展与挑战[J].中国科学基金,2018(3):262.

[4]周尚君,伍茜.人工智能司法决策的可能与限度[J].华东政法大学学报,2019(1):57.

[5]2019年最高人民法院工作报告[EB/OL].(2019-03-12)[2020-03-19].https://baike.baidu.com/item/2019年最高人民法院工作报告/23340921?fr=aladdin.

[6]唐京.论民事诉讼风险[J].党政研究,2004(3):76-78.

[7]何家弘,刘品新.证据法学[M].北京:法律出版社,2007:116.

[8]谭启平.中国民法学[M].北京:法律出版社,2018:257.

[9]吕云云,李旸,王素格.基于BootStrapping的集成分类器的中文观点句识别方法[J].中文信息学报,2013(5):84-93.

[10]BABUSKA R, SETNES M, KAYMAK U, VAN NAUTA LEMKE H R. Rule base simplification with similarity measures[C]//Proceedings of IEEE 5th International Fuzzy Systems. New Orleans: The Fifth IEEE International Conference on Fuzzy Systems,1996:312.

[11]朱福勇,劉雅迪,高帆,等.基于图谱融合的人工智能司法数据库构建研究[J].扬州大学学报(人文社会科学版),2019(6):94.

[12]林奕欧,雷航,李晓瑜,等.自然语言处理中的深度学习:方法及应用[J].电子科技大学学报,2017(6):913-919.

[13]陈自岩,黄宇,王洋,等.一种非监督的事件触发词检测和分类方法[J]. 国外电子测量技术,2016(7):91-95.

[14]李硕豪,张军.贝叶斯网络结构学习综述[J].计算机应用研究,2015(3):641-646.

[15]丁效,李忠阳,刘挺.事理图谱:事件演化的规律和模式[EB/OL].(2019-07-20)[2019-12-16].http://www.360doc.com/content/19/0720/15/46162198_849962481.shtml.

[16]AVDEENKO T V, MAKAROVA E S. Integration of Case-based and Rule-based Reasoning Through Fuzzy Inference in Decision Support Systems[J]. Procedia Computer Science, 2017(103):447-453.

[17]QUINLAN J R. Induction of Decision Trees[J]. Machine Learning, 1986(1):81-106.

[18]曲开社,成文丽,王俊红.ID3算法的一种改进算法[J].计算机工程与应用,2003(25):104-107.

[19]刘航,华春杰.基于ID3算法的农村产业精准扶贫研究[J].计算机产品与流通,2019(3):176-177.

[20]林志远.基于决策树算法的心脏病预测研究[J].电子制作,2019(6):25-27.

[21]孔英会,景美丽.基于混淆矩阵和集成学习的分类方法研究[J].计算机工程与科学,2012(6):111-117.

(編辑:刘仲秋)

作者:朱福勇 龙依雯 王凯

类分裂的代码混淆技术论文 篇2:

基于JAVA语言的混淆器设计模型研究

【摘要】 在软件应用当中,代码混淆技术是保护软件安全的一项重要技术,在软件安全领域当中,具有十分重要的意义,受到了很多软件开发企业的重视。但是,由于其在我国产生的时间较晚,属于一项新型的技术,因此在很多方面还不够成熟。因此,本文对基于JAVA语言的混淆器设计模型及设计思路进行了研究,进而对主要的设计模块进行了分析。

【关键词】 JAVA语言 混淆器 设计模型

随着软件事业的不断发展和应用,产生了很大的利润,因此逐渐出现了很多盗版软件,对软件开发企业的利益造成了很大的损害,也影响了软件产业的健康发展。代码混淆技术是目前保护软件版权的重要技术,它能够混淆转换源程序,产生性能等价的混淆代码,使逆向工程的难度增加,对于软件盗版是一种很有效的打击手段。

一、基于JAVA语言混淆器的设计思路

1.1防御静态分析

1、设计混淆。设计混淆是在外形方面进行混淆,它作为第一道保护软件的措施,目前已经相对成熟。主要方式为改名和删除操作,以此来混淆转换代码。2、类结构混淆。类结构混淆要首先融合或分裂软件的类结构,然后隐藏具体的类型,使系统类图的结构得到破坏,进而对真正的设计目的进行隐藏,以完成相应的混淆转换。3、类内混淆。首先应当隐藏类内部的控制流跳转,通过类内部的方法进行融合,防止调用重构方法。然后进一步缩小粒度,考虑内部循环操作[1]。再加入不透明谓词在程序控制流当中。最后交换整个方法的控制流,使攻击者无法理解程序控制流的转换,从而达到保护软件安全的目的。4、数据混淆。在类内部方法间和方法内完成混淆转换控制流之后,虽然能够起到有效的软件保护作用,但是一些重要数据仍然显示存在于程序之中。而软件盗版者恰恰极为重视这一方面,因此,还需要混淆转换数据,例如变量重组混淆、数组重构混淆等,将关键性数据进行隐藏。5、预防性混淆。预防性混淆的主要目的是为了防止反编译算、反汇编等方法进行软件盗版,对这些方法的实际应用进行阻止,以达到对软件安全的保护。

1.2防御动态分析

防御动态主要是将一些动态运行过程中的标记性信息和程序中的调试信息进行删除,同时将反跟踪调试代码进行嵌入。不过,在当前的实际应用中,防御动态分析技术还缺乏足够的成熟性。由于它主要是用来对相应程序的运行信息进行分析,而就目前的相关技术来说,要实现这一点还存在着很大的困难。因此,防御动态分析技术还需要不断的进行提高和完善,以达到更好的软件保护效果[2]。

二、混淆转换系统的设计

1、预处理模块的设计。在混淆转换系统中,开始运行的是模块预处理模块,主要是预先分析源程序代码,在选择阶段提供相应的信息给混淆转换算法选择。程序代码分析技术是预处理模块的主要技术,通过预处理模块的数据流程分析、控制流程分析和其它基本分析,源程序会生成JAVA类关系树、数据流程图、程序符号表等程序信息,在以后的程序分析中,以这些信息作为主要信息。预处理模块中包含了数据流程、控制流程、基本程序等几种分析方法,每种分析方法都具有不同的作用,各种方法的合作,共同完成了预处理模块的设计[3]。

2、混淆算法池的设计。由于软件的种类很多,因此没有任何一种混淆算法能够满足所有种类软件的安全要求。对此,应当将几种混淆算法进行组合,形成混淆算法池,这样才能有效的对各类软件的安全进行保护。要进行这样的设计,就应当具有一个能够对大量的混淆算法进行管理和储存的模块存在于代码混淆转换系统当中。其中的基本操作对象就是各种混淆算法,混淆算法池的任务是对这些混淆算法进行运用、存储和管理。

3、混淆转换执行器的设计。在混淆算法的应用中,混淆转换执行器应当具有选择功能以及排序功能[4]。在混淆转换执行器的设计过程中,需要设计混淆算法应用模块和混淆算法选择模块。将混淆算法池中选择的混淆算法和预处理模块分析处理后的程序信息输入到混淆转换执行器当中,混淆算法选择模块对最为合适的混淆算法进行选择和组合,实现程序的混淆转换。在每次执行完混淆算法之后,如果并没有达到预期的性能要求,将会返回混淆算法应用模块当中,重新选择和组合混淆算法进行混淆转换,直到最后达到要求,才会输出混淆之后的程序信息。

结论:在当今社会中,随着计算机技术和信息技术的快速发展和广泛应用,软件产业在迅速发展的同时产生了十分可观的利润,这就给盗版软件的出现创造了可能。为此,应当加强对软件安全的保护,降低盗版软件带来的危害。基于JAVA语言的混淆技术是一种十分有效的技术,本文对其设计思想及设计模块进行了分析,希望能够推动软件安全保护的进一步发展。

参 考 文 献

[1]张宝国. 基于JAVA的代码混淆研究[D].电子科技大学,2012.

[2]杨乐. 用于软件保护的代码混淆技术研究[D].江西师范大学,2013.

[3]李旭. 基于Java语言的操作系统设计与实现技术研究[D].国防科学技术大学,2013.

[4]李勇. 基于Windows平台的目标代码混淆[D].电子科技大学,2012.

作者:彭凯

类分裂的代码混淆技术论文 篇3:

基于GEE和Landsat时间序列数据的海南岛土地利用分类研究

摘  要:土地利用/覆盖变化(land use/cover change,LUCC)是当前全球变化研究的核心内容之一。土地利用遥感监测是土地利用变化相关研究的重要技术手段,尤其是高分辨率遥感技术和谷歌地球引擎(Google Earth Engine,GEE)云计算平台的出现,为土地利用空间信息的获取提供了新的途径和方法。本研究基于GEE云平台提供的Landsat-8 OLI时间序列卫星影像数据,采用随机森林(random forest,RF)和支持向量机(support vector machines,SVM)分类算法,对海南岛土地利用类型进行了遥感分类研究。结果表明:RF与SVM算法对海南岛土地利用中水体和建筑用地的分类精度均较高,对耕地、园地和林地分类精度较低。与SVM方法相比,RF分类方法能够更准确识别各类地物信息,更适于海南岛土地利用分类的研究。海南岛林地(包括天然林、橡胶林等)所占比例最大,主要分布在海南岛中部;耕地和园地面积接近,相间分布于海南岛大部分区域;水体和建筑用地面积较小,在海南岛均呈零散的分布状态,以沿海地区为主。GEE平台对于开展大区域土地利用分类与遥感动态监测具有重要的意义。

关键词:GEE;Landsat;土地利用;海南岛

DOI: 10.3969/j.issn.1000-2561.2021.11.038

土地利用/覆盖变化(land use/cover change,LUCC)既是当前全球变化研究的核心内容之一,也是现代地球科学研究的前沿与热点领域之一[1]。土地利用/覆盖变化是各种人文、社会经济与自然生态环境等因子在多种时间与空间尺度上综合作用的结果,具有很复杂的机理与过程[2-3]。当前国际LUCC研究主要集中在LUCC格局和过程、LUCC驱动机制、LUCC的人类响应、LUCC模型模拟四个方面[1]。深入理解区域土地利用变化格局和过程,有利于预测未来土地利用变化趋势,可为土地利用可持续发展提供基础资料和理论依据。

遥感监测是土地利用变化格局和过程研究的重要技术手段[4]。常用的土地利用遥感监测方法主要有比较监测法和監督监测法,其中比较监测法常用的有差值法、比值法、植被指数法、主成分分析法、变化向量法等[5],该方法多用于单一类型的土地利用/覆盖变化监测,如林火、洪水等遥感监测。而监督监测法主要运用的是分类后比较法。遥感分类方法包括非监督分类、监督分类以及面向对象分类等。国内外学者基于这些方法进行了大量土地利用变化研究,如Martinez- Casasnovas[6]先采用非监督分类大体确定类别,然后再进行土地利用细致分类,取得较高精度;Cots-Folch等[7]采用神经网络对利比亚半岛进行了土地利用分类研究;孙丹峰等[8]通过对Landsat TM和SPOT PAN影像进行融合,提取城市边缘土地利用类型并对其变化进行研究;李爽等[9]采用决策树分类法以洛宁子区为试验区,进行土地利用分类,取得了较好的分类效果;骆剑承等[10]用支持向量机法在SPOT全色波段影像上提取城市特征信息,研究表明支持向量机法分类精度高,学习速度快、自适应能力和表达性强;贾科利等[11]利用封层分类法对陕北农牧交错带进行分类取得很好效果;李帅等[12]采用监督分类对乌鲁木齐土地利用变化进行了研究,发现采用最大似然模型进行图像分类时总体精度和Kappa系数达到最优。随着机器学习算法在遥感影像分类中的应用普及,随机森林(random forest,RF)、支持向量机(support vector machines,SVM)等方法在影像分类研究中不断趋于成熟,在多个领域都有着广泛的应用。例如,RF方法在遥感信息自动提取领域获得了良好效果,广泛应用于遥感图像分类中涉及土地利用、生态区划分等方面[13-15];SVM方法则在盐碱地信息提取、湿地遥感分类、图像建筑物等方面得到了广泛的应用[16-18]。

进入21世纪,高分辨率遥感技术和云计算平台的出现,以谷歌地球引擎(Google Earth Engine,GEE)(https://earthengine.google.com/)为代表的遥感大数据服务平台广泛兴起,如中国的PIE- Engine(http://engine.piesat.cn/)、日本的Tellus(https://www.tellusxdp.com/ja/)等遥感云计算服务平台。此外,中国科学院还建立了海南遥感大数据平台(http://hndc.radi.ac.cn/)[19]。遥感大数据云计算服务平台为区域或全球土地利用空间信息的获取提供了新的途径和方法[20]。GEE云平台是一款专门用于处理卫星影像数据和其他地球观测数据的云端运算平台,不但存储了完整的对地观测卫星影像数据,以及环境和社会经济等数据,还提供足够的运算能力对这些数据进行处理[21],成为解决遥感数据收集困难和处理效率低下问题的新途径。目前国内外学者基于GEE云平台和不同分类方法开展了大量土地利用分类研究,如Dong等[22]基于GEE云计算平台,利用长时间序列Landsat卫星数据,结合水稻物候特征,实现了对亚洲东北部水稻种植面积的时空变化监测;Huang等[23]在GEE云平台上,利用全部的Landsat数据进行了北京土地利用变化动态监测;Xiong等[24]利用GEE云平台开展了非洲大陆的耕地自动制图研究;徐晗泽宇等[25]在GEE平台支持下实现了对赣南柑橘果园的遥感信息提取并分析了其变化趋势。谭深等[26]基于GEE云平台和多源遥感数据,采用按月提取、按直方图大小提取特征的方式,利用随机森林分类器绘制了海南岛2016年10 m分辨率水稻种植分布图。

海南岛地处亚热带边缘,是我国发展热带高效农业和冬季农业的黄金场所,也是我国重要的冬季瓜菜和热带水果生产基地。本研究基于GEE云平台提供的Landsat-8 OLI时间序列卫星影像数据,采用随机森林(RF)和支持向量机(SVM)分类算法,对海南岛土地利用类型进行了遥感分类研究,利用ArcGIS地理信息系统软件绘制土地利用现状空间分布专题地图并进行相应的统计分析,为海南岛土地的合理开发利用及产业布局规划提供数据参考。

1  材料与方法

1.1  研究区概况

海南岛位于我国南海大陆架北端,由大陆岛和海洋岛组成,与广东省雷州半岛隔海相望。海南岛近似“梨”形,地形复杂,地貌多样,土地类型丰富。由于环岛四周多为滨海平原,形成了中部高、四周低的地势特点。海南岛属热带季风海洋性气候,四季不分明,气温年较差小,年平均气温高,冬春干旱,夏秋多雨,干季、雨季明显。海南岛年日照时数1780~2600 h,年平均气温22.5~25.6 ℃,年降水量1500~2500 mm,光、热、水资源丰富,风、旱、寒等气候灾害频繁。海南岛是热带雨林、热带季雨林的生长地,森林植被类型复杂;农田可全年种植,热带动植物资源丰富。

1.2  数据获取及预处理

1.2.1  卫星影像数据  本研究中用于土地利用分类的影像数据来自GEE云平台提供的覆盖研究区的2018年Landsat-8 OLI时间序列卫星影像数据。由于海南岛属热带季风海洋性气候,很难获得完全无云或低云的影像。为了解决多云覆盖影像对地物识别的和影像分类的影响,在GEE平台的支持下,编写代码对2018年所有该区域的Landsat-8 OLI影像进行遍历,利用像元级云量提取算法(具体原理参考李睿等[27])计算研究时段内每一景影像的云量,结合研究区域特征和季节特征综合评定每一景影像的得分,生成研究区内逐像元云量最小影像,合成用于土地利用分类的数据集,以此克服研究区多云多雨气候特征对分类结果的影响,提高土地利用分类的可靠性。此外,利用API编程完成了Landsat影像的辐射校正、影像拼接、大气表观反射率(top of atmosphere reflectance,TOA)转换等影像预处理操作。本研究中共计调用覆盖研究区的2018年Landsat-8 OLI影像数据94景,选用Landsat-8卫星的2、3、4、5、6、7等6个波段参与影像分类计算,影像空间分辨率为30 m。

1.2.2  地面样本点数据  根据研究区的具体情况,将土地利用类型分为耕地、林地(天然林、橡胶林等人工林)、园地(椰子、槟榔、芒果、香蕉等)、水体及建筑用地5类。为保证数据处理精度,训练样本数据及精度验证样本数据主要来源于野外实地调查点及利用专家知识在Google Earth Pro软件中目视识别,采用随机分层抽样方法共选择1388个样本点(图1)。样本点满足研究区均匀分布原则[28],其中,耕地453个、园地323个、林地196个、水体201个、建筑用地215个。在GEE平台中,应用JavaScript語言将样本点随机分成6∶4,分别用于土地利用分类算法的训练样本点和验证样本点。

1.3  分类算法

1.3.1  随机森林算法  随机森林(RF)算法是由Breiman提出的一种集成分类算法[29],是机器学习方法的一种,通过构建大量分类与回归决策树分类器,能够更加高效稳定处理多维特征数据集。其原理为进行k次Bootstrap随机放回抽样,每次抽取2/3的数据建立分类与回归决策树,形成由k棵树组成的随机森林;每棵树都是一个完整的分类器,随机森林通过从每棵树分裂节点的M维特征向量中随机选择m(m<M)个参与投票,集中所有树的统计投票结果,将得票最高的类别作为分类结果。该算法中,树的个数k和节点分裂特征个数m是影响模型分类结果最重要的2个参数[30]。

1.3.2  支持向量机算法  支持向量机(SVM)算法是Vapnik根据统计学习理论提出的一种广义机器学习方法[31],已被广泛应用于影像分类。该算法的基本思想为:先选择使置信范围最小的子集——支持向量,将分类数据投影到高维空间,对空间构建训练样本局限性或噪声影响容忍性最好的超平面即最优函数,利用最优函数对影像数据进行分类[32],实现在有限样本信息条件下,在学习精度和学习效果之间找到最佳平衡。SVM算法对未分类对象具有较强的泛化力[33]。

1.4  分类精度评价

将分类产品与样本点进行混淆矩阵精度分析,分别计算分类结果的总体精度(overall accuracy,OA)、生产者精度(producer accuracy,PA)、用

户精度(user accuracy,UA)以及Kappa系数验证各种分类算法的分类效果或错分漏分误差。分类结果的总体精度是指所有类别中被正确分类的像元数之和与参与验证的总像元数之比,也即混淆矩阵中主对角线上元素之和与参与验证的总像元之比;生产者精度指分类器将整个图像的像元正确分为某一类像元数与该类真实参考像元总数的比;用户精度指正确分到某一类的像元总数与分类器将整个图像的像元分为该类的像元总数的比;Kappa系数通常表示两幅图匹配程度的一个参考值,同时也是总体分类精度的指标。

2  结果与分析

2.1  不同分类算法精度比较

2种分类算法的混淆矩阵及总体精度如表1所示。RF分类算法总体精度(OA)和Kappa系数均显著高于SVM分类,其对5种土地利用类型的PA和UA精度均在90%以上,达到良好的分类效果。而通过比较2种分类算法下各类地物的生产者精度(PA)和用户精度(UA)来看,2种分类方法下的PA和UA均为水体最高,建筑地次之,林地和园地分类精度结果较低。

2.2  海南岛土地利用现状特征分析

按照2种分类算法对研究区2018年遥感影像数据进行土地利用分类,得到海南岛土地利用空间分布如图2所示。海南岛林地(包括天然林、橡胶林等)所占比例最大,耕地次之,第三为园地,其中,林地主要分布在整个海岛的中部区域,而耕地和园地相间分布于海南岛大部分区域;水体和建筑用地面积所占比例相对较小,在海南岛均呈零散的分布状态,以沿海区域分布所占比例较大。

图3是基于2种分类方法的不同土地利用面积占比的统计结果。根据RF和SVM分类方法,林地占总体面积的百分比分别为40.75%、47.52%,园地的百分比分别为21.28%、15.84%,水体的百分比分别为4.21%、3.51%,耕地百分比分别为28.98%、27.29%,建筑地的百分比分别为4.79%、5.85%。可见,2种方法对林地、园地的分类结果均存在较大差别,但二者对耕地信息的分类结果较为接近,主要是因为SVM方法将海南岛东南片区的园地错分为林地。

2.3  海南岛土地利用的区域差异分析

考虑到RF分类算法的总体分类精度最高,因此将海南岛18个市县的RF土地利用分类结果进行分类统计,计算不同市县各土地利用类型占海南岛总面积的百分比,结果见表2。耕地面积占比排名前五的市县为乐东、海口、文昌、东方和儋州,其占比分别为2.98%、2.72%、2.61%、2.28%和2.18%;园地面积占比排名前五的为乐东、琼中、文昌、万宁和儋州,其占比分别为1.85%、1.76%、1.76%、1.55%和1.42%;林地面積占比排名前五的市县为儋州、琼中、白沙、澄迈和乐东,其百分比分别为5.26%、4.65%、4.65%、2.84%和2.31%;水体面积占比排名前五的市县为文昌、海口、儋州、万宁、东方,占比分别为0.59%、0.57%、0.48%、0.41%和0.37%;建筑地面积占比排名前五的市县为文昌、海口、乐东、东方、三亚,占比分别为0.68%、0.68%、0.50%、0.41%和0.41%。

3  讨论

3.1  遥感大数据平台及其应用

地球科学研究已经进入了遥感大数据时代,未来遥感应用的重要基础是大数据服务平台[19],利用遥感大数据平台开展区域或全球土地利用研究成为未来发展趋势。GEE平台公共数据库中提供了目前广泛使用的遥感影像数据、地理空间数据集、机器学习算法和JavaScript、Python编程语言接口,为大规模的多源数据处理提供了一个高效的处理工具和环境,有效解决了遥感数据收集困难和处理效率低下等问题。相比于传统的处理影像工具,GEE可以快速、批量处理海量的遥感大数据[21],通过GEE可以快速进行长时间序列、大范围土地利用变化遥感监测研究和应用,具有很强的平台优势和技术先进性。与国内的PIE-Engine、日本的Tellus等遥感云计算服务平台和海南遥感大数据平台相比,GEE发展相对成熟,算法全面,文档丰富,平台算力也较强。此外,GEE云平台还具有强大的全球尺度分析能力,这使得科学家、研究者以及开发人员进行变化监测、趋势分析以及量化地表差异时变得非常方便[34]。本研究基于GEE云平台,共使用94景Landsat OLI影像,通过编程快速调用和处理这些数据,使需要数天或数周的工作可以在数小时内完成,极大地提高了工作效率。

3.2  不同分类算法比较

RF和SVM 这2种分类算法在海南岛土地利用分类中的分类精度存在一定的差异。对于SVM分类算法来讲,其总体精度OA值为0.76,Kappa系数为0.69,均显著低于RF分类,同时,不同地类的生产者精度PA和用户精度UA也明显低于RF分类。由此可知,与SVM算法相比,RF算法在海南土地利用分类中具有一定的优势。另外,从不同地物之间分类精度的比较来看,水体和建筑地在2种算法下均具有较高的分类精度且相对稳定,而林地和园地的分类精度较低,其主要原因是在监督分类过程中,其分类的依据是以影像像元特征差异,而林地和园地光谱特征较为相似,光谱特征相似的易混淆地物极易产生漏分或错分。因此导致林地和园地在2种算法的分类结果中均表现为相对较低的分类结果。

3.3  本研究特点价值及存在的不足

海南岛地处热带,该区域多云多雨,覆盖研究区的单景光学影像数据质量往往不佳,不能满足分类需求。本研究中,针对海南多云多雨的热带气候特征,采用像元级最小云量影像合成方法,获取Landsat时间序列不同波段合成的纯净影像,基于GEE构建遥感分类特征数据集,为土地利用分类及其他热带作物遥感识别研究与应用提供了充足的数据基础。此外,本研究算法中,RF和SVM 2种分类算法为自动选取特征建立决策树、实现逐像元的特征匹配,较常规人工决策树方法更加客观;大量样本点的使用能够遍历全部特征,挖掘出更有普适性的决策组合,适用于热带地表状况复杂地区的土地利用分类研究[26, 35]。本研究流程中,遥感数据采集、预处理、特征提取、分类算法等所需大量存储和计算资源通过云端实现;而结果样本点选取、决策判读、精度验证等则在人工干预下在本地实现,此类云端-本地相结合的遥感分类方式,充分利用了云端多线程算力资源,可为更大尺度、更复杂多样的热带作物分类研究提供工作范式[26]。然而针对海南热带区域地物分布破碎、多种作物严重混杂、热带作物种植时间跨度大,物候多样、气候环境多云多雨的特点,仅利用光学遥感卫星开展土地利用分类研究尚存在分类体系不完善、地面样本点不足、分类算法精度不高等不足之处,未来将充分利用遥感云计算平台计算优势,结合多源遥感数据,充分发挥不同数据源的组合优势,建立更多样和更充足的地面样本点,发展更高精度的分类算法,提高区域土地利用/覆盖变化遥感监测精度,为区域可持续和绿色发展提供科学参考。

4  结论

本研究基于GEE云平台提供的Landsat-8 OLI时间序列卫星影像数据,采用RF和SVM分类算法,对海南岛土地利用进行了遥感分类研究。RF与SVM算法对海南岛土地利用分类均表现出对水体和建筑用地的分类精度较高,对耕地、园地和林地分类精度较低的特征。与SVM方法相比,RF分类方法能够更准确识别各类地物信息,更适于海南岛土地利用分类的研究。海南岛林地(包括天然林,橡胶林等)所占比例最大,主要分布在海南岛中部;耕地和园地面积接近,相间分布于海南岛大部分区域;水体和建筑地面积较小,在海南岛均呈零散的分布状态,以沿海地区为主。进一步的统计分析结果表明,海南岛林地面积占比排名前五的市县分别为儋州、琼中、白沙、澄迈和乐东,而耕地面积占比排名前五的市县分别为乐东、海口、文昌、东方和儋州,而建筑地面积占比排名前五的市县分别为文昌、海口、乐东、东方和三亚。GEE平台可以根据不同研究目的,方便快捷地调用所需的遥感影像数据,并通过适宜的影像分类方法实现快速准确的影像分类,有效地解决了海量遥感影像数据处理过程繁琐、计算机配置要求高等问题,从而显著缩短了对影像做长时间序列分析的试验周期,提高了工作效率,对于开展大区域土地利用分类与遥感动态监测具有重要的意义。

参考文献

[1] 李秀彬. 全球环境变化研究的核心领域——土地利用/土地覆被变化的国际研究动向[J]. 地理学报, 1996, 51(6): 553-558.

[2] 陈佑启, PeterH. Verburg, 徐  斌. 中国土地利用变化及其影响的空间建模分析[J]. 地理科学进展, 2000, 19(2): 116-127.

[3] 邓祥征, 刘纪远, 战金艳, 等. 太仆寺旗土地利用变化时空格局的动态模拟[J]. 地理研究, 2004, 23(2):147-156, 281.

[4] 刘纪远, 匡文慧, 张增祥, 等. 20世纪80年代末以来中国土地利用变化的基本特征与空间格局[J]. 地理学报, 2014, 69(1): 3-14.

[5] 许定成, 游先祥, 韩熙春. 应用MSS数字图像处理进行森林资源动态监测的探讨[J]. 环境遥感, 1991(2): 106- 112,163.

[6] Martinez-Casasnovas J A. A cartographic and database approach for land cover/use mapping and generalization from remotely sensed data[J]. International Journal of Remote Sensing, 2000, 21(9): 1825-1842.

[7] Cots-Folch R, Aitkenhead M J, Martinez-Casasnovas J A. Mapping land cover from detailed aerial photography data using textural and neural network analysis[J]. International Journal of Remote Sensing, 2007, 28(7): 1625-1642.

[8] 孫丹峰, 李  红. 遥感影像融合与分类在城市边缘带扩展监测中应用研究[J]. 中国农业大学学报, 2002(1): 65-70.

[9] 李  爽, 丁圣彦, 钱乐祥. 决策树分类法及其在土地利用覆盖分类中的应用[J]. 遥感技术与应用, 2002, 17(1): 6-11.

[10] 骆剑承, 周成虎, 梁  怡, 等. 支撑向量机及其遥感影像空间特征提取和分类的应用研究[J]. 遥感学报, 2002(1): 50-55.

[11] 贾科利, 常庆瑞, 张俊华. 陕北农牧交错带土地利用变化及驱动机制分析[J]. 资源科学, 2008, 30(7): 1053-1060.

[12] 李  帅, 张梦华, 郭力娜. 不同监督分类器对土地利用分类精度的影响[J]. 华北理工大学学报(自然科学版), 2018, 40(2): 42-48.

[13] 郭玉宝, 池天河, 彭  玲, 等. 利用随机森林的高分一号遥感数据进行城市用地分类[J]. 测绘通报, 2016(5): 73-76.

[14] 王李娟, 孔钰如, 杨小冬, 等. 基于特征优选随机森林算法的农耕区土地利用分类[J]. 农业工程学报, 2020, 36(4): 244-250.

[15] 周正龙, 沙晋明, 范跃新, 等. 基于随机森林的遥感土地利用分类及景观格局分析[J]. 计算机系统应用, 2020, 29(2): 40-48.

[16] 黄  昕, 张良培, 李平湘. 基于多尺度特征融合和支持向量机的高分辨率遥感影像分类[J]. 遥感学报, 2007(1): 48-54.

[17] 李智宇, 张  莉. 基于支持向量机分类的耕地变化检测[J]. 中国信息化, 2019(4): 74-77.

[18] 业巧林, 许等平, 张冬. 基于深度学习特征和支持向量机的遥感图像分类[J]. 林业工程学报, 2019, 4(2): 119-125.

[19] 张  丽, 李国庆, 朱岚巍, 等. 海南省遥感大数据服务平台建设与应用示范[J]. 遥感学报, 2019, 23(2): 327-335.

[20] 李  琳. 基于GIS-RS技术的厦门同安区土地利用变化研究[J]. 测绘与空间地理信息, 2014, 37(12): 110-112.

[21] Gorelick N, Hancher M, Dixon M, et al. Google Earth En-gine: Planetary-scale geospatial analysis for everyone[J]. Remote Sensing of Environment, 2017, 202: 18-27.

[22] Dong J W, Xiao X M, Menarguez M A, et al. Mapping pad-dy rice planting area in northeastern Asia with Landsat 8 images, phenology-based algorithm and Google Earth En-gine[J]. Remote Sensing of Environment, 2016, 185: 142-154.

[23] Huang H B, Chen Y L, Clinton N, et al. Mapping major land cover dynamics in Beijing using all Landsat images in Google Earth Engine[J]. Remote Sensing of Environment, 2017, 202: 166-176.

[24] Xiong J, Thenkabail P S, Gumma M K, et al. Automated cropland mapping of continental Africa using Google Earth Engine cloud computing[J]. ISPRS Journal of Photogram-metry and Remote Sensing, 2017, 126: 225-244.

[25] 徐晗澤宇, 刘  冲, 王军邦, 等. Google Earth Engine平台支持下的赣南柑橘果园遥感提取研究[J]. 地球信息科学学报, 2018, 20(3): 396-404.

[26] 谭  深, 吴炳方, 张  鑫. 基于Google Earth Engine与多源遥感数据的海南水稻分类研究[J]. 地球信息科学学报, 2019, 21(6): 937-947.

[27] 李  睿. 基于Google Earth Engine 的桂林市土地利用时空变化分析[D]. 抚州: 东华理工大学, 2019.

[28] 胡云锋, 商令杰, 张千力, 等. 基于GEE平台的1990年以来北京市土地变化格局及驱动机制分析[J]. 遥感技术与应用, 2018, 33(4): 573-583.

[29] Breiman L. Random forest[J]. Machine Learning, 2001, 45: 5-32.

[30] 刘  杰, 刘吉凯, 安晶晶, 等. 基于时序Landsat 8 OLI 多特征与随机森林算法的作物精细分类研究[J]. 干旱地区农业研究, 2020, 38(3): 281-288, 298.

[31] Vapnik V. The nature of statistical learning theory[M]. NewYork: Springer-Verlag, 1995.

[32] Foody G M, Mathur A. A relative evaluation of multiclass image classification by support vector machines[J]. IEEE Transaction on Geoscience and Remote Sensing, 2004, 42(6): 1335-1343.

[33] 张学明, 林清莹, 于忠海, 等. 面向对象的SVM分类技术在遥感影像分类上的应用研究——以威海市为例[J]. 城市勘测, 2019, 5: 116-119, 125.

[34] 郝斌飞, 韩旭军, 马明国, 等. Google Earth Engine在地球科学与环境科学中的应用研究进展[J]. 遥感技术与应用, 2018, 33(4): 600-611.

[35] Azzari G, Lobell D. Landsat-based classification in the cloud: An opportunity for a paradigm shift in land cover monitoring[J]. Remote Sensing of Environment, 2017, 202: 64-74.

责任编辑:崔丽虹

作者:戴声佩 易小平 罗红霞 李海亮 李茂芬 郑倩 胡盈盈

上一篇:中外棉纺织品贸易研究论文下一篇:禅宗文化图形标志设计论文