数据分析师教你识别数据陷阱专题

2024-05-16

数据分析师教你识别数据陷阱专题（共9篇）

篇1：数据分析师教你识别数据陷阱专题

数据分析师教你识别数据陷阱

随着大数据概念的普及和人们对数据价值认识的不断深入，数据分析越来越受到人们的重视，尤其是在企业中，现在很多做销售、市场的企业人员已经开始用数据说话，很多企业也已经开始借助数据进行决策和管理，量化经营的理念正逐步深入人心。中颢润数据分析师事务所认为，与此同时，专业的数据分析师逐渐进入人们的视野，并且也被评为未来十年最有前途的十大职业之一。

在中颢润看来，作为一名数据分析师，保持对数据的敏感性是最基本的要求之一，这里所说的数据敏感性不仅是指能够发现隐藏在数据之间的关系和规律，还包括能够辨别数据的真伪。因为随着数据产生量的爆炸式增长，一些假的、有问题的数据也不断出现，这些数据有些是由抽样误差或采集过程引起的，有的则是出于某种目的人为造成的，而且有些错误的数据还非常隐蔽，往往容易被人忽视，从而造成错误的判断甚至因此蒙受巨大的经济损失。作为中颢润的一名数据分析师的长时间的经验总结，对待这类数据不能人云亦云，需要有自己的认识和理解，要透过数据的表面看背后的真相和存在的问题，下面举几个日常生活中常见的数据案例来说明如何看清数据的真相。

1、失业率

失业率是我们大家都非常熟悉的一个指标，也是政府制定相关政策的一个重要依据。这些年，中国政府一直将失业率控制在4%以下作为一项重要的执政目标，每年也都基本实现了这一目标，然而，以大多数人的感受来说，实际的失业率似乎比4%要大，而且有时候感觉会差很多。那么，到底是什么原因造成了实际统计数据与民众自身感受之间的这种差距呢？要弄清这一问题，我们首先应该看一下失业率的概念和统计方法。

失业率是失业人口占劳动力人口的百分比。世界上大多数国家都采用两种失业统计方法。一种是行政登记失业率，另一种是劳动力抽样调查失业率。两种失业率都是政府决策的重要依据。中国之前一直采用城镇登记失业率来衡量失业情况。城镇登记失业率是指在报告期末城镇登记失业人数占期末城镇从业人员总数与期末实有城镇登记失业人数之和的比重。分子是登记的失业人数，分母是从业的人数与登记失业人数之和。在城镇单位从业人员中，不包括使用的农村劳动力、聘用的离退休人员、港澳台及外方人员。城镇登记失业人员是指有非农业户口，在一定的劳动年龄内（16岁以上及男50岁以下、女45岁以下），有劳动能力，无业而要求就业，并在当地就业服务机构进行求职登记的人员。

由城镇登记失业率的计算方法我们不难看出，一系列限制使得这一指标的代表性大为降低。由于很多真正失业的人不一定去登记，加上农村的农民就业没有包括在里面，而最近几年2.5亿农民工群体已成为一支不容忽视的就业群体，而且随着人们寿命的延长，45到60岁之间的人仍工作在第一线，然而他们却都没有被纳入到城镇登记失业率的统计范围之内，因此实际每年公布的登记失业率数字，比调查失业率要低。这也成为城镇登记失业率饱受诟病的原因，也是造成实际每年公布的失业率与我们每个人的切身感受相差较大的最根本原因。

正是基于城镇登记失业率这些明显的缺陷，中国政府决定，从2011年开始，不再使用“城镇登记失业率”这一指标，而采用“调查失业率”。2013年9月9日，中国首次向外公开了调查失业率的有关数据。国务院总理李克强在英国《金融时报》发表署名文章《中国将给世界传递持续发展的讯息》透露，“今年以来，中国经济运行稳中有进，上半年GDP同比增长7.6%；5%的调查失业率和2.4%的通胀率，均处于合理、可控范围。”5%的调查失业率，高于此前人社部公布的一二季度均为4.1%的登记失业率，可以说更具有说服力。但这一数据到底是否准确、代表性如何，需要对调查失业率的计算方法、抽样方式、方法、调查范围等深入研究之后才能判断其最终的代表性。

二、死亡率

死亡率的概念大家都不陌生，而且一般也不会产生歧义。但是如果死亡率被用在不恰当的场合，那么同样会出现问题。

以一个经常被引用的故事为例。在美国和西班牙交战期间，美国海军的死亡率是千分之九，而同时期纽约居民的死亡率是千分之十六。后来，海军征兵人员就用这两个死亡率来证明参军更安全。那么，这个结论正确吗？显然是不正确，因为这两个数字根本就是不匹配的，当兵的一般都是身强力壮的年轻人，而居民的死亡率是包括老弱病残等各类人群的一个综合数据，而老弱病残者又是主要的死亡人群构成者，这

些人拉抬了整个居民的死亡率。所以正常应该是用同年龄段的海军和纽约居民的死亡率来作对比，从而判断参军是否安全。一般情况下，相同年龄段的海军死亡率应该是高于居民死亡率的。

这一案例说明数据之间要具有匹配性才能进行对比。不具有可比性的数据有时候会很隐蔽。不容易发现，这就需要分析师有更敏锐的观察能力。比如某个零售企业想计算2013年11月前十天的销售比去年同期增长了多少，表面上来看这两个数据是可以直接对比的，有匹配性。实际上对以规律性非常强的零售企业来说，周末对销售的影响是非常大的。翻开日历会发现，2013年11月的1~10日比2012年11月同期多一个“星期天”，这就容易使对比结果出现误差。因此，对零售企业来说，最好以周来进行对比。

三、离婚率

中国离婚率连年递增，婚外情成婚姻最大杀手，从年龄结构看22~35岁人群是离婚主力军，36~50岁年龄段是婚姻平稳期，50岁以上人群离婚率上扬，从教育背景看，学历高低与离婚率高低成反比，学历越低，离婚率越高，学历越高，离婚率越低。这些结论似乎与我们的日常感受比较吻合，但需要注意的是离婚率的计算公式是否科学合理。现行的离婚率公式是这样的：离婚率＝离婚数/结婚总数，乍一看，没有任何问题。以2012年为例，2012年的离婚率就是2012年离婚数除以2012年结婚数？但仔细研究会发现，2012年离婚的人和结婚的人根本就不是一个概念。这样计算的结果容易广大人民群众造成误解！

实际的离婚率计算公式应该是：2002年结婚人群在2012年的离婚率＝2002年结婚且2012年离婚总数/2002年的结婚总数。此外，如果我们对2002年结婚人群从2002年开始到2012年为止，每年都计算一个离婚率的话，还可以分析每年的离婚率变化情况，是否真在第七年的时候达到最高值，即通常所说的七年之痒是否真的存在。

与离婚率的概念类似，很多零售企业每个月都会计算的退货率，也需要分门别类才能正确的计算出来的。

以上中颢润仅仅列举了几个日常生活中常见指标的数据陷阱问题，实际生活中这样的例子还有很多。有时候是数据的确有错误，有时候数据虽然正确，但计算方法或者使用场合不正确，或者对比不匹配，同样会误导我们。因此，虽然我们不能每个人都成为数据分析师，但多尝试从数据背后看问题，多培养数据敏感性，仍然会使我们获益匪浅。

篇2：数据分析师教你识别数据陷阱专题

近年来，互联网借贷平台瞄准了大学生群体，以贷款平台、校园分期购物平台和电商平台的分期付款等形式慢慢渗入校园，宁静的象牙塔成为网络借贷平台争夺的地盘，近日，人民日报也发文指出，要警惕校园网贷风险。

对此，妙资金融提醒，大学生社会阅历较少，因此千万要保护好自己，遇到可能的借贷陷阱，要提高警惕。妙资金融理财师在此也将教你如何识别网贷陷阱。

网贷正入侵校园

“0利率、0担保、无服务费”，借助诱人的公告和“网络+代理”的模式，网贷正在大学生群体中飞速蔓延。而大学生陷入“网贷诈骗”的事件也是层出不穷。

此前有媒体报道，福建师范大学闽南科技学院一名学生，用十多个同学的信息网贷了70多万元，自己却消失得无影无踪;同学们则不停地接到催款通知，严重影响学习生活。

此外，也有不少大学生在兼职时候掉入网贷陷阱，被所谓的代理人、业务员等诱骗填写网贷资料，最后不仅钱财落空，自己还背上借贷的信用污点。人民日报近日发文表示，要警惕校园网贷风险。

妙资金融理财师也认为，大学生社会阅历较少，且并没有形成经济收入，因此更要保护好自己，遇到可能的借贷陷阱，要多一个心眼保持警惕。

如何识别网贷陷阱

妙资金融理财师认为，校园贷问题频出，一方面与提供贷款的平台审核存在漏洞有关。如有些甚至举着身份证拍个照，读一段话录个视频就可通过审核。而另一方面，与大学生自身也脱离不了关系。

事实上，大学生财商观念方面存在不少误区。最近，清华大学发布了当代青年财商认知与行为调查报告。报告显示，有三成90后大学生期望投资年化收益超过10%，但他们对风险的甄别能力却明显不足。

成熟的投资者都知道，高收益往往伴随着高风险，但在大学生群体的眼中，市场上必然存在高收益、低风险甚至无风险的理财产品。

对风险认知的不足，反过来也让大学生对网贷的鉴别能力直线下降。妙资金融理财师发现，很多大学生对网贷所产生的利息并没有概念，或只有一个模糊的概念。许多大学生还不知道年利10%与月利10%到底有多少差别。如此也让不少违法平台有了可趁之机。

面对各种违规的网贷平台，如何保护好学生自身的安全?妙资金融理财师认为，可从以下几点出发：

1.保护好个人的身份信息，无论是身份证、学生证还是支付宝、银行卡账户，都不宜随便透露给他人，哪怕是学校的熟人(包括老师、学长、室友等);

2.正规公司都有正规流程，放贷之前就要求交纳费用的贷款公司统统可计为骗子公司，请不要相信;

3.购物分期需量力而行，且要综合比较，同时切忌以贷还贷;

4.以贷款培训作为入职前提的公司也可直接列为骗子公司，可上工商局查询;

篇3：数据分析师教你识别数据陷阱专题

绝大多数的实证研究都证实了人力资本对经济增长具有显著的促进作用, 但也有一些研究结果发现, 人力资本对农业经济的作用并不显著, 甚至有时起负向作用, 即“农村人力资本作用之谜”或“农村人力资本陷阱”。

我国部分学者就人力资本对农业经济的作用问题进行过研究, 以探讨“农村人力资本陷阱”问题。周晓利用我国1989-1995年29个省的数据说明人力资本对农村地区经济增长的促进作用较大, 但这种作用在经济较发达地区更为明显[1]。李勋来、李国平、李福柱选取1983-2002年为研究区间分析了我国农村人力资本与农村产出增长的关系, 以验证我国是否存在“农村人力资本陷阱”问题, 结果表明人力资本对我国农村产出的贡献率低[2]。孙敬水、董亚娟利用我国30个省份1997-2004年的统计数据建立Panel Data模型, 认为人力资本水平对农业经济表现出显著的正向外部效应, 但农业生产函数中物质资本的弹性显著大于人力资本弹性, 说明我国农业仍然有明显的传统农业的特点, 属于物质资本推动型增长[3]。周堂、赖明勇等人认为目前制约我国农业发展的主要因素是农民人力资本中的技术和组织管理能力, 明确提出在研究“农村人力资本陷阱”这个问题时, 传统研究方法在度量农民人力资本中忽略组织及管理能力的度量有失其科学性和准确性, 从而导致研究结果的差异性存在[4]。以上研究主要是利用各种新古典生产函数、回归模型、内生增长模型、时间序列模型等方法进行实证分析。

本文以江西省11个设区市第二次农业普查数据有关人力资本相关数据, 利用相关分析方法, 从人力资本投资与其收益的数量联系方面来考察类似江西省等欠发达省份农村是否存在“农村人力资本陷阱”及其形成的原因。

1 农村人力资本积累收益分析

1.1 农村人力资本积累的宏观收益分析

表1为江西省2006年11个设区市人力资本积累及宏观收益等相关指标。人均第一产业增加值代表各地区农村宏观收益, 平均受教育年限以每个地区各种文化程度的人数比重乘以各自教育年数之和计算, 计算过程中采用教育年数标准为:大专以上文化程度16, 高中文化程度12, 初中文化程度9, 小学文化程度6, 文盲0。

资料来源:《江西省第二次全国农业普查资料综合提要》、《江西统计年鉴2007》计算

1.1.1 皮尔森相关分析

皮尔森相关系数是说明两个现象之间相关关系密切程度的统计分析指标。将表1的各项指标运用SPSS16.0计算相关系数, 结果表明, 江西省各地区人均第一产业增加值与劳动力资源受教育年限、从业人员平均受教育年限、高中以上人力资源比重、高中以上从业人员比重四个指标之间的相关关系分别为-0.1292、-0.0928、-0.1666、-0.1804, P值分别为0.6891、0.7743、0.6049、0.5747, 表明江西省各地区人均第一产业增加值与劳动力资源受教育年限、从业人员平均受教育年限、高中以上人力资源比重、高中以上从业人员比重之间的线性相关关系均不显著, 不存在线性相关关系。计算出的各指标间的相关系数为负也从一定程度上说明了农村人力资本与农业经济增长之间的反方向作用。

1.1.2 斯皮尔曼等级相关分析

上面皮尔森相关系数不显著只能说明各变量之间线性相关关系不显著, 没有线性相关关系, 不排除变量之间有非线性关系。斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的, 江西各地区人均第一产业增加值 (zjz) 和从业人员平均受教育年限 (jynx) 的排名情况如表2所示, 运用SPSS16.0计算结果如表3所示。

资料来源:由表1计算整理

运行结果显示, 江西各地区人均第一产业增加值 (zjz) 和从业人员平均受教育年限 (jynx) 等级相关系数为0.196, P值为0.542, 相关系数较小且没有通过显著性检验, 说明两者之间没有等级相关关系。

1.2 农村人力资本积累个人收益分析

2007年江西各地区农村居民劳动力文化程度与收入调查基本情况如表4所示, 表中的总收入是指调查期内农村住户和住户成员从各种来源渠道得到的收入总和。

资料来源:《江西统计年鉴2008》计算整理

运用SPSS16.0计算结果表明, 各地区农村住户的平均受教育年限和全年总收入皮尔森相关系数为0.47, P值为0.145, 相关系数较小且未通过相关检验。斯皮尔曼等级相关系数为0.509, P值为0.11, 同样相关系数较小且没有通过显著性检验, 说明各地区农村住户的平均受教育年限和全年总收入两者之间没有等级相关关系。

2 结论及原因分析

2.1 结论

农村人力资本积累的宏观收益和个人收益均不显著, 表现为各地区农村从业人员文化水平与经济发展的相关性较差, 农村住户的平均受教育年限和全年总收入相关性较小, 各地区农村从业人员平均受教育程度与农村经济发展水平两者之间没有等级相关关系, 甚至起负向作用, 存在一定程度的“农村人力资本陷阱”。

2.2 原因分析

1) 江西省是一个劳动力输出大省, 由于相对年轻、受教育程度高的人力资本外出流动到发达省份工作, 留在农村的人力资本质量难以满足现阶段农村经济发展对人力资本质量的需求。

2006年末江西农业从业人员中, 16~20岁及以下68.19万人, 占4.86%;21~30岁229.09万人, 占16.34%;31~40岁371.71万人, 占26.51%;41~50岁335.88万人, 占23.95%;51~60岁268.61万人, 占19.16%, 60岁以上128.69万人, 占9.18%。全省农村农业从业人员主要集中在31岁以上, 比重高达78.80%。全省农村农业从业人员年龄的中位数为41.86岁, 高出农村劳动力资源的平均年龄1.71岁。2006年末农业从业人员中, 未上学90.30万人, 占6.44%;小学文化程度624.88万人, 占44.57%;初中文化程度604.25万人, 占43.09%;高中文化程度72.28万人, 占5.16%;大专及以上文化程度10.45万人, 占0.75%。全省及各地区农业从业人员文化程度主要表现为小学和初中, 全省农业从业人员中小学和初中文化程度之和占全省农业从业人员数的87.66%, 农业从业人员平均受教育年限为7.29年, 低于农村人力资源的平均受教育年限0.29年。

2006年末, 江西农村外出从业人员中, 20岁及以下占16.56%;21~30岁占41.06%;31~40岁占29.86%;41~50岁占9.77%;51~60占2.43%;60岁以上只占0.33%。全省农村外出从业人员的年龄中位数为29.15岁, 比农业从业人员的平均年龄小12.71岁。2006年末江西农村外出从业人员中, 文盲占0.7%;小学文化程度占22.68%;初中文化程度占68.71%;高中文化程度占7.07%;大专及以上文化程度占0.84%。农村外出从业人员平均受教育年限为8.53年, 比农业从业人员的平均受教育年限高1.24年。

以上分析可知, 江西省农村各地区从业人员的平均年龄均大于其劳动力资源的平均年龄, 农村外出从业人员平均受教育年限高于农业从业人员的平均受教育年限。留在农村的人力资本质量明显偏低, 主要表现为妇女、老龄、低文化等人群, 难以满足现阶段农村经济发展对人力资本质量的需求。

2) 农村教育投资与收益不对称性, 导致农村作为人力资本的投资方却没有得到相应的回报, 严重阻碍了农村人力资本的积累, 从而影响经济发展。

教育是一个投入产出的过程, 具有投资收益见效慢、投资主体与受益主体不完全一致的特点, 特别是在初等教育和高等教育上尤为明显。父母提供了孩子们所有的教育支出, 子女接受高等教育以后一般会离开农村, 到城里工作, 而父母却依然留在农村 (农村从业人员中大专及以上文化程度只占0.75%) 。这就导致了农村家庭的教育投资所积累的人力资本绝大部分并没有对农村经济的发展做出任何贡献, 相反却对城市经济的发展做出了巨大的贡献。即农村教育投资成本在农村, 收益却在城市, 从而出现了农村教育投资的成本与收益的不对称性, 农村的教育产生了对城市经济发展正的外部性或者农村教育产生了对农村经济发展负的外部性。一方面, 农村子女在上大学时, 每年的大量花费实际上购买力从农村转移到了城市, 对城市的需求增加, 再通过乘数效应从而促进了城市经济的发展。相应的则是对农村的实际购买力减少, 对农村经济的发展起了一定的阻碍作用。另一方面, 由于农村经济落后, 没有足够的能力去吸引接受了高等教育的农村子女回到农村为农村经济的发展做出贡献, 作为这些人力资本的投资方, 农村却没有得到相应的回报, 而城市坐享其成, “无偿获取”农村的人力资本, 对农村人力资本进行剥夺。这就是农村教育投资的成本与收益的不对称性, 导致农村投资、城市受益这样一个不对称现象的存在[5]。

正是因为农村教育的投资与收益的不对称性, 导致了农村教育的落后, 不仅影响了农村人力资本的积累, 同时也影响了城市人力资本的积累。如果把资金用于农村的扩大再生产等投资, 是可以对农村产生经济效益的, 但是现在农村家庭把一部分的财力用于子女的教育, 而这样的教育投资却不能对农村经济产生直接的经济效益 (因为收益在城市) , 这将减少农村财富的积累速度, 而农村财富积累的速度越慢, 就越会放慢农村对教育的投资, 这必将对农村和城市的人力资本的积累产生消极的影响。同时, 农村家庭对农村教育的投资越多, 对农村的再生产资金挤出越多, 越不利于农村经济的发展[6]。

3 结束语

江西省第二次农业普查数据和农村住户调查资料表明, 江西各地区农村人力资本积累的宏观收益和个人收益均不显著, 存在一定程度的“农村人力资本陷阱”。要从根本上解决农村人力资本陷阱问题, 必须采取各种措施纠正农村教育投资与收益不对称性的机制。如制定城市人力资本流向农村的激励措施, 设立专项财政资金, 资助“下乡”创业人员以及留住农村高质量人力资本, 为他们提供后勤保障, 使他们安心在农村“务农”, 这不仅有利于弥补农村人力资本短缺的状况, 也有利于先进思想科技在农村的传播。同时, 政府要增加农村义务教育的投入, 将农村义务教育全面纳入公共财政保障范围, 建立中央和地方分项目、按比例分担的农村义务教育经费保障机制。最后, 巩固和发展农村成人教育, 面向打工回乡创业者开展创业教育。以政府办学为主渠道的农村成人教育则应坚持以技术培训与文化教育相结合的原则, 把实用技术的培训作为农村成人教育的重点, 提高农民的科技文化水平和实际操作能力。在农村知识青年中大力倡导创业教育, 培养他们的创业意识和创业能力。例如鼓励他们带头承包土地、设厂办企业、外出务工和回乡发展生产等[5]。

摘要：本文以江西省11个设区市第二次农业普查人力资本相关数据, 利用相关分析等方法, 从人力资本投资与其收益的数量联系方面来验证类似江西省等欠发达省份农村是否存在“农村人力资本陷阱”以及分析其形成的原因。分析结果表明, 江西农村确实存在一定程度的“农村人力资本陷阱”。文章最后从两个方面对“农村人力资本陷阱”形成的原因进行了探析, 并提出了简要的建议。

关键词：农村,人力资本,人力资本陷阱

参考文献

[1]周晓, 朱农.论人力资本对中国农村经济增长的作用[J.]中国人口科学, 2003 (6) .

[2]李勋来, 李国平, 李福柱.农村人力资本陷阱:对中国农村的验证与分析[J].中国农村观察, 2005 (5) .

[3]孙敬水, 董亚娟.人力资本与农业经济增长:基于中国农村的Panel dada模型分析[J].农业经济问题, 2006 (12) .

[4]周堂, 赖明勇, 李靓.技术与组织管理能力对农业发展的作用机制分析--对我国“农村人力资本陷阱”问题的探讨[J].农村经济, 2009 (4) .

[5]唐卫东, 周波, 苏昌平.农村人力资本与农村教育投资问题的理论探析及政策取向[J].调研世界, 2006 (7) .

篇4：数据分析师教你识别数据陷阱专题

【关键词】棒材区限超声识别；数据融合技术；分析研究

数据融合是按照一定的规则，利用多传感技术，把得到的信息进行综合和判断的技术。因为在这个过程中融合的信息量较大，所以得出的数据结果也会比较的准确。大型的棒材由于其截面的尺寸太大，导致锻造的难度及程序都非常复杂，极易在生产的过程中发生各种的缺陷问题，因此我们必须要对其加强检查，以便有效的提高棒材的质量。

一、数据融合技术的概念及特点

数据融合技术就是指按照一定的规则要求，利用多水浸超声探头的技术方式，从而把得到的信息进行综合和判断，以得出具体、可靠的分析数据，进而进一步进行缺陷识别。根据水浸超声探头结构形式的不同，数据融合技术具体可以分为串行融合、并行融合和混合融合三种方式。其特点主要表现为以下几个方面：

1、自动化水平高。数据融合技术可以实现棒材缺陷超声检测全过程自动化的數据处理程序，能够有效的以计算机技术取代人工作，降低了对人的工作强度，实现整个变电运行检测工作的高效自动化。

2、检测水平高效率。数据融合技术运作的一个重要的特征就是应用机器生产降低人的工作强度，实现自动化的操作流程，极大的减少人的工作步骤，同时全过程的机器操作也可以极大的减少之间的反应时间，提高整体的工作效率，实现检测过程的高效化运行。

3、检测结果可靠性高。由于棒材的截面的尺寸太大，锻造的难度和工序都比较的复杂，因此极易的产生各种的缺陷问题，通过数据融合技术的超声识别方式就可以有效的降低工作的误差，减少一些人为失误的发生，提高检测结果的可靠性。

二、数据融合技术在棒材缺陷超声识别分析中的应用思路

到目前为止，数据融合技术还没有形成一套完整的通用理论，对待具体问题我们要进行具体的分析，其研究的方式主要有基于D-S的证据理论和Bayes的决策方法的数据融合技术，及与模糊逻辑结合在一起的数据融合技术。一般来说，现在材缺陷超声识别分析中的数据融合技术的超声识别分析思路是采用效率比较高的并行多水浸超声探头的数据融合技术，就是指要首先利用我们所熟悉的先验知识，在根据后验概率的数据融合方法的基础上，使用3组水浸超声探头，通过建立大型的棒材锻件水浸超声自动扫查系统，在决策级上来开始进行数据融合分析，从而实现对棒材缺陷的准确高度识别。在数据融合分析的过程中我们使用的是局部决策和基于后验概率的数据融合方式，其主要是根据局部的或者是分水浸超声探头的信息做出局部判断，在棒材缺陷局部决策分析方式中采用的是人工神经网络理论中的感知器的算法。

三、数据融合技术在棒材缺陷超声识别中的具体应用

棒材缺陷超声识别方式是目前棒材行业的主要检测方式，为了能够提高检测的效率及有效性，我们又在这个检测之中融入了数据融合技术，以提高棒材检测的准确度。下面我们主要介绍一下关于行多水浸超声探头的数据融合技术在棒材缺陷检测中的具体应用：

棒材的加工工艺复杂多变，其缺陷也会存在着不同的分布和取向，有的一些缺陷是靠近棒材的近表层面的，而有的却存在棒材的横断截面取向上。根据缺陷分布的不同及对缺陷敏感度的不同，我们现在会采用三组形式、姿态各异的水浸超声探头，具体分布如下图1：

在这三个水浸超声探头中，T1是轴线对角式的水浸超声探头，T2是骑跨式的水浸超声探头、T3是直发式的水浸超声探头。其中上图中的左侧的图中未画出的水浸超声探头T2、T3是在其投影位置的双点画虚线的位置上，而右侧未画出的T1水浸超声探头也是在其投影位置的双点画虚线的位置上。

我们利用这种并行的多水浸超声探头方式对常见的棒材缺陷（主要包括夹渣、裂纹及气泡等缺陷）进行检测，以便能够有效的分析出5种棒材的缺陷，其具体的操作方式是根据5种缺陷类型的划分，按照其不同的时域和频域特征在水浸扫描系统中进行探测识别，水浸超声探头组是T1、T2、T3，不同的缺陷类型分为F1（夹渣）、F2（气泡）、F3（裂纹）、F4（其他缺陷）、F5（正常）。然后我们就开始对三组水浸超声探头各自进行相关信息的处理、提取和识别，根据线性分布的前提条件，我们对三个水浸超声探头在不同时段不同区域获得的超声信息分别进行不同的函数计算，同时由于训练样本存在自身不完备性的问题，我们又引入了水浸超声探头对棒材不同缺陷敏感程度的系数表，然后根据训练样本及检测样本的数据进行后验概率计算分析，从而得出正确的监测数据。在此的基础上各自进行局部的决策，根据局部决策的结果我们再在数据融合中心中进行数据判定，并得出最终的判定结果，从而得到最终的棒材缺陷识别结果。

我们的试验结果是，根据水浸超声探头的敏感系数表1数据，经过数据融合分析得出5组缺陷棒材的敏感系数分别是如图2所示：

表1：给定训练样本和验证样本情况下的敏感度系数表

由图2我们就可以明显的看出，融合后的敏感度系数是融合前的敏感度系数的最高值，就可以有效的提高缺陷的类型识别的准确性和可靠性，同时使用基于后验概率的数据融合计算方式可以有效的减小整体的误判概率，我们在试验的过程中可以加强多水浸超声探头信息融合技术的超声缺陷识别方式的应用。

结语：

大型的棒材由于其截面的尺寸太大，导致锻造的难度及程序都非常复杂，极易在生产的过程中发生各种的缺陷问题，因此我们必须要对其加强检查，以便有效的提高棒材的质量。数据融合技术是现代棒材缺陷识别的重要技术手段，基于数据融合的棒材缺陷类型超声识别方式可以有效的提高棒材缺陷类型的判断与识别。在今后的实践过程中我们一定要加强棒材缺陷超声识别应用中的数据融合技术的使用，以便能够更加准确的判断棒材缺陷类型。

参考文献：

[1]刘继忠，周晓军，蒋志峰.数据融合技术在棒材缺陷超声识别中的应用[J].农业机械学报，2006，01：160-162.

[2]胡文刚.基于多值域特征及数据融合的焊缝缺陷超声检测与识别[D].哈尔滨工业大学，2012.

篇5：数据分析师教你识别数据陷阱专题

中等收入陷阱假说是指在拉丁美洲、东亚、中东、北非等地区的许多国家发生过或仍然存在的经济现象,主要是指在经济实现快速增长、人均收入水平顺利突破低等阶段之后,由于诸如经济结构失衡、人口红利逐步消退、收入差距持续扩大、既有体制固化和制度缺陷、技术瓶颈等多方面原因,人均收入水平在中等收入阶段的不同层次上出现增速锐减、停滞甚至倒退的情况。中国经济在改革开放以来的30多年中得以实现平均年增速近10% 的腾飞,人均收入水平于2013 年达到6807 美元,成功步入中高等收入国家行列。但近年来受国际经济环境持续不景气,加之国内矛盾不断凸显、贫富差距不断拉大、经济结构扭曲局面亟待改善、政策和人口红利逐渐消退等问题的影响,中国经济下行趋势不断加大。人均收入状况能否继续保持增长,抑或是就此停滞不前,本文通过对过去曾处于或是成功突破中等收入陷阱的一系列国家数据的实证分析,从人口因素角度对关于中等收入陷阱的理论做出一些新的探索。

2 文献综述

世界银行参照各国的人均收入水平,将世界各国和地区依次划分为低等、中等和高收入经济体。按照世界银行的标准,中等收入经济体是指人均收入处于1006 ~ 12275 美元区间的国家和地区。在中等收入经济体中,人均1006 ~ 3975美元的国家和地区被划分为中下等收入经济体,而3976 ~12275 美元的国家和地区则称之为中上等收入经济体。当然,该标准只是一个动态的参考数值。实际上,如果一个国家或地区在突破低收入阶段、进入中等收入经济体后,在一个相当长的时期内经济增长缓慢、人均收入停滞不前致使迟迟不能迈进高收入经济体门槛,即可判定其已落入中等收入陷阱中( 蔡昉,2011) 。从这个角度出发,中等收入陷阱的主要实质或许可以理解为一个经济体能否在一个较长的时期保持足够的经济增长速度,即经济的可持续增长( 马岩,2009) 。

曾始于20 世纪50 年代中期的 “拉美奇迹”,使国民经济得以飞速发展、人均收入水平得以迅速增长的巴西、阿根廷、墨西哥、智利等拉丁美洲国家,却在20 世纪70 年代末至80 年代初接连陷入经济停滞甚至倒退的窘境。无独有偶,从1950 年左右开始的 “东亚奇迹”中,最终只有提出 “脱亚入欧”口号的日本和被誉为 “亚洲四小龙”的韩国、新加坡、中国香港和台湾地区成功突破了中等收入陷阱,顺利进入到高收入经济体行列,而另被称为 “亚洲四小虎”的泰国、马来西亚、印度尼西亚和菲律宾却在1997 年的席卷亚洲金融风暴后一蹶不振,目前仍然处于中等收入国家行列。在不同地域、文化背景和产业结构下的许多国家都出现了中等收入陷阱的现象,其背后是否存在着某些共同点,众多研究机构和学者从多个角度出发,对中等收入陷阱理论及人口因素的影响做了大量的分析和研究。

由于中等收入陷阱涉及的是关于人均收入水平的概念,所以人口因素的影响主要可以从以下三方面分析: 人口总量、人口结构和人口质量。

人口总量主要涉及一个经济体的人口基数和增长率,基数越大,人口增长率越快,则维持人均资本广化所需的经济增长率也就越高( Solow,1956) ,人均收入水平提高的难度自然也就越大。

人口结构方面主要涉及一国或地区人口的年龄结构。根据年龄结构组成比例的不同,可以将人口结构划分为成长型、稳固型和衰老型,并由此决定了一国或地区适龄劳动力人口的比重和增长速度。数据显示,人口增长率与经济增长率呈现倒U形关系。当人口结构处于丰富的劳动力供给和高储蓄率的时期,经济增长能够得到额外的增长动力即人口红利( 蔡昉,2010) 。日本自1990 年后的经济增速锐减乃至长期停滞与当时人口结构严重的老龄化、劳动力供给不足有着密切的联系。

人口质量主要指一国国民的科学、文化素质方面。日本、韩国、中国台湾、新加坡在20 世纪经济高速发展过程中都通过多方面途径投入大量的经费支出用于提高综合教育水平和完善人才培养体系。通过提高人口质量,一方面积淀了深厚的人力资本,为之后劳动生产率和技术水平的提升打下了坚实的基础; 另一方面也显著地提高了平均收入水平,对扩大内需、增强国民消费能力也起到了一定的促进作用( 曾铮,2011) 。

对于中国的发展轨迹,学者也做了不同的分析,并提出了相应的看法。蔡昉( 2011、2013) 按收入水平从低到高将社会发展阶段依次分为马尔萨斯发展阶段、刘易斯发展阶段和索洛阶段,并指出中国于2004 年已经超越了刘易斯转折点,伴随着农业剩余劳动力的减少、劳动力短缺现象开始凸显和劳动者工资的普遍上涨,中国的人口红利正在逐步消失,中国经济开始步入主要依靠全要素增长率( TFP) 增长来带动经济增长的索洛阶段。Aoki Masahiko ( 2011) 将包括中国、日本在内的大多数东亚国家的经济发展过程统一归纳为马尔萨斯式的贫困陷阱阶段、政府主导的经济发展阶段、库兹涅茨式的借由结构变迁实现发展的阶段、依靠人力资本发展的阶段和后人口红利阶段,而后三个阶段正是一个经济体从中等收入向高收入迈进的关键时期。郑秉文( 2011)从增长驱动力的角度将中国自改革开放后的发展阶段分为市场驱动、要素驱动、效率驱动和创新驱动共四个阶段,其中创新驱动阶段也正是当前跨越中等收入陷阱、迈进高收入经济体的关键阶段,对比技术创新在高收入发达国家经济增长中的高贡献率,中国在技术创新方面仍有待提高。

3 实证部分

3. 1 变量选取与说明

本文从人口总量、人口结构、人口质量三个方面简要地分析一个经济体的人口因素影响。在解释变量方面,笔者选择了人均GDP增长率( PER_ GDP) 来反映各国和地区人均收入水平的增速变化,人口增长率( POPULATION) 来反映人口总量的变化,15 ~ 64 岁人口占总人口的比例( AGE)来反映适龄劳动力的比例,以及每百万人中的R&D研究人员数量( RD) 来反映科技水平和人口质量。

国家和地区的选择方面,除了加入中国的数据以外,笔者选择了亚洲地区成功突破中等收入陷阱的两个典型国家———日本和韩国,以及历史上中等收入陷阱体现较为充分的南美洲的巴西、委内瑞拉以及巴拿马,以及欧洲地区在近年来成功进入中上等收入乃至高收入经济体的土耳其、克罗地亚、匈牙利、立陶宛等十个国家的数据进行了实证分析与研究。

出于对数据的完整性考量,本文选择了上述国家2000—2010 年的以上各项数据。本文数据均来源于世界银行数据库网站。

3. 2 模型的设定

由于经济数据常常呈现时间趋势和相互影响,所以本文采取了VAR模型来分析上述三方面因素对人均收入水平变动的影响。在考虑上述变量各自变化率的相互关系下,可设定如下VAR模型:

其中,t表示时间期数,i为滞后期,μt是服从正态分布的随机扰动项。InRDratet –i= ( InRDt –i- InRDt - ( i + 1)) /InRDt–( i + 1),即反映R&D人员数量的变化率情况。

3. 3 变量的单位根检验

本文选择了广泛通用的ADF单位根检验方法,检验结果如表1 所示。

注:***、**、*分别表示在1% 、5% 、10% 的置信水平下通过显著性检验。

从检验结果可知,原始变量均在1% 的置信水平下平稳。

3. 4 滞后阶数选择

由表2 可知,滞后期可选择滞后一期或两期或三期,出于考虑,本文最终选择滞后两期。

3. 5 Granger因果检验

从表3结果可以看出, 整体来看,ΔPOPULATION、 ΔIn AGE、 ΔInRDrate在1 0 % 的水平上共同是 ΔPER_ GDP的原因, 即人口增长率、15 ~6 4 岁人口占比、 R& D人员的变化是人均收入水平增长率变动的原因。

3. 6 脉冲响应分析

建立上述VAR模型后,可以通过脉冲响应函数来分析各变量冲击下人均收入增长率变化率的变动情况。

从下图中可以看出来自各因素的脉冲响应函数图。大图中的左上图显示了15 ~ 64 岁人口占比即适龄劳动力比例变化率的正向冲击将带来较长时期的人口红利,所以其对人均收入水平增长率变动起到大约7 期的正面影响。右上图表明R&D人口比例的变化将对人均收入水平增长起到正面的影响,其带来的人力资本的深化同样能在较长时期内起到重要的作用。右下图中人口增长率变化率在受到正的冲击后,因人口数量的增加将直接导致人均收入水平的急剧下滑,但在一期后有所反弹,其负面影响将在很长一段时间持续。左下图证实了人均收入增长率变化率对其自身的冲击是正向且长期的,即人均收入水平对自身有很强的趋势性影响。

3. 7 方差分解

表4 是人均收入增长率变化率的方差分解结果。表中结果显示,人均收入增长率变化率很大程度受自身变动的影响,且该影响将会是长期持续的,作10 期预测也依然有84. 667% 来源于自身。其次人口增长率变化率和R&D人口占比变化率也起到相当的作用,作10 期预测分别有9. 3976% 和5. 0465% 的占比。而15 ~ 64 岁人口占比变化率在短期内的影响微乎其微,但中长期来看仍然有一定影响,10 期预测约0. 889% 。

注:(1)irfname=FYVAR,impu1se=D_PER_GDP,and response=D_PER_GDP;(2)irfname=FYVAR,impu1se=D_POPULATION,and response=D_PER_GDP;(3)irfname=FYVAR,impu1se=D_In AGE,and response=D_PER_GDP;(4)irfname=FYVAR,impu1se=D_InRDrate,and response=D_PER_GDP。

4 结论和建议

4. 1 结论

本文从人口因素对人均收入水平的三方面影响进行分析,并基于十国数据建立VAR模型,通过实证数据得以考察了人口因素与人均收入增长之间的动态关系,综上全文得到了以下结论。

第一,人口增长率的提高对人均收入水平的增长起到一定程度的不利影响,因为新生人口在短期内并没有创造财富的能力, 而只会单方面拉低人均收入水平。

第二,适龄劳动力人口占比的变化在短期内对人均收入水平的变动几乎没有影响,但从长期来看充沛的劳动力人口为经济增长提供了可靠的支撑,所以能够在一定程度上提高人均收入水平。

第三,R&D亦或者说科技水平或人力资本的加深对人均收入水平的提高有着不可替代的正向推动。

第四,人均收入水平的增长有着非常强的时间趋势。

4. 2 建议

基于以上结论和分析,在此总结以下几点启示。

一是在可控范围内可以适当放开生育政策,这将有助于促进人口增长率的提高和人口结构的优化,以减缓未来我国社会加速老龄化所带来的劳动力短缺问题对经济增长的不利影响。

二是可分阶段逐步推迟退休年龄,以提高适龄劳动力比例,并可考虑以多种形式增加对骨干劳动者的再聘用,以充分发挥其丰富的经验和能力。

三是应当大力促进科技创新,加强对中、高端人才的培养,促进人力资本的深化,以适应我国在转变经济发展方式、调整产业结构过程中对劳动力需求的变化。

参考文献

[1]马岩.我国面对中等收入陷阱的挑战及对策[J].经济学动态,2009(7):42-46.

[2]蔡昉.人口转变、人口红利与刘易斯转折点[J].经济研究,2010(4):4-12.

[3]郑秉文.“中等收入陷阱”与中国发展道路——基于国际经验教训的视角[J].中国人口科学,2011(1):2-15.

[4]曾铮.亚洲国家和地区经济发展方式转变研究——基于“中等收入陷阱”视角的分析[J].经济学家,2011(6):49-55.

[5]蔡昉.“中等收入陷阱”的理论、经验与针对性[J].经济学动态,2011(12):4-9.

[6]蔡昉.通过改革避免“中等收入陷阱”[J].南京农业大学学报:社会科学版,2013,13(5):1-8.

[7]Robert M.Solow.A Contribution to the Theory of Economic Growth[J].Quarterly Journal of Economics,1956,70(1):65-94.

[8]Simon S.Kuznets.Economic Growth and Income Inequality[J].American Economic Review,1995(3):1-28.

篇6：大数据的陷阱

大数据真有如此神通吗？回顾一段小历史对我们也许不无启示。

那是在1936年，美国共和党人艾尔弗·兰登（Alfred Landon）与民主党人富兰克林·罗斯福（Franklin D. Roosevelt）竞选总统。当时很有影响力的《文摘》杂志（The Literary Digest）决定搞一次超大规模的民意調查，调查人数高达1，000万，约为当时选民总数的1/4，最终收到的回复约有240万份，对于民意调查来说可谓是“大数据”——事实上，哪怕在今天，一些全国性民意调查的调查对象也只有几千。通过对这组“大数据”的分析，《文摘》杂志预测兰登将以55%比41%的显著优势获胜。但不久后揭晓的真正结果却是罗斯福以61%比37%的优势大胜。《文摘》杂志的“大数据”遭到了惨败。

当然，那是陈年旧事了。240万份回复作为民意调查是超大规模的，从数据角度讲，以今天的标准来衡量却实在小得可怜。不过，今天的“大”在几十年后也未必不会如昔日的“小”一样可怜。那段小历史的真正启示在于：数据已大到了统计误差可以忽略的地步，结果却错得离谱。这种类型的错误对于大数据是一种警示。

现在让我们回到当代。2008年8月，大数据“成功偶像”之一的谷歌（Google）公司领衔在《自然》（Nature）杂志上发表论文，推介了一个如今被称为“谷歌流感趋势”（Google Flu Trends）的系统。这一系统能利用互联网上有关流感的搜索的数量和分布来估计各地区流感类疾病的患者数目。谷歌表示，这一系统给出的估计不仅比美国疾病控制与预防中心（Centers for Disease Control and Prevention——简称CDC）的数据更快速，而且还有“不依赖于理论”（theory-free）的特点。

但是，这个一度引起轰动的系统经过几年的运行后，却引人注目地演示了大数据可能带来的陷阱。

2013年2月，《自然》杂志资深记者巴特勒（Declan Butler）发表了一篇题为“当谷歌弄错了流感”（When Google got flu wrong）的文章，指出“谷歌流感趋势”对2012年底美国流感类疾病患者数目的估计比美国疾病控制与预防中心给出的数据高了约一倍。不仅如此，“谷歌流感趋势”在2008-2009年间对瑞士、德国、比利时等国的流感类疾病患者数目的估计也都失过准。

大数据在这些例子中为什么会失败呢？人们很快找到了原因。比如《文摘》杂志对1936年美国总统竞选预测的失败，是因为该杂志的调查对象是从汽车注册资料及电话簿中选取的，而汽车及电话在当时的美国尚未普及，使得由此选出的调查对象缺乏代表性。而谷歌对2012年底美国流感类疾病患者数目的估计失败，则是因为媒体对那段时间的美国流感类疾病作了渲染，使得很多非患者也进行了有关流感的搜索，从而干扰了“谷歌流感趋势”的估计。在统计学中，这被称为系统误差（systematic error），只要存在这种误差，数据量再大也无济于事。

当然，原因一旦找到，对结果进行修正也就不无可能了。比如在有关流感的搜索中，来自患者的搜索往往随疫情的爆发而迅速增加，随疫情的缓慢结束而缓慢降低，呈现出前后的不对称，而媒体渲染引来的非患者的搜索则前后比较对称。利用这一区别，原则上可对结果进行校正。

但另一方面，原因之所以很快找到，是因为失败已成事实，从而有了明确的分析对象，在千变万化的大数据分析中要想每次都“先发制人”地避免失败却是极其困难的。比如大数据分析对数据间的相关性情有独钟，其所津津乐道的“不依赖于理论”的特点却在很大程度上排斥了对相关性的价值进行甄别——就如知名技术类刊物《连线》（Wired）杂志的主编安德森（Chris Anderson）曾经宣称的：“只要有足够多数据，数字自己就能说话”（with enough data， the numbers speak for themselves）。数字也许是能说话，但说出的未必都是有价值的话。事实上，未经甄别的相关性可谓处处是陷阱。比如2006-2011年间，美国的犯罪率和微软IE浏览器的市场占有率就明显相关（同步下降），但却是毫无价值的相关性——这是纽约大学（New York University）计算机教授戴维斯（Ernest Davis）举出的例子。在统计学中，这是所谓“相关性不蕴含因果性”（correlation does not imply causation）的一个例子。

无论是系统误差还是“相关性不蕴含因果性”，大数据的这些陷阱其实都是统计学家们熟知的。只不过，太急于赶路时，人们有时会忘掉曾经走过的路。

篇7：谈财报数据背后可能的陷阱

不同公司为了其自身利益, 可能对财报数据进行不同的粉饰, 这些数据与现实不相符, 常被戏称为“会计魔术”, 常见的有两大类:一是无中生有, 典型如虚构收入、虚增资产, 或是化有成无, 典型如隐瞒费用、隐瞒债务, 这类性质的会计魔术会导致“永久性差异”;二是跨期调整, 典型如提前确认收入、推迟确认费用, 这类性质的会计魔术会导致“暂时性差异”。

万家乐公司在2010年的一月份到九月份之间营业总收入比以往增长7.14%, 但是营业净利润却大幅增加到127.1%。仅从表面看这些数据, 好像这个公司的业绩有大幅增长, 看似有非常好的发展前景。但是面对这些貌似华丽的财务报表数据, 必须用一双探寻的眼睛识别真伪, 从数据背后发现其公司财务状况的真相。万家乐公司之所以在短短的几个月之内取得如此巨幅的收入, 主要是来自于其下属子公司设立合资公司后, 溢价3.650亿元, 营业外收入确认为1.80亿元, 即万家乐公司巨幅增长主要来自于营业外收入。而且这种收入仅仅是一次性买卖收入, 如果不计算这笔收入, 万家乐公司的营业收益微乎其微。因此, 可以断定万家乐公司下半年的业绩肯定难以有如此大幅度的增长。分析历年来的财报数据, 可以发现类似这种的案例非常多。一些公司的经营状况并没有明显的起色, 但是其业绩却有大幅度增长, 大部分皆是因为业绩增长不是来源于企业的主营业收入的增长, 而是一些相关因素造成的营业外收入, 在财报数据上便会呈现为主营业收入增长幅度与利润增长幅度的不同步, 导致业绩的虚胖。因此, 华丽财报数据的背后并非意味着企业未来业绩的大幅提升。

前些年, 哈空调爆出财务丑闻。哈空调在交货之前提前确认收入, 又悄悄地将非正常增长的应收款项抹掉, 使账面上呈现出应收款项非正常大幅增长。这种做法自以为无人能知, 但是一旦遭遇行业泡沫使企业资金链断裂时, 就会原形毕露, 步入“断粮”的尴尬境地。御银股份也爆出涉嫌提前确认收入的财务丑闻。御银股份为银行提供ATM机运营和租赁服务, 包括销售商品、让渡资产使用权等, 此项收入属于一揽子收入。在财报数据中, 公司故意多确认销售收益, 减少没实现的融资收益, 导致该公司应收款虚假升高, 使正常销售的毛利率大大小于销售租赁的毛利率。提前确认收入的财务丑闻在上市公司中发生率较高, 很多公司为了业绩承诺, 不惜在财报中进行数据造假。尤其在2009年的时候, 受金融危机的冲击, 很多行业的经济都处于低谷期, 尤其是房地产行业。当时宜华地产为了达到之前计划的业绩, 避免两亿元的股份对价损失, 提前确认了当年5月份才竣工交付的楼盘巨额收入, 使财报上呈现出达到之前业绩承诺的假象。2002年震惊世界的安然事件也曾利用提前确认收入来数据造假。在破产之前, 安然公司是一家位于美国的世界上最大的能源类公司, 主要业务是能源类相关产品的销售, 为能源供应者和消费者提供媒介, 两者以安然公司为中间人建立合约, 合约一般在几个月或是几年之后执行。这种业务模式可使安然公司可以在短时间内提高业绩, 但是要注意的是, 虽然合同收入最终是归入到安然账户中, 可是这些合同均是“将来时”的, 在履行合同之前, 安然的账户中并没有现金收入。安然公司为了提高财报上的收入款, 就把这些未收入款提前确认收入, 使财报上的数据与实际现金收入严重不符。

除了提前确认收入之外, 延迟收入确认和延迟付款也是一种常见的数据陷阱。还是在2009年的金融危机时期, 万方地产当时的在售楼盘只有一幢, 为了保障金融危机时期财报上的业绩, 该公司在2008年只确认了部分该楼收入, 而把该楼的大部分售房预收款项延至2009年才确认, 使财务报表上当年的业绩不受影响。还要注意虽然从报表上看有些公司的现金流很好, 但这些现金流可能不少是延迟付款“扛”出来的。这时, 应分析应付账款周转天数, 如延长明显, 应评估增长的现金流中有多少源于对供应商的“延迟支付”, 也就是到年末时该付的钱“拖”到年初才支付。当这些付款做了支付后该公司的现金流状况或许才是其当时真实的经营状态。

企业为了达到非法获利的目的, 更有甚者蓄意粉饰财务报表数据, 常见手法有虚假交易、关联交易、阴阳交易等等。虚假交易顾名思义就是虚构一些不存在的实物流与现金流的交易凭证, 伪造虚增利润来使财报数据更加华丽。银广夏就曾曝出用虚假交易粉饰财报的丑闻, 使虚增利润达到7.45亿元。为了提升虚假交易的仿真度, 银广夏还伪造了购买合同、发票、收据、出口报关单等一系列文件, 当作原始凭证。五粮液公司在去年6月份组织数家银行, 由自身作担保人, 要求经销商从这些银行贷款专项用于打款订货, 一次性进帐近20亿元。然而, 这些经销商均拒绝提货, 这样, 该公司让银行的资金在帐户里绕一圈再回到银行, 虽货未出仓, 却可使半年报增加近20亿元营业收入, 让其半年期业绩“增长超出市场预期”, 最终目的也是为了提升销售额, 提高虚假利润。这种财务造假的手段可谓非常高超, 也有不少的企业不惜铤而走险用此种手段粉饰财报数据。关联交易不仅可以提高虚假销售额, 还能够获得增值税进项税抵扣, 达到节税的目的。常见手段是不同公司多方进行循环交易, 比如甲公司把商品卖给乙公司, 或者为乙公司提供劳务, 乙公司又转卖给丙公司, 丙公司在把商品卖回给甲公司, 为了确保仿真度, 各种文件手续都要齐全, 但是没有实际上的物流和现金流, 财报上却呈现虚高销售额。阴阳交易既是名义上的交易与实际交易不等同的现象, 同样是为了达到粉饰财报数据的目的。例如前些年ST源药在子公司股权出售与收购时, 均签订了阴阳协议, 出售股权时, 名义的出售价小于实际出售价;收购股权时, 名义上的收购价格又高于实际收购价格, 阴阳交易之间的差额部分则作为收入到账户中, 以提高虚假收益。

二、识别财报数据陷阱的方法

不同企业伪造财报华丽数据的具体动机不同, 但根本目的只有一个, 那就是利益。不论你是一名投资者、或一名股民、亦或者是纯粹的一名读者, 看到财报上的“华丽”数据时, 首先要提醒自已冷静、客观, 要对数据进行理性的分析、判别, 通过数据看本质, 不草率地完全相信, 以避免因不实数据给不同财报使用者可能带来的不同程度上的“损失”。所以当面对财报数据时, 要结合不同公司进行分析, 包括其经营管理、公司规模、市场状况、科研实力等等, 没有实际业绩的公司很难有发展前景, 这是识别财报陷阱的前提。在进行数据比较时, 要用多种分析法如比较分析、比率分析并结合实际状况, 以提高判断的准确性。另外企业的净利润和现金流量要重点分析, 净利润是一个企业盈利能力的重要体现, 现金流量是企业经营状况的具体表现, 慎对没有现金流支撑的帐面利润。要抓住财报数据上的重点内容, 从实质上了解该企业的竞争实力。值得注意的是财报包含的信息毕竟不全面, 还应该扩大信息面, 从多个角度考察经济信息之外的其他信息, 如进行同类行业的“经营状况, 财务指标”比较等, 以便准确地分析。总之, 面对财报数据时, 要冷静, 不盲从, 一定要有自已的分析判断, 能穿过数据的表象, 尽可能地去接近“真相”, 获取有价值的信息。

参考文献

[1]李四能.财报陷阱的甄别与防范探究[J].赤峰学院学报:自然科学版, 2009 (4) :126-129.

[2]伍嘉慧, 刘青.财报数据差异与经营绩效相关性实证[J].中国集体经济, 2015 (10) :64-65.

[3]苏宏伟, 张今华, 徐建霞.财报分析之数据整理经验谈[J].中国农业会计, 2012 (10) :64.

篇8：涨停交易席位公开数据陷阱

现在意义上的交易席位这样界定：机构席位主要是指基金和社保专用席位；营业部席位则一般代表游资、大户或类似敢死队的资金进出。一般情况下如社保、QFII等机构的交易只有一个资金帐号，因为买卖操作是不能分仓的。而游资、大户的资金由于没有严格的监督限制，资金可以随便分散到多个账户，甚至可以分散在全国各地证券公司。

交易所的公开数据虽然具有一定的参考价值，但投资者也不要迷信它。这些数据多数时候并不能真正反映出机构或庄家的进出情况，有时庄家还会利用此公开数据来设置陷阱引诱跟风盘跟进自己则出货。如华芳纺织（600273）的庄家近日就利用公开数据设置陷阱引诱跟风盘买进，自己则疯狂出逃。

笔者整理了华芳纺织自今年6月份以来上交所公开的5次交易数据。日期分别为8月12日、9月1日、9月2日、9月5日和9月6日。在后4次公开数据中，每次均见渤海证券上海彰武路营业部上榜，而且每次的交易金额量都特别巨大。不难判断，该股大庄的仓位就潜伏在此营业部。

笔者统计了这4次交易中，该营业部的交易金额分别如下：9月1日，买入1.38亿元，卖出1170 万元；9月2日买入679万元，卖出3348万元；9月5日买入0元，卖出1.23亿元；9月6日买入917万元，卖出2.14亿元。4次上榜买入金额合计为1.54亿元，累计卖出金额3.82亿。仅仅从公开数据上看，卖出金额远大于买入金额，这说明什么？

实际上这说明的是潜伏在华芳纺织里面的庄家，仅仅在该营业部的持股筹码市值最高时就超过3亿元。而公开数据只是看见它的部分买入情况，大部分筹码在该庄家建仓时根据公开数据分析根本是看不出来的。

同一营业部同一日出现较大量的买卖成交，有可能是同一主体所为，也有可能不是同一主体所为。一般来说，买是为了拉高股价或者是护盘所用，有时候也是刻意通过对敲制造大量买盘；卖则是出货或是刻意通过对敲制造大量卖盘。就华芳纺织而言，这几日的买是为了拉高股价或者是护盘所用；卖则是为了大量的出货出逃。

此外，需注意的是9月1日该股上榜时，该营业部当天的买入金额达到1.38亿元，占当天总成交金额4.03亿元的34.2%。华芳纺织总股本才3.15亿，当时价格只有11块多，不算高价股。竟然在一个交易日就有一家营业部买入金额如此之高，这是十分显眼的。而就在该营业部招摇的上榜后，华芳纺织下一交易日股价就被砸至跌停，而且在后面连续下跌中该营业部日日都是巨量卖出。

由此可见9月1日渤海证券上海彰武路营业部的大量买入并非是庄家入场这么简单，恰恰相反，这其中估计有70%的成交量是该庄刻意通过“对敲”制造大量买盘，制造巨量买单的假象，以此吸引短线投资者的注意，引诱跟风盘在下一交易日跟庄抢进，从而大肆疯狂出货。这是庄家利用公开数据设置陷阱一经典案例。投资者在参考个股公开交易数据时切不可盲目相信哪一家营业部上榜的股票就一定行。华芳纺织近日出现不少利空消息或传闻，这也许是令大庄出逃的原因，但股价的暴跌并不是大众抛盘所导致，而是潜伏在里面持筹数亿元的庄家所为。

篇9：网络数据包的抓取与识别

一、网络数据包的抓取

抓取模块主要包括对图片、视频以及文本的抓取, 抓取的子模块在本质上是属于数据抓取模块, 数据抓取模块一般分为下面几个部分: (1) 数据识别部分, 主要对数据进行检查, 判断是否为要抓取的数据。 (2) 数据抓取部分, 该部分为最重要的部分。 (3) 数据分析部分, 这样是对数据包头的分析, 通过简单的数据分析后可以进入下一部分。 (4) 数据入库操作部分, 将抓取的数据以及分析得到的数据都放在数据库中, 对数据进行分类存放, 将这些数据进行分类存放, 通过分类存储对数据分析以及融合。

数据间数据通信时使用不同的数据通信包来进行通信的, 在数据包的抓取以及分析的基础上能够实现多个数据之间的数据通信以及数据共享。使用数据通信以及数据共享进行数据分析, 能够到到多种数据融合之后的数据, 通过各个数据集合进行数据的合成和转换。数据之间的不同要求进行数据存储, 在此过程中对数据进行分类操作, 将非结构以及结构化的数据进行分类存储, 通过数据观察和识别对数据模块进行处理。

项目中数据库的设计是按照确定表和确定实体的细化行为、关系以及制定规则、约定的技术流程的实施。数据库中使用SQL Server2008, 确定表的设计要遵循以文件类型作为分类的原则进行分类, 相同文件的要素放到一张表例, 例如TCP数据、数据要素表、视频数据表和图片要素表等等。

二、数据包的识别

现在比较流行的网络数据包一般是基于服务器/客户端模式, 依据网络的按原因是因为现在大家都经常使用Internet, 在网络层使用IP协议, 在传输层利用TCP作为为上一层提供面向连接的可靠服务, 通过对网络数据包以及抓包软件的抓包机制、网络数据包端口的特性以及数据包的包长的试验以及研究, 可以识别网络的数据包, 并且能够确定其是何种数据包是一种非常可行的方法。

当我们需要判别某个网络的接口是否有该种数据包时, 一般需要通过一下几步: (1) 按照该网络数据包的端口号来过滤数据。 (2) 将过滤到的数据按数据流分开, 这里所指的数据流是指IP五元组相同的一组数据, 也就是目的IP、源IP、目的端口号、源端口号以及传输层协议类型相同的一系列的数据包。 (3) 分析各个数据流的包场分布, 如果流的99%以上的包长都是40-159字节, 再将此流的各个数据包按照时间来排序, 测试每个包的时间间隔, 如果时间间隔小于1s, 在在第二步许多流中找与该流对应的反向流。 (4) 如果找到反向流按照时间进行排序然后观察各个数据包之间的时间间隔是否大于等于1s。 (5) 将反向流与正向流合并, 可判别正反向流对应的数据报是否是交替出现的。如果上面的条件都判断符合标准, 我们能够确定这两个正反向流是网络数据包的。

三、总结

通过研究发现, 网络数据包可以通过利用抓包软件的编辑接口, 从而能够开发出相对应的软件识别来通过各个网络的接口数据流有哪几种数据包, 我们能够将数据包的端口存储于一个链表中。依据以上方法依次验证所有的端口号。由于大型数据包开发成本较大, 现有数据包的数量有限, 搜集到所有的数据包的端口号是能够实现的, 这也解决了抓包软件中的数据包是别的空白。数据包已经被越来越多的人接受, 所以数据包市场规模也会继续扩大, 这需要有更多的人投入到数据包中, 而且能够解决数据包普遍存在的外挂问题、掉线问题、私服问题和提高数据包信息的交互性。

参考文献

[1]李培.网络数据包的监听与分析技术研究.煤炭技术, 2012, 31 (2) :456-457

[2]周维, 刘芳好, 罗宇, 谈子龙, 赵留涛, 刘东映.P2P应用特征检测与识别.计算机应用, 2009, 29 (5) :103-105

[3]鲁鹏俊, 钟亦平, 张世永.多模匹配问题在IDS中的解决.计算机工程, 2005, 31 (4) :74-78

[4]陈亮, 龚俭, 徐选.基于特征串的应用层协议识别.计算机工程与应用, 2006, 24 (7) :64-69

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处

【数据分析师教你识别数据陷阱专题】相关文章：

数据识别06-08