大数据知识要点

2024-04-30

大数据知识要点（精选6篇）

篇1：大数据知识要点

初中化学知识要点大总结

（一）水

1.水、蒸馏水是纯净物、化合物和氧化物。矿泉水、海水、河水、糖水和盐水都属于混合物

2.污染水质的因素：工业生产中的废渣、废水、废气（即“三废”）和生活污水的劝斥排放，农业生产中施用的农药、化肥随雨水流入河流。

3.电解水实验（水中加少量硫酸或NaOH，增强水的导电性）① 水通电（正极O2 负极H2，体积比1:2）2H2 O===2H2 ↑ ＋ O2 ↑ ②证实物质里是否含水方法：白色的无水硫酸铜遇水变蓝色 ③．除去混合气体中的水蒸气，通常放在最后除，如除去氢气中含有（HCl、水蒸气、CO2），先通过再通过。④．要验证混合气体中是否含有水蒸气，通常应先检验，如证实氢气中含有HCl、水蒸气、CO2，应先让混合气体通过（填仪器和其中的药品），观察到时，则说明含有；再通过，当观察到，则含有，接着通过，当观察到，则说明含有。

（二）空气

4.空气的成分按体积分数计算：氮气78%，氧气21%，稀有气体0.94%,CO2 0.03%

5.环境污染知识：排放到空气中的气体污染物较多的是二氧化硫、二氧化氮、一氧化碳。二氧化硫-----大气污染物、酸雨-----来自于含硫燃料的燃烧。

6.测定空气成份或除去气体里的氧气，要用易燃的磷，磷燃烧后生成固体，占体积小易分离。不可以用碳、硫代替磷。碳、硫跟氧气反应生成气体，难跟其他气体分离。

（三）氧气的性质和用途

7.氧气的物理性质：不易溶于水，密度比空气的略大。液氧、固态氧淡蓝色。工业上制取氧气的方法：分离液态空气-----物理变化。

8.氧气的用途：气焊、航天、潜水、登山、医疗、液氧炸药、炼铁、炼钢

9.氧气的化学性质：支持燃烧，有助燃性。可供呼吸用，是常用的氧化剂。⑴木炭在氧气中燃烧（O2可使带火星的木条的木条复燃）C O2 CO2 现象：发出白光，放出热量，生成使石灰水变浑浊的气体 ⑵硫在空气中燃烧，硫在氧气中燃烧 S O2 SO2 硫在空气里燃烧发出微弱的淡蓝色火焰，产生有刺激性气味的气体，放出热量；在氧气里燃烧发出蓝紫色火焰，产生有刺激性气味的气体；放出热量 ⑶磷在空气中燃烧 4P 5O22P2 O5 现象：产生大量的白烟，放出热量白磷着火点低,易自燃,要放在水中密封保存，可隔绝空气，防止它自燃。⑷镁在空气（或氧气）中燃烧 2Mg O2 2MgO 现象：发出刺眼的白光，放出热量，生成白色固体 ⑸铁丝在氧气中燃烧 3Fe 2O2 Fe3 O4 现象：剧烈燃烧，火星四射，生成黑色固体，放出热量此实验必须先在集气瓶里装少量水或在瓶底铺一层细砂,防止溅落的熔化物使瓶底炸裂 ⑹氢气在空气中燃烧(点惹缶痊鸣气)2H2 O22H2 O 现象：纯净的氢气在空气里安静地

燃烧，发出淡蓝色火焰，放出热量；不纯的氢气点燃很可可以会发生爆炸；可燃性气体或可燃性粉尘与空气混合，遇明火很可可以会发生爆炸！⑺蜡烛在氧气里燃烧得更旺，发出白光，放出热量，瓶壁内有水珠。向瓶内倒入澄清的石灰水，石灰水变浑浊。⑻ 加热碱式碳酸铜（俗称铜绿）Cu2(OH)2 CO32CuO ＋ H2 O ＋ CO2 ↑（现象：绿色粉末变黑色，管壁有水珠，生成的气体使澄清的石灰水变浑浊）

（四）氧气的制法：

10．工业制取氧气的方法：分离液态空气制取氧气，此变化是物理变化，不是分解反应实验室制取氧气反应原理： ①加热高锰酸钾 2KMnO4K2 MnO4 MnO2 O2 ↑ ②加热氯酸钾和二氧化锰的混合物 2KClO32KCl 3O2 ↑ 实验室制取氧气注重事项：①试管口略向下倾斜（防止冷凝水倒流，使试管破裂）；②用排水法收集氧气，导管口开始有气泡放出时不宜立即收集，当气泡连续地较均匀地放出后再收集（因为开始放出的气泡不纯，含有空气）③排水法收集氧气结束时，应先撤去导管，后停止加热（防止水倒吸入试管，导致热的试管破裂。）其他生成氧气的反应：③水通电（正O2 负H2，体积比1:2）2H2 O＝=2H2 ↑ ＋ O2 ↑ ④加热氧化汞 2HgO2Hg ＋ O2 ↑

（五）氢气的性质和用途

11．氢气的性质（1）物理性质：密度最小的气体，难溶于水（2）化学性质 ①可燃性：氢气在空气中燃烧 2H2 ＋ O22H2 O 现象：纯净的氢气在空气里安静地燃烧，发出淡蓝色火焰，放出热量不纯的氢气点燃很可可以会爆炸，所以点燃氢气前一定要先检验氢气的纯度。②还原性：氢气还原氧化铜 H2 ＋CuO Cu＋H2 O 现象：黑色固体逐渐变为光亮的红色固体，管壁有水珠产生氢气还原氧化铜实验注重事项：“酒精灯迟到早退”，即开始时要先通入氢气后加热（目的是排净管内空气，防止氢气与管内空气混合受热发生爆炸）；实验结束时要先停止加热，继续通入氢气至试管冷却（防止生成的铜受热被氧化成CuO）现象？（3）氢气的用途：充气球，冶炼金属，高可以燃料，化工原料

12．生成氢气的反应（实验室制取H2最常用的试剂是：锌粒和稀硫酸，）锌粒和稀硫酸反应 Zn ＋ H2 SO4＝ZnSO4＋H2↑ 铁和稀硫酸反应 Fe＋H2 SO4＝FeSO4 ＋ H2 ↑ 镁和稀硫酸反应 Mg＋H2 SO4＝MgSO4＋H2↑ ④铝和稀硫酸反应 2Al＋3H2 SO4＝Al2(SO4)3＋3H2↑ ⑤锌粒和盐酸反应 Zn ＋2HCl＝ZnCl2＋ H2 ↑ ⑥铁和盐酸反应 Fe＋2HCl＝FeCl2＋H2↑ ⑦镁和盐酸反应 Mg ＋ 2HCl＝MgCl2＋H2↑ ⑧铝和盐酸反应 2Al＋6HCl＝2AlCl3＋3H2↑

(六)铁的性质

13.铁的物理性质：有银白色金属光泽的固体，有良好的延性和展性，质软，是导体铁的化学性质：（1）铁跟氧气反应铁在潮湿的空气里（既有H2O又有O2时）易生锈，铁锈是混合物，主要成分是氧化铁Fe2O3 防锈方法：在铁表面涂一层保护膜（如涂漆或油）；镀锌等金属或烤蓝铁在氧气里燃烧生成四氧化三铁,剧烈燃烧，火星四射，生成黑色固体，放出热量铁可跟酸（盐酸或硫酸）和排在铁后的金属的盐溶液发生置换反应（反应后溶液呈浅绿色）铁跟硫酸铜溶液反应（现代湿法冶金的先驱）化学方程式：Fe＋CuSO4＝Cu＋FeSO4 现象：铁丝表面覆盖一层红色的铜, 溶液由蓝色变为浅绿色 ②铁跟硫酸反应：Fe＋H2 SO4＝

FeSO4 ＋H2 ↑ 铁跟盐酸反应：Fe＋2HCl＝FeCl2 ＋H2 ↑ 现象:有气泡生成,溶液由无色变为浅绿色铁元素有三种氧化物：氧化铁Fe2O3 氧化亚铁FeO 四氧化三铁Fe3O4

14．生铁和钢：是混合物，都是铁的合金，不同是含碳量不同，生铁的含碳量高，钢含碳量低。合金：金属与金属（或非金属）熔合而成，具有金属性质的混合物。（纯净物不是合金）

(七)单质碳的性质

15．金刚石和石墨是由碳元素组成的两种不同的单质，它们物理性质不同、化学性质相同。它们的物理性质差别大的原因碳原子的布列不同

16．碳的化学性质跟氢气的性质相似(常温下碳的性质不活泼)①可燃性：木炭在氧气中燃烧 C ＋ O2 CO2现象：发出白光，放出热量碳燃烧不充分（或氧气不充足）2C＋O2 2CO ②还原性：木炭高温下还原氧化铜 C ＋ 2CuO2Cu ＋ CO2 ↑ 现象：黑色物质受热后变为亮红色固体，同时放出可以使石灰水变浑浊的气体试验注重事项:①试管口略向下倾斜（防止因加热时生成的水蒸气至管口冷凝成水滴而倒流，使试管破裂）；②实验结束时，应先把导管从石灰水里移开，然后再熄灭酒精灯（防止石灰水倒吸入试管，导致热的试管破裂。）木炭高温下还原氧化铁 3C ＋ 2Fe2 O34Fe ＋ 3CO2 ↑ 高温条件下碳还原二氧化碳生成一氧化碳 C ＋ CO22CO 一氧化碳在空气中燃烧生成二氧化碳 2CO＋O2 2CO

2（八）二氧化碳的性质

17.二氧化碳的物理性质：可溶于水，密度比空气的大。加压降温易变为固体“干冰”，怎么收集二氧化碳？。用途：灭火，温室里作肥料，干冰用于致冷和人工降雨，化工原料

18.二氧化碳的化学性质 ①跟水反应：二氧化碳通入水中生成碳酸 CO2 ＋ H2 O ＝H2 CO3 二氧化碳通入紫色石蕊试液，石蕊试液变红色；加热又变为紫色 ②跟碱反应生成盐和水：（用澄清的石灰水鉴定CO2）二氧化碳通入澄清的石灰水 CO2 ＋ Ca(OH)2 ＝ CaCO3 ↓＋H2 O 现象：有白色沉淀生成（或：澄清的石灰水变浑浊）二氧化碳跟氢氧化钠反应：CO2 ＋ 2NaOH＝ Na2 CO3 ＋H2 O（无明显现象），怎么用实验证实可以反应？。③通常情况下，CO2不支持燃烧，也不可以燃烧。

（九）一氧化碳的性质

19．一氧化碳的物理性质：无色、无味、比空气的密度略小、难溶于水，怎么收集？。

20．一氧化碳的化学性质 ①可燃性：一氧化碳在空气中燃烧生成二氧化碳现象：发出蓝色火焰，放出热量 2CO＋O2 2CO2 ②还原性：一氧化碳还原氧化铜（不是置换反应）CO ＋ CuOCu ＋ CO2 现象：黑色物质受热后变为亮红色固体，同时放出可以使石灰水变浑浊的气体非凡注重尾气的处理：未反应的CO燃烧掉，防止污染空气；或用气球收集起来。一氧化碳还原氧化铁 3CO ＋ Fe2 O3 ＝ 2Fe ＋ 3CO2 ③毒性：一氧化碳吸入肺里跟血液的血红蛋白结合，破坏了血红蛋白的输氧可以力三种有可燃性、还原性的物质：氢气、碳、一氧化碳（都可用于冶炼金属、用作燃料）

（十）碳酸钙的性质和用途

21．碳酸钙主要以石灰石和大理石存在，大理石和石灰石主要成分是CaCO3。大理石和石灰石做建筑材料，工业上用石灰石制生石灰（CaO）和二氧化碳、制水泥。

22.碳酸钙的物理性质：白色固体，难溶于水。化学性质： ①跟盐酸、硝酸反应（碳酸钙不溶于水，可溶于酸）制二氧化碳可用硝酸代替盐酸？ CaCO3 ＋2HCl＝CaCl2 ＋H2 O＋CO2 ↑（实验室制取CO2的反应）CaCO3 ＋2HNO3 ＝Ca(NO3)2 ＋H2 O＋CO2 ↑ ②高温分解：CaCO3CaO＋CO2 ↑ CaO＋H2O＝Ca（OH）2（生石灰跟水反应生成熟石灰）

（十一）有机物

23.甲烷CH4（俗名：沼气，天然气的主要成分）是最简单的有机物。难溶于水，密度比空气的小可燃性CH4 ＋2O2 CO2 ＋2H2 O 现象：火焰明亮呈蓝色，放出大量热

24．乙醇（俗名：酒精，C2 H5 OH）无色液体，易挥发，与水可劝斥比互溶酒精燃烧 C2 H5 OH ＋3O22CO2 ＋3H2 O 甲醇（CH3OH）有毒，不可以饮用，饮用后使人双目失明，大量饮用会使人死亡。

25．煤（主要含碳元素，称为“工业的粮食”）、石油（主要含碳元素、氢元素，称为“ 工业的血液”）天然气（主要成分是CH4），三种最重要的矿物燃料，都是混合物

（十二）酸碱盐氧化物

26.氧化物的性质： ①有四种碱性氧化物跟水反应生成碱，其他的碱性氧化物不溶于水跟水不反应 Na2 O＋H2 O＝2NaOH CaO＋H2 O＝Ca(OH)2 K2 O＋H2 O＝2KOH BaO＋H2 O＝Ba(OH)2 ②酸性氧化物：大部分非金属氧化物都是酸性氧化物，跟水化合生成同价的含氧酸。CO2 ＋H2 O＝H2 CO3 SO2 ＋H2 O＝H2 SO3 SO3 ＋H2 O＝H2 SO

427.盐酸和硫酸用途：硫酸和盐酸可除去金属表面的锈，都是重要的工业原料盐酸（氢氯酸，HCl气体的水溶液，无色液体）浓盐酸有挥发性，会挥发出HCl 硫酸（H2 SO4）浓硫酸有吸水性，可作气体的干燥剂

28.浓硫酸的稀释：稀释浓硫酸时，必须把浓硫酸沿着容器壁慢慢地注入水里，并不断搅拌，使产生的热量迅速扩散，切不可把水倒入浓硫酸里。盐酸（或氯化物）和硫酸（硫酸盐）的不同方法：最好用可溶性钡的化合物氯化钡（硝酸钡或氢氧化钡），有白色沉淀生成的是硫酸（硫酸盐），无现象的是盐酸不可以用硝酸银溶液，因硝酸银跟硫酸反应有硫酸银白色沉淀生成。

29.硝酸（HNO3）有酸的通性，但跟金属反应不生成氢气磷酸H3 PO4

30．氢氧化钠（俗名：烧碱、火碱、苛性钠化学式：NaOH）物理性质：白色固体，极易溶于水且放出大量热，有吸水性，易潮解氢氧化钠易潮解，称量时必须放在玻璃器皿（如烧杯、表面皿）里称量。NaOH会吸收空气中的水分，又会跟二氧化碳反应，所以必须密封保存用途：作中性或碱性气体的干燥剂，不可以干燥二氧化硫、二氧化碳、氯化氢，可干燥H2、O2、N2、CO、NH3、CH4等；用于肥皂、石油、造纸等工业化学性质：（KOH的化学性质跟NaOH相同）①二氧化碳、二氧化硫分别通入氢氧化钠溶液里（无明显现象）CO

22NaOH=Na2CO3 H2O SO2 2NaOH=Na2SO3 H2O SO3 2NaOH=Na2SO4 H2O ②硫酸和硝酸分别跟氢氧化钠溶液发生中和反应（无明显现象）③氢氧化钠跟盐反应 a.氢氧化钠溶液跟氯化铁、硫酸铁、硝酸铁溶液的现象和方程式: 现象有红褐色沉淀生成：6NaOH Fe2（SO4）3=3Na2SO4 2Fe（OH）3↓ b.氢氧化钠溶液跟氯化铜、硫酸铜、硝酸铜溶液的现象和方程式: 现象有蓝色沉淀生成：2NaOH CuSO4=Na2SO4 Cu（OH）2↓ c.氢氧化钠溶液跟氯化镁、硫酸镁、硫酸铝溶液的现象有白色沉淀生成方程式：2NaOH MgSO4=Na2SO4 Mg（OH）2↓

31．氢氧化钙（俗名：消石灰、熟石灰化学式Ca（OH）2）白色固体，微溶于水，溶解度随温度升高而降低。用生石灰跟水反应制得。用途：与硫酸铜配制农药“波尔多液”，可用来降低土壤酸性，制建筑业的三合土氢氧化钠和氢氧化钙不同点：氢氧化钙跟二氧化碳、碳酸钠、碳酸钾反应有白色沉淀生成，氢氧化钠则无沉淀生成。CO2 Ca（OH）2=CaCO3↓ H2O Na2CO3 Ca（OH）2 =CaCO3↓ 2NaOH 写出下列转变的化学方程式：CaCO3→CaO→Ca（OH）2→CaCO

332.常看见的盐 a.氯化钠（NaCl 食盐的主要成分）NaCl＋AgNO3 ＝NaNO3 ＋AgCl↓ 粗盐提纯的步骤：1.溶解 2.过滤 3.蒸发 4.结晶实验仪器：药匙、烧杯、玻璃棒、蒸发皿、漏斗、量筒、酒精灯、b.碳酸钠（俗名：纯碱，Na2 CO3 类别：盐，不是碱）碳酸钠＋酸→盐＋H2 O ＋ CO2 ↑ 例： Na2 CO3 ＋2HNO3 ＝2NaNO3 ＋H2 O＋CO2 ↑ 2AgNO3 ＋Na2 CO3 ＝2NaNO3 ＋Ag2 CO3 ↓ CaCl2 ＋Na2 CO3 ＝2NaCl＋CaCO3 ↓ BaCl2 ＋Na2 CO3 ＝2NaCl＋ BaCO3 ↓ ③ Ca（OH）2 ＋Na2 CO3 ＝2NaOH＋CaCO3 ↓ c.硫酸铜（硫酸铜晶体俗名：蓝矾、胆矾）①加热蓝色硫酸铜晶变为白色无水硫酸铜是白色固体，遇水变蓝色 CuSO4·5H2OCuSO4 ＋5H2O CuSO4 ＋5H2O= CuSO4·5H2O 硫酸铜溶液跟可溶性碱反应有蓝色沉淀生成物： CuSO4＋2NaOH＝Cu(OH)2↓＋Na2 SO4 置换反应Fe＋CuSO4 ＝FeSO4 ＋Cu Zn ＋ CuSO4 ＝ZnSO4 ＋ Cu

篇2：大数据知识要点

根据省局大数据中心2018年信息化工作安排及南充市、县、乡三级目前统计信息化建设现状及存在的短板及问题，结合市局统计工作改革与发展对信息化提出的支撑与保障要求，2018年大数据中心工作要点如下：

一、亮特点工作

（一）全力推进和做好统计大数据中心建设

不断深化优化新建大数据中心机房建设、网络系统、安全系统、应用系统的建设技术方案，做实做细各项准备，以便机房技术用房确定后，能在尽量短的时间内高效推进统计大数据中心的建设，并同步做好机房、高清视频会议暨综合管理展示大屏的建设、升级工作和局内现有机房各信息化系统的调试集成工作。

（二）建立基本完备的信息网络安全体系

在大数据中心的建设过程中，优化网络结构，通过部署防火墙、行为管理、堡垒机、数据库审计、日志审计等安全设备，建立起较全面的安全技术防护设施。通过采取多种措施，确保市县两级VRV安全客户端注册率每月均达100%，提升杀毒软件安装率，进一步完善安全管理有关制度。按《网络安全法》的要求，在新的大数据中心各项信息系统建设完成后，聘请有资质的专业测评公司对信息系统进行安全检测及提出完善整改报告，通过等级保护测评。圆满完成省局及市政府及有关部门对我局的各类安全检查，确保全年不出任何安全事故，建成省内市州领先的基本完备的信息网络安全体系。

二、重点工作

（一）做好三农普、四经普有关数据处理工作按省局有关工作时间安排，在国家审定农普数据反馈后，及时做好三农普市、县两级资料开发的数据处理系统搭建和汇总出表工作。做好四经普数据处理设备准备（PDA设备的管理、新设备的采购）、数据处理方案制定、处理环境的搭建、应用系统的技术培训、数据处理期间的技术保障等各类数据处理工作。

（二）继续推进县（区）、乡（镇）信息化基础建设在2017年推进县、乡信息化标准化建设取得明显成效的基础上，针对各地还未达标和还存在的薄弱环节部分，按省中心有关工作要求，继续推进基层信息化基础建设。利用统计深改的形势背景，努力争取形成规范扎实的基层信息化管理体制，在机构设立、人员配备、网络建设（专网向社区延伸、市县专网增设备用网络线路）、环境设施（专用机房、二代防火墙、UPS电源等）、安全体系建设等方面持续推进，为后续统计改革发展对基层信息化工作提出的全新要求打下良好基础。并通过按月通报有关工作进展来促进各县区间互相借鉴学习经验和发现弥补自身短板，争取在信息化基层基础工作中追齐地市一流水平。

（三）清理信息化资产账目

细致清理局内现有实际使用中的信息化资产，通过与财务信息化固定资产账目的比对，及时配合局办公室审核报废已过期没再使用的信息化资产，避免信息化财务账目臃杂混乱，与实际在用资产不一致而形成的管理紊乱。

（四）进一步规范软件正版化工作

在局采购了大批正版化软件的基础上，今年在局内各计算机上全面安装部署正版软件，并加强管理，规范流程及手续，做好每台电脑软件维护安装等的工作记录，完善各类制度及资料，圆满通过各级对正版化工作的考核检查。

三、常规性工作

（一）做好网站管理维护工作。做好日常网站服务器的软硬件维护管理和监控工作，及时做好网站后台的信息审签，每月处理修改网站内发现的无效链接及错别字，按实际工作需求做好网站版面的修改完善。

（二）做好一套表平台的管理维护。每月计算生成一套表直报率情况表、一址多报企业数量情况表、内网代报表等资料并送有关科室。做好对平台账户的赋权和账户管理工作，做好对平台的技术支持保障工作。

（三）和广电对接，争取将市县网络各区县的接入带宽和市局汇聚带宽进一步提升。

（四）做好对中心机房路由器、交换机、服务器、VPN网关、磁盘阵列、视频会议MCU、UPS电源系统、空调运行、网络及各安全设备的运维监控和故障处理。

（五）完成信息化年报表的部署、收集、审核和上报工作。

（六）做好对局内各科室、局、队、办软硬件的维护管理。

（七）做好对视频会议系统、VRV安全管理系统、金山网络版杀毒系统等的运行维护管理。

篇3：大数据安全与隐私保护技术要点

1 大数据的特性

大数据可被看作数据集, 它集成了较大规模且有着复杂架构的多样数据, 借助现存处理类数据工具很难妥善处理。由此可见, 大数据具有多样性, 传输速率较高, 且相比拥有更高的数据价值。唯有凭借独特装置才可产生大数据。大数据源自多方面, 来源包括移动设备、ID射频、传感器、可点击网站等。常态性网络活动不可缺失大数据, 这类信息融汇了图片视频及表述性文字。多数状态下, 大数据可被留存于数据库, 或表达为日志及某些信号[2]。

从目前的运用来看, 医药学科及商业都不可脱离大数据, 各行业日渐接纳了大数据。大数据可用作推断某一趋向或者获取新知, 还可辨析个性化的某些表征。在解析数据前, 首先要获取必备的初期基础。大数据融汇了初期搜集得到的各类信息, 这类数值应是真实的。经过深层解析, 避免了额外的判断偏差。归结得出深层次的某一规律, 用作预测隐含的未来现象。在很多情况下, 个体可折射出更广范围内的群体表征, 大数据拥有明晰的这种个性。经过长期累积, 企业获取数据用作后续辨析, 提供的日常服务增添了原先的针对性。根据用户需要, 提供个性化服务及产品。

大数据拥有如上特性, 解析并挖掘现存的一切数据, 获取实时性精准信息。挖掘这些信息, 能便于判别根本性隐含规律, 把控事物的根本。在此基础上, 推测得出未来的总趋向[3]。搜集到数据后, 还要采纳多视角下的信息对比及累积, 长期解析可得用户表现出来的独特个性, 这样便于企业精准把控用户习惯, 并进行定位和分类。此外, 解析数据还可判别真伪, 杜绝传递过来的是虚假数据。大数据可用作辨析真伪, 在大量信息范围内提取可用的精确数据, 做到去粗取精。

2 目前的安全挑战

大数据环境下, 信息安全面临多样隐含性威胁。例如, 搜集数据、处理及解析数据、存储信息、后续销毁某些数据, 这些都隐含了安全威胁。安全挑战包括大数据是否可信、是否暴露了私密性信息。在网络架构内, 这类安全威胁涵盖了存储信息、调取某些数据时的窃取隐私。此外, 若未能搭配完备的基础设施, 数据很易被窃听及盗取[4]。相比于常规数据, 大数据面临的威胁如下。

第一, 大数据被保留至分布式架构, 这类架构拥有彼此衔接的多台微机。分布式架构内, 通信链路密切衔接于多台主机, 若某一点突发故障将威胁更广区段的分布系统。一旦遇到故障, 整体框架内的配套装置都将被损毁, 威胁数据安全。分布式运算关乎多样态的编程及组织, 网络很易被攻击, 若不能妥善设防, 会增加它的脆弱性。在大数据内, 主流应被看作非结构特性的内在信息。但是, 不应忽视某些数据库设定为关系型, 并不能接纳半结构性调取信息。缺失了更高水准的访问安全, 为此应寻找出最适宜的防控盗用方案。

第二, 处理大数据时, 还应妥善分离使用者及拥有数据者。在调取大数据时, 若用户丢失根本的管控权限, 那么很难明确存储至微机内的确切位置。分离了双重权限, 很易增添隐患。现有交易日渐膨胀, 黑客倾向于攻击日志, 对此, 应妥善留存平日内的交易信息。移动性的各终端都设有过滤及查验性能, 访问这类设备都应增设输入时的查验。提供数据时, 要再次确认是否真实且完整, 为了确保真实, 还应配备终点必要的过滤及输入查验, 慎重管控访问带有敏感性的某些信息。针对非法信息, 应从严过滤[5]。

第三, 目前的安全管控缺少实时性。有些攻击者善用潜在的系统漏洞, 对此应增设拒绝攻击对应的服务。系统隐含的威胁持续时间较长, 大数据应能辨析各时段经由的流量状态, 实时检测行为, 感知多样的网络现存态势。若不能审慎处理, 大数据将会损害用户隐私。保护对象存在差异, 隐私保护可选定某一连接关系, 增设标识及位置的保护。信息化时代缺失了配套的管控及规范, 太过依赖企业管控, 用户隐私被侵害, 但并不知晓如何查验精确的隐私用途。

第四, 在常规观念中, 数据代表真实状态, 但从实质上看, 信息隐含虚假数据, 是有欺骗性的, 若不能审慎甄别并且筛选, 将被表层现象蒙蔽。欺骗性的各类信息表征为, 数据失真或信息被伪造。为获取最优的真实信息, 不法分子常常创设某一虚假的外在表征, 导致很难甄别隐含信息。在这种趋向下, 归纳得出的结论存在偏差[6]。搜集及存储的数值也很易失真, 干扰到后续的隐私保护。

3 隐私保护可利用的新式技术

在传播路径内, 多类数据都趋向于失真。这主要是由于搜集数据依托于手动流程, 很难杜绝细微偏差。偏差以及失真, 导致隐私保护很难获得预期成效。此外, 若更改了初始选定的某一版本, 实时信息也不能维持应有的精准性。由此可见, 搜集及调取选定的某一数据, 应能慎重管控各时段的数据传播、加工以及处理。唯有综合防控, 才可确保调取的综合性信息是完备的, 防止处理流程出现偏差。具体来说, 隐私保护可利用的新技术如下。

3.1 初期的认证身份

认证用户身份, 这类技术可辨析多样表征及行为特性。借助于身份认证, 可以确认最适宜用作访问的用户身份。身份认证, 从根本上降低了潜藏的系统攻击和威胁, 与此同时, 用户经由初期配备的这种认证也可规避隐含的心态负担。从现状来看, 认证配备的多样机制仍处在初级阶段中, 有待完善。大数据源自多样化的社交网络, 网络隐藏必须被防控的某些隐私, 配备了匿名性保护, 攻击者先要确认身份才可进行攻击。对于此, 判断得出细微性的用户彼此联系。社交网络整合了多样的内在关系且表现出聚集性, 这也影响到预测可得的关系[7]。

3.2 追溯源头及增添水印

数据库领域内, 数据溯源技术可被广泛运用。技术在快速进步, 防控大数据潜在的多样隐私, 都应摸索并利用配套的新技术。在标记数据时, 数据溯源凸显了必要价值。这是由于溯源技术可增设明晰的标识, 便于核验并且解析选定的信息, 在最短时间内, 判断出某一数值是否精准以及真实。在恢复文件时, 也可借助于数据溯源来防控虚假信息, 确认调取的数值是真实的。数据水印能维持数据初期的完整, 确保内容完整。嵌入至数据内的某些标识都被看作是隐含性的, 要考虑选定的某类载体。通常来看, 保护媒体版权可选此途径, 增设数据库及文本配备的水印。相比来看, 较强的水印可用作防控盗用版权, 较弱水印可证实了真实的信息。

3.3 匿名发布信息

匿名保护更适合用于发布数据时的保护, 匿名保护拥有必要的位置。然而从现状看, 匿名发布某些数据仍暴露出弊病。发布数据局限于一次性的静态发布, 很难测出精准的动态数据。从攻击者视角看, 获取数据还可选取多样路径及手段, 从根本上增添了防护性。这样阻止了不法侵入者擅自发布虚假数据, 蒙蔽广大用户。

4 结语

大数据便利了日常生产及生活, 但也增添了更大范围内的安全威胁。时代日渐在进步, 应更加注重数据安全。然而从目前看, 大数据安全仍存在多样漏洞亟待修补。增设隐私保护, 就要提升隐私保护的针对性, 从根本入手采纳新技术。未来研究趋向为水印技术及数据溯源、认证用户身份、匿名性保护。可采纳匿名保护, 针对构建起来的社交网络增设完备的法规保护。唯有如此, 才能全面保护大数据相关隐私, 归纳得出新态势下的技术要点。

摘要：信息化环境下, 数据传输要从根本上保护数据安全。大数据全面改变了日常生活, 为人们提供了便捷, 但也存在多样风险及威胁。在现有条件下, 有必要妥善保护用户隐私, 从根本上保障数据安全。保护大数据安全, 防止隐私被窃取, 就要增设完备的管理架构。目前, 大数据保护面对多样挑战, 例如数据完整、对隐私的管控、数据安全配备的防护。要想保护大数据安全性, 有必要解析隐私保护的现存难题, 结合数据安全状态, 探析隐私保护的技术要点。

关键词：大数据安全,隐私保护,技术要点

参考文献

[1]冯登国, 张敏, 李昊.大数据安全与隐私保护[J].计算机学报, 2014 (1) :246-258.

[2]李晖, 孙文海, 李凤华, 等.公共云存储服务数据安全及隐私保护技术综述[J].计算机研究与发展, 2014 (7) :1397-1409.

[3]应钦.大数据安全与隐私保护技术探究[J].硅谷, 2014 (10) :72.

[4]张衡.公共云存储服务数据安全及隐私保护技术综述[J].电子技术与软件工程, 2015 (6) :223.

[5]裴大容.浅析大数据安全与隐私保护技术[J].无线互联科技, 2015 (11) :26-27.

[6]吕欣, 韩晓露.大数据安全和隐私保护技术架构研究[J]信息安全研究, 2016 (3) :244-250.

篇4：大数据知识要点

关键词：大数据知识服务知识库数据清洗非清洁数据清洁度

中图分类号： G302；TP391 文献标识码： A 文章编号： 1003-6938（2013）05-0016-06

1 引言

随着以微博、社交网络等为代表的新型信息发布方式的不断涌现，人类社会的数据种类和规模正以前所未有的速度在不断地增加和累积，大数据时代正式到来[1]。在大数据环境下探讨知识服务，不再局限在传统的文献服务，而必须同步数据的爆发式增长与社会化趋势，将视角瞄准大量的碎片化信息、用户行为、用户关系，并将焦点汇聚在由此产生的实时数据、非结构化数据及机器数据。知识服务的内涵，将随着大数据的驱动而深刻发生变化，它将帮助一个组织更好地调用内部、外部以及公共信息，并进行数据分析，做出前瞻性的数据判断。

美通社最新发布的《大数据市场：2012至2018年全球形势、发展趋势、产业分析、规模、份额和预测》报告指出，2012年全球大数据市场产值为63亿美元，预计2018年该产值将达483亿。2012年，美国政府拨款2亿美元启动“大数据研究和发展倡议”计划。IBM、微软、Google等国外IT巨头早已嗅到了“大数据时代”的商机，这些国际巨头借助自己拥有领先技术和丰富资源，以及稳定的大客户群，实力雄厚，率先涉足。

我国互联网数据中心（IDC）对中国大数据技术和服务市场2012～2016年的预测与分析指出：该市场规模将会从2011年的7760万美元增长到2016年的6.17亿美元，未来5年的复合增长率达51.4%，市场规模增长近7倍。在国内，大数据正在引起越来越多的企业关注。不但阿里巴巴、腾讯等把大数据当成近期的重点项目。作为国内互联网产业的发源地和创新高地，中关村也在抢抓大数据发展机遇，着手布局大数据产业。

学术界、工业界甚至政府机构都已经开始密切关注大数据问题，并对其产生了浓厚的兴趣。大数据是新一代信息技术的集中反映，表现在数据从简单的处理对象转变为一种基础性资源，大数据的规模效应正在给数据存储、管理以及数据分析带来了极大的挑战，知识管理方式上的变革正在酝酿和发生。如何有效存储、管理、组织和更新大规模的数据，如何有效利用存储的数据进行推理获取知识并求解问题，这也是目前图书情报领域一个重要研究课题，正如Google的首席经济学家Hal Varian所说[2]，数据是广泛可用的，所缺乏的是从中提取出知识的能力。由此，可以认为数据收集的根本目的是根据需求从数据中提取有用的知识，并将其应用到具体的领域之中。大数据环境下，更需要高效的知识提取手段，使得大数据源源不断提供有用的知识，而非知识被“淹没”在大数据中。在“数据海洋”中对大数据进行知识提取，最有可能的手段是讓大数据“缩水”，祛除一些噪声数据，对剩下的那些蕴含所需知识的数据进行提取，这也是进行知识管理的前提，更是知识服务的基础。

而在大数据环境下，要做好数据分析并以此做出数据判断的基础工作是数据清洗。大数据的维度包含了数量、多样性、速度、精确性等，在如此大维度中不可避免的存在着粗糙的、不合时宜的数据，如何将这些非清洁数据有效转化成高质量的干净数据，涉及到知识组织中的数据清理。数据的质量体现出数据的价值，更是知识服务水平的保障。数据清洗的最终目的就是提高数据的质量。

2 相关研究综述

系统科学理论对知识组织研究过程中一些问题和现象进行了科学的阐释和有效地引导。借助控制论（Control Theory）可为实现知识服务提供理论支持，具体而言过程化的控制思想对数据加工处理环节的数据质量控制、加工处理环节的时间、进度等控制，为知识组织工程的时间、进度和质量的控制提供了有效地理论支撑。在系统科学理论的指导下，就可从控制论角度出发采用数据清洗手段解决在知识组织过程中数据的质量控制、数据和知识生产流程控制等难题，并能基于控制论基本原理解决知识组织过程中大量复杂问题。

在数据清洗问题上，王曰芬教授[3]领衔的研究团队就从问题产生的背景和国内外研究现状进行了系统的综述研究，并给出数据清洗的定义和对象且说明了数据清洗的基本原理、模型，以及分析相关算法和工具，进一步给出了数据清洗评估方法。他们的成果对今后数据清洗的研究奠定了基础。曹建军等[4]认为数据清洗是数据质量研究的起点，从数据质量的角度明确数据清洗的作用，并提出了数据清洗的一般系统框架，该框架具备了柔性、可扩展性、交互性好、松耦合的特点。叶焕倬等[5]研究了相似重复数据清理方法，重点对检测和清除算法按照算法类型及相关改进思路进行分类综述，值得注意的是他们的视野已关注到将知识和语义的概念引入到数据清理框架中。王宏志等[6]的研究在一定程度上容忍非清洁数据的存在，侧重研究包含非清洁数据的数据库管理技术，提出了非清洁数据的表示方法，支持非清洁数据的数据操作，这样的非清洁数据模型包括一个以关系操作为核心的操作代数，可以有效地支持非清洁数据的各种该应用。而介于清洁数据与非清洁数据中间的不确定数据，周傲英教授等[7]注意到数据的不确定性普遍存在并且表现形式多种多样，提出了针对不确定数据的数据模型运用排序、剪枝等启发式技术设计新型算法，进一步综述了数据模型、数据预处理与集成、存储与索引、查询处理等方面的工作。张岩等[8]的研究中，给出了衡量数据质量的方法，并且可根据用户对结果质量的需求给出达到一定质量的查询结果。叶鸥等[9]的研究瞄准中文数据清洗问题产生的背景、国内外研究现状与研究热点，突出了中文数据清洗基本原理、模型及算法并着重阐明了中文数据清洗的方法，也总结中文数据清洗研究的不足，并对中文数据清洗的研究及应用进行了展望。

nlc202309030515

已有的研究成果，对本文展开数据清洗的研究在模型、技术、方法奠定了基础，控制论又从知识服务方向提供了从事数据清洗的理论指导。现阶段，针对数据清洗的研究不多，从知识服务的角度探究数据清洗的研究成果更少。而大数据引来了国内外越来越多的关注，逐渐发展成国民经济中一个重要产业，标志性的特征就是：①数据种类和规模正以前所未有的速度在不断地增加和累积；②数据分析的深度需求与知识服务广泛整合的鸿沟在拉大。在如此大数据的环境下，以知识服务为目的，深入研究数据清洗，将面临的问题：一方面是在知识组织过程中很多非清洁的数据是很难被彻底清洗干净；另一方面，对非清洁数据的清洗可能造成部分知识的丢失或失真；再一方面，知识库中信息更新频繁，要同步执行非清洁数据的辨识与清洗将极大影响知识库系统的效率，以致知识组织的过程低效。

针对面临的问题，本文从容忍非清洁数据存在的研究视角试图解决从包含非清洁数据的知识库中获取满足清洁度要求的查询结果的问题，也就是要给出非清洁数据的清洁度的描述。而非清洁来自两个方面，一方面是数据本身的非清洁，表现特征是数据的错误、不准确、不完整；另一方面是数据间的非清洁，表现特征是数据的重复、冗余、不一致。针对非清洁的两个方面，本文的研究工作将从元组上添加清洁度来描述数据清洁度，以此实现非清洁数据的清洁度的描述。

3 大数据对数据清洗的基础性需求

大数据不仅数量大，而且是异构和多媒体的。在大数据环境下探讨知识服务的解决方案、实现途径和方法，以及实现知识服务涉及到的技术问题。首先在宏观层面明确大数据对实现知识服务的要求，其次在技术实现层面找到支持数据处理、信息分析和知识服务涉及的基础性突破，即数据清洗。

3.1 大数据对知识服务的要求

大数据的价值在于提炼其中隐藏在数据中的规律和有关知识，它对知识服务的要求集中体现在两个方面：首先是大数据环境下的数据整合与规划。大数据不仅仅是容量大、内容丰富，而且其结构是异构的，数据产生的速度也是飞速的，数据中蕴含的知识也是无法衡量的。数据的繁杂、良莠不齐，使数据的利用效率受到影响。通过整合与规划提高数据的利用效率、提升数据的使用价值；其次数据的知识关联与组织。孤立的数据价值低，也只能完成传统的信息服务。针对大数据的知识服务必须将数据进行关联，使之能够为解决问题直接提供知识。通过分析知识组织的关联机制，构建以知识服务为目标的知识地图，确保从传统的信息服务能够上升到知识服务层面。

3.2 知识服务对数据清洗的需求

在知识组织过程中，知识库“吸收”数据且“供给”知识，最终目的是为知识服务提供满足应用所要求的合适的查询结果，数据是知识的基础，数据质量决定了知识的价值，而数据质量问题是由非清洁数据造成的。为此，知识服务若要实现高端的服务水平，基础在于知识组织，瓶颈在于数据清洗。数据清洗的目的是检测数据本身的非清洁和数据间的非清洁，剔除或者改正它们，以提高数据的质量。知识服务不仅需要分析非清洁数据的各种类型不一致、不精确、错误、冗余、过时等的解决方案，更需要追溯非清洁数据的形成源头，如：①数据本身来源不清洁导致的非清潔数据，例如数据采集和录入的精确；②数据模式的不清洁和信息集成中模式不匹配导致的非清洁数据；③数据的查询请求本身是不清洁的，导致获取了非清洁的查询结果。最终结合不同来源与不同类型，反馈修正解决方案使之能配合知识表示效用，以及在提高知识服务水平的同时，保障知识服务的效率。

4 数据清洗的基本框架模型

以一个非清洁数据的片段为例，如表1所示，可以很容易判断：①不完整的数据有：（ID：3、字段：City）“BJ”；②错误的数据有：（ID：6、字段：Name）“Mal-Mart”；③冗余的数据：（ID：1、3、6）表示同一个实体。

对非清洁数据，数据清洗的框架模型分5个部分逐步进行，整个框架如图1所示。

4.1 准备

包括需求分析、大数据类别分析、任务定义、小类别方法定义、基本配置，以及基于以上工作获得数据清洗方案等。通过需求分析明确知识库系统的数据清洗需求，大数据类别分析将大数据归类以便同类数据进行分析，任务定义要明确具体的数据清洗任务目标，小类别方法定义确定某类非清洁数据合适的数据清洗方法，基本配置完成数据接口等的配置，要形成完整的数据清洗方案，并整理归档。上述案例，可以看出表1描述的是超市的相关信息。

4.2 检测

对数据本身及数据间的预处理检测包括相似重复记录、不完整记录、逻辑错误、异常数据等，并且对检测结果进行统计，全面获得的数据质量信息，并将相关信息整理归档。上述案例（表1）检测出存在有：①不完整的数据、②错误的数据、③冗余的数据。

4.3 定位

对检测结果的归档信息进行数据质量进行评估，获得非清洁数据的定位并进行数据追踪分析，分析非清洁数据及由此可能的知识表示的影响，分析产生非清洁的根本原因；进而确定数据质量问题性质及位置，给出非清洁的修正方案，并将相关信息归档。根据定位分析情况，可能需要返回“检测”阶段，进一步定位需要修正数据的位置。上例中非清洁数据片段的位置：（ID：3、字段：City）、（ID：6、字段：Name）、（ID：1、3、6）。

4.4 修正

在定位分析的基础上，对检测出的非清洁数据进行修正，包括非清洁数据标记、不可用数据删除、重复记录合并、缺失数据估计与填充等，并对数据修正过程进行存储管理。上例中在定位后，修正上述三类数据，经过修正后，得到如表2所示数据片断。

4.5 验证

对修正后的数据与任务定义的符合性进行比对验证，如果结果与任务目标不符合，则做进一步定位分析与修正，甚至返回“准备”中调整相应准备工作。表2反映出经过一轮修正后的数据片断，与表1相比部分不完整的数据、错误的数据、冗余的数据得到了清洗，但清洗过后的数据显然还不完美，依然有明显不一致的地方。

nlc202309030515

5 基本框架模型的局限

实际大数据应用中，前面提出的基本模型具有局限性：首先，大数据通常是异构且碎片化的，多数情况下这些类型的非清洁数据是难以被彻底清洗干净的；其次，对非清洁数据的清洗可能会造成蕴含知识的损失，以致知识的失真；最后，对于知识库频繁更新，同步执行非清洁数据的辨识和清洗将极大地减低系统的效率。

再如上例中，从表1到表2，在一定程度是进行了数据清洗，但深入观察可以发现（ID：6、字段：Name）“Walmart”虽然不存在拼写错误，但表示方式与其他的“Wal-Mart”并不一致，还有（字段：Phn）的表示也不一致，这些不一致的地方阅读者容易理解，而机器很难“理解”。也就是，经过一轮的数据清洗，出现了知识内涵一致的元组（“Walmart”与“Wal-Mart”），却存在表示字符上的差异，这是否意味着需要进一步进行数据清洗？如果由机器进行更细腻的数据清洗，必然将出现一部分信息的丢失或失真，并且带来机器计算上的负担。因此，数据清洗是必要的，但清洗过后，依然存在非清洁数据也是必然的。

从上述分析可以看出，非清洁数据的辨识与清洗很难保证彻底消除非清洁数据，特别大数据的多维度性，给清洗带来了困难，且随着清洗的细腻程度逐步提高，知识库系统的运行性能将逐步降低伴随将逐步丢失数据中蕴藏的信息，不能快速有效地解决非清洁数据带来的问题。为此，大数据的存在，需要在一定程度上容忍非清洁数据的存在。这样，研究管理包含非清洁数据的知识库系统成为了重要的问题，其核心在于如何从包含非清洁数据的知识库中得到满足应用所要求清洁度的查询结果。

6 非清洁数据的清洁度的机制

6.1 清洁度获取

清洁度本质上反应的是数据质量。目前，清洁度定义可以用两种方法描述：一种是概率的方法，即将元组清洁度定义为该元组准确的概率；另一种是相对误差的方法，即定义元组对于真实值的相对误差。其中应用最为广泛的是概率的方法。如表1中，可以判断元组1、3和6表示同一个实体，因此，可以合并这3条元组，根据这个数据片段只能判断“Name”取值更可能为“Wal-Mart”，但机器无法完全排除“Mal-Mart”，为了描述每个可能取值的质量，赋予每个值一个概率值，表示该值的清洁度。如“Wal-Mart”在同一个实体3条元组出现了2次，则清洁度为2/3，从而得出该条实体各元组的清洁度，如表3所示。

在实际应用中，元组的清洁度可以通过人工或者自动的方法获取，主要来源包括：

（1）人工添加。最直接的方法是由用户根据领域知识和数据的来源添加数据的清洁度。这种方法的问题在于，当数据量很大时，需要大量的人力。

（2）属性清洁度组合。由于一些属性的清洁度是可以预知的，比如在科学统计数据库中描述某仪器采回数据的关系，模式为（Time，Value），其中：Value 列来源于数据采集设备，该设备的相对误差是知道的；而 Time列是在采样时由系统添加，可以看成清洁的列。因此，该关系中元组的清洁度定义为 Value 列的清洁度。

（3）模式转换。在信息集成中，在数据之间进行模式转换会产生清洁度的损失，在一些信息集成方法中会给出模式转换时数据的损失，经过归一化以后，该损失可以用作表示数据清洁度。

（4）信息提取。信息提取的过程中，一些技术会根据原始数据的特点或者机器学习的方法求得某数据属于某元组概率或者准确率，这个值可用作数据清洁度的描述。

（5）实体识别。当前，有很多实体识别的方法将数据集合划分成为实体，通过描述同一实体的不同元组之间的不一致性来描述实体的清洁度。

以上多种方法在一些应用中是可以结合使用的，根据本模型的特点，在结合使用时，元组的清洁度应为多来源清洁度的乘积。一方面使得元组的清洁度满足取值在[0，1]之间；另一方面，这样的方法体现了多种清洁度的复合。例如信息提取系统中，首先进行信息提取，然后进行实体识别，则最终结果的清洁度可以定义为信息提取步骤的清洁度与实体识别步骤清洁度的乘积。

6.2 操作的实现策略

通过在每个关系中添加描述清洁度的列（如表3），现有的關系数据库系统可以对本模型所描述的数据进行管理。然而，现有关系数据库中的管理机制不足以支持所有的操作。考虑到随着操作的进行数据清洁度是递减的，因此根据查询的需求，在操作执行的过程中某些环节需要过滤掉清洁度不可能满足查询要求的中间结果，这样可以减小中间结果的数据量，从而加速查询的处理。例如，对于如果查询要求结果中每条元组的清洁度在 0.5 以上，则在查询处理的过程中可以过滤掉清洁度小于 0.5 的中间结果，因为由这些中间结果生成最终结果的清洁度一定小于 0.5。

6.3 基于阀值的相似连接算法

相似连接是在两个元组集合中选择出满足相似性下界（阀值）的元组对。目前已经有很多衡量相似性的方法：编辑距离、Hamming距离、杰卡德相似度以及余弦相似度等。本小节考虑的是基于编辑距离的相似连接。对于给定的两个字符串r和s，r和s的编辑距离ed（r，s）是指从r变为s所需要的最少的编辑操作（包括：删除、插入和替换）次数。如表4中，ed（Wal-Mart，Mal-Mart）=1，ed（80103389，010-80103389）=4。在实体关系数据库中，属性值可能含有多个取值，本书对相似连接算法给出如下定义。

定义1：相似连接。给定两个属性值集合R和S及编辑距离阀值k，R和S的相似连接是指选出所有的属性值组合（r，s），其中r∈R，s∈S，而且r和s满足至少存在一组可能取值r1和s2。它们的编辑距离ed（r1，s2）≤k。

以表4为例，给出两个集合R和S。若编辑距离阀值k设为3，则对应相似连接结果仅为（r1，s1）与（r2，s2），因为ed（Wal-Mart，Mal-Mart）=1≤3，ed（Jerry Strauss，Jerry Strauss）=0≤3。其余相似连接中（r2，s1）、（r1，s2）显然其编辑距离均超过阀值3，表5给出了连接结果。

nlc202309030515

其中，第二条元组（ID=2），ed（Jerry Smith，Jerry Strauss）>3、ed（Jerry Smith，Jeff Strauss）>3，故第二条元组对应清洁度为1/5*2/5+1/5*3/5=0.2。

在实际关系数据库中，所有可能值都有对应的清洁度，所以，所有相似连接结果也都会有一个清洁度，表示该结果的质量，如表5结果所示，而在实际应用中，我们只对清洁度比较高的结果感兴趣，对于那些较低清洁度的结果可以忽略。

定义2：基于阀值的相似连接。给定两个属性值集合R和S及编辑距离阀值k和清洁度阀值α， R和S的阀值相似连接是指选出所有的属性值组合（r，s），其中r∈R，s∈S，而且r和s连接结果的清洁度不低于α。

上例中，如果清洁度阀值α设为0.3，表5中两个集合R和S的阀值的相似连接结果不再是（r1，s1）与（r2，s2），因为第二条元组对应清洁度为1/5*2/5+1/5*3/5=0.2，该结果不满足清洁度阀值要求。

基于阀值的相似连接算法的特点是当编辑距离阀值k较大且清洁度阀值较小时，连接结果大小将接近于n2（n是连接集合的大小），反之连接结果集比较大。

6.4 清洁度的机制的研究不足

目前关于非清洁数据的清洁度机制的研究成果非常少，汇聚在图书情报领域的成果更少。而事实上，知识来源于数据的提炼，大数据大维度与碎片化中蕴含了丰富的知识内涵。上一节的探讨，只描述了清洁度机制的框架，研究也還停留在数据本身的处理，而清洁度机制是一项复杂的研究，还有深入优化的研究空间。譬如，将清洁度机制与知识的语义距离结合，如ed（Wal-Mart，Mal-Mart）=1，ed（80103389，010-80103389）=4，虽然存在编辑距离，其实它们都是同一个知识点，进一步的研究将涉及到是先进行知识的语义距离计算还是先进行清洁度计算，或者两者并行计算，这将是图书情报领域又一个难点。

7 结语

大数据时代的到来给知识服务带来了变革，迫使其将碎片化信息、社会化的信息提炼成描述用户行为、用户关系，并能解决问题的知识。为此，本文从大数据的研究背景下提出了对知识服务的要求，并面向知识服务，数据清洗的过程又是大数据环境下的瓶颈。给出了数据清洗的基本框架模型及其局限性，针对大数据的多维度性，在元组上增加了清洁度的描述，基于此研究了应对大数据环境下的非清洁数据的清洁度机制。

通过研究也发现了不足，下一步针对大数据的数据清洗将从知识的概念层次性入手，能体现知识之间的语义交叉这样更适用于大数据的大维度，根据知识的概念层次，通过消除知识的重复应用，建立原子知识序列，优化了用户的请求，减少了对知识库扫描的次数，从而提高了数据清洗效率。

参考文献：

[1]孟小峰，慈祥.大数据管理：概念、技术与挑战[J].计算机研究与发展，2013，50（1）：146-169.

[2]The Economist.Data，data，everywhere-A special report on managing information[EB/OL].[2013-04-26].http：//www.economist.com/node/15557443.

[3]王曰芬，章成志.数据清洗研究综述[J].现代图书情报技术，2007，（12）：50-56.

[4]曹建军，刁兴春，陈爽.数据清洗及其一般性系统框架[J].计算机科学，2012，39（11）：207-211.

[5]叶焕倬，吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术，2010，（9）：56-66.

[6]王宏志，李建中，高宏.一种非清洁数据库的数据模型[J].软件学报，2012，23（3）：539-549.

[7]周傲英，金澈清，王国仁等.不确定性数据管理技术研究综述[J].计算机学报，2009，32（1）：1-16.

[8]张岩，杨龙，王宏志.劣质数据库上阈值相似连接结果大小估计[J].计算机学报，2012，35（10）：2159-2168.

[9]叶鸥，张璟，李军怀.中文数据清洗研究综述[J].计算机工程与应用，2012，48（14）：121-129.

作者简介：蒋勋（1980-），男，南京大学信息管理学院博士后，无锡城市职业技术学院电子信息工程系讲师，研究方向：知识工程与信息智能处理；刘喜文（1983-），男，南京大学信息管理学院博士研究生，研究方向：本体技术。

篇5：大数据知识要点

在大数据时代之下，档案管理工作人员应树立正确观念，合理应用先进技术实施档案管理工作，提升自身工作效果。第一，档案馆应建设高素质技术人才队伍，聘用专业素质较高且具备丰富技术经验的档案管理人才，要求工作人员具备一定的信息素养与专业素养，可针对档案数据信息进行合理的管理，提升档案服务工作水平。第二，需针对档案管理人员进行大数据技术的培训，在阶段性培训的过程中，使得档案管理人员掌握软件技术知识，建设大数据技术时代下的数据库系统，融合档案数据信息，提升管理工作效率与水平。同时，在培训过程中，档案馆需与当地高校相互合作，共同培养大数据时代下的档案管理技术人才，并创建良好的合作机制，满足当前的档案管理需求。第三，需针对管理系统进行完善，全面提升档案数据信息的安全性与可靠性，营造和谐的发展空间与氛围。在创建管理系统的过程中，需加大安全防御力度，根据大数据技术之下的安全隐患问题，合理使用先进的信息技术，建设专业化的档案管理系统，合理防御安全隐患问题，在病毒防控的情况下，安装使用效率较高的杀毒软件系统，并协调数据加密技术的应用，完善大数据时代之下的档案管理内容，提升数据信息的使用效率与水平。在信息技术时代之下，还需重点关注信息技术的使用情况，根据网络信息技术特点与具体形式，创新档案管理内容，总结丰富的经验[1]。

篇6：大数据环境下的知识管理论文文

一国有企业文档管理的演进

一.一传统国有企业文档管理

跟着企业信息化的请求,国有企业的文档管理尽管履行了电子化、网络化,然而仍有许多纸质文档占用大量的存储库房、橱柜以及文档架等空间。文档机构将文档转化为知识的能力严重不足,这使患上本来步入半衰期的文档资源直接进入休眠期甚至死亡期,进而致使掌握着企业最有价值信息的文档机构在数字化时期不断边沿化。尽管文档机构所珍藏资源实现了数字化贮存,但这些资源长时间处于休眠期,并无实际价值意义。

一.二基于知识管理的国有企业文档管理

跟着数字化、电子化,网络化时期的来临,文档管理的管理模式阅历了实体管理、信息管理、知识管理进程,这演变进程实际是文档价值的升华与知识内涵的拓展进程。知识管理是指通过对于企业内外各种信息、知识进行有效的辨认、全面的搜集、科学的加工以及充沛的运用,并且通过增进知识同享、激励知识立异、实现知识增值,从而来提高企业的应变能力以及立异能力。基于文献的梳理,文档管理与知识管理的钻研集中于构建知识管理的请求。笔者认为企业文档是企业首要的知识资源,是企业知识管理的基础;同时,文档管理是维护企业知识产权的有力武器。知识管理是实现隐性知识价值的途径,而文档管理是对于显性知识的管理。从文档管理与知识管理的性质来看,文档管理是使归档文件的有序化以及结构化,实现文档的应用价值;而知识管理是通过对于文档的搜集、加工、应用、编研以及信息化管理等手腕,将文档转化为知识资源。从文档管理与知识管理的共同性质来看,它们都是对于信息资源进行加工,提掏出有价值的信息,为企业提供服务。

一.二.一文档管理模式的转变

传统的文档管理是以纸质文件为管理对于象,而现在多以电子文件与纸质文件互为交融的资源为管理对于象,并且注重知识管理、知识同享与知识立异。

一.二.二文档业务的流程再造

业务流程再造是企业管理对于组织流程重组的1种管理思想。文档业务流程再造是以文档业务流程为改造对于象以及中心,以关切客户的需乞降满意度为目标,对于现有的文档业务流程进行根本的再思考以及情势的再设计,使患上企业能最大限度地适应新形势下的现代经营环境。文档管理的流程再造是以文件管理的流程为基础,实现文件“发生、运转、归档、永远保留或者烧毁”流程的改造与知识管理的前端节制,流程再造是依据文件管理的流程履行文件前端节制,主要是对于企业内部文档而言,将发生于职能部门的文档,经由初次加工,送入文档机构,由文档人员依据企业文档管理的标准体系进行再次加工,然落后行归档,通过数据发掘的知识管理平台提取知识,最后通过服务平台提供给用户。

一.二.三文档管理人材队伍的建设

传统的文档管理人员的职能是接受、保管、排序、借出、归档等基本职能,然而基于知识管理的文档管理模式中,更要注重知识的产出,注重资料违后暗藏的有价值的知识。这请求作为介入信息管理、知识管理的工作人员提高自己的素质与工作能力,掌握管理学以及现代企业管理知识,熟识企业业务流程,同时晓得应用科学技术提高自己的工作效力。

二大数据环境下国有企业文档管理面临的新挑战

二.一文档管理模式面临的新挑战

大数据时期象征着企业的数据量多而且结构化数据与非结构化数据并重。基于知识管理的企业文档管理模式注重知识管理、知识同享、知识立异。大数据到来,对于知识管理的模式提出了新的请求。现有管理模式的搜集视角狭隘,而在大数据违景下,文档机构的珍藏应多元化发展,从广泛视角搜集文档资料,更多关注1些繁杂化、碎片化、底层化信息的搜集。

二.二文档业务流程面临的新挑战

目前,咱们从文档流程与数据流程两方面进行文档管理。咱们重视文档的前端节制,然而只是对于文档发生以前的文件做出简单鉴定与加工处理。这样的处理并无减轻文档机构人员的工作量,而是加剧了文档机构重复性鉴定与加工处理。文档资料的冗余性、繁杂性致使了知识提取工作量沉重,提取知识不可靠性。所以对于文档的前端节制来讲,文档发生以前的文档鉴定法子与文档的标准化格式是无比必要的,选择正确的文档鉴定法子能快速判别文档的价值,提高文档输入速度,而文档标准化格式处理是发掘知识的基础。

二.三文档管理人材建设面临的新挑战

人材资源是企业文档管理的症结。传统的文档管理模式中,只请求工作人员有归档、搜集资料、查询等基本知识,而跟着电子化、网络化的推动,企业请求文档机构人员除了了具备基本服务素养,还要晓得信息化技术。然而在大数据违景下的企业文档管理,这些素养还远远不够,文档工作人员不但要晓得现代企业管理理论,熟识企业业务流程,还要拥有数据处理能力,能够运用先进的技术提高工作能力与效力。工作人员要从数据的视角看待文档,以大数据理念推进文档的管理与服务。从管理层来看,要严格把关人材提拔;加快文档人员知识结构的变革,多途径、多层次培育人材。

二.四管理技术支撑以及服务面临的新挑战

技术是企业发展的出产力。在基于知识管理的企业文档管理模式中,技术是整个模式架构的基石。从总体来看,IT架构布局是整个知识管理平台的基础;从局部来看,数据发掘技术是知识提取的核心技术,是整个企业文档管理的中心。整个文档管理的轴心是数据发掘技术,所有的流动都缭绕它展开。现有文档管理模式提供的是点对于点的个性化服务。在大数据违景下,用户在竞争日趋剧烈的环境下需要更多的信息与知识才能做出好的决策,这对于国有企业文档机构提供的服务提出了新的挑战。用户请求文档机构的服务响应速度更快,信息检索与查询更便捷,信息与知识的可理解性更强,并且能够提供全进程的信息服务。这请求文档机构在大数据违景下的个性化服务不但提供用户所需要的信息,还要通过对于用户需求进行分析,提供基于海量散布式资源的.精细化知识组织输出,即实现“信息+解决方案”的1站式服务。

三基于知识管理的国有企业文档管理的优化途径

为了应答大数据时期的挑战,咱们可从两个方面解决基于知识管理的文档管理的问题。

三.一基于知识管理的文档管理模式的改良文档

管理工作的展开需要两方面的支撑。文档是企业的可贵资源,增进企业的成长,所以知识管理需要管理层领导的支撑。管理层要注重、关注企业文档管理工作,为文档管理配备必要资源,从大局动身,定时提出请求,及时给予工作指点。在人员配备方面,企业要选用有必定信息素养,掌握必定管理理论的工作人员,同时要拥有数据处理能力。大数据技术能够解决企业文档的电子文档数据贮存提供与调用速度慢的问题,所以企业的技术服务部必需从企业大局动身,全面建设企业信息化平台。从企业底层的网络IT架构到面向用户的信息平台,技术部的人员要提供1站式技术,为文档管理部门提供基础技术支撑。此外,在面向用户的文档管理平台上,必需要对于用户进行权限管理,防范企业泄密的风险。

三.二基于知识管理的文档管理业务流程再造

基于文档管理业务流程再造,是指咱们在文档前端节制的时候,增添文档鉴定与文档格式标准化功能。在文档鉴定方面,采取徐拥军学者(二八年)的宏观鉴定论。它再也不采取“时间、来源、职能、内容或者用户”之类的具体标准,而是改用更为宏观且相对于抽象的“文件构成机关的社会职能”标准。这类宏观鉴定标准与法子可以对于体积量大的文件进行批处理式的鉴定,提高鉴定速度,进而提高资料搜集工作的效力。对于于提高企业文档输入工作的效力问题,这就请求企业树立文档管理标准化体系。标准化体系分为两个层次:第1个是数据输入的标准化格式。标准化格式的电子文档数据提高了工作人员对于数据输入的效力,同时也利于工作人员对于海量标准化数据深层次的发掘。第2个是企业文档管理流程的标准化。工作人员严格依照标准化流程办事,落实流程各个阶段的责任,避免文档泄密与丢失等其他突发事件。知识管理平台是企业档案管理的核心,它的前端是企业搜集的文档经由标准化处理的数据,后端是面向用户的开放性信息平台。知识管理平台的核心是数据发掘技术,数据发掘技术是大数据时期的1种数据处理技术,它指从大量的、不完整的、有噪声的、隐约的、随机的实际利用数据中,提取隐含在其中的、人们事前不知道的、但又是潜伏有用的信息以及知识的进程。数据发掘技术擅长发现文档海量信息中的精髓,有益于有效的知识管理,是实现知识发掘、知识同享、知识立异的途径与法子。

四结语

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处

【大数据知识要点】相关文章：

大数据基本知识范文06-08

大数据环境下知识管理论文04-26

大数据环境下知识管理论文提纲11-15

大数据时代医院图书馆知识服务的困惑与应对策略09-12