气象大数据

2024-05-22

气象大数据(精选十篇)

气象大数据 篇1

据统计,2011年全球的数据规模为1.8ZB,这些信息将填满575亿个32GB的ipad,倘以这些ipad做砖石,足可以垒建起两座中国的万里长城。2013年仅中国当年产生的数据总量就已超过0.8ZB,2倍于2012年,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量将是2013年的10倍,超过8.5ZB。而届时全球的数据总量预计将达到40ZB,如果将这些数据全部刻录成蓝光光盘,则这些光盘的总重量相当于424艘满载荷的尼米兹级航空母舰。

数据量暴增的速度令人瞠目结舌,我们的确已进入“大数据时代”。

很快地,“地理大数据”、“水利大数据”、“环境大数据”、“金融大数据”、“互联网大数据”乃至“气象大数据”等名词陆续出现在有关媒体上。“大数据”逐渐成为近来人们谈论最多、思考最多的技术话题之一。一些人憧憬于“大数据”可能带来的十分珍稀的高价值信息和珍贵商机,也有许多人困惑于目前所知“大数据”的应用范式,以此研判着可能给本行业带来的变化和新的业务契机——气象部门也是如此。

做为抛砖引玉,笔者拟就如下问题提出自己的看法:

(1)气象数据是否具备“大数据”的核心特征?

(2)所宣称的由大数据引发的思维变革,即:不需要专业知识背景而仅通过单纯的数据分析便可获得新的“知识”,在气象部门核心业务领域(天气预报和气候预测等)中是否适用以及为什么:它与“数据密集型科学发现”之间存在哪些差异。

(3)在大数据背景下,海量气象观探测数据的应用价值范围以及目前价值发挥的可能性。

2. 大数据的现实以及气象数据的特征分析

2.1 大数据的特征和在我国的行业分布

早在2012年前后,业界便已就大数据在体积、类型、速度和价值这四个方面的特征达成了共识,即所谓大数据的4V特征。限于篇幅,不再复述。

一般而言,大数据的起始计量单位至少是PB、EB或ZB级别。

据统计,就数据量而言,中国的大数据近期具有如下行业分布特征:

(1)互联网公司

目前国内互联网公司拥有总计约2E B的数据,其中互联网三巨头BAT (百度、阿里巴巴、腾讯)占有其中的3/4 (约1.5EB)。

(2)电信、金融、保险、电力、石化系统

这些行业及企业数据量分布较为平均,就每个单位而言,大致都拥有10PB以上的数据,且年增量都在PB级以上。总和则有数百个EB的存储数据和数十EB的年增量。

(3)公共安全、医疗、交通、电子政务领域

城市:平安城市、智慧城市等工程的建设,监控摄像头遍布大街小巷。一个中等规模城市每年视频监控产生的数据约300PB。最保守估计(含定期循环清除),全国每年保存下来的数据在数百PB以上。

交通:飞机航班往返一次产生的数据达TB级。列车,水陆路运输每年产生并保存下来的各种视频、文本类数据约达数十PB。

卫生:整个医疗卫生行业,一年保存下来的数据可达到数百PB。

电子政务:一个智慧城市的电子政务所产生的数据每季度约达200PB。而调查显示,未来1~2年中国政府部门的数据规模超过100TB的将达到53.3%,有将近三成(33.3%)的用户数据规模是10~50TB。

(4)其他,商业销售、制造业、农业、物流和流通等领域

随着产业互联网的普及,(线下)商业销售、制造业、农林牧渔业、(线下)餐饮、食品、科研、物流运输等这些传统行业的数据量将呈现迅速增长态势,但目前这些行业数据量尚处于积累期,体量不大,多的达到PB级别,基本约近百TB甚至数十TB级别。

(5)气象数据

气象部门需要永久保存的数据目前约4~5PB,年增量约1PB。

由此可见,以数据量而言,在整个大数据市场中,新兴的互联网行业巨头BAT,以及电信、金融、保险等行业占据比重较大。相对而言,气象数据无论总量还是增量,较这些数据大户至少低3个数量级。

需要注意的是,在大数据的“4V”特征中,“Volume”(体量巨大)仅为必要条件,而非充分条件,如同30mm的日降水,在我国东南沿海地区十分平常,但在西北地区却是极可能成灾的罕见大雨,所以体量大小是相对的。事实上,大数据概念的提出绝非仅因为数据量的暴增,而且是因为数据已多到用传统方法无法处理,导致人们必须采用新方法、新思路乃至新理念予以应对。如果数据量虽大,但却能够处理和掌控,便不能称其为”大数据”。因此,“4V”对于大数据而言,既是特征,也是考量的四个维度。

2.2 气象数据的体量种类分布

气象资料种类繁多,仅气候专用资料,包括冰芯、花粉、树木年轮、历史文献、冰盖、海平面温度、洋流盐度、地表植被等在内的涵盖五大圈层的各种自然界及人类活动的观测资料,已达数十种。而应用于诸如天气、农业气象、人工影响天气、雷电防护、公共气象服务等业务领域的资料,种类亦十分可观(限于篇幅,不予展开讨论)。目前就体积而言,在所有气象资料中,地面观测、气象卫星遥感,天气雷达和数值预报产品四类数据占据总量的90%以上;其中:

地面观测资料:进入本世纪以来,地面观测方法从人工观测改进为自动观测,摆脱了人类居住条件限制的制约,地面气象观测台站数由本世纪初的不到3,000个,迅速扩展到目前的50,000余个,观测频度由最初的3小时/次调整到目前的5分钟/次,因而导致资料量呈几何倍数增涨,月增量由最初的约240MB猛增到现在的约2.4TB《在库容量),增幅约670倍。根据防、减灾以及气象服务的需要,未来扩建计划有可能将台站数继续扩增至70,000到100,000个,观测频度有可能继续加密到1分钟/次;因此未来六年内该类资料总量有可能在现有基础上再行扩增12.5倍,由现在的每天数百万条记录增至超过一亿条记录/天。而此后,由于观测资料的空间分辨率的提升未来主要依靠遥感手段解决,因此台站密度不会进一步大规模增加。具体数据见表1。

天气雷达资料:按照《天气雷达近期发展规划(2005—2010)》以及《气象发展规划(2011—2015)》中"新一代天气雷达建设增补站点布局方案”,目前在全国已布设约200部不同波长的多普勒天气雷达,并为达到雷达资料全社会共享的目的,已基本实现7×24小时全天候不间断观测;日增总量约300GB。近十五年的增幅约40倍。详见表2。

气象卫星资料:根据《我国气象卫星及其应用发展规划(2011~2020年)》,至2020年,我国计划发射11颗气象业务卫星,包括3颗风云二号03批卫星,3颗风云三号上午星、2颗风云三号下午星、1颗降水测量雷达星以及2颗风云四号光学星。此外还将在2020年前发射2颗气象试验卫星。目前的日增总量约2TB,近十五年的增速约40倍。未来(至2020年)由于风云三号D星和风云四号系列静止卫星的陆续发射,气象卫星资料量有可能增加到约30TB/日,即:未来六年内卫星资料的增速约15倍。随着卫星仪器、通道和分辨率的增加,数据量的增幅可能会更大。

数值预报产品:与地面观测、气象卫星和天气雷达等气象观探测资料不同,气象数值预报模式资料属于气象观探测资料的加工产品。以GRAPS、T639为代表的天气预报模式,以及以BCC_CSM2、DERF2.0为代表的气候预测模式,每天都在实时运行,不断产生着数以万计的各类要素场,以供国家级、省级乃至区域级预报员参考使用,日增量接近TB级。近十五年数值预报模式数据量的增速约20倍,未来六年的增速约小于10倍。限于篇幅,气象卫星和数值预报数据涨幅不再列表。

在上述四类数据之外,气象资料中的其它种类如:气候专用,高空探测、地面农气观测、沙尘暴观测、闪电定位观测、风廓线雷达探测等等资料,种类虽多,但就体积而言,较上述四类资料至少低一个数量级,故难以将其称之为“大数据”;在以下不予专门讨论。

因此,如果就体积而言,气象资料可勉强算得上“大数据”,也是因为地面观测、气象卫星、天气雷达和数值模式这四大金刚将气象资料的体积撑大而成的。

2.3 海量气象数据的特征分析

气象数据的体积虽大,却有其独特的特征:

(1)体积虽大但总量可控

地面观测资料数据量剧增的原因,是站点数的增加和观测频度的大幅加密。由于观测资料的空间分辨率的提升未来主要依靠遥感手段解决,因此在地面观测台站达到一定密度,观测频度达到一定程度后,台站数不会无限制持续增加,观测频度也不会无节制地永远加密下去,因此总量既是可预测的,更是可控的。

天气雷达的全国布网工作已基本完成,雷达总量不会再有成倍数的增加。且目前的天气雷达已基本实现7×24小时全天候不间断观测。因此天气雷达的资料量(年增量),将稳定相当长一段时间,不会出现成倍数的增量变化。

未来数年内,我国还将发射数颗气象卫星,每颗卫星都会产生数百TB级的数据年增量。为满足气象卫星资料的应用时效,国家卫星气象中心针对每一颗气象卫星,都建有相应专属的地面接收处理系统,已完全实现所有气象卫星遥测遥感资料的实时接收处理。此外,旧星的退役也会导致部分数据来源的关闭。因此气象卫星数据目前虽以每年数百TB的量级增长,且规模有可能继续扩大,但却始终处于可控可管和完全可用状态。

数值预报模式产品资料是各级预报员最重要的预报参考资料,这些产品甫一生成,便即刻送达天气预报、气候预测专家的桌面,供其业务参考使用;同时以满足业务需求的时效,分发至各省级乃至地市级气象部门,供其本地化应用。且只要模式(软件)和基础资料(观探测资料)存在,数值预报产品资料是可再生的,无永久保存的必要。因此数值预报产品资料体积虽大,却始终处于可控可管和可用的状态,未来也将始终如此。

有可能在未来异军突起的是气象服务领域的受众反馈等信息,随着人们生活水平的提高及气候变化影响的日益显现,人们对气象预报的服务质量将日益关注,经互联网将意见、要求、评价等反馈给气象服务部门的现象有可能越发普遍,这对改善气象服务有着十分积极的作用;而如果这部分信息体积迅速膨胀起来,其管理问题对于气象信息技术部门将是一个挑战——但目前尚未出现迅速膨胀的迹象。

因此,气象资料体积虽大,在量级上算得上”大数据”,但却始终处于可控可管可用状态。

根据摩尔定律,从2000年到2014年的十五年之间,相同体积规模的计算机芯片,其处理能力增加1024倍;从2014年至2020年的6年间,处理能力增加16倍。详见表3。

由此可见,即便在涨幅最高的2000年至目前的这十五年间,气象资料的增幅也未超出摩尔定律所标示的计算机处理能力的增幅,今后可预见的未来期间也不会超过。

(2)种类虽多但内部信息单纯.来源单一

气象资料分为14大类,有数百种之多。每种资料所含信息十分单纯:土壤持水量只记载某时某地某规定土壤深度中水份的持有程度,”云能天”只记录某时某地的云量云状、能见度以及天气现象等信息,近百年来不曾变化。即:气象数据体积的增大,是由于时空分辨率的逐步加大所导致的,而不是其它。

气象观探测业务系统只采集那些能够客观反映自然界气象状态的要素,所以气象观探测数据里包含且只包含丰富的气象信息。因此海量气象数据的直接用途只能是气象业务及与之相关联的领域,即:天气预报、气候预测以及气象服务。

麦肯锡公司和Gartner公司始终认为:“大数据是用传统的架构、传统的技术方法无法解决的数据问题”。由上分析可知,气象数据始终处于可管、控、用状态,虽然随着数据体积的不断膨胀,以及原有管理和处理技术架构的陈旧,逐渐出现性能下降、时效减慢等现象,但并非没有解决的技术手段。从这个观点考察,以体积硕大为由称气象数据为”大数据”十分勉强,而且较易产生观念和认知上的混乱:因为衡量体量大小的标准是不断变化的。信息技术的发展突飞猛进,处理及存储能力依照摩尔定律,每18个月增加一倍;今天的大体量规模数据,如果不具备超过摩尔定律的膨胀能力,数年后便很有可能萎缩成中等甚至中等以下规模的数据;这样的事例在IT界俯拾皆是。

3. 大数据理论的适用性分析

3.1 大数据倡导者的基本论点

近年来有关大数据方面的著作如雨后春笋般不断出现,其中被业界公推最具权威性的著作当属由维克托·迈尔-舍恩伯格等撰写的《大数据时代》(以下简称《大》);该书作者就大数据带给人们思维方面的变革,提出了如下三个观点:

(1)当数据处理技术已发生翻天覆地变化时,在大数据时代进行抽样分析已经过时。人们进行分析的对象已不是抽样数据.而是所有的数据,即:”样本=总体”。

(2)执迷于精确性是信息缺乏时代和模拟时代的产物,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。

(3)知道“是什么”就够了,不必知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。

而对于大数据的价值,该书作者认为,“数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予”,它目前展现在人们面前仅仅是其总价值的“冰山一角”。

根据笔者的理解,大数据倡导者之所以提出上述论点,是基于如下推断,即:人们目前所获得的数据中蕴含的信息已足够丰富,以至于所有知识的相关信息都包含在其中,人们可以通过分析这些信息而获得欲知的任何知识;而目前IT技术的高速发展使得数据处理能力已达到足可对全体数据进行处理的地步,使得人们能够通过处理和分析信息而获得知识;即,人们既可以而且也能够通过处理数据而获得任何信息和知识。由于所有答案都可从数据分析中获得,于是理论研究便不再重要了——毕竟人们关心的既不是数据也不是方法,而是答案,无论实验、理论、计算模拟以及数据,都只是获得答案的途径。

这里需要强调的是,通过对海量数据的分析处理而“获得知识”,是“大数据”理论最具特色之处。如果单单是“获得信息”,则上述的一切便沦为简单的对海量数据的处理,与目前传统方法几无二致。令人叫绝的是,大数据倡导者们宣称,这些知识的获取可以不依赖于任何专业知识背景,仅凭“数理统计方法”便可获得;这是前所未有的,也是“大数据”如此迷人之所在——如果须要凭借专业知识背景方能通过处理数据、获得并分析信息进而得到这些新的“知识”,则“大数据”与现在各行业现行工作方式便并无本质不同,笼罩在“大数据”全身的炫目光环便黯然失色、荡然无存了。

这是一个令业界乃至社会不少人士惊讶和兴奋的未来——大数据引爆了一场颠覆性的革命。我们正在并将永远拥有取之不尽的信息资源,这些资源是如此的神奇,以至于人们不必再去孜孜不倦地追求理论的探索和试验的真实,只要坐下来分析这些数据就足够了——数据可以告诉你一切,并且数据还将告诉你所有未知的一切。

3.2 适用性分析

大数据的倡导者们描绘了一幅令不少人激动万分的景象,但是否适用于所有领域,却值得斟酌,至少就气象领域而言,其适用性有待商榷:

(1)气象观探测数据的应用始终是“样本=总体”

自现代气象学科建立以来,气象观探测数据对于各气象业务及学科研究而言,时空密度、时序长度和数据精准性的不足始终困扰着气象业务和科研工作的深入展开,不存在对花费高昂代价千辛万苦采集而来的无比珍贵的观探测数据,会因其数据量过大、无法全部处理而不得不采取“抽样处理”的情况。即,在气象界的观探测数据处理方面,几乎始终是全数据模式,即所谓“样本=总体”。问题是,目前在体量上已跨进“大数据”门槛的气象观探测数据,其内在信息是否已足够丰富到可以不考虑自然法则和物理规律,单凭对这些观探测数据进行统计分析既能实现天气预报和气候预测。

气象学科所涉及到的空间尺度,小到水滴碰撞凝结等毫米级微物理过程,大到罗斯贝波等数千公里尺度行星物理过程,其间跨度达到8~9个数量级;预报对象从10米量级的龙卷风,到千米量级的沙尘暴,直至数千千米量级的季风和厄尔尼诺,跨度亦达到6~7个数量级。这些尺度中的气象要素实际状况都需要探知,做为气象部门十分重要工作内容之一的气象探测业务,数十年来工作的主要目的之一,就是探索在代价允许的条件下,实时获得更小尺度的气象要素状况、并保障其准确性的各种手段和方法。为此人们应用了许多新的技术手段,最为典型的就是雷达技术和卫星遥感技术的实际应用:目前为止气象卫星及天气雷达的空间精度较之传统地面观测的数十公里,已缩小到数百米。

然而既便如此,那些云水微物理过程、边界层湍流、风向风速随高度的垂直变化等实况数据,却是难以甚至无法全面采集的,海洋中的洋面以及近、深层的温度、流向及盐度等要素更是如此。要想全部获得这些数据,单就海洋而言,以现有已知的技术手段,除非汪洋大海上布满了各类用于探测的漂流浮标和锚定浮标。

所以,由于天气载体(云团、水汽、冰晶等)的空间尺度之间存在极大的差异性,以及大气运动各尺度天气载体在时间和空间的变率差异极大,用目前已知技术手段不可能全部探知各个尺度内的天气信息。气象观测采样时间和空间分辨率的有限性,导致气象观测和产品数据在未来数十年间只能是“抽样样本”,而不可能是包含所有信息的“总体数据”。

气候学科需要长时段(上千年乃至数千年)的气象观探测数据,方能通过分析数据寻找到内在的气候变化规律。由于现代气象科学的创立不过一百多年的历史,积累的气象观探测数据时段十分有限,为此气候学家们不得不寻找各种气候代用数据,如:冰芯、树木年轮、花粉、岩心乃至皇宫文献档案记载等。然而这些气候代用数据的时间精度十分有限(最高仅达十年左右),对于现代气候预测学科的贡献相对有限。气候学家曾指出,只有建立起时间长度至少达到数百年的较为精准全面的气候数据序列,方才可能满足气候研究和预测业务的实际需求。

因此,虽然气象观探测数据的使用一直处于“样本=全体”状态,但其获得途径却始终是抽样采集,且其本身无论空间尺度还是时间尺度,都远远无法满足天气和气候业务/科研工作的实际需求。也正缘于此,当听到社会上一些非气象领域的、以数据分析见长的公司宣称将尝试通过运用统计分析方法处理气象观探测数据来进行天气预报时,气象学家们在愕然之余,更多的是哑然失笑。

(2)气象服务的特点要求必须追求尽可能高的精确性

“允许不精确”,这是大数据倡导者们提出的另一个惊世骇俗的,令不少科学家闻之瞠目的口号。一些大数据的拥趸者以气象业务中的集合数值预报为例,证明“允许不精确”论断在气象界的适用,即:

因研究表明,多个模式集合平均后的效果优于单模式,故在单一模式相对稳定,短时间内无法大幅提高其预报效果的情况下,科学家们提出了集合平均方法以及超级集合的概念。与单模式相比,多模式超级集合可以明显减小单模式和集合平均的均方根误差。目前,多模式集合预报可提高天气预报水平已得到广泛认同。

然而,提出此观点的人也许忽略了一点:多模式集合技术本质上是通过减小因模式自身不确定性带来的误差来提高预测能力的,多模式集合的效果依赖于各单一模式的预测能力;在各单一模式没有预测能力时,多模式集合也不能提供足够有用的预测信息。

事实上,“允许不精确”口号提出的前提基础,是确信数据中正确信息足够充分,以至于虽然人们从中随机抽取的每一个数据都可能是不精确的,但人们却可以通过统计分析方法,最终得到正确(精确)的结论。

然而这一前提是值得推敲的,如同Tim Harford所说,“当数据里的假像远远超过真相的时候,还持有‘数据足够大的时候,就可以自己说出结论了’这种观点就显得过于天真了。”要想使“大数据自己说话”,首先必须保证数据中的“真相”足够多,对于气象界的多模式集合预报而言,这意味着各模式必须具有尽可能高的预测能力,亦即:单一模式的运算结果应当越准确、越精确越好。

诚如《大》书作者所言,“执迷于精确性是信息缺乏时代和模拟时代的产物”,但如果信息始终处于匮乏状态,那么精确性就是不可抛弃的。气象观探测数据就是这样,由于气象观探测数据的获取始终是“抽样采样”,因此每一个数据都被认为是其所在时空范围内气象要素真实状态的反映;由于该数据是其所在时空范围内唯一的数据,它的与真实状态的偏差只有通过更大时空范围其它数据的综合统计分析方才可能校正,而校正后的数据是否真实反映了本时空范围内气象要素的状态,却无法予以验证,因为自然界的时空状态是不可回退的:所以,应当尽可能确保每一个探测数据的精准性。

“大数据的核心就是预测”,这是《大》书作者舍恩伯格的名言。预报(预测)在时间、空间、形式和强度方面的更加准确,一直是社会对气象界永恒的需求,也是百余年来召唤气象工作者孜孜不倦工作的目标和动力。就天气预报(尤其是灾害性天气预报)而言,目前的主要目标之一,是准确地预报天气现象(灾害性天气过程)的发生形式,并将发生的时间精确到小时、发生的地点精确到千米量级,同时准确预测过程的强度等。这意味着精确性要求对于气象部门而言,只会越来越高,而不是相反。

(3)气象理论科学研究不会终结

《WIRED》杂志主编Chris Anderson于2008年曾断言,“现在已经是一个有海量数据的时代,应用数学已经取代了其它的所有学科工具。而且只要数据足够,就能说明问题。如果你有1PB字节的数据,只要掌握了这些数据之间的相关关系,一切就都迎刃而解了。”Chris Anderson此言的核心思想是,身处大数据时代的我们,所有的普遍规律都不重要了。如今重要的就是数据分析,因为它可以揭示一切问题。

Chris Anderson先生的论断是如此的激进,以至于《大》书作者对此也认为实在荒谬;在他看来,首先,大数据自身就是在理论的基础之上形成的,亦即,在大数据形成之初的数据选择过程中,人们就始终被理论所影响着;其次,我们在分析数据时,也依赖于理论来指导我们选择所使用的工具;最后,人们在解读研究结果时同样会使用理论。因此该作者对同为大数据倡导者的Chris Anderson先生的观点并不赞同:“大数据时代绝不是一个理论消亡的时代:相反,理论贯穿于大数据分析的方方面面”

使用理论,但不必或不屑于产生“新的理论”,这是《大》书作者就理论在大数据时代中的地位和作用的看法,即:“知道是什么即可,不必知道为什么”,“一切让数据告诉你们”。

自上世纪二十年代动力气象学建立起,通过对观探测数据进行统计分析而进行天气预报的方法,便逐步被动力天气所取代。而对于我国气候预测业务而言,以多种数理统计方法为基础建立的统计预测模型,正在逐步被物理统计、动力模式、动力-统计相结合的方法所替代。单纯对观探测数据进行统计分析,已根本无法满足预报和预测在准确性和精确性方面的要求。以“蝴蝶效应”为例,如果不了解气象要素和天气/气候状态之间的物理机理,即便观探测数据再丰富,也无法通过对观探测数据的统计分析预测出南美丛林中的哪只蝴蝶、在哪种天气背景下、在哪个时间、哪个位置扇动几下翅膀以及翅膀扇动的角度和幅度如何,方能在几周后的哪一天的哪个时刻引发北美哪个州的哪个位置的暴风雪。

理论的作用在于解释现象并预测和指导未来,由于目前无法全部获得各个时空尺度中天气要素的实况,观探测数据只能告诉我们一定时空尺度范围内的天气实况,次尺度以下的天气过程只能通过理论分析、建模和模拟等方法予以解释,并通过试验予以验证。又因为气象学科所涉及的时空尺度跨度极大,对天气过程中至为重要的微物理过程无法全面探知,观探测数据在可预见的未来始终是“抽样采集”:因此在可预见的未来,对于气象学科而言,试验、理论和模拟这三种科学发现范式将始终存在,不可或缺——尤其是理论。

综上所述,大数据理论的三个主要观点,即:“样本=总体”,“接受不精确性”和“理论不再重要”,并非是普适性的——至少在气象领域存在适用性问题。

4. 气象数据的“大数据应用”价值辨析

4.1“大数据应用”定义的困惑

与云计算类似,业界对大数据的定义不胜枚举;维克托·迈尔-舍恩伯格在《大》一书中是如此定义的:“大数据(应用)是人们在大规模数据基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的”。

然而我们知道,人们对数据规模的认知是根据当时IT技术所能提供的处理能力而决定的:亦即,数据规模的界定是随IT技术发展而动态变化的;表4是不同年代属于“大规模数据”的数据体量量级。

因此,此定义如不设定适用的时间范围,是颇值得商榷的,因为如按此定义,至少就气象部门而言,意味着气象业务和科研工作始终是”大数据应用”;因为在表4所列年代中,气象观探测数据的体量皆达到当时的“大规模数据”标准,而且全部在被充分使用之中;其它如农业、水利、石油勘探、地震、海洋乃至金融、电信等行业也莫不如此。

依笔者对该书作者观点的理解,就数据量巨大,内含信息空前丰富的当下而言,所谓“大规模数据”和“小规模数据”,具体对应的应当是“全体数据”和“抽样数据”,即:“大数据应用是目前人们在‘全体数据’基础上可以做到的事情,而这些事情在‘抽样数据’的基础上是无法完成的”。

令人沮丧的是,以这一经过调整的定义来观察气象行业,依然难以辨识“大数据“与日常气象业务科研之间的本质差异,因为全体气象观探测数据都在被充分使用着,几乎不存在因数据量过于庞大无法处理而不得不使用“抽样数据”的情况。而近年来气象观探测数据体量上的巨大膨胀,也并未给气象业务的发展轨迹和发展形态带来颠覆性的变化。如果说由于目前使用了时空密度更为精细的观探测数据,使得天气预报和气候预测结果更加精准,从而派生出其它新的气象服务领域,那么倒退10年20年,同样也是类似的情形。因为每次采用空间密度更密,精确度更高(自然,数据体量也较原来更大)的观探测资料后,都会对预报结果有所改善,这种情况在过去几十年里一再不断地重复出现着。而如果这就是气象界所谓的”大数据应用”,那么气象界数十年来一直在“大数据应用”——只不过名词不同而已,过去称其为“业务发展”。

气象观探测数据的”大数据应用”,不应是一场文字游戏。

笔者认为,气象数据的“大数据应用”,应当是人们通过对海量气象数据的深入分析,挖掘出有别于目前业务内容和科研学科分支的,崭新的、令人意外且惊喜的业务领域、方法和学科分支——即:通过对海量气象观探测数据的分析,人们获得了崭新的知识,而不仅仅是信息。

所以,大数据应用的标志不止在于对体量庞大的数据的使用,而且在于通过且仅仅是因为通过对这些体量庞大数据的分析处理,人们从中获得了崭新的知识——获得知识,而不仅仅是获得信息,是“大数据应用”区别于“大数据处理”的核心标志。

4.2 海量气象数据的价值范围辨析

沃尔玛能够通过分析得出婴儿纸尿布与啤酒之间销量上的正相关关系,是因为其数据库中包含所有本系统连锁店中所有商品的销售记录,包括啤酒和婴儿纸尿布。阿里巴巴企业能够提前半年预测出2008年北美将爆发经济危机,是因为其数据库中详细记录了数年来世界各地与阿里集团的每一笔订单和询单,可从中统计并发现出其异常变化以及变化的区域分布,并进而做出推断。美国中央情报局能够通过对电子邮件的筛选探知出几十起针对本土的恐怖袭击计划,并提前采取相应措施,是因为恐怖分子使用电子邮件进行通信联络,留下了相关的痕迹。而气象数据与之不同:如前所述,气象观探测数据体量虽大,但与互联网大数据相比较,气象数据的信息种类单纯。无论多么优秀的金融分析师,都不可能单从分析海量气象观探测数据来预测纽约道琼斯股票的涨跌以及沪深股市的未来走向,因为气象数据里根本不含有任何这方面的信息。做个比喻:气象观探测数据是一个含量极纯的“富铁矿”,人们穷尽各种方法,也只能从中冶炼出铁和钢材来。那种企图通过改进冶炼方法来从中提炼出铝、铜、银乃至金的想法是注定会落空的——因为此矿中根本不含有这些物质。

做为“自然界感知信息”的气象观探测数据,产生于自然界,它反映的是自然界与气象有关的各种要素的状态以及变化轨迹:而互联网大数据产生于人类社会,它反映的是人类社会活动的痕迹。自然界与人类社会虽有千丝万缕的联系,但却无法完全等同,否则管理学、心理学、经济学、国际政治学以及社会学等专注于人类社会的学科便没有存在的必要了。正如“丛林法则”不会永久适用于人类社会的高级形态一样,社会学中的一些结论和方法也未必可以简单地套用到自然学科中来——对于海量气象观探测数据也是如此。

大数据时代数据体量迅速膨胀的背后,是信息量的迅速丰富。而导致信息量丰富的原因至少有两种,其一是信息种类的不断丰富,即信息涉及(采集)面的扩大;其二是信息密度的丰富,即信息种类(即采集面)没有明显增加,但同种信息的采集密度却大幅增加。互联网大数据属于前者,而海量气象观探测数据则属于后者。所以,与互联网大数据不同,海量气象数据的核心和基本价值,始终是气象业务的应用,而不是其它。

气象观探测数据时空密度的增加,使得较原来更小尺度的气象要素及变化痕迹得以被探知,从而为气象学家们提供了研究这一尺度内气象规律的实况依据:这是海量气象观探测数据在本领域内的“大数据应用”。此外,如胡小明先生所言:虽然一些数据所蕴含的其所属领域的内部规律(即所谓“首要价值”)已被本领域专家充分发掘,但如果将这些数据与其它领域数据相链接,却有可能发现出许多意想不到的相关关系,即所谓“丰富的未知价值在领域的外部”。气象观探测数据的“新的价值”的发现,或许寄希望于此。但令人担忧的是,数据的社会共享至今仍是一个世界性难题。美国政府多年以来一再发布政令,要求政府部门在规定期限内将与国家安全无关的数据实现社会共享,从一个侧面反映出数据社会共享的难度。在我国,早在二十一世纪初便由科技部主导的科学数据共享试点工作,十余年来进展并不顺利,行业间的数据并未真正实现共享,气象部门获得某些相关部门的观测数据异常困难。因此,气象数据通过跨行业深度结合而挖掘其“新的令人兴奋的应用价值”的必要环境并非已全部具备。

4.3“第四范式”的方向性启示

虽然目前看不到通过对气象观探测数据的数理统计分析,即可进行准确天气预报(或气候预测)的可能及可行性,但气象观探测信息在近年来的迅速丰富,却是不争的事实。由于观探测数据采集密度的不断增大,许多小尺度天气过程开始被探测和捕捉到,动力天气学中一些过去由于信息和计算资源的短缺而不得不采用参数化方法以平均态方式予以解决的物理过程,现在有可能通过较为精确的大规模计算而得到更为精确的积分结果。历史上,每一次观探测密度的增加,都对天气预报的准确性起到一定的积极作用,并在一定程度上丰富了气象学的理论和知识。所以,观探测信息采集尺度的缩小,使得气象学家们通过分析这些小尺度信息,获得较大尺度天气状况以及变化规律的期盼成为可能——需要注意的是,这种分析过程所采用的工具不仅仅是应用数学一门学科,而是数学、物理学、化学、生物学乃至人类学等诸多学科知识的综合运用,此外还需要气象学家们丰富的知识和智慧。

通过综合运用所有已有知识,对信息量迅速丰富的数据进行分析,可以补充完善现有知识,甚至获得新的知识,这是《第四范式:数据密集型科学发现》作者的主要观点,也是《大》书作者极力宣扬的。问题在于该模式(即:数据密集型模式)是否将取代人类历史进程中依次产生的“试验”、“理论”和“计算模拟”这三种模式,而成为未来唯一的科学发现模式?《大》书作者对此是肯定的,所以产生出”理论不再重要”和“接受不精确性”的派生观点;而笔者在上面耗费大量篇幅无非是要证明,这一豪情万丈的结论目前并不适用于气象领域。虽然面对的都是大数据,都是讨论通过对大数据的分析获得新的知识和方法,但《第四范式》的作者无疑是冷静和缜密的,结论令人信服。相比较而言,《大》书作者则显得轻率和极端,得出的结论在不少部门和行业难以现实落地——至少在气象部门是这样。所以,即便是真理,也不能随意向前多迈一步。

如何应对“数据密集型科学发现”在气象行业的具体实现,这是《第四范式》给气象IT部门提出的新的课题。事实上,“海量气象观探测数据的规范化存储管理和高时效应用”这一现实命题,已经挟气象数据的滔滔洪水骤然降临了;随之而来的还有海量气象观探测数据的高速传输、科学分析、处理和高效应用等课题,限于篇幅,笔者将另文详述。

综上所述,可得出如下结论:

(1)目前气象数据体量虽大,但增速缓于摩尔定律。在未来的数年或十余年后,其体量将渐趋适中。同时,由于气象观探测数据中所含信息在空间密度和时序长度方面都与实际需求存在差异,且短期内无法解决,因此无法达到单凭通过对数据的分析处理便可不断获得新的气象知识的程度。以”接受不精确性”和“理论不再重要”为特征的《大数据时代》思维变革观点目前并不适用于气象部门。

《2)现阶段海量气象数据的“大数据应用”,除本行业内深度挖掘之外,最大的可能在于与其它相关行业或领域数据的深度融合,以获得跨领域跨学科的“新知识”。然而这需要科学数据社会共享这一大环境的有效改善。

(3)“数据密集型科学发现”将成为未来气象科学发展和进步的新的途径和模式,气象IT部门应予以充分重视。

5. 结语

信息的迅速丰富,导致大数据时代的来临。面对几乎取之不尽用之不竭的信息,一些人束手无策、一些人欣喜若狂、一些人充满激情地畅想着未来,还有一些人则将其描绘成一面绚丽的大旗,并将其覆盖在自己原本滞销的货物之上,以期连旗带货一同高价兜售出去。

对于气象部门IT从业人员而言,“大数据”不是旗帜,也不是时髦名词,而是一个需要认真思考的现实问题:如何将这些珍贵的气象信息的价值发挥到极致。有一点可以肯定,这绝不是气象IT部门一家的事情,这需要气象学家、IT工程师以及有关职能部门的通力合作,方才可能实现。同时它有可能意味着气象学科传统研究方法乃至机制的变化。

气象大数据 篇2

为深入贯彻落实党的十七届六中全会和《中共中央关于深化文化体制改革,推动社会主义文化大发展大繁荣若干重大问题的决定》精神,按照省市气象局统一部署,郯城县气象局开展了气象文化和气象精神主题大讨论活动。进一步继承发扬优良传统与作风、发展先进文化、凝练气象精神,为全面推动中心工作夯实基础。

一是成立了以党支部书记蒋红霞为组长的大讨论领导小组;二是制定了《郯城县气象部门开展气象文化和气象精神主题大讨论实施方案》;三是召开动员会广泛发动、认真部署。

此次活动主要分为两个阶段:一是部门讨论阶段,该阶段的主要任务是加强学习。按照上级的要求作具体安排,及时召开动员大会,宣讲开展文化大讨论活动的重要意义,统一干部职工思想认识,明确大讨论活动的具体要求,掀起文化大讨论活动高潮。开展集中学习和组织学习讨论活动。开展专题学习讨论,带动党员干部的学习讨论;围绕七个专题内容,采取个人自学与集中学习相结合、学习讨论与调查研究相结合的方式,开展学习讨论活动。通过学习讨论,把干部职工思想和行动统一到科学发展观上来,把智慧和力量凝聚到促进高陵气象事业又好又快发展上来。开展 “我为文化事业发展谏言献策”征求意见活动,征集干部职工对郯城县气象文化事业发展的意见建议。在大讨论活动后期,召开一次总结交流会,总结大讨论活动取得的实效和体会,对巩固和扩大讨论活动成果提出明确要求。进行气象

精神表述语凝练的收集工作。

二是社会征集阶段。广泛发动气象行业乃至全社会积极参与,开展“气象精神”表述语的征集活动。对征集的结果进行梳理、汇总,经过专家评审和会议研讨等形式,凝练出“气象精神”的表述方法。通过此项活动,大家不仅提高了新时期加强气象文化建设重要性和紧迫性的认识,更对对新时期我国气象文化的科学内涵与气象精神表述进行深入研讨与凝练,认为气象文化要以满足广大职工的精神文化需求为出发点和落脚点,坚持弘扬和继承优良传统,立足气象事业当前发展形势和外部环境的需求,增强气象工作和气象人的影响力。把建设气象文化与提高“四个能力”紧密结合,加强气象文化基础设施建设,大力发展公益气象文化,利用互联网等媒体发展积极健康向上的网络气象文化。

郯城县气象局

基于大数据环境下的气象数据分析 篇3

关键词:大数据 气象数据 分析

中图分类号:TP311.52 文献标识码:A 文章编号:1674-098X(2016)04(c)-0079-02

在社会的发展过程中,天气对社会中的很多行业都有一定的影响。在当前阶段,天气预报作为我国主要对天气进行预测的手段就对数据进行了一定的应用,但是随着大数据时代的到来,不仅是数据的数量,还是数据所隐藏的信息都有了很大的增加,在这种情况下,只是天气预报一种使用数据的手段就不能满足社会发展的需求,在这种条件下,加强对气象数据的研究,使其在气象工作中发挥出更大的作用,为人们的生活、工作提供良好的帮助。

1 大数据

1.1 大数据的内容

在当今社会的发展中,网络技术得到了大力的发展,在这种情况下,在网络中就会出现大量的数据,这些数据就构成了大数据,这些数据具有一定的实时性,其本质不在“大”上面,而是要对这些数据进行有效分析,将数据中所包含的内容全部挖掘出来,使用挖掘出来的信息来进行工作。因此,大数据就不只是对数据数量的一种诠释,更是对数据进行处理的一种手段。这就表示其与以往的数据有很大的不同,首先就可以发现两者之间规模具有很大的区别,其次是在对数据使用时,使用的方式也完全不同,在使用传统的数据时,只是使用单一的或者几种方式就可以了,而在使用大数据时,往往需要很多的方式才能完成[1]。

1.2 大数据的特征

随着社会科技的不断发展,大数据的应用越来越广泛,其特征也随之在增加。在大数据刚刚出现时,只是具有数据量大、处理传输的速度较高、数据的种类较多3个特征,而随着大数据的发展,在大数据的特征中又加入了数据真实性的特征,而到了现在,随着商业活动的不断增加,使数据又有了商业价值大的特征。根据这些特征可以发现,这些大数据中都含有一定的信息,为了将数据中的信息进行使用,就需要一定的手段将其从这些数据中寻找出来,这也是当前阶段中一个重要的工作内容。

2 气象数据

2.1 气象数据的内容

在气象部门工作的过程中,会出现很多的数据,其包括了气候数据与天气数据,这些数据统称为气象数据。气候数据就是使用一定的检测仪器对环境进行测量,将测量到的结果进行分析与整理所得到的数据。而随着社会的发展,世界各国对气候的研究有了更深层次的理解,使气候数据的内容有了进一步增长。天气数据就是为了推测天气变化而产生的数据,这些数据大部分是来自于卫星传输的。两者之间的区别主要在于前者往往反映的是一个地区长时间的环境变化,而后者只是表现了一个地区在一定的时间内的环境变化。但是两者之间还有一定的联系,对很长时间的天气数据进行分析与整理,就可以确定出某个地区的气候数据[2]。由于很多因素的存在,导致在我国当前阶段中对气象数据研究的对象为天气数据。

2.2 气象数据的特征

气象数据作为大数据中的一种,因此,其具有的特征就是大数据存在的一些特征。对其具体分析后可以发现,首先就可以发现其具有数据量大的特点:在气象部门发展的过程中,国家安装了很多雷达设备以及地面接受装置,同时,随着科技的发展,卫星技术的不断成熟,我国也向太空发射了一些气象卫星,在这些设备的使用过程中,产生了大量的数据,使其数量大的特点很好地体现出来。但是,对气象的观察并不是一直在进行的,这就使其产生的数据不是无限增长的[3]。同时其还具有一定的商业价值:在气象数据产生的过程中,来源比较单一,内容比较重复,这就不能使其自身带来经济价值,但是,其不能受到人为的干扰,在交通、旅游等行业中,就可以被很好地使用,将其商业价值很好地体现出来。

3 大数据对气象数据的影响

3.1 数据采集的影响

在对当前气象数据的采集过程中,已经将“大”的特点体现出来,但是这些只是对字面上的体现,而没有真正体现出来其真正的含义。在当前对气象数据的研究中,只是针对专门的气象数据进行研究,而与气象数据有关的其他数据研究得比较少,其中存在的利用价值很难被人们使用。因此,在对气象数据进行采集的过程中,不仅要将纯气象数据寻找出来,还要对其他气象中有关的数据进行采集。例如人们远距离出行要坐飞机,这时就可以对航班的信息进行了解,使人们出行更加便捷[4]。

3.2 数据存取的影响

由于大数据存在数量大的特点,这就为其存取造成了一定的影响。首先就是储存容量的问题,在我国当前阶段中,由气象产生的数据达到了5 PB(5×10245 B),需要的储存空间相当大。其次是存取速度的问题,由于数据量较大,在寻找有用数据的过程中需要花费一定的时间,可能达不到“1秒钟输出结果”的定律。在这两个问题当中,既有一定的联系,又存在着一定的矛盾,因此,在对气象数据存取时,就要进行统筹管理。对数据储存环境的扩建不是根本的解决办法,而是要加强对大数据的管理。在存储过程中,使用有效的方式对其进行分类,将其按照每种分类进行管理,使数据系统的性能更加强大[5]。

3.3 数据分析的影响

在气象部门的工作过程中,很早就将对气象数据的分析作为了主要的任务,但是在大数据环境下的分析还处在起步的阶段,其他行业大数据的分析过程中为气象行业的数据分析提供了良好的保证。在气象部门进行数据分析的过程中,将相对关系进行有效把握,对其进行良好分析,就可以对未来做出预测。而在大数据环境下,气象数据的数量得到了一定的增加,对未来预测的过程中就有更多的数据来进行分析,可以保证预测的结果更加准确。

4 结语

在对当前阶段中的气象数据进行分析可以发现,大数据对气象工作产生的影响有很多,上述几点只是其中影响最广泛的几点。从国家的发展角度来说,在大数据环境中,气象数据面向社会各界是必然的趋势,加快了社会各行业的发展;从公共服务角度来说,要对大数据进行有效分析,将数据中人们的需求信息寻找出来,根据这些信息加强对服务的改善,使其能满足人们的需求。在当今社会中,大数据对社会的影响还会继续的增加,在这种情况下,有效地利用好大数据就可以使其更好地发展。

参考文献

[1]刘立明,王彬.气象网格环境下大数据的端到端传输机制研究[J].计算技术与自动化,2014,8(1):122.

[2]刘培宁,韩笑,杨福兴.基于R语言的NetCDF文件分析和可视化应用[J].气象科技,2014,4(4):629.

[3]米卫红,巢惟忐,支星,等.移动互联网环境下的上海市气象信息数据发布:需求、现状与探索[J].电子政务,2014,10(11):23.

[4]聂俊岚,刘益萌,陈贺敏.非线性映射的气象数据可视化及其应用[J].燕山大学学报,2015(3):276.

大数据环境下气象档案管理初探 篇4

随着信息技术和互联网络的飞速发展, 大数据时代呼啸而至,“大数据时代在不断改造传统产业的同时, 也对传统档案管理模式提出了挑战”。 气象现代化建设进程的加快,使综合气象观测系统取得了飞速发展,大气探测数据种类越来越繁多,时空分布密度不断加大,气象数据以几何级数激增;与此同时,在中国气象局统筹下, 各省历史气象资料数字化项目正稳步有序推进,馆藏数字化资源也越来越多。 气象数据已呈现较显著的大数据特征。 如何充分利用现有的技术和设备,保证气象数据的长期安全性,并不断提高管理、服务和开发利用能力,已成为气象部门必须面对的新课题。 下面结合笔者在多年气象档案工作中的体会,谈些关于大数据时代气象档案管理的认识。

1大数据环境下气象档案管理面临的挑战

1.1 气象大数据海量增长带来收集与存储的压力

近年来,在中国气象局统一布置安排下,各省气象档案馆馆藏档案数字化工作有序开展,数字化档案数量急剧增多,每年几乎以TB量级递增。 同时,随着新型气象观探测业务建设的快速发展, 越来越多的气象观探测数据和预报分析产品源源不断地涌向气象档案馆。 这些海量生成的数字化档案,不仅种类繁多,内容复杂,而且数量巨大,对收集流程、存储架构等方面提出更高的要求。 如何安全有效地接收、存储和利用数量如此巨大的数字档案信息资源已成为目前亟待解决的问题。

1.2 传统的档案管理模式已越来越不适应气象大数据管理的需要

近年来, 气象档案管理的基础设施条件虽然得到了较大改善,各省气象档案馆都建立了档案管理系统,但基本上是单机版的目录管理系统,有的甚至停留在工作表单模式,无法提供全文检索和利用。 归档模式为“数据暂存—下载刻盘—载体归档”,过程较为烦琐。 档案管理模式的传统色彩仍然浓厚,效率低下,不能满足多元化、社会化档案利用需求。 另外,档案管理集约化水平不高,各业务单位都自建数据库,形成档案信息孤岛,造成严重资源浪费和数据安全隐患。

1.3 服务手段单一落后不能满足气象大数据的利用需求

尽管气象档案信息化程度在逐步深入, 但服务手段仍停留在以离线式的上门阅档为主(只不过提供的不再是纸质载体,而是机读载体而已),大多只是提供原材料或进行简单的临时性的初级加工,比较缺乏数据分析和产品研发能力,更不能实现面向用户提供数据网络推送服务和一站式检索服务。

2大数据环境下气象档案管理思路

笔者认为大数据时代气象档案管理的总体思路就是紧紧围绕“收齐、管好、用活”开展业务工作,搭建软硬件平台,建设好一套管理系统,培养好一支档案业务队伍。

2.1 档案信息管理系统的开发利用

气象大数据不期而至, 我们急需一个功能强大的综合信息管理系统进行信息采集、管理和提供利用。 在设计开发这个系统时需要体现三个“一体化”思想。

2.1.1 数据档案一体化

2011 年,中国气象局正式启动实时和历史气象资料一体化业务建设工作,重点解决长期困扰全国资料业务发展的历史、实时资料收集处理和服务分离、数据不一致等问题,通过建立气象资料业务系统(MDOS)及相应业务流程和业务规范,明确台站、省级和国家级资料业务分工, 全面提升省级质量控制和数据处理能力,全国实现地面全要素实时资料滚动质控与评估、疑误信息查询反馈和同步更正。 2015 年7 月,实时历史气象资料一体化业务将正式投入业务运行。 气象档案业务正可趁此良机,参照“ 文档一体化” 理念, 建立 “ 数据档案一体化” 模式, 归档节点前移,数据一经质控完毕,即刻自动归档入库,并自动形成相应的元数据信息与之关联,避免重复劳动,提高工作效率。 从数据形成开始,实行全过程监管,确保数据安全、完整。

2.1.2 目录全文一体化

清华大学档案馆高级工程师薛四新提出目录全文一体化管理方案,核心思想就是将电子档案分门别类,整理成方便检索的目录信息,并通过电子原文(图形、图像、照片、文档、多媒体文件等)关联挂接、存取访问等现代技术手段,实现电子档案目录与电子档案全文信息的一体化管理。 鉴于目前我国气象档案管理现状及现代气象业务“无纸化”发展趋势,笔者认为应结合气象档案和气象业务实际, 依托气象部门信息网络系统及现代化气象业务系统,设计开发出适合气象档案管理的“目录全文一体化管理”系统,并与业务系统和办公系统无缝对接,完成信息的即时采集、高效管理,进而“在气象信息网络系统和因特网上实现不同层次的气象信息资源共享”。

2.1.3 数据收发一体化

通过数据接口, 将各种经过质量控制的气象数据统一收集归档到档案数据库中, 利用气象档案数据中心平台实行集约化统一管理,消除数据孤岛现象。 统一利用出口,各业务单位和社会用户根据权限和利用规则, 享受在线利用或离线利用服务。所有利用必须通过业务系统进行登记管理, 防止档案信息失密、泄密。

2.2 业务安全保障体系的构建

在大数据时代下, 通过网络实现信息共享的目的和意识会愈来愈强,人们对数字档案的依赖度也会越来越大。 然而,网络自身的安全却受到越来越多的威胁, 所承载的数据安全性也越来越脆弱,网络安全隐患无处不在。 为此,必须通过制度手段和技术方法构建业务安全保障体系,保证档案数据的真实、安全,以及档案业务网络平台的安全。 对于数据本身而言,坚持“涉密信息不上网,上网信息不涉密”的原则,实行档案信息分级审核制度,严格根据用户权限提供相应的档案信息,定期做好数据的灾备、抽检和转储工作。 对于数据的保存和传输而言,则应该通过硬件配置和软件技术,构筑严密的安全防护措施、完善的网络安全防范体系和风险评估体系,防止计算机病毒及黑客的入侵,防止档案数据的损毁、丢失和泄密,确保数字档案的保密性和安全性。

2.3 档案人才队伍建设

人才是保证档案管理现代化实现和持续发展的关键。 大数据时代,对气象档案的管理,不仅要收齐、管好,更要能够对数据进行深度挖掘和有效分析,提供档案信息的高效利用。 因而应充分考虑现代化业务建设过程中和系统建成后的人才需求。 一方面,管理部门应更加重视专业人才的引进和培养,不拘一格将档案学、计算机、大气科学等相关专业人才吸纳进气象档案业务岗位中来,打造一支现代气象档案人才队伍,使之完全满足大数据时代档案业务对数据存储、系统开发与运维、数据挖掘分析、档案深层次编研和智慧服务的要求。 另一方面,作为气象档案工作者,我们必须通过学习档案工作的新理论、新方法、新理念、新模式以及计算机、气象专业相关知识,努力优化自身知识结构,提高自身业务能力,用现代化的技术手段收齐、管好、用活气象档案资源。

3结语

大数据时代已经来临,气象数据还会持续海量增长,向社会开放也是大势所趋,气象档案管理工作正面临严峻的挑战,也正迎来难得的发展机遇,我们既要适时抓住这个机遇,也要严肃对待挑战, 努力使气象大数据中蕴藏着的巨大知识宝藏真正得以开发和利用。

参考文献

[1]杨冬权.在全国数字档案馆(室)建设推进会上的讲话[J].中国档案,2013(11):16-21.

[2]臧海佳,李星玉,张静.气象气象档案工作现代化的几点思考[J].中国档案,2011(10):35-36.

[3]薛四新,孙宇华.数字档案管理方案——目录全文一体化管理[J].数字与缩微影像,2003(3):9-11.

气象大数据 篇5

陕西省级气象科学数据共享数据库设计与实现

介绍陕西省级气象科学数据共享数据库建设的内容、技术方案、设计参考标准、结构、信息流程等.元数据的基本概念、作用和使用方法.介绍了元数据库的表名,表结构及基于元数据导航的`数据发布;数据实体库设计的基本原则,数据集及数据库表;数据库管理系统的设计及维护.

作 者:夏巧利 陈高峰 邸永强 高宇 作者单位:陕西省气象信息中心,西安,710014刊 名:陕西气象英文刊名:JOURNAL OF SHAANXI METEOROLOGY年,卷(期):“”(2)分类号:P409关键词:气象科学数据 共享数据库 设计开发

气象大数据 篇6

关键词自动气象站;月报表;异常数据;预审;处理

中图分类号P4文献标识码A文章编号1673-9671-(2010)081-0124-01

随着自动气象站和地面测报业务系统软件的使用,地面气象数据文件审核方法发生了重大变化。南乐县气象局从2005年1日1日自动气象站投入业务运行以来,对全局测报质量的提高起到了一定的作用,我根据近几年在地面资料审核工作中积累的经验,对本台站出现的、疑误数据处理问题进行了归纳总结,并提出了相应的处理方法。

1异常数据与处理

1.1降水量上下连接值的输入

《地面气象观测数据文件和记录薄表格式》规定,降水量上下连接值由3段组成:即下月1日20—8时降水量和跨月连续降水(或无降水)开始日期和上跨连续降水量。有些站往往没有将下跨的降水量输入或是输错。如有微量降水0.0应输为“,,,,”,误为“0000”。月末最后一日,应该人工录入、校对降水量上下连接值,确保B文件数据正确。

1.2分钟降水量与天气现象矛盾的处理

由于OSSMO 2004软件没有把J文件降水量及降水起止时间与A文件天气现象的降水起止时间对比,所以J文件经常出现降水量与天气现象矛盾的现象,值班员和预审人员必须人工校对分钟降水量与降水的起止时间是否一致。

操作说明:J文件分钟降水量取自B文件,因此要求每日20时值班员要按照《地面测报业务软件操作手册》和系统“帮助”文件,对“小时、分钟降水量”进行校对,方能确保小时降水量合计值和分钟降水量累积值相一致,分钟降水量记录和降水起止时间相一致。

1.3日照时数全天缺测

应该在日出到日落的各小时都应该录入“—”,不能自己认为从有日照的小时开始输“—”。日出、日落时的日照时数如果大于日出、日落时计算的最大值,OSSM0 2004审核提示为错误,应该利用软件提供的计算功能,算出本站该年每日日出日落时间,并查找引起矛盾的原因,确保观测未记录的准确性。

1.4对自动气象站大风记录的开始与结束时间应该认真校对

1)大风数据文件为FJ.TXT,由于FJ文件中的数据是自动气象站采集监控软件(SAWSS)从每分钟采集的数据中判断写入的,若SAWSS因故关闭或采集不正常,都会造成FJ.txt记录不正常,所以FJ.txt文件不能作为大风天气现象的唯一依据。

2)若自动站日极大风速≥17.0m/s,FJ.txt中无大风记录,可从Z文件中的时极大风速尽可能的判断记录,或通过随OSSMO 2004一并下发的自动气象站数据质量控制软件中的“大风现象查询”功能获取。

3)部分厂家的自动站,有时会出现从采集器读取的每分钟数据中的出现时间与实际时间有偏差,若写入FJ.txt文件中的时间与正点写入Z文件中的出现时间有时相差1分钟,则以Z文件的极大风速时间为大风的开始时间。

2对机审疑误信息要认真判断分析

分别使用地面气象测报业务软件和自动气象站数据质量控制软件对A文件、J文件和Z文件进行审核。对软件提示的疑误信息要逐条进行排查处理。提示为“错误”的信息必须维护正确,提示为“可疑”的信息要根据气象要素进行人工确认。如海平面气压、水汽压、露点温度与反查计算值相差>0.3℃,有错误,就应该利用地面气象测报业务软件的工具菜单进行查算;连续变化的要素,相邻时次变化异常。如地温、草温传感器安装不当,就会造成变化异常。一般认为,深层地温(80、160、320cm)相邻时次变化超过0.3℃属于异常。值班人员要按照有关业务文件的要求,加强自动站数据监控和人工与自动对比观测,及时发现问题,解决问题。

3自动站定时记录缺测的处理方法

按照《地面观测规范》和技术问题综合解答(第一号)的规定,自动站记录缺测的处理方法具体有:

1)自动气象站定时观测记录缺测。要优先使用正点前后接近正点的10分钟记录代替。监控软件从3.0.8版本增加了全要素分钟数据文件即RTD文件的备份。可以使用“质量控制软件”查找正点前后接近正点的分钟数据,并用来代替自动站缺测的正点值。

2)人工观测和自动观测记录的同类观测记录可相互代替。

3)在没有任何数据可代替的情况下,采取内插法或缺测处理。内插法是级别最低的。内插法不适用于风向风速、降水量缺测记录的处理。

4)缺测和不完整记录的处理方法要进行备注。

5)分钟数据缺测寻找方法。为了最大限度地减少缺测记录,用自动气象站数据质量控制软件的“数据导入”功能,从RTD文件中恢复。具体方法是:利用质量控制软件中的文件菜单—打开—文件类型—逐分钟地面数据文件—找到相应时间的数据。

4文件的审核

4.1J文件的审核

J文件处理方法。根据有关技术文件,J文件的分钟记录缺测或异常,不再按内插处理。J文件的分钟数据必须是自动站原始采集数据,因此,60分记录用A文件记录代替时,不能用A文件中内插或人工站代替的正点记录代替。需注意:J文件风速是一分钟风速,不能用A文件定时风速代替。

4.2Y文件的审核

制作年报表的A文件月份选择。制作年报表必须在Y文件维护中同时加载当年1-12月的A、J文件和上年度7-12月的A文件,这样才能制作正确的Y文件。

5结束语

自动站报表数据文件内容多、数据量大,要求审核员必须熟练掌握《地面气象观测规范》中各项技术规定及数据文件格式规定,对机审提出的疑误信息进行判断和推敲,不断总结经验,提高自动站报表数据文件的审核质量。台站的报表预审宜采取初审-复审-终审的流程。通过上述流程的上报报表可最大限度地减少错情;要尽量为每个班次排主班、副班并明确责任。当主班在观测、操作、发报时副班应负责校对和配合,发现不正常记录要及时处理,

参考文献

[1]中国气象局监测网络司,地面气象测报业务系统软件操作手册[M].北京:气象出版社,2005,1(37).

[2]地面气象观测规范[M].北京:气象出版社,2003,11(107).

作者简介

大数据背景下公共气象服务革新研究 篇7

关键词:大数据,公共气象服务,云计算,应用

一、大数据的概念与价值

“作为第三次浪潮华彩乐章”的大数据意指资料规模巨大到无法通过目前主流软件工具在合理时间内达到获取、处理并整理成为助力决策的资讯, 具有容量大、速度快、多样化与高价值等特点。随着高新技术飞速发展, 手机、平板、笔记本、台式机、智能手环、谷歌眼镜以及装置在汽车、电表和其他工业设备上的传感器不断发掘结构化与非结构化信息内容, 互联网数据以几何乘数不断上翻。以云计算为基础的大数据发展模式逐步形成 (如Tipp24 AG的博彩评估平台、梅西百货的实时定价平台、Pred Pol公司的犯罪预测系统等等) , 从个人数据存储、商业交易互动到政府管控布局等活动相继迁入网络平台 (1) , “从2013年电子商务在GDP中占比数据来看, 中国为1.02%, 美国为1.24%” (2) 。

“廉价、迅速、优化”的大数据打假模式 (3) 、大数据网围违法 (4) 、大数据定位广告、大数据预测后果等拉开了后信息时代的帷幕。致力于帮助人类摆脱可持续发展瓶颈的大数据技术至少具有如下显著优势: (1) 更精确地揭示真相。能够准确地知晓事实真相是千百年来人类的重要梦想。立足云计算技术与海量数据仓库的大数据挖掘模式具有及时、准确且低成本地揭示真相的特质, 是让人类看清社交关系中的真与假, 认明人与自然孰是孰非的重要工具。 (2) 更有效地提升经济效益。大数据挖掘技术使得社会生产愈加贴近“按需生产”的长期目标, 极大地减少了资源浪费, 更好地帮助生产者实现产品价值。 (3) 更合理地改善组织机构。大数据背景下元信息特有的所处位置不定与数据流转隐蔽性强等特征导致各类应用中去中心化现象显著, 推进组织结构更为公允与合理。

二、公共气象服务

公共气象服务是由各级各地政府部门提供的涉及公共利益的气象非物化服务产品和过程, 具体围绕服务产品的生产、提供、运行和管理展开。目前的服务内容包括天气状况、大气成分、人工影响天气、气候变化、生态与农业等产品的发布、传播和接收的整个运作过程。事实上, “随着全球变暖不断加剧” (5) , 公共气象服务的有效开展还需要充分利用多方人力与物力 (如公权资源、企业资源和其他社会资源等) 加强保障服务产品产生与流转的基础设施建设;完善各级政府部门、相关企事业单位和社会个体等公共气象服务的载体的组织建设;加强公共气象服务运作全程的有效管理。

三、立足大数据技术的新型公共气象服务

近年来, “庞大的数据资源使得各个领域开始了量化进程, 无论学术界、商界还是政府, 所有领域都将开始这种进程”, 大数据技术在公共气象服务领域的应用呈现出愈加繁多之势。海量农耕气象信息的挖掘结果是调整农作物结构的重要依据, 大量机场和航班历史天气特征的持续挖掘有利于提高航班延误预测的准确度, 对于门诊量、药品销量与当地天气的合并分析有助于推测某些疾病 (如流感) 的发病趋势。例如, 默克公司在提前掌握美国地区半年后的气象信息后预测温暖空气将带来花粉过敏等, 随即加大过敏药的宣传和供应, 由此带来数百万美元的额外销售额。又如, 由于我国每年新增的PB量级 (6) 的气象数据的存储和处理需要海量计算资源, 惟有外包给处理能力超群的云计算平台才能避免中国气象局的巨量资金和漫长周期的基础设施投入。“气象是飘在天空中的‘云’, 阿里云是提供海量计算能力的‘云’。这两朵云结合, 未来产生的经济社会价值不可估量。阿里巴巴将结合旗下各项业务, 率先推动气象大数据在中国的应用。”2014年5月27日, 中国气象局公共气象服务中心与日均数据处理能力达到上百PB的阿里云达成战略合作, 共建气象专业服务 (台风网、天气网等公众气象服务网站将率先迁至阿里云计算平台;阿里集团将通过旺旺、支付宝钱包、高德地图等多渠道传播气象灾害预警信息) 以挖掘气象数据的深层价值, 将之转变为可实时分析应用的“活数据” (7) , 帮助整个社会防灾减害。迄今为止, 中国气象局公共气象服务中心深度挖掘建国以来的历史数据, 包括降水、温度、风力风向、地面结冰、太阳辐射、酸雨、空气能见度等在内的全国各类观测站、卫星、雷达监测的气象观测数据, 短期、中期、长期的精细化预报服务产品以及通过国际交换获取的全球气象观测与预报数据。此外, “气象大数据不仅可以让人们知道天气, 更重要的是帮助企业从天气中减少损失或盈利”。中国气象局公共气象服务中心与阿里集团共同搭建了向企事业单位提供专业化服务的“中国气象专业服务云”, 充分利用积累的海量商业数据形成精细化的可供挖掘巨量资料价值的开放性数据产品。

事实上, 公共气象服务提供者长期以来一直忙于观测、预报及其他科研工作的量化努力。“立足体量巨大、类型繁多的数据载体与云计算、感知方案和分布式处理技术的大数据预测” (8) 有利于寻找成千上万年来气象信息之间的相关关系, 有利于深层次地探研公共气象服务 (包括面向政府的决策气象服务, 面向社会群体的公众气象服务, 面向水利、电力、交通、农业以及其它部门或企业的专业专项服务, 以及针对干旱、暴雨洪涝、森林火险、冰雹、雷电等灾害性天气的气象灾害预报预警服务) 之间的因果关系。同时, 有效实现灾害防减是气象部门的重要职责, 尤其是灾害防御工作的高效完成具有重要的社会价值。科学评估气象灾害, 切实提高预警准确率, 必须在数据挖掘中纳入除气象数据以外的大量其他数据, 有必要充分利用云计算与大数据技术。综合地区性历史气候数据与灾害情况, 相应区域的地形地貌信息、天气状况和居住人口等海量数据的气象预警系统有利于帮助社会主体认知洪涝灾害的发生条件与受灾人群撤离状况, 进而指导房屋建造、农作物种植以及建筑设施选址等灾害防御工作。例如, 大数据处理机构通过大量气象观测资料以及模式资料分析, 密切追踪大范围降雪天气, 并多次向各级政府部门提供决策服务材料并通过各大媒体发布预报和预警信息。各部门和各组织之间通力协作和联动应对之下将降雪对交通运输的影响降到最低。

掌握着大量珍贵数据资源的各级各地气象部门意图充分挖掘资源价值、寻找事物变化发展的一般规律及准确预测与经济发展和社会生活密切相关的气象信息, 需要加强与公权机关、企事业单位及各类社会组织的密切合作。“稳定性、连贯性与一致性是法治文明的首要表征” (9) , 大数据背景下更准确且更具个性化的新型公共气象服务系统应当关注相关立法建设, 构成由能够接入气象系统的核心数据来源、公共气象服务产品库、精细化预报实况数据等组成的新型机制, 辅以多源数据接入适配器, 交互生成气温、降水、风速、湿度、能见度等气象产品专题图, 按照气象预报产品质量评估的相关指数算法实现气象要素预报结果的质量检验 (如环境质量状况信息和空气质量预报情况) 完成灾害要素的监测与报警。

虽然“发现过去、预测未来、实现优化的大数据联动有效降低社会良性运转成本” (10) , 但数据壁垒是大数据背景下构筑新型公共气象服务机制的重要障碍。有必要打破各行业之间的壁垒、建立各方数据融合的共享体系, 最大限度地降低气象灾害风险, 推进信息时代的绿色经济增长。

注释

11蒋洁.大数据时代网络服务提供商的侵权特征鉴识[J].改革与开放, 2014 (11) .

22王孔平.大数据的阴面五--银行让渡互联网金融成长空间[EB/OL].[2015-09-10].http://www.zgjrzk.com/news/201412/340702.html.

33上市电商的打假秘籍:阿里大数据三重门京东罚款与执法并行[EB/OL].[2015-09-10].http://www.cs.com.cn/ssgs/bxgs/201412/, , t20141227_4603009.html..

44大数据网住41起违法案件[N].钱江晚报, 2014-12-26.

55蒋洁, 田思路, 刘晓源.气候变化与江苏畜牧业发展的交互关系[J].改革与开放, 2014 (19) .

661PB=1024TB, 1TB=1024GB.

77中国天气网.国家部委首次采用民营科技公司提供的云计算和大数据服务.[EB/OL].[2015-09-10].http://www.weather.com.cn/index/2014/05/qxxw/2126168.shtml.2014-05-27.

88蒋洁.大数据预测的伦理困境与出路[J].图书与情报, 2014 (5) .

99钮敏.《综合减灾法》的立法构想[J].阅江学刊, 2012 (4) .

气象数据的价值空间 篇8

你是否习惯每天出门前看一眼天气预报?紫外线指数、穿衣指数、洗车指数、空气指数,这些气象数据不仅能够帮助人们更好地安排自己的出行,还能够对我们的生活产生更大的影响。

在德国,气温超过22摄氏度,啤酒开始热销,气温再每上升1摄氏度,大瓶装的啤酒每天会多销230万瓶,德国气象公司由此开发了相关的“啤酒指数”。

国内某机场每年11月到次年1月,随时会出现浓雾天气,导致大批旅客滞留。春运时分,机场大量航班取消,甚至临时性关闭,导致候机楼内滞留旅客过万。尽管机场方面不承认在选址时没有参考气象部门的意见,但这个说法饱受质疑。

在河南郑州,建于1997年的新郑国际机场,也一直饱受争议。新郑机场位于雾区,每年少则十多天多则一个多月,飞机因为大雾无法正常飞行。据媒体报道时任郑州新郑国际机场管理公司董事长兼总经理的岳文海曾公开承认,“气候对工程影响的一个负面例子,就是我们的郑州新郑国际机场。”

气象和我们的生活息息相关,小到天气预报,大到防灾减灾、农业生产,都离不开气象数据的支持。但目前我国关于气象数据的应用,还处于摸索期。

免费数据服务民生

目前,西南地区大部冬小麦、油菜已进入成熟收获期;5月下旬至6月上旬,江汉、黄淮、华北等主要夏粮产区将陆续“开镰”5月26日至28日,江汉、江淮,江南中北部及西南地区东部等地将出现中到大雨、局地暴雨,对小麦和油菜收晒产生不利影响。

这是来自2016年全国夏收夏种专题气象服务的数据。国家气象中心农业气象中心正研级高级工程师延昊表示,根据气象条件分析,5月下旬至6月中旬,是我国夏粮收获关键期。“目前来看,北方冬麦区大部墒情适宜、光照充足利于冬小麦结实灌浆。但河北中部、河南西部和陕西中部等地无明显降水,墒情偏差,对小麦结实充分灌浆不利。至于江淮、江汉地区,主要是降水偏多不利于小麦、油菜及时收晒。”

在国务院印发的《促进大数据发展行动纲要》中提出,2018年年底前,将建成国家政府数据统一开放平台,率先在科技、气象、海洋等重要领域实现公共数据资源合理适度向社会开放,带动社会公众开展大数据增值性、公益性开发和创新应用,充分释放数据红利,激发大众创业、万众创新活力。

虽然位列率先开放的公共数据之一,其实气象部门的数据一直是对公众免费开放的。据国家气象中心副总工程师沈文海介绍,气象部门是公益部门,气象数据原则上属于社会和政府。只要在中国气象数据网注册后,提出需求,所需要的气象数据就会被无偿整理并提供给你。这些数据不仅免费,而且是气象部门质量最高的专业气象数据。

根据世界气象组织规定,各国的观测数据和预报数据都要进行共享,中国国家气象中心的数据也不例外。沈文海表示,登录气象数据网的90%都是研究型用户,需要的大部分数据是实时数据,或者产品数据,对于预报数据则相对不感兴趣。

此外,目前全球有很多气象中心都提供免费的预报数据,很多企业使用这些数据进行商业应用,如墨迹天气、彩云天气等受欢迎的天气预报应用软件都是如此,对于国家气象中心提供的数据则作为订正使用。

气象数据是公益数据,不适合从事经营性服务。对大众化服务完全免费,但可以针对企业的特殊需求进行定制化服务。比如企业盖楼选址时对地址进行气候条件分析,或者为空调生产厂家提供对夏天的气候温度分析,借助准确的气象数据,空调厂家就可以更准确、更迅速地安排库存,提早安排生产。

气象数据的淘宝模式

在芝加哥气温高于平常温度的第一天,空调销量会出现上涨,而在闷热的亚特兰大,人们则是在比平常热的天气到来两天之后才去购买空调。

在西方,除了由各国政府提供免费的公共气象服务外,商业气象服务发展成熟。在中国,气象服务一直由政府气象部门包办,在商业气象领域迟迟未能形成规模和产业。

比如被IBM以20亿美元收购的天气预测公司WeatherChannel曾与沃尔玛合作,将其销售数据、订单等信息与天气数据结合分析,发现特定的天气与特定物品的销量有对应关系。如当气温低于27摄氏度,且阳光明媚的时候,购买蓝莓等浆果类产品的概率高达80%,零售商把果酱摆在显眼处,销量果真大幅提升。

在国外有上百类的气象产品面向各个行业,产生了巨大的社会效益和经济效益。而在国内,目前能看到的只有一两类气象应用。如何将气象服务社会化,提升气象产业的价值空间成为问题。

深圳作为全国首个气象数据开放试点城市,深圳市气象局已联合国家超级计算深圳中心、阿里云、深圳创客联盟等机构,面向全社会征集主题为“乐享气象”的互联网应用创意和产品。依托“互联网+”服务模式,邀请社会各界共同参与气象公有云的云端资源开发,创造具有个性化气象服务的互联网应用产品,推动大数据在气象中的应用创新,促进社会各行业数据与气象数据融合创新,开展个性化服务、提升用户体验。

气象雷达数据压缩方法分析 篇9

1 气象雷达数据压缩方法及实现细节

1.1 预压缩算法[2]

在持续的天气观测过程中, 大部分时间都是没有强对流天气的, 反映在数值上就是0。如果能在数据生成时, 将0压缩起来, 可大大提高效率。这种算法称为预压缩算法[2]。

一个采用了预压缩算法的数据段结构如下:

[压缩码6]→<数据>→[压缩码4]→[压缩码6]→<数据>...→[压缩码4]→[压缩码2]

1.2 无损压缩算法

很多成熟的无损压缩算法, 如Huffman编码、算术编码、Lz系列算法等[3], 可适用于任何数据。但气象雷达数据还有其自身特点, 如果能利用这些特点开发算法, 压缩基础数据, 无疑可提高数据压缩率。如粒子分类HCLASS数据, 仅包含6种值:冰雹、霰、雪、湿雪、雨及非气象, 缺占用8bit或16bit空间。因此, 可以考虑用一个字节表达2个HCLASS数据:对于8Bit数据, 处理后的HCLASS数据大小可直接减半;对于16Bit数据, 其数据大小仅为处理前的1/4。

1.3 有损压缩算法

有损压缩算法依据用户需求对数据进行裁剪, 可在满足用户需求的基础上极大地压缩数据, 其分为: (1) 数据类型的裁剪; (2) 数据长度的裁剪; (3) 数据精度的裁剪。

1.3.1 数据类型的裁剪

依据不同用户需求, 仅向用户发送或保存对应种类的数据。

1.3.2 数据长度的裁剪

(1) 先依据显示距离裁剪数据

设用户需要显示的距离为L m, 库长为N m, 数据库数为Bin Data, 则用户需要的库数Bin Num的计算方法为:

L/N为计算出的用户需要的库数, 但其值可能非整数, 故用Floor函数向上取整。

若Floor (L/N) 大于数据库数Bin Data, 则用户需要的库数Bin Num就取数据库数Bin Data;否则, 取Floor (L/N) 的值。

(2) 再依据显示分辨率裁剪数据

设显示区域分辨率为y×y, 则一个径向数据显示的像素数x为ceil (y/2) 。若x大于Bin Num, 说明显示像素数大于数据库数, 将Bin Num个库不裁剪全部发给用户。若x小于Bin Num, 说明显示像素数小于数据库数, 则需要对库数进行裁剪, 以获得每个显示像素对应的数据值。方法如下:

设i为第i个显示像素 (1<i<x) , 则i对应的数据距离L_i应为显示距离L除以像素数x, 再乘以像素序号i, 即:

像素i对应的库Bin_i为i对应的数据距离除以库长N, 即:

Bin_i为像素i对应的库序号, 其值可能为非整数, 也就是落在两个库之间。像素i对应的数据值具体取值决定于用户需求, 如下表所示。

方法1、3为直接取值。现以取相邻的两个库的值进行线性插值为例, 来说明方法2:

设离Bin_i库最近的两个库由小到大为Bin_1、Bin_2 (Bin_2-Bin1=1) , 对应的值分别为Value1、Value2, 则Bin_i对应的值Valuei为:

参与插值的库越多, 计算方法也越复杂, 所得结果也越趋近于真实值。

通过显示距离和显示分辨率裁剪数据, 能够在满足用户显示需求的基础上压缩数据。

1.3.3 数据精度的裁剪

某型双偏振气象雷达可产生8Bit或16Bit两种大小的数据。16Bit数据表达范围更广, 精度更高。但8Bit数据已经能够满足日常非科研需求。将16Bit数据转换成8Bit数据进行存储, 可直接减少一半体积。

1.4 一种综合的气象压缩方法

方法流程如下。

第一, 原始数据经过预压缩, 压缩掉其中连续的0数据, 可在信处完成。

第二, 依据用户需求, 对数据进行有损压缩。依据用户数据类型需求, 对数据进行类型裁剪;依据用户显示需求, 对数据进行长度裁剪;依据用户精度需求, 对数据进行精度裁剪。

对裁剪后的数据应用无损压缩算法, 生成压缩后的数据。

2 测试

测试数据位宽为16Bit, 100Km, 显示分辨率为600×600, 无损压缩算法基于LZW算法。提供晴空及对流两种天气状况数据 (数据1为晴空数据, 数据2为对流天气数据) , 压缩结果如下表所示。

应用了本套压缩算法的数据最高可达到0.03%的压缩率, 即使在天气情况复杂、数据保存全面的情况下, 也能达到5.50%的压缩率, 极大地节约了硬盘空间及网络资源。

3 结语

本文介绍了一种气象雷达数据压缩方法, 包含预压缩算法、有损压缩算法及无损压缩算法。以某型双偏振雷达数据为例, 说明压缩方法满足应用要求, 符合预期。本压缩方法已应用于某型双偏振天气雷达数据存储及传输中, 极大地减少了硬盘及网络资源占用。

摘要:为解决气象雷达数据量过大, 不利于存储和传输的问题, 提出了一种综合气象雷达数据压缩方法, 由多种数据压缩算法构成。首先, 分析了气象雷达的数据种类与特点, 介绍了一种预压缩算法;然后, 依据用户实际需求, 提出了无损数据压缩和有损数据压缩两类压缩算法, 并对每一类压缩算法进行详细描述, 最后用实际数据验证本文提出的压缩算法效果。

关键词:气象雷达,数据压缩,压缩算法

参考文献

[1]VAISALA.IRIS Programmer’s Manual[M].Bei Jing:Vaisala, Inc, 2007 (10) .

[2]许海英.气象雷达原始回波数据无损压缩算法研究[D].成都:电子科技大学, 2007.

地面气象观测数据处理探究 篇10

关键词:地面气象观测,信息化,数据处理

地面气象观测是气象观测重要组成部分, 它为天气预报、气候分析、气象信息等提供重要的依据。而在地面气象观测中自动站地面观测数据处理更是气象观测的核心内容, 因此提高数据处理能力对于提高地面观测数据的准确性, 为气象预报提供准确信息具有重大的意义。

1 A文件的审核疑误信息处理

1.1 A文件的计算机审核疑误信息处理

通常计算机审核数据主要是对数据的格式、记录进行审核, 对不合理、矛盾、记录不正常的数据提出疑误信息, 审核与修改, 成为准确的数据文件。

(1) 文件正点缺测疑误信息处理:根据气象测报的有关规定可知, 正点数据缺测的情况下, 可以有用正点前后10min内接近正点的数据记录来代替正点数据。首先如果正点前10min中内记录的有观测数据, 就作为正点的数据最好记录[1];如果缺测了正点前10min的数据, 就用正点后10min的数据代替。或者出现存在分钟数据缺测的情况, 可以采用人工进行补测或平行观测数据来替代正点数据。在人工观测条件不足的情况下, 还可以对缺测的气温、湿度、气压等进行内插, 风、降水除外, 补齐缺测的正点数据。

(2) 台站参数疑误信息处理:作为计算机数据格式的审核, 主要是针对A文件的台站参数数据进行的。台站参数的错误主要表现在文件的首部参数数据同台站参数数据表不一致, 要对这一现象进行有效处理, 必须完成几项工作。首先要对文件的首部参数数据进行检测, 结果显示为整月数据都存在缺测情况。而作为台站参数数据, 对于冻土观测进行了规定, 使得二者数据间存在一定的矛盾。对矛盾出现原因进行深究就会发现, 将次月进行冻土观测的数据B文件转换成了A文件, 可是台站参数却并未对冻土项目进行观测, 因此出现矛盾导致数据不一致。要解决这类问题, 应当认真检查台站参数, 勾选工作项目, 当然在进行文件数据转换时也要格外关注任务要求, 确保台站参数的准确性。

(3) 时间不相符疑误信息处理:在进行疑误信息检查过程中, 经常会出现日期不相符的情况, 例如原文件上的日期为2012/06/25, 在记录数据上却显示为2012/06/24[2], 这些细小的数据错误极有可能会对整个气象测报数据产生严重的影响, 因此必须要及时进行改正, 同时也必须对观测记录人员进项严格要求, 保持数据的一致正确性。

(4) 降水量与降水现象不一致疑误信息处理:在A文件中存在的降水量数据问题主要是出现降水野值, 出现这一状况的原因来自于观测传感器翻斗滞后或者浓雾等湿度很大的天气。解决办法首先进行判断是否属于有效降水量, 不属于降水的一律予以删除;是降水量, 对降水量滞后进行准确判定, 如果滞后时间大于2h就要及时删除这一数据, 反之就应当将降水量进行累加到降水停止的最后一分钟。在冬季, 固态降水降而不化, 对雨量筒加盖, 这期间的降水量按缺测处理, 并在备注栏进行备注。

1.2 A文件的人工审核疑误信息处理

(1) 云、天气现象的记录数据分析及审核要点:从A文件人工审核疑误信息发现数据中有几处常见错误。一是关于云的记录有云量错误、云状与其他气象情况不相匹配;二是对于天气现象中雷、雨、雾、雪的记录错误或矛盾等错误[3]。其实对于这些错误, 可以作出相应的应对措施。首先是云的观测记录。对于云的记录要充分熟悉了解云的定义、成因、特点及常伴的天气现象等基础知识, 还要随时关注云状的分布、演变及与雷、雨、雪等天气现象配合是否相符, 这样才能做好对于云的观测记录。

(2) 质量控制码疑误信息处理:按照《地面气象观测数据文件格式》的规定, 气象质量的控制码主要采用3位整数来代替, 国家级、省级、台站级分别由个位、十位、百位来区分[4]。而0代表正确数据, 9表示未作质量控制, 在气象竞赛中009表示台站与省级的质量数据是正确的, 而国家级的还未作质量控制。

2 J文件的审核疑误信息处理

2.1 分钟数据缺测的疑误信息处理

对J文件审核时, 根据全国统一的数据格式和规定来处理J文件的疑误信息。例如系统中显示数据信息是5日20:00气温缺测, 在A文件中的正点数据是14.4℃, 按照相关文件的规定, 自动站的小时正点数据与分钟数据存在差异出入时, 确认分钟数据有问题时, 采用正点值数据来代替错误数据或者分钟数据也可缺测。因此, 可用正点数据14.4℃代替20:00的分钟数据。

2.2 分钟数据异常跳变值的疑误信息处理

计算机审核的J文件从数据上显示出, 分钟间所得数据差异大, 如图1得知2 5日9:5 9本站测试气压为1 0 1 7 7 P a, 1 0:0 0气压为10197Pa, 10:01是10177Pa, 10:00所测气压值同前一分钟与后一分钟所测数值相差2Pa, 呈现明显的数据跳变现象, 记录数据不正常。比照《地面气象观测规范》的规章, 这一数据应当使用分钟数据内插代替为10177Pa。 (如表1)

3 结语

处理疑误气象数据对于观测数据的准确性具有重大的意义, 为保证观测数据的代表性、连续性、准确性, 我们必须认认真真对待每一条疑误信息, 认真判断每一个观测数据, 为气象预报和服务提供强有力的数据支持。在我国气象事业的发展中不断的学习和总结经验, 推进技术的改革和更新, 为气象事业带来新的契机。

参考文献

[1]张明阳.气象测报地面信息化数据处理技术[J].内蒙古:网络导报.在线教育, 2012 (22) :57.

[2]宋文英, 吴明江, 孙华.气象测报地面信息化数据处理技术[J].北京:气象科技, 2011, 39 (5) :666-669.

[3]黄宝峰.气象测报地面信息化数据处理技术[J].北京:农业现象, 2012 (27) :78-79.

上一篇:分层存储下一篇:消防安全工程