云舆情监测系统

2024-05-02

云舆情监测系统(精选8篇)

篇1:云舆情监测系统

云舆情监测系统

随着网络日益的发达,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一,网络舆情的重要性凸显出来。网络舆论热点层出不穷,各种突发性事件都是通过互联网第一时间扩大传播。网络舆情信息主要来源是新闻评论、bbs、博客等,这些成为政府了解社情民意的直接渠道,也是新形势下政府的重要舆论阵地。因此,网络舆论一旦被错误地控制和引导,将成为影响社会稳定的重大隐患。

舆情监测系统在这样的环境下产生,它可以通过采集各大门户网站信息内容来知晓最新的社情民意,民众的舆论导向。

系统工作流程

采集新闻、论坛网站内容→通过监测系统网站分析、舆情分析第一时间发现敏感、热点话题→由专家学者、评论员或是新闻发言人分析报告、进行及时的舆论引导。

系统介绍

系统对所需信息进行过滤、分析、聚合和数据挖掘,以传播力和影响力作为分析指标,及时发现信息,分析并追踪传播及演变过程,并对指定重点敏感事件进行专项监测与分析。

云舆情监测系统提供对互联网信息(新闻、论坛、博客、贴吧、微博客等)实时采集、内容提取及排重;并且对获取的信息进行全面检索、主题检测、话题聚焦、相关信息推荐;按需求定制主题分类;为舆情研判提供时间趋势、传播路径、话题演化等工具,统计舆情信息,生成舆情报告。

全面实时监测网络舆情

采用定向采集为主、全网监控为辅的方式,自动对新闻(新闻跟帖、新闻评论、RSS)、论坛(回帖、点击数、回复数等)、博客、贴吧、微博客等网络媒体进行全面实时监测。智能处理舆情信息

对互联网舆情信息自动提取关键词、摘要、分类、聚类、主题检测、关联分析、情感分析。

完善的舆情监控业务

自动监测敏感信息,自动聚焦热点话题,自动追踪潜在舆情事件。可预置审核流程,逐级审核、上报舆情信息。自动探测页面删除状态,统计研判网络舆情,生成可定制舆情报告。提供对本地网站的属地化管理,支持违规网站信息统计管理。

行业特色功能

支持实现对网络舆论导向的全面掌控、效果评估。

篇2:云舆情监测系统

功能和服务

舆情监测系统的数据是经过清洗、过滤、抽取、分析和挖掘的,舆情监测系统的主要功能并不只是提供简单的舆情信息搜索,而是具有全网搜索、定向监测、自动发现,自动预警,趋势分析,自动分类等功能,具有丰富的统计结果。

而互联网搜索引擎只能提供相关的搜索服务,要靠人工主动去搜索,搜索结果出于商业利益的驱动,掺杂很多的不合理的因素,准确性、可用性不强。全面性和及时性方面完全不能满足舆情监控的需要。

采集范围和深度

舆情监测系统所采集的信息范围主要是定向的,是用户关注的特定区域、特定领域的网站,针对这些网站可以做到全面采集和精准采集。虽然baidu/google等互联网搜索虽然采集范围广泛,但是针对具体的舆情载体,采集深度不够,采集不全面。

目前搜索引擎的数据采集采用的是广度优先策略,会根据url地址进行重复采集的控制。对于论坛、贴吧等舆情载体不会按照主贴、跟帖、翻页的方式进行精确采集,采集深度满足不了舆情监控应用的需要。

西盈网络信息雷达系统专门针对西盈网络舆情监测(监控)系统和西盈竞争情报系统开发而成的,深度挖掘技术超越了google等以智能化和广度见长的搜索引擎爬虫系统。

更新速度

舆情监测系统用户可以自己设置采集的更新频率,对于舆情高发的载体网站可以做到分钟级的更新,这一点互联网搜索引擎是无法达到的。互联网搜索引擎的采集周期一般都是数天或者数周,甚至会出现漏采,无法采集的情况。

采集的网站种类

舆情监测系统可以做到对新闻,论坛,博客,贴吧等舆情载体的全面采集,尤其是针对论坛(包括跟帖),贴吧等这些“草根”网站(这些媒体往往是舆情高发区域),实现全面、迅速的舆情采集的同时,可以实时更新信息的点击数,回复数,转载数等等。而互联网搜索引擎大多是采集新闻网站,而对于论坛,贴吧、博客等等往往无能为力,更无法提供舆情分析需要的统计数据。采集数据的有效性

互联网搜索引擎所采集的数据,往往是没有经过过滤的,甚至充斥着大量的广告等垃圾信息。这些信息往往可以作为舆情的并不多。而舆情监测系统所采集的数据全部都是有效的,和用户相关的,真正称之为舆情的数据。

舆情信息储存和利用

舆情监测系统的信息是储存在用户本地的,可以进行归档,分析利用以及作为应用系统的数据来源,但是针对互联网搜索引擎中的数据,用户没有任何干预的手段,只能通过其固定的检索服务进行访问。

相关信息的数量

百度和谷歌等互联网搜索引擎虽然拥有绝对多的数据量,但是对于和用户相关的舆情信息,由于其没有定向采集全面,深度等优势,其收录数量就会大大低于舆情监测系统。另外,舆情监测系统集成了互联网搜索引擎的元搜索功能。可以整合多个搜索引擎的搜索数据。

总结

成功的舆情监测系统是主动告知用户google等搜索引擎中或收录或没有收录的与“我”相关的舆情信息。重大事件及时预警,并提供量化的统计分析数据助力舆情分析,通过自动生成舆情报告等方式辅助舆情工作。

网络舆情监控系统解决方案

方案背景

据中国互联网信息中心调查,截至2009年12月31日,中国网民达到3.84亿人,全国互联网普及率28.9%,手机网民规模达到2.33亿。网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源于新闻评论、BBS、博客、聚合新闻(RSS),网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。

由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过BBS论坛、博客、新闻跟贴/转贴等渠道来表达观点传播思想。如果引导不善,负面网络舆情将对社会公共安全形成威胁。对相关部门来说,加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。对企业来说,准确掌握产品和市场情况,监控竞争对手和行业动态,是企业市场、行销决策的重要支撑。方案内容

系统介绍

易观网络舆情监控系统,整合互联网信息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测聚焦,倾向性研判等,实现用户的网络舆情监测和新闻主题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。

系统结构图

系统组网图

系统功能

1)深度多渠道网络信息采集,为用户提供监控源配置功能,可以对监控源的优先级进行配置调整。

2)完善的信息预处理机制:超链分析,编码识别,URL去重,锚文本处理,垃圾信息过滤,内容去重,关键字抽取,正文抽取等。

3)强大的索引分词机制,对舆情信息实施双重过滤,具有自动分类、自动聚类、相似性排重功能,系统能够自动完成热点发现。

4)热点舆情:系统自动识别出热点焦点事件,以舆情形式分新闻、论坛和博客三种类别呈现。及时发现网络热点信息。

5)专题追踪:生成专题报道对网络话题进行专题化的侦测和追踪,如两会、奥运会,对专题话题形成系统性的掌握和监控。

6)分站/分类浏览:对系统中舆情可以按网站和不同的分类进行浏览。同时可以对显示的舆情进行操作(设置影响、入简报、专题、收藏、删除)。

7)趋势分析:来源载体/站点分布、单个/多个关键词热度曲线图、主题/关键词热度的整体趋势、文章转载量日均/总体趋势分析、舆情信息的地域分布、网民检索行为分析。

8)突发事件分析:对突发事件进行预警,跨时间、跨空间综合分析,获知事件发生全貌。9)多种舆情检索方式:可按网站、类别、时间段、关键词等条件进行专项化全文检索,并可生成查询时间和次数、关键词查询频率等查询统计数据。另外还将结合检索关键词,随时补充全文检索库中的关键词,有机结合个人操作习惯,可在检索结果中进行二次检索。

10)舆情统计报告:根据舆情分析引擎处理后生成报告,用户可通过浏览器浏览,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。

11)统计报表:系统生成各种形式的报表。报表包括图表和数据表格,图表包括饼图、折线图、直方图等,如总量图、趋势图等;数据表格是对舆情信息的数理统计,以数字的形式记录各项舆情数据。另外用户可以自己需求定制报表模版,比如日报、周报、月报等。

12)舆情报警系统:对突发事件、涉及内容安全的敏感话题及时发现并报警,系统提供多种报警方式。

系统特点

1)精准全面的网络舆情采集,能够对论坛、博客、新闻评论等内容进行全面、精确的采集和及时的更新,为舆情分析提供强有力的数据保障。

2)多维度实时监测、过滤网络舆情信息,采集到本地的文章会自动标注并分析,具有趋势图直观展现。

3)专业的舆情办公平台,用户可以根据实际工作需要,将需要关注的信息定制到系统,用户可以随时调出自己需要的资料,直接追踪关注事件的传播源头,把握传播动态,系统自动生成舆情报告,节省用户人力。

4)专业的舆情分析顾问服务,基于易观深厚的互联网行业背景以及对网络舆情深刻的认识,协助用户进行舆情监控设计,对用户背景、行业特征及需求做深度调研,给出最适合用户的舆情监控方案。

5)丰富的舆情项目开发实施经验,有专业的舆情实施队伍和资源,提供从舆情监测规划、舆情系统选型、舆情项目实施、舆情工作开展到舆情干预的一体化的舆情系统解决方案。

6)拥有成熟的舆情产品,可以根据用户要求定制,需求牵引及时,在保证效果的同时提供良好的用户体验。

商业价值

帮助客户全面、及时、精准、专业、高效获取网络舆情并为己所用;

第一时间获取客户相关的正负面新闻、泄密信息、领导相关报道、近期舆论热点等,健全危机事件预警机制防患于未然;

协助企业客户准确掌握产品和市场情况,监控竞争对手和行业动态,为企业市场、行销决策提供支持支撑服务。

附件1:

“网络游戏未成年人家长监护工程”实施方案

“网络游戏未成年人家长监护工程”是一项在政府部门、人民团体指导下,社会和家长参与,网络游戏经营单位具体实施的社会行动,旨在加强家长对未成年人参与网络游戏的监护,引导未成年人健康、绿色地参与网络游戏,构建和谐家庭关系。该工程自2011年3月1日起全面实施。

一、“家长监护工程”的主要内容

(一)网络游戏经营单位建立专门的服务页面,公布专线咨询电话,开通专门受理渠道,介绍受理方式。

(二)家长需要了解、引导、控制孩子游戏活动的,由家长向网络游戏经营单位提供合法的监护人资质证明、游戏名称账号以及限制措施等信息。限制措施包括:限制每天或每周玩游戏的时间长度,限制玩游戏的时间段,或者完全禁止。

(三)网络游戏经营单位按照家长要求对未成年人的账号采取限制措施,并持续跟踪观察,及时反馈该账号的活动,为家长提供必要协助,制止或限制未成年人的不当游戏行为。

二、实施“家长监护工程”的具体要求

各网络游戏经营单位要做到“四有”,即有专人负责、有专线电话、有专区设置、有季度报告。

(一)专人负责

1.要指定专门的负责人,并将指定负责人及联络方式向所在地省级文化行政部门备案;

2.培训专门服务人员对“家长监护工程”提供专业咨询解答和服务支持;帮助家长了解被监护人游戏行为,提供家长与被监护人进行沟通的建议;

3.服务人员要持续跟踪每个申请,及时与家长沟通情况,反馈该账号的活动,了解未成年人参与游戏的状况,为家长提供必要协助。

(二)专线电话

1.开通单独的专线服务电话(区别于普通服务热线),提供咨询解答和受理服务;

2.在原有的客服电话中提供转接到专线服务电话的链接;

3.要提供多种服务渠道,确保家长可选择最便利的方式提出服务申请(传真、网络申请、电子邮件、信函邮寄、上门申请等)。

(三)专区设置

1.在网站设置“家长监护工程”专区,在主要运营产品网站的显著位置设置进入该工程页面的链接方式; 2.专区要有对工程情况、申请条件、处理流程、可采取的监护结果等事项的说明;

3.要在专区显著位置设置监护服务申请入口、受理方式(家长监护专线);

4.专区要预设好问题和答案,或展示虚拟案例操作流程及结果,供家长阅览和参考;

5.专区要设置服务申请进度查询;

6.专区要登载《未成年人健康参与网络游戏提示》(附件2),引导未成年人健康地玩游戏、玩健康的游戏。

(四)季度报告

各网络游戏经营单位要在每季度末向所在地省级文化行政部门提交“家长监护工程”情况报告。报告内容包括咨询数量、申请数量、受理与完成情况、重点案例分析、疑难问题说明,对于工程实施过程中出现的问题提出意见或建议。

三、强化信息公开和社会监督

篇3:云舆情监测系统

随着互联网技术的飞速发展, Web2.0应用, 如论坛、博客、微博、微信等逐渐成为信息表达的主要渠道, 这些信息有别于传统的专业媒体信息发布, 它是由大众主导的信息传播方式, 是信息从“点到面“到“点到点” 传播方式的转化。自媒体使用者在接收信息的同时也在传播信息 , 方便快捷 ,互动好, 信息能以最快的速度推送给受众, 受众也能给予最快的反馈。自媒体 (We Media) 时代已经到来。在大学校园里, 无论教室、食堂还是宿舍, 大学生都在使用自媒体进行交流, 自媒体给大学生搭建了广泛的社交平台。通过这个平台, 大学生可以充分展示自己的才华、个性, 同时自媒体也给大学生提供了关注社会热点、讨论时事政策的平台。

2 舆情及高校舆情的内涵

舆情是公众对社会的态度、观点的集合, 从政治学角度来说即是一种政治倾向和态度[1]。传统的舆情来自于民众反馈信息或民意调研, 随着网络技术的进步, 网络论坛 、贴吧、微博等逐渐成为人们交流的重要渠道, 由此产生了网络舆情。有学者认为, 网络舆情指在以互联网为主的网络上传播的各种网民对社会问题的情绪、态度及意见的集合[2]。网络舆情拥有现实舆情一切特征, 区别在于传播媒体的不同。网络舆情由以下要素组成:(1) 主体, 是指网络舆情的参与者, 包括接收者和传播者, 具体可分为普通网民、意见领袖、网络推手和五毛党 (网络水军) 等;(2) 客体, 即舆情讨论对象,即话题, 一般为社会热点事件。(3) 内容, 代表了舆情参与者对舆情话题的态度、倾向、情绪, 内容的有效识别为危机公关提供决策支持。(4) 空间, 即提供舆情讨论和演化的场所, 包括论坛、微博、微信等信息载体。(5) 强度, 网络舆情强度检测来自于舆情主体发表言论的情感倾向、 措辞等。(6) 热度 , 是网民关注的程度 , 来自于网民的点击 、回复、转载等[3]。

在校大学生拥有强烈的求知欲和责任感, 是一个思想非常活跃的群体, 对社会热点事件有更高的敏感度, 特别是事关国家民族荣辱、社会不公平现象更会引起他们的强烈关注。目前高校舆情内容主要包括:(1) 国内外热点, 如钓鱼岛问题;(2) 学校突发事件, 如灾难事故等; (3) 与学生自身利益有关问题, 如学校服务质量等[3]。同时由于大学生具有勇于表达、彰显自我、富有激情等特点, 但他们缺乏丰富的社会经验, 世界观、人生观、价值观仍在形成之中, 容易随波逐流、轻信他人。大学生接受新事物能力较强, 当代的大学生已习惯于使用自媒体交流信息, 一旦有事件发生, 他们可通过BBS、微博、微 信等途径 快速进行 信息的传 播、讨论 ,使得高校网络舆情具有突发性、及时性、盲从性 、情绪化 、群体性等特点[4]。

3 网络舆情系统功能

负面舆情会影响高校的稳定发展, 如何对高校舆情进行监测, 快速准确分析舆情, 及时干预和引导舆情走向, 是舆情分析系统需要完成的任务。典型的舆情分析系统具有以下主要功能:(1) 可根据话题点击数、回复量、转载量等识别出指定时间段的热点话题;(2) 对参与话题的信息进行倾向性与趋势分析, 判别其发展演化趋势;(3) 根据舆情分析系统生成舆情报告, 提供决策支持。根据网络舆情系统功能及舆情生命周期过程, 高校网络舆情系统结构如图1所示。

网络舆情分析系统按照流程可分为4个阶段 , 分别是 :网络舆情信息采集与存储、舆情信息预处理、舆情信息分析与预测、生成舆情分析结果。 其中网络舆情信息采集是舆情分析系统的基础和数据来源, 其通过相关信息采集技术 (如元搜索、微博Open API等) 在校园网 (BBS、微博、微信等)舆情聚集区域收集各种信息。这些数据数量巨大, 并且很多数据非结构化 , 因此采用Hadoop框架实现 分布式存 储与计算。舆情信息预处理是对舆情采集系统获取的数据进行编码、去重、 去噪、分词、摘要等处理, 并提供给舆情信息分析系统做下一步处理。舆情信息分析与预测系统是本系统的最重要部分, 主要完成话题检测与追踪、热点话题识 别并预警 、智能预测等。舆情结果分析阶段可根据用户要求展示各种话题诞生、发展、消亡的整个周期。

4 基于 Hadoop 的高校舆情系统实现

与传统舆情分析相比, 自媒体时代 的数据量 非常庞大 ,数据类型繁多, 数据可分为结构化数据、半结构化数据和非结构化数据, 并且非结构化数据占比较高, 传统解决方案效率较低, 同时自媒体时代舆情挖掘对时效性要求更高, 因此采用大数据技术是很好的选择。

目前大数据相关技术应用最成熟的是Apache基金会开发的Hadoop分布式架 构。其核 心机制是HDFS和Map Reduce.HDFS提供了海量数据的存储 , Map Reduce提供了对数据的计算[5]。通过Hadoop技术 , 可以将多台普通的或低性能的服务器组成分布式服务器集群, 以提供大数据量、高性能的存储和处理能力。相较传统的舆情分析系统, Hadoop可将数据采集改进为分布式采集, 可大幅提升数据采集效率; Hadoop的HDFS文件系统可跨机器存储海量数据 , 降低了对硬件和软件的要求, 为用户节省了使用成本。

实验硬件 : 8台PC机 , CPU为Intel Core i3, 2.4GHz,内存为4GB, 硬盘大小为500GB, 网络环境为1000MB以太网。实验软件: Ubuntu10.10操作系统, My Eclipse集成开发环 境 , My SQL5.1, Hadoop 0.20.205.0, Nutch1.4。Linux操作系统非常适用于Hadoop平台的搭建和开发部署, 可以保证系统的稳定性和安全性。My Eclipse是Java的集成开发环境, 可以方便地开发出Web工程, 集成了Tomcat、Spring、Hibernate、Struts2、j Unit等框架。搭建的Hadoop集群有8台PC,1台作为master部署了Name Node和Job Tracker, 其余7台作为slave节点部署Data Node和Task Tracker。

数据采集使用元搜索引擎e Tools对高校相关论坛、官方微博、人气较高微博等URL进行搜索, 得到URL列表, 使用Nutch爬虫程序抓取网页并存储 ; 数据预处理模块采用Tika进行数据清洗与去噪, 再利用Lucene建立排序索引, 并通过中科院汉语词法分析系统ICTCLAS系统进行分词和词性标注处理。数据分析与预测模块将预处理模块的结果转换为可操作的文本向量, 并利用TF-IDF算法, 计算项量权重, 得到文本特征向量, 并运用聚类算法进行话题追踪, 发现敏感话题并预警。

5 结语

高校舆情是社会舆情的晴雨表, 做好高校舆情分析工作,保障高校安全稳定的发展, 是高等教育一项非常重要的工作。当今时代, 微博、微信等自媒体在大学校园的普遍使用, 使得自媒体舆情成为高校网络舆情的一种重要形式, 同时传统的舆情发现系统在面向自媒体海量数据显示出成本过高、扩展性差等缺陷。因此提出了一个基于Hadoop的高校舆情分析系统, 能够对采集到的海量数据进行分析处理, 实现对敏感、热点舆情话题的发现、追踪、预警, 把握舆情总体态势, 并产生舆情分析报告, 给舆情管理决策提供支持。

摘要:互联网技术的进步推进了自媒体时代的到来,给高校舆情监管带来了新的挑战。对高校舆情现状及特点进行分析,提出网络舆情系统结构模型,并使用Hadoop技术构建高校网络舆情系统对海量数据进行分析,实现热点话题的发现追踪。

篇4:云舆情监测系统

舆情监测系统的设计

舆情监测系统简要定义为:依托专用服务器群,利用搜索引擎、网络爬虫、语音分析等数据抓取技术,对已经添加有界站点的报刊、网站、论坛、微博、微信以及电视节目等各种媒体进行实时监测,将客户所关注的信息通过关键词或主题分类提取、梳理,形成预警信息和分析报告,并通过短信、电话、电子邮件等方式推送给相关人员,为舆情处置和领导层决策提供依据和参考。

舆情监测系统主要功能包括:

(1)可视化终端。客户可通过终端更改监测状态,查看预警信息、重要事件及重要新闻。

(2)舆情预警。智能搜索与人工过滤相结合,及时发现客户关注的负面敏感信息,通过短信、电话、电子邮件等多种方式快速通知相关人员。出现热点事件时,立即在系统内创建预警事件。

(3)重要事件。发生可能对客户产生重大影响的事件时,创建事件并添加关键字进行持续监测。

(4)重要新闻。客户可手动设置重点关注的媒体,当监测内容匹配后,立即在系统相关模块内显示或进行预警。

(5)舆情监测。通过预先设置的主题、关键字、媒体范围,自动将舆情信息进行匹配分类。

(6)舆情搜索。通过设置日期、关键字、排除词等条件,精准定位客户关注的新闻或媒体,提炼具体内容生成摘要。

(7)舆情日报。根据客户关注的焦点,收集整理每日相关舆情,生成日报后发送到指定终端。

(8)研究报告。专业舆情分析师定期(周、月、季、年)分析整理客户企业舆情走势,生成总结和研究性报告,提出有针对性的意见建议。

理想的舆情监测系统,应该具有良好的热点识别能力、倾向性分析能力、信息跟踪能力和突发事件反应能力。此外,舆情监测系统还应具备易于操作、友好交互的用户界面,包括可视化的WEB终端、跨多平台移动客户端等。

舆情监测系统的实施

以某中央企业自行建设舆情监测系统为例:硬件方面需购置专用服务器若干、新添专用宽带线路、设置独立机房;软件方面需组建3~4人的软件工程师团队,系统开发周期2个月以上;人力方面需常设3~4名舆情分析人员,确保7×24小时轮岗值班。初期投入经费不小于500万元,舆情监测系统年运行成本不小于100万元。选择自行建设舆情监测系统的原因主要有:企业性质涉密、主营电信业务、软件开发实力较强等。

对于国有大型建筑企业而言,目前的舆情监测服务已经形成较大规模的成熟市场,舆情监测系统有多种商用产品可供企业选择。供应商主要包括四种类型的公司:第一类是拥有网络信息搜索或文字(中文)信息处理等相关技术的软件公司;第二类是公关、广告公司,这类公司是在传统媒体监测业务的基础上,发展出网络媒体监测业务;第三类是网络营销服务公司,此类公司涉猎范围较广,具有较强的网络资源动员能力;第四类是依托传统媒体延伸出的增值服务,例如:人民网舆情监测室。

如选择第一类软件公司建设舆情监测系统,优势和成本核算情况如下:A公司拥有自主研发的舆情监测系统核心技术,包括B/S架构、专用高速带宽、自动语音分析技术、云计算服务器等;拥有较大规模工程师和客户服务团队,对于客户的各种要求反应较快,系统开发和调整的灵活性强;由于同时面向40余家客户提供舆情服务,单个客户的舆情监测系统运行费用可控制在每年50万元以下。

因此,相比企业投入大量资源自行建设舆情监测系统,选择以上四类之一的商用舆情监测产品,在充分结合企业自身实际情况的前提下,舆情监测系统的建设周期、成本控制等方面有明显优势。

典型的商业舆情监测系统项目实施流程如下:

(1)A公司调查客户企业舆情监测需求,成立项目团队,拟定预设目标。

(2)项目团队同客户企业对接,制定项目实施进度表。

(3)项目团队分析客户企业过往舆情主要来源和扩散路径,划分监测系统的层级和主题,设计舆情监测系统UI。

(4)客户企业根据自身实际,提供各主题下的监测敏感词。

(5)项目团队注入数据,调试系统,舆情监测系统试运行。

(6)客户企业随机发布测试信息,检验舆情监测系统运行效果。

(7)客户企业反馈试运行和测试结果,项目团队对舆情监测系统进行细化调整。

(8)客户企业舆情监测系统正式上线运行,项目团队撤销,设立后期值班和客服人员。

对于国有大型建筑企业而言,舆情监测应侧重于安全质量、突发事故、群体事件、法律纠纷、地产开发、海外经营等方面,每方面对应一个至数个主题,每个主题下设若干关键字词,可有效提高监测针对性。需要注意的是,在舆情监测系统上线运行后,企业要对监测主题和关键字词进行不定期调整,结合自身情况变化进行补充或删减,以确保舆情监测结果的准确性。

舆情监测结果的处置

舆情监测系统投入使用后,对于监测到的负面舆情,应以“早发现,早研判,早处置、早冷却”为基本原则,从源头上防止负面舆情发酵扩散。对舆情预警信息实行“获取预警信息-进行分析研判-转发责任单位-妥善应对处置-反馈处理结果”的闭环工作程序。对于监测到的可能引起媒体炒作、引发舆论危机的事件,由涉事企业及时上报事件详情,提出舆情应对预案,上级企业新闻宣传部门给予认真指导,协助解决问题。

预警信息根据具体内容和可能的危害程度,分为蓝色、黄色、橙色、红色等多个预警级别。黄色以上必须启动处置程序。涉事企业的新闻宣传部门负责人为舆情预警信息转发对象和应对处置第一责任人。

以某中央企业为例,舆情监测系统预警信息处置流程如下:

(1)上级企业(总部)新闻宣传部门收到负面舆情预警,迅速进行分析研判,继而转发至涉事企业(二级企业)新闻宣传部门负责人,同时转发本级相关部门。

(2)涉事企业新闻宣传部门负责人收到舆情预警信息后,及时回复,确认接收状态。

(3)上级企业新闻宣传部门根据舆情预警信息内容,以及调查研判的初步情况,填制负面舆情处置(督办)单,发至涉事企业新闻宣传部门,限期回复。

(4)涉事企业新闻宣传部门对舆情预警事件进行情况了解,对负面舆情进行妥善处置,上级企业新闻宣传部门给予相应指导和帮助。

(5)涉事企业新闻宣传部门依据事件调查结果和负面舆情处置情况,完成负面舆情督办要求内容,在规定时间内将相关材料发回上级企业新闻宣传部门。

(6)上级企业新闻宣传部门收到填报完成的督办材料后,登记存档,同时抄送本级相关部门(办公室、纪委等)。

(7)上级企业新闻宣传部门定期通报全公司负面舆情处置反馈结果,并纳入新闻宣传工作考核评价体系。

需要注意的是,舆情预警信息在传递和处置过程中,要做到对象明确,路径清晰,严防负面信息发生泄露或无序传播,造成舆情上的“次生灾害”。

通过舆情监测系统的建立与实施,可以确保企业系统、科学、快速、高效地分析和预警信息,实现舆情处置的制度化、常态化、流程化。在当今舆情发展态势瞬息万变、反应速度必须以秒为计的时代,舆情监测系统尤其显得愈发重要,已经成为抢占舆论阵地、维护企业形象的基础和保障。但必须认识到,舆情监测系统依赖于媒体数字化和网络化,在技术上具有一定局限性,可能出现数据抓取速度较慢、漏报误报重要舆情等问题。企业在面临重大突发事件、可能造成较大影响的情况下,应安排专职人员,进行有针对性的人工舆情监测,与舆情监测系统形成互补,确保舆情获取的及时和准确。

(责任编辑:李万全)

篇5:舆情信息监测服务系统

舆情信息监测服务系统是一个高度集成的专业化数据检索和分析系统,总体上包括舆情信息采集、舆情分析引擎、舆情监测应用三个核心功能。从互联网采集新闻、论坛、博客、微博、平面媒体、微博等舆情信息,并存储到舆情数据库中,并通过舆情搜索引擎对海量的舆情数据进行实时索引。对采集的数据进行智能筛选,萃取准确的舆情信息。舆情分析引擎负责舆情数据库进行智能分析和加工。舆情服务平台把舆情数据库中经过加工处理的舆情数据发布到Web界面上并展示给客户。客户通过舆情服务平台浏览舆情信息,通过简报生产等功能完成对舆情的深度加工。整个系统结合了C/S、B/S两种不同的应用模式,并形成了优势互补。系统共分四大功能模块。分别为:信息采集功能、信息处理功能、舆情分析功能、舆情展示功能。

(1)信息采集

信息采集可自定义监测站点击监测关键词,新闻、论坛、博客、微博。结合元搜索技术(搜索引擎结果补充),确保信息全面性。

定向抓取源:云腾舆情监测分析系统收录7000个监测网站,包含站点数约为15万个站点,对这些站点中的新闻,论坛,博客等实现全面的抓取,同时支持对主流新闻网页分页、评论内容的采集以及对评论点击数、回帖数的抓取。

搜索引擎结果:云腾智能爬虫系统还可以自动跟踪多个搜索引擎的搜索结果,对监测数据进行补充。

自定义URL来源采集频率:除系统常规监测范围外,还可以自定义需要重点监测的信

息,客户可以设定采集的栏目、URL、更新时间、扫描间隔等,以便及时发现目标信息源的最新变化,并以最快的速度将个性化关注内容采集到本地。

(2)信息处理

垃圾信息过滤:基于机器学习的垃圾过滤机制可以自动过滤广告、水贴等无效垃圾信息。

智能去重:采用“文章相似度技术”,根据文档内容的匹配度确定是否重复、去重的级别;根据不同的需要特点分为:URL去重、标题去重、正文去重三个级别。

HTML内容提取:采用自主知识产权的HTML网页文本萃取技术自动提取任意复杂网页中的标题、内容、作者、发布时间等信息,自动跟踪文章分页;对于论坛信息自动分析主贴、回帖以及作者等信息。

快照保存:对于每个经过抓取和处理的网页,系统都存有一个纯文本的备份,方便客户快速浏览,也方便客户查看被删除的文章或帖子。

(3)舆情分析

文章权重计算:综合网站重要程度、文章出现位置、主题相关度、危机程度、点击回复次数、传播数量以及客户自定义规则等复杂参数计算的文章权重,加上基于自然语言处理技术的训练系统,能准确分析出重要舆情信息。

传播轨迹分析:系统可以对于一段时间(自定义范围)内的舆情信息走势进行分析展示,同时可以以不同的载体如论坛、新闻等分类呈现。

自动分类与情感分析:将自然语言处理技术(NLP)应用于舆情监测领域,对信息精准分类并自动做情感分析。

相似文章聚类去重:基于自然语言处理技术,系统根据文章内容相似程度技术相似文章,方便获取同一内容文章的所有传播网站。采用“文章相似性技术”,根据文档内容的匹配程

度确定是否重复、去重的级别;根据不同的需要特点分为:URL去重、标题去重、正文去重三个级别。在详细信息列表里,分为“过滤”与“不过滤”,展示相关文章;媒体覆盖分析:系统可以对于监测信息的媒体类型进行展示,同时对于信息的主要传播媒体自动识别,进行综合分析,以图表呈现。

(4)舆情展示

在舆情信息呈现上,信息监测平台支持多种互联网终端设备和接入方式。除了传统的移动设备Web网页接入方式,还可以通过短信、邮件对信息进行及时推送,同时还可以通过移动设备客户端(Android客户端、iOS客户端、平板电脑客户端等 如图)进行信息交互。

WEB客户界面:基于云计算模式,客户可以使用WEB浏览器随时登陆系统,在客户界面对舆情状况进行全面的了解。客户界面包含了如舆情走势、舆情详细信息、最新微博信息、载体覆盖情况等主要内容,并以列表以及图表展示等可视化方式呈现,方便客户查看。导航栏清晰明了,方便我们中心查看各种分类;实时搜索功能,可以自定义搜索条件查看系统抓取的最新监测信息;支持关键词组分类、媒体类型分类、信息属性分类查看。

舆情预警:预警级别显示,显示当日舆情级别,方便客户整体把握,同时呈现预警信息走势和预警信息列表。建立多个舆情指标,对于突飞舆情自动发出舆情信号,在最短时间内通过邮件方式通知客户,辅助进行舆情干预和引导。

篇6:什么是网络舆情监测系统

系统背景

随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过BBS论坛、博客、新闻跟贴、转贴等实现并加以强化。当今,信息传播与意见交互空前迅捷,网络舆论的表达诉求也日益多元。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。对相关政府部门来说,如何加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。

系统概述

Goonie网络舆情监控分析系统依托自主研发的搜索引擎技术和文本挖掘技术,通过网页内容的自动采集处理、敏感词过滤、智能聚类分类、主题检测、专题聚焦、统计分析,实现各单位对自己相关网络舆情监督管理的需要,最终形成舆情简报、舆情专报、分析报告、移动快报,为决策层全面掌握舆情动态,做出正确舆论引导,提供分析依据。

功能特点

·自定义URL来源及采集频率

Goonie网络舆情监控分析系统用户可以设定采集的栏目、URL、更新时间、扫描间隔等,系统的扫描间隔最小可以设置成1分钟,即每隔一分钟,系统将自动扫描目标信息源,以便及时发现目标信息源的最新变化,并以最快的速度采集到本地。

·支持多种网页格式

Goonie网络舆情监控分析系统可以采集常见的静态网页(HTML/HTM/SHTML)和动态网页(ASP/PHP/JSP),还可以采集网页中包含的图片信息。

·支持多种字符集编码

Goonie网络舆情监控分析系统采集子系统能够自动识别多种字符集编码,包括中文、英文、中文简体、中文繁体等,并可以统一转换为GBK编码格式。

·支持整个互联网采集

Goonie互联网舆情监控系统元搜索模式是以国内知名互联网搜索引擎的结果为基础并利用Goonie采集器直接面向互联网定制内容进行直接采集,用户只需要输入搜索关键词就可以了。

·支持内容抽取识别

Goonie网络舆情监控分析系统可对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,精确获取目标内容主体。

·基于内容相似性去重

Goonie网络舆情监控分析系统通过内容相关识别技术自动判别分类中文章的关系,如果发现描述相同事件的文章自动去除重复部分。

功能描述

1、热点话题、敏感话题识别

Goonie互联网舆情监控系统可以根据新闻出处权威度、发言时间密集程度等参数,识别出给定时间段内的热门话题。利用内容主题词组和回贴数进行综合语义分析,识别敏感话题。

2、舆情主题跟踪

Goonie互联网舆情监控系统分析新发表文章、贴子的话题是否与已有主题相同。

3、自动摘要

Goonie互联网舆情监控系统对各类主题,各类倾向能够形成自动摘要。

4、舆情趋势分析

Goonie互联网舆情监控系统分析某个主题在不同的时间段内,人们所关注的程度。

5、突发事件分析

Goonie互联网舆情监控系统对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。

6、舆情报警系统

Goonie互联网舆情监控系统对突发事件、涉及内容安全的敏感话题及时发现并报警。

7、舆情统计报告

篇7:基于网络舆情监测系统的分析

[摘 要] 随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网民数量的持续快速的增加,以及网民通过网络形成的舆情越来越得到社会的广泛的关注。网络舆情监测系统就是针对网络舆情热点问题的预警。

[关键词] 网络舆情 监测 分析

随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。中国网民数量也在持续快速的增加,2010年7月15日,中国互联网络信息中心(CNNIC)发布《第26次中国互联网络发展状况统计报告》,报告显示,中国网民规模达到4.2亿,手机网民民规模更达2.77亿。网民通过网络形成的舆情越来越得到社会的广泛的关注。从2003年的非典、孙志刚事件,到2010年教育局封杀论坛事件、马鞍山局长打人事件等等。这些事件性质、主体各不相同,但是有一个共同的特点,即他们都是通过网络而放大了事件的影响力。

1.网络舆情监测系统的概念

网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。

最近几年各种社会机构组织、企业、各级政府都纷纷重视网络舆情,2008年7月,江西60多位县级官员实名开博,多数是收集当地网民关注的民生问题。2010年9月8日,人民网?中国共产党新闻网正式推出“直通中南海――中央领导人和中央机构留言板”。该留言板突出互动性,旨在让广大网友对中央领导人倾诉心声,给中央机构提出意见和建议。

由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过BBS论坛、博客、新闻跟贴和转贴等渠道来表达观点传播思想。如果引导不善,负面网络舆情将对社会公共安全形成威胁。对相关部门来说,加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。对企业来说,准确掌握产品和市场情况,监控竞争对手和行业动态,是企业市场、行销决策的重要支撑。

从现在的网络舆情传播速度来看,信息出现后的1至3小时就可以被转至多家论坛,6小时后就可以被多家新闻网站转载,24小时在网上的评论和跟帖就能制造出热点事件和舆论高潮。因此能够第一时间知道现在哪些是热点舆情,哪些将会成为热点舆情,对于我们来说至关重要。

“网络舆情监测系统”是针对在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度于网络上表达出来意愿集合而进行的计算机监测的系统统称。通过这个系统,能够让我们有效的对网络舆情进行预警和应对。

2.网络舆情监测系统结构

网络舆情监测系统分为五大系统,分别是:网络舆情采集系统、网络舆情存储系统、网络舆情分析系统、网络舆情检索系统和网络舆情发布系统。如图1:

网络舆情采集系统会对互联网中的主要门户网站新闻、各大论坛的热门贴、关注度比较高的博客和微博以及各大主要的网络搜索引擎的热搜内容进行采集。采集后的数据存储进入统一的网络舆情存储系统。网络舆情分析系统对存储在舆情存储系统中的信息进行分析,把舆情内容归纳、整理、分类后得出最近阶段舆情的变化及趋势,并把分析好的数据存入存储系统。用户可以用网络舆情检索系统检索自己想要的最近、最新的焦点信息。最后通过舆情分析系统分析的信息、通过舆情检索系统检索的信息以及网络舆情存储系统中的信息都可以通过舆情报告系统发送和展示给用户。

3.网络舆情监测系统分析

3.1网络舆情采集系统

网络舆情采集系统是整个系统的基础。全世界互联网的信息是非常巨大的,即使仅仅对国内信息的检索也是海量的,而且由于网页设计的灵活性造成的网页结构复杂,网页的快速更新造成的网页内容动态性,以及一些网站对站内信息限制的技术手段造成网页内容不完整性,使得传统手工采集信息的方法非常低效率和高错误率。特别是最近几年,随着QQ群、博客、twitter等微博被网友广泛使用,这些主要为松散的,非结构化信息要实现采集的难度也越来越大,靠手工采集已经不太现实。

为解决这个问题,现在的采集系统往往采用具有一定智能的自动采集技术,国内外早期的网络采集方法是针对特定采集对象编写的程序,这个程序称为wrapper。近几年,越来越多的采集工具被开发出来用来代替传统的手工编写wrapper程序的方法。目前较为流行的采集工具可以分为六大类:

3.1.1开发wrapper的专用高级语言

传统的wrapper由于是手工编写针对某一个目标,如果要为大量目标手工编写非常不效率,通过专用高级语言可以方便编写wrapper。例如:Minerva,TSIMMIS,Web-OQL,FLORID,Jedi等。

3.1.2以HTML为中间件的工具(HTML-aware Tools)

这些工具在抽取时主要依赖HTML文档的内在结构特征。在抽取过程之前,这些工具先把文档转换成标签树;再根据标签树自动或半自动地抽取数据。代表工具有Knowlesys,MDR。

3.1.3基于NLP(Natural language processing)的工具(NLP-based Tools)

这些工具通常利用filtering、part-of-speech tagging、lexical semantic tagging等NLP技术建立短语和句子元素之间的关系,推导出抽取规则。这些工具比较适合于抽取那些包含符合文法的页面。代表工具有 RAPIER,SRV,WHISK。

3.1.4包装器的归纳工具(Wrapper Induction Tools)

包装器的归纳工具从一组训练样例中归纳出基于分隔符的抽取规则。这些工具和基于NLP的工具之间最大的差别在于:这些工具不依赖于语言约束,而是依赖于数据的格式化特征。这个特点决定了这些工具比基于NLP的工具更适合于抽取HTML文档。代表工具有:WIEN,SoftMealy,STALKER。

3.1.5基于模型的工具(Modeling-based Tools)

这些工具让用户通过图形界面,建立文档中其感兴趣的对象的结构模型,“教”工具学会如何识别文档中的对象,从而抽取出对象。代表工具有:NoDoSE,DEByE。

3.1.6基于本体的工具(Ontology-based Tools)

这些工具首先需要专家参与,人工建立某领域的知识库,然后工具基于知识库去做抽取操作。如果知识库具有足够的表达能力,那么抽取操作可以做到完全自动。而且由这些工具生成的包装器具有比较好的灵活性和适应性。代表工具有:BYU,X-tract。

3.2网络舆情分析系统

网络舆情分析系统为整个系统的核心功能,其主要包括以下功能:热点识别能力、聚类分析、倾向性分析与统计、信息自动摘要功能。

3.2.1热点识别能力

由于网络信息的更新和变化速度非常快,导致网络热点也时常转化,因此识别热点成为整个分析系统的前提条件。一般对于一段时间内的热门话题的识别主要是根据信息出处权威度、评论数量、发言时间密集程度等参数,给予一定的权重值,然后统计出该时间段内的热点。

3.2.2聚类分析

传统的手工统计分析对于海量的数据基本是无能为力,即使是勉强统计也会因为数据量而对数据的主题把握会产生偏差,从而造成统计数据失真,进而造成分析结果错误。

对文章标题和关键词进行聚类分析是现在常用的网络舆情分析方法,现在被广泛的采用,常用的聚类分析方法一般分为五类:

3.2.2.1划分方法

首先创建k个划分,k为要创建的划分个数;然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括:k-means,k-medoids,CLARA,CLARANS,FCM。

3.2.2.2层次方法

创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。典型的这类方法包括:BIRCH方法,它首先利用树的结构对对象集进行划分;然后再利用其它聚类方法对这些聚类进行优化。CURE方法,它利用固定数目代表对象来表示相应聚类;然后对各聚类按照指定量(向聚类中心)进行收缩。ROCK方法,它利用聚类间的连接进行聚类合并。CHEMALOEN方法,它则是在层次聚类时构造动态模型。

3.2.2.3基于密度的方法

根据密度完成对象的聚类。它根据对象周围的密度(如DBSCAN)不断增长聚类。典型的基于密度方法包括:DBSCAN:该算法通过不断生长足够高密度区域来进行聚类;它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义为一组“密度连接”的点集。OPTICS:并不明确产生一个聚类,而是为自动交互的聚类分析计算出一个增强聚类顺序。

3.2.2.4基于网格的方法

首先将对象空间划分为有限个单元以构成网格结构;然后利用网格结构完成聚类。STING就是一个利用网格单元保存的统计信息进行基于网格聚类的方法。CLIQUE和Wave-Cluster 则是一个将基于网格与基于密度相结合的方法。

3.2.2.5基于模型的方法

它假设每个聚类的模型并发现适合相应模型的数据。典型的基于模型方法包括:统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。它的输入对象是采用符号量(属性-值)对来加以描述的。采用分类树的形式来创建一个层次聚类。CLASSIT是COBWEB的另一个版本。它可以对连续取值属性进行增量式聚类。

3.2.3倾向性分析与统计

对信息的阐述的观点、主旨进行倾向性分析。可以为网络舆情的分析提供参考依据。

但是由于网络词汇的多样性,网络上出现许多新词,要判断这些词的倾向性就比较困难,一般倾向性分析可分为三种:

3.2.3.1情感倾向词典

中文词语情感倾向词典是给定一组已知极性的词语集合作为种子,对于一个情感倾向未知的新词,在电子词典中找到与该词语义相近、并且在种子集合中出现的若干个词,根据这几个种子词的极性对未知词的情感倾向进行推断。

3.2.3.2机器人学习

与词典法比较类似,也是给予一些已知极性的词语作为种子词,对于一个新词根据它和种子词的紧密程度对其情感倾向性进行推断,不同的是他是根据词语在种子库中的同现情况判断其联系紧密程度来作为判断依据。

3.2.3.3人工标注种子库

首先对情感倾向性分析种子库进行手工标注,标注的级别包括文档集的标注、短语级标注和分句级标注。在这些基础上,利用词语的共现关系、搭配关系或者语义关系,以判断词语的情感倾向性。

3.2.4信息自动摘要功能

能够根据文档内容自动抽取文档摘要信息,这些摘要能够准确代表文章内容主题和中心思想。用户无需查看全部文章内容,通过该智能摘要即可快速了解文章大意与核心内容,提高用户信息利用效率。而且该智能摘要可以根据用户需求调整不同长度,满足不同的需求。主要包括文本信息摘要与网页信息摘要两个方面。

3.3网络舆情检索系统

网络舆情检索分析系统产生的结果会实时存放进入存储系统之中,而检索系统可以分时间、地点、类型、网站等等进行分类检索,然后提供给用户。

分析系统提供的热点分析往往只是对已经产生的热点,或者是将要成为热点的次热点。而检索系统还可以让用户自定义关键词对采集到的信息进行自定义监控。

3.4网络舆情报告系统

根据网络舆情分析系统处理后的结果或网络舆情检索系统查询的结果生成报告,系统可通过短信、电话、网页浏览等各种手段及时告知,提供决策支持。

总之,网络舆情监测系统出现时间还比较短,基于其的算法和方法还都很不完善,而且随着计算机技术的不断发展,网络应用技术也在不断的变化,像近几年微博等非结构性的应用形式的出现,给检测系统的监测带来不小的挑战。方便、快捷、智能、通用将是今后舆情监测系统发展的方向。

参 考 文 献

[1]曹劲松.政府网络传播[M].江苏:江苏人民出版社,2010-11-02

[2]叶皓.正确应对网络事件[M].江苏:江苏人民出版社,2009

篇8:论网络舆情监测系统的基础设计

1.1信息采集及时

及时性包括两个方面采集性的及时性与信息分析的及时性。首先在海量的网站中根据影响力的排名, 选取有限的主流权威站点做为首要信息采集源, 提升效率保证信息采集的及时性。

1.2数据研判高效

舆情情报的高效性往往被人忽视。现有舆情系统收集到的各种文章90%以上的信息是与用户无关的, 大量是重复冗余的, 据说美国911发生之前已经接到了预警情报, 但是没有有效地过滤出来, 淹没在各类情报资料当中, 解读的代价太高, 最终事发后才发现情报就在情报官的办公桌上。

现有的舆情监测系统往往缺乏有效机制快速筛选并保存有价值信息, 要求网络舆情监测系统必须提供人工智能的方式学习各种情报样本, 将有潜在价值的情报从海量信息库中挖掘过滤出来, 从而提高研判的效率。

1.3范围覆盖全面

舆情信息的采集要具备全面性其中包括信息的来源与信息的内容;信息来源的全面性:是指采集时需要, 采集到绝大多数舆情信息的集散地。主流且权威的微博、新闻门户、BBS、评论等必须包含其中, 比如天涯、新浪等。内容的全面性是采集时要把舆情主体内容全面采集到位。如有分段的信息, 转载的信息和评论信息等。

1.4热点分析精准

舆情信息往往包容万象, 是非难辨, 因此要求采集内容的参数较多。如:信息的标题、正文、评论、发布者、发布时间、浏览量和转载量等。并利用科学合理的热点分析模型和预警模型, 准确地进行热点分析和舆情预警。

2系统体系结构设计

2.1网络舆情监测系统总体可分为5个层次:舆情集散地、舆情的采集、舆情信息的预处理、信息分析挖掘、舆情处理。这5个层次关系, 如图1所示。

(1) 对舆情信息集散地的选择至关重要, 准确地确认舆情信息的来源, 才能提升舆情采集的全面性。网络舆情的主要载体是微博、BBS、博客、以及具有评论功能的新闻门户, 以上几种载体就是网络舆情的主要发源地。

(2) 舆情信息的采集主要是网页信息采集, 通过分析网页的结构对网页上面的主要信息进行采集。从网页上自动获取舆情信息, 并且跟踪转载不断向整个舆情事件扩展的过程。当前, 根据主要的网页信息采集可以分为两种:一是基于主题关键词的网页信息采集、二是基于网页元搜索的信息采集。

(3) 舆情信息预处理是对从网页上采集的舆情信息进行初步的过滤和加工, 为后续的舆情信息分析挖掘工作打下基础。主要有基于多文档的自动摘要、关键词提取、话题去重、信息过滤等核心技术。

(4) 信息分析挖掘是对预处理后的数据进行更科学的分类、聚类、倾向性分析等工作。其中分类包括根据舆情信息热点话题模型确定舆情级别。通过倾向性分析确定舆情导向。

(5) 舆情的处理包括突发舆情预警、舆情追踪、舆情引导和生成舆情报告, 首先根据分析得到的相关数据, 根据相关预警模型, 实施预警和追踪, 然后向决策者汇报, 并追踪引导处理过程。

2.2网络舆情监测系统总体结构, 主要由舆情主题规划、舆情信息采集 (预处理) 、舆情信息分析、舆情预警处理4个部分组成。如图2所示。

(1) 舆情主题规划是指舆情监督部门根据自己的舆情需求选择合适的舆情主题词及其对应的种子URL集合, 确定舆情信息采集任务。

(2) 舆情信息采集主要是Web信息采集, 通过Web页面之间的链接关系, 从Web上自动获取舆情页面信息, 并且随着链接不断向整个Web扩展的过程。同时, 进行舆情信息预处理, 主要是对采集到的相关舆情信息网页进行初步的加工和处理, 为后继的舆情信息分析奠定基础。

(3) 网络舆情信息分析是指对从网络中所采集到的新闻、评论等信息素材, 进行热点挖掘和预警分析等操作, 涉及到文本聚类、话题合并、热点分析模型和预警模型构建等。

(4) 舆情预警处理包括舆情信息预警、舆情报告和舆情引导, 首先根据分析统计得到的相关舆情信息, 根据相关网络舆情预警指标, 实施报警和预测, 然后向相关部门汇报经过总结的有规律的舆情, 从而为舆情工作者的决策提供服务。

摘要:网络舆情监测系统实时定向采集主流权威有影响力的微博、新闻、论坛、博客等网站信息, 抽取舆情要素, 发现舆情热点, 挖掘舆情敏感话题, 及时预警, 追踪发展情况, 并研判舆情态势。本文就此进行简要论述。

上一篇:青团子教案下一篇:前台年终总结