惊讶的发现话题作文

2024-04-30

惊讶的发现话题作文(共8篇)

篇1:惊讶的发现话题作文

我们要多观察,就像罗丹说的一样“在生活中不是缺少美,而是缺少发现美的眼睛,”因为善于观察,我就发现了一个秘密。

一天晚上,我在家里玩游戏。鼻子里有一种叫鼻涕的东西,它跑到我的鼻子里面安家了。它总是要流到地上,那滋味别提有多么“好受”了。

我洗完澡,就跑到房间里去睡觉了。我躺在温暖的床上,不久就睡着了。

第二天,我起床时发现自己的鼻涕没了,认为是自己的病好。于是,我快乐乐地穿上衣服去刷牙了,可是没过几分钟它又出来了?我想:刚刚还好好的,现在它怎么又出来?真烦人!我一定要弄清楚原因,谁叫我是不懂就会刨根问底的孩子呢!

我刷好牙,洗好脸,就拿起妈的手机在百度上查了起来。原来这是地球引力的作用,如果人是站着的时候,引力把鼻涕向下拉,如果人是躺着的时候,人是“平的”引力也会把它向下拉,所以它不会冒出来。

我知道了鼻涕的秘密,这让我对身边的事物产生了兴趣。我大量读书,我还知道为什么有些人家的墙是白色,为什么有些人家的墙是黑色。你们想知道这个秘密吗?嘿,让我来告诉你们吧!因为白色的白光是百分之七十五,这样的话房子会很冷快,这是那些热地区的房子。黑色很容易吸收阳光,房子会更暖和,这是那些冷地区的房子。

如果我们时时刻刻带着一双善于观察的眼睛,那么一定会发现更多的秘密!

作者:祁山小学 402班 汪宇祁

公众号:hao作文网

 

篇2:惊讶的发现话题作文

突然一个差不多十三岁的小男孩站了起来,对老奶奶说:“老奶奶,您坐我的位子好了,您是老人,腿脚又不方便,还是来坐会儿吧。”老奶奶笑着说:“不用了我站着好了,当锻炼身体。”小男孩说:“这怎么行,这牌子上都写着老人专座。”老奶奶无话可说,但老奶奶还是用感激的目光说:“谢谢你啊,小朋友。”“不用谢,这是我应该做的。”小男孩的脸上浮起了一丝笑容,老奶奶那慈祥的脸上也浮现了笑容。有的乘客们都像小男孩投向了赞许的眼神。然后,小男孩一手扶着老奶奶的手,另一手紧握扶手,还对老奶奶亲切地说:“您小心点,要走稳喽!”让老奶奶小心地坐下了,老奶奶对小男孩说你真懂事,真是个好孩子。“老奶奶的脸上又浮现出了笑容。”而他一直靠着座位。我见老奶奶有了座位,心里很高兴同时我也明白了一个道理:人与人之间要互相关心、关爱、这样,我们彼此的心里都会感到甜蜜和温暖!

美,是公交车上每个乘客的善举;是马路边一道亮丽的风景;是校园内学生的欢呼雀跃;是大自然中奇特的景象……它来源于生活中的每个角落。现在,我们不妨把脚步放慢些,把生活细读一遍,那时就会发现。其实,“生活不是缺少美,而是缺少发现美的眼睛”。

篇3:惊讶的发现话题作文

随着互联网的迅速发展,网络信息量爆炸式增长,导致人们处理和使用这些庞大的信息变得越来越困难。面对网络信息过载,如何快速准确地获取人们感兴趣的新闻话题,并对这些新闻话题进行有效地组织、处理和分析,是当前信息处理领域研究的一个重点,其研究成果具有重要的意义。

话题识别与跟踪技术正是在这种情况下所产生。针对不同话题识别任务的特点,新闻话题识别的研究可分为热点话题识别[1,2,3]、敏感话题识别[4,5]、领域话题识别[6]和用户兴趣话题识别[7]四个方面。关于用户兴趣话题识别方面的研究相对较少,Kurtz等人所提出的系统[7],基于个人配置文件提取用户兴趣过滤新闻文本,从而采用改进的话题聚类算法获取用户感兴趣的话题。该算法在基于新闻文本自身所携信息进行过滤时,易遗漏某些同样需关注的相关话题。为解决该类问题需充分考虑事件关系,关于事件关系识别,杨雪蓉等人提出了一种基于核心词和实体推理的事件关系识别方法[8]。该方法明显优于单基于事件语义的事件关系识别方法,但当面对大量的网络热点新闻事件时,该算法中事件线索集的构建有限,因为对部分事件无法构建虚拟相关事件集合。为了有效提高大规模互联网数据中用户兴趣话题识别的准确率,避免对相关兴趣新闻事件的遗漏,本文提出一种符合新闻特定语义结构的事件多维关联关系计算方法识别事件关系,从而构建事件加权关联网络。基于该事件关联网络,采用连接分析技术综合考虑各新闻事件之间的关联关系,对新闻集按照用户感兴趣的程度进行排序,获取用户感兴趣的新闻事件,进而通过改进的single-pass聚类算法获取用户感兴趣的话题。此外,针对用户兴趣的动态变化特性,本文只需用户择感兴趣的兴趣领域标签即可。实验表明,该算法能达到较高的准确率,使人们能对感兴趣的话题具有全面而准确地认识。

1 算法提出

本文提出的基于事件关联网络的用户兴趣话题发现算法中引入了新闻事件兴趣度值的概念,表示用户想要关注某新闻事件的程度。该算法可分为以下四个步骤:第一,基于自主可扩展的知识库,对不同兴趣领域词汇进行扩展;第二,构建由新获取到的新闻事件与用户感兴趣的历史新闻事件组成的事件加权关联网络;第三,基于所构建的事件关联网络,采用链接分析技术,通过计算每个新闻事件的兴趣度值获取用户感兴趣的新闻集。最后,在所得用户感兴趣的新闻集上,基于新闻文本特有的语义框架,采用改进的聚类算法获取用户感兴趣的话题。

1.1 构建可扩展领域知识库

通常用户所能提供的兴趣词数量较为有限,为能更好地把握用户兴趣需求,本文通过采用Bootstrapping半监督机器学习算法[9]构建可自主扩展的知识库,将少量不同兴趣领域词集扩展为能够较全面代表用户兴趣需求的兴趣词集。关于知识库的自主扩展,人工选取新闻语料中少量不同兴趣领域的中心词作为种子词集,从大量的新闻语料库中提取有效词作为待标注词集,自动地进行知识学习,从而实现知识库中不同兴趣领域词汇的扩展。

共现关系与相似关系是建立可扩展知识库的基础,本文分别基于Wordnet与Google检索计算词之间的语义相似度值和共现关系值,将语义相似度值和共现关系值作为每轮新扩展兴趣词的二维置信度。基于Bootstrapping算法,逐步对新获取的新闻词汇进行标注,实现知识库中不同兴趣领域的有效词、相似词对和共现词对的自主扩展。具体算法如下:

输入:用户提供的少量兴趣词集

输出:基于知识库扩展后的能较全面代表用户兴趣的兴趣词集

(1)将用户提供的少量兴趣词赋予兴趣度值x,初始赋值为1,作为初始种子词集W;

(2)从领域知识库中获取实词,作为待标注词集U;

(3)基于领域知识库,计算U中每个词与W中词的语义相似度值Si和共现度值Gi,分别作为二维置信度;

(4)将置信度较高的前n个词,作为新增种子词集N,扩展原始种子词集为W+N;

(5)对新增加的n个种子词,基于置信度值和对应的原始兴趣种子词,计算其兴趣度值x;

(6)重复第(3)~(5)步,直至符合算法结束条件,获取最终的种子词集FW;

该方法中用户只需选择感兴趣的兴趣领域标签即可,有效避免了用户兴趣的动态变化特性所带来用户兴趣判断不准确。随着新输入新闻语料的增多,知识库扩展的效果将更加全面与准确。

1.2 构建事件关联网络

大量的互联网新闻数据中,每一篇新闻报道代表一个新闻事件。大量的事件之间存在着纷繁复杂的关联关系。仅基于事件所携主要信息计算事件的兴趣度值,易忽略同样需关注的相关事件。构建事件关联网络,综合考虑事件间的关联因素,有助于更加准确和全面地获取用户感兴趣的话题。

事件关联网络中,每个节点代表一个新闻事件,将事件兴趣度值作为节点的权重;每个边代表两个事件之间的相关联程度,将事件在时间、人物(或机构)、地点和行为四个维度上的相关程度作为边的四维权重。采用命名实体识别技术获取新闻中表示地点、人物(或机构)和行为的词,基于新闻的实时性,视新闻报道的时间为事件的近似时间,计算事件在时间、人物(或机构)、地点和行为四个维度上的相关程度,即关联网络中边的四维权重,从而综合考虑事件之间在以上四个维度的关联程度。事件各维关联度的计算公式如下:

(1)事件时间关联度计算

如果两个事件发生的时间差值在一定的范围内,则认为这两个事件在时间上是关联的。关联的强度与发生时间的间隔有关。时间的间隔越短,关联的强度越强。具体计算公式如式(1)所示:

式中:time(T1),time(T2)分别表示事件T1,T2的时间;Ti和Tj是任意相关事件。Reltime(T1,T2)的值在[0,1]。

(2)事件人物(或机构)关联度计算

如果两个事件中涉及的人物(或机构)相同或具有较高的相似度或共现率,则认为这两个事件在人物(或机构)上是关联的,关联的强度以相同人物(或机构)为最强。基于改进的词集相似度计算公式,获取事件的人物(或机构)关联度值,具体计算公式如式(2)所示:

式中:object(T1)、object(T2)为事件中涉及的人名(或机构名称)的集合,集合中的元素可以重复;|object(T1)⋂object(T2)|表示两个事件中重复出现的人名(或机构名称)和具有较高相似度或共现率的人名数量;|object(T1)⋃object(T2)|表示两个事件中总共涉及的人名数量,Relobject(T1,T2)的值在[0,1]。

(3)事件地点关联度计算

基于改进的词集相似度计算公式,获取事件的地点关联度值,具体计算公式如式(3)所示:

式中:locate(T1),locate(T2)为事件中涉及的地名集合,集合中的元素可以重复;|locate(T1)⋂locate(T2)|表示两个话题中重复出现的地名和具有较高相似度或共现率的地名数量;|locate(T1)⋃locate(T2)|表示两个事件中总共涉及的地名数量;Re llocate(T1,T2)的值在[0,1]。

(4)事件行为关联度计算

如果两个事件中涉及的行为相同,或是相近的,则认为这两个事件在行为上是关联的。关联的强度以相同行为为最强。事件的行为关联度值通过度量新闻事件中除表示时间、地点、人物以外的特征词间的语义相似度得到。具体计算公式如式(4)所示:

式中:A1和A2是表示话题行为的特征词集合,max Sim(w,A)*IDF(w)是词w与特征词集A中语义最相近的词的语义相似性;IDF(w)反映了词包含信息量的多少。英国国家语料库(British National Corpus)被用来统计IDF(w)。

1.3 计算事件兴趣度值

基于事件关联网络计算用户对某一新闻感兴趣的程度,所采取的链接分析从两个方面展开:一是考虑当前新获取的事件间的关联影响,如果某一事件与其他用户感兴趣的新闻事件关联关系越紧密,则认为该事件的事件兴趣度值越高;二是考虑用户感兴趣的相似的历史新闻事件对当前事件的影响,认为相似的事件通常具有相近的事件兴趣度。另外,在每次对新获取的事件兴趣度度量时,将兴趣度较高的事件保留起来作为历史新闻事件。

对新获取的新闻事件,在事件关联网络中分别从时间、对象(人物或组织)、空间和行为这四个维度来分析事件的兴趣度值。首先,对网络中代表新获取新闻事件的节点赋予表示其事件兴趣度值的初始权重SEvent(t),具体计算公式如式(5)所示:

式中:a1,a2,a3,a4分别表示时间、人物(或机构)、地点和行为兴趣度在事件兴趣度计算所占权重;Stime(t),Sobject(t),Sspace(t)和Sact(t)分别表示通过与用户扩展兴趣词集的匹配,新闻事件特征词集中兴趣度值最高的表示时间、人物(或机构)、地点和行为的词的兴趣度值。

然后,为分析事件之间的关联影响,在建立的事件关联网络上,采用随机游走模型,分析事件的兴趣度。关联网络中所有事件的集合表示为T={t1,t2,…,tn},ti是关联图中的事件。无向图G=<v,ET,EO,ES,EA>是根据事件间的相关度建立的关联图,其中V是包含n个事件的节点的集合,等于T;ET、EO、ES、EA分别是新闻事件节点在时间、对象、空间、行为上的边的集合,若两节点间的相关度大于给定阈值,则有边存在,它是v×v的一个子集。对新爬取到的新闻事件在多维度相关事件影响下的事件兴趣度SEvent(t)的计算公式如式(6)所示:

式中:a1和a5,a2和a6,a3和a7,a4和a8分别表示在时间、空间、对象和行为上的权重,取值范围为(0,1],,且0<ai<1;Stime(t)和Stime(w),Sobject(t)和Sobject(w),Sspace(t)和Sspace(w),Sact(t)和Sact(w)分别是事件在时间、空间、对象(人物或组织)、行为这四个维度上的初始兴趣度值。Reltime(t,w),Relobject(t,w),Relspace(t,w),Relact(t,w)反映了事件在时间、对象(人物或组织)、空间、和行为这四个维度上的相关联程度。

基于式(6)计算事件兴趣度值,将事件兴趣度值大于特定阈值的新闻事件,归为用户感兴趣的新闻事件集,获取用户感兴趣的事件集。

1.4 用户兴趣话题识别

针对网络热点新闻话题中难以区分一个话题下的多个子话题现象,本文采用一种基于LDA(Latent Dirichlet Allocation)模型的改进的Single-Pass聚类算法对1.3节中所获取的用户感兴趣的新闻进行聚类,从而获取用户兴趣话题。应用LDA模型对新闻文档进行建模[10],使用Single-Pass聚类算法生成话题,并针对新闻文本特有的语义架构,在Single-Pass聚类算法中的文本相似性将同时利用向量相似性和命名实体相似性。

计算向量相似性,采用基于有效词库的方法,文本的向量维度一般能够达到上万维,消耗了大量的计算资源。故采用LDA模型,LDA不仅能发掘文本中隐含的主题信息,同时能够将文本表示成主题分布的过程看作是将文本用低维度向量表示的过程,即LDA能够很大程度上对高维文本向量进行降维处理。LDA模型参数中K代表将在文本集合中设定的K个主题,将每一个文本向这K个主题上去映射,转换成一个K维的向量,向量的每一个维度对应一个主题。如此,原本基于有效词库用高维文本向量表示的文本即可用K维的低维文本向量进行表示。从而,易通过计算两个K维向量的夹角获取这两个文本之间的向量相似度。然而,仅仅考虑向量相似度是不够的,新闻数据集中包含有很多十分相似的话题,比如“中日关系系列话题”,“世界杯比赛系列话题”,“自然灾害相关话题”等,这些话题从内容相似性上来说非常的相近,因此可以推断出经过LDA主题模型表示后,这些文本之间的区别体现得仍然不是特别全面。故,引入命名实体相似度的计算,通过得到两个文本的命名实体集合,基于新闻特有的语义框架[11],分别基于1.2节中的式(1)~式(4)计算两个新闻文本在时间、人名(或组织名)、地名和行为四个方面的相似度,实现对话体更加精准划分聚类。

2 实验分析

2.1 实验数据

通过网络爬虫收集自Retuers网站(http://www.reuter s.com/)的英文数据集,作为实验所用的英文数据集,包含2014年1月—2014年6月的18 000篇新闻,如表1所示,涵盖了国际、经济、政治、军事、社会、科技等多个领域。

构建可供用户选择的兴趣分类标签集,分别有自然灾害、医疗疾病、食品安全、事故、领土纷争、恐怖主义、信息安全、能源、政治和腐败等标签。每个标签下人为标注少量的领域中心词作为初始种子词。标注人员根据兴趣选取不同标签,如表2所示。每位标注人员分别在6组数据集上标注出其感兴趣的话题,构建标准的测试数据集。

2.2 评价标准

本实验中使用准确率、召回率和F值对该算法进行评估。准确率表示一个被识别出的用户感兴趣的新闻话题是用户感兴趣的可能性。召回率表示识别出的用户感兴趣的新闻话题与用户实际感兴趣的话题的比率;F指标是为了同时考察召回率和准确率所提出,F指标把准确率和召回率统一到一个指标。

基于该算法在6组数据集上依次进行实验时,将上一组数据中所得用户感兴趣的新闻事件作为下一组实验所构建的事件关联网络中的历史新闻事件。例如,在数据集3上进行实验,构建事件关联网络时,将数据集1,2上所得用户感兴趣的新闻事件作为该关联网络中的历史新闻事件。

2.3 实验结果分析

在已标注的6组测试数据集上,经过参数调试,取1.4节所提聚类算法中向量相似度阈值rv=0.375、命名实体相似度阈值rn=0.475和LDA模型中主题个数K=120时,可获取最优话题聚类结果。同时,对所构建的事件关联网络,将节点间在时间、人物、地点和行为4个纬度上的关联度阈值Rt,Ro,Rl和Ra分别设置为0.325,0.15,0.15和0.275可得最佳新闻事件过滤效果。

基于以上参数设定,为验证该算法的有效性,采用用户1提供的兴趣标签,分别在6组数据集上依次进行试验。将加入事件关联网络后的用户兴趣话题发现算法与加入事件关联网络前的用户兴趣话题发现算法进行对比。加入事件关联网络前,基于式(5)计算每篇新闻兴趣度值,并对每篇新闻的兴趣度值做归一化处理,设置兴趣度阈值为0.5,大于该阈值的新闻归为用户感兴趣的新闻。两组实验结果分别如表4所示。

从以上实验结果可知,仅基于文本自身所携关键词集的用户兴趣话题发现算法准确率并不是很高,并且随着数据量的增加其准确率会明显下降。从6组测试数据上的两组实验结果可知,引入事件关联网络后,用户兴趣话题识别的准确率,召回率和F值都有明显提高;并且,随着数据量的增加,基于事件关联网络的用户兴趣话题发现算法能够维持在一个较高的准确率。通过对所识别出的用户兴趣话题内容分析,可知该算法能对相关兴趣话题有更加全面的识别,与更加精准的划分。表5为基于用户1所选兴趣标签,在数据集5,6上所获取的部分兴趣话题的代表性特征词集实例。

为进一步验证关联网络中时间、人物、地点和行为每个维度对事件关联关系的影响,在6组测试数据集上分别将式(6)中,表示时间、空间、对象和行为上的权重a1和a5,a2和a6,a3和a7,a4和a8依次设为0,其他三维取均值,并与四个维度取均值时所获实验效果进行对比。实验所得用户兴趣话题识别的准确率,召回率和F值如图1~图3所示,在充分考虑新闻事件在时间、人物、地点和行为上的关联度时可达最优的实验效果。

实际上,某些需关注新闻事件本身所包含的兴趣关键词并不多,主要原因为该类事件可能是由某兴趣话题所衍生出的新话题,或是与兴趣话题有着较强相互影响关系的其他话题,这时仅基于文本自身所携兴趣关键词信息,将无法准确判断该类新闻事件。引入事件关联网络后,该类新闻事件因和某些具有较高兴趣度值的事件有着较强的关联关系,基于1.3节中的链接分析模型,计算新闻的兴趣度值,获取用户感兴趣的新闻事件集。从而基于改进的聚类算法获得用户兴趣话题。综上,该算法能够有效地适用于大数据量情况下的用户兴趣话题的识别,且取得了较为理想的实验结果。

3 结语

针对用户兴趣话题识别中话题识别不全与误差较大的问题,本文所提基于事件关联网络的用户兴趣话题发现算法中充分考虑了海量信息中新闻事件之间的复杂关联关系,将其与基于新闻文本自身所携用户兴趣信息的文本过滤算法有机结合,获取用户感兴趣的新闻事件集,有助于识别出同样需关注的相关感兴趣的话题。并提出了一种基于LDA模型的改进的single-pass聚类算法最终获取用户感兴趣的话题。实验结果表明,针对网络中的大量新闻数据,该算法只需用户选择感兴趣的相关领域标签,并通过引入基于新闻文本特有语义框架的事件关联网络,能够较为准确而全面地获取用户感兴趣的话题。

参考文献

[1]张玥,张宏莉.基于关联性的热点话题识别[J].智能计算机与应用,2014(3):55-59.

[2]MA Hui-fang.Hot topic extraction using time window[C]//Proceedings of 2011 International Conference on Machine Learning and Cybernetics(ICMLC).Guilin,China:[s.n.],2011:56-60.

[3]YOU Bo,LIU Ming,LIU Bing-quan,et al.Detecting hot topics in technology news streams[C]//Proceedings of 2012 International Conference on Machine Learning and Cybernetics(ICMLC).Xi’an,China:[s.n.],2012:1968-1974.

[4]ZHAO Li-yong,ZHAO Chong-chong,PANG Jing-qin,et al.Sensitive topic detection model based on collaboration of dynamic case knowledge base[C]//Proceedings of 20th IEEE International Workshops on Enabling Technologies:Infrastructure for Collaborative Enterprises(WETICE).Paris:IEEE,2011:156-161.

[5]ZHAO Li-yong,LI Ai-min.A novel system for sensitive topic detection and alert assessment[C]//Proceedings of2011Eighth International Conference on Fuzzy Systems and Knowledge Discovery(FSKD).Shanghai,China:[s.n.],2011:1751-1755.

[6]DAI Xiang-ying,CHEN Qing-cai,WANG Xiao-long,et al.Online topic detection and tracking of financial news based on hierarchical clustering[C]//Proceedings of International Conference on Machine Learning and Cybernetics(ICMLC).Qingdao,2010:3341-3346.

[7]KURTZ A J,MOSTAFA J.Topic detection and interest tracking in a dynamic online news source[C]//Proceedings of Joint Conference on Digital Libraries.[S.l.]:[s.n.],2003:122-124.

[8]杨雪蓉,洪宇,马彬,等.基于核心词和实体推理的事件关系识别方法[J].中文信息学报,2014,28(2):100-108.

[9]VETTER T,JONES M J,POGGIO T.A bootstrapping algorithm for learning linear models of object classes[C]//Proceedings of 1997 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Juan:IEEE,1997:40-46.

[10]赵爱华,刘培玉,郑燕.基于LDA的新闻话题子话题划分方法[J].小型微型计算机系统,2013,34(4):732-737.

篇4:话题作文“发现生活”教学设计

有人说,岁月就像一条河,生活就像一首歌。生活中有得意也有失意,有成功也有失败,有悲欢也有离合……生活就像一个万花筒,只要你善于发现,总能看到它的丰富和美丽。

生活是写作的源泉。请以“发现生活”为话题写一篇作文。

要求:①自拟题目,作文内容与话题要密切相关。

②自选文体;

③自定立意;

④不少于800字。

二、训练达成目标

感情真挚,思想健康,内容充实,中心明确。(重点)

见解新颖,材料新鲜,构思新巧,推理想象有独到之处,有个性特征。(难点)

三、设计意图

1.使高中学生学会写复杂的记叙文和中规中矩的议论文。

2.引导学生自觉的围绕“话题”进行审题、立意、选材和构思等方面的训练。

四、指导过程

(一)写作导引:现在,话题作文几乎可以说成了高考作文的一种模式。话题作文有较大的写作空间,如“立意自定,文体自选,题目自拟”。落实这“三自方针”,是自由写作的一种重要实践。

立意自定,是指作者自由表达自己对问题的看法;文体自选,是指根据所要写的内容,自由选择适合表达的体裁;题目自拟,是说可以并应该自己拟一个紧扣话题、确切生动的文章题目。这些给了同学们充分展示自己才华的机会。我们可以按这“三自方针”,写好这篇话题作文。

(二)技法点拨:近年来高考话题作文的命题特别是2004年以来江苏省的作文命题给我们带来什么新的启示呢?值得记取的至少有以下三点:

其一,中学作文教学要把关注社会关注生活落到实处,要把读写结合、注重文化积淀落到实处(而非只喊口号)。

其二,作文教学必须实现个性的解放。求解放,必须坚持走自主、求真、创新之路;要创新,必须以培养创造性品质和创造性思维能力为基础。

其三,作文训练应遵循规律,在开放的前提下重视规范,打造扎实内功。

为此,要在以下五个方面搞好扎实的训练:

①审题训练——立足准确,追求深刻;

②拟题训练——立足醒目,追求夺目;

③文体训练——立足合“格”,追求创新;

④表达训练——立足通畅,追求文采;

⑤书写训练——立足规范,追求美观。

(三)思路点拨:人人都在生活之中,但未必能人人都深刻认识了生活。写作“发现”生活的话题,需要作者打开第三只眼睛——“慧眼”,不仅能从惊天动地的大事中发现生活的价值和意义,更能从平凡的生活小事中发现生活的丰富与美丽,写出“见人之所未见”的独特感悟。

比如一位在医院陪病人的小姑娘,误把透过残窗斜落到过道上的一方月光,当成了白手绢,弯腰拾了一下。这么件小事普通的不能再普通,细微的不能再细微;小姑娘不被人看见则罢,被人看见了恐怕只有尴尬的份儿。假如你目睹这一场景,会涌现什么样的感想呢?恐怕会投去鄙夷的一瞥吧。这能当作写作素材吗?

作家鲍尔吉·原野刚巧在医院为父亲陪床,目睹这一场景,他没有嘲笑小姑娘,而是觉得:“这一举动充满生机。小姑娘也是病人的家属,我不知她的病人在床上煎熬着是怎样的痛苦,但她的心里仍装着美,不然不会把月光当作手帕。”作家感伤自己在小姑娘之前已将楼道走过几遍,却对周遭懵然无动于衷,反问自己:为何不能象小姑娘一样空灵?许多年后,作家写出了美文《月光手帕》,启迪读者:世俗的眼光使我们失去了多少美的发现,给我们造成多少无法弥补的遗憾!

学习鲍尔吉·原野,发掘并表现生活的美吧。

生活是什么?门捷列夫说:“生活便是寻找新知识。”列夫·托尔斯泰说:“生活不是享受而是很辛苦的生活。”巴尔扎克说:“生活的智慧大概在于逢事都问个为什么。”歌德说:“生活之树常青。”

五、写作实践。

紧扣话题,从自己对现实生活的感悟与发现中拟出一个题目,提出对立意、文体、选材、构思的考虑,在小组或全班交流、讨论,听取意见,思考成熟后再动手写出文章。

(习作选萃)

辛酸父爱

铁富高级中学石荣茂

叶落了。

花开了。

时间也随风飘走了,生活也变的更好了。

随着时间的流逝,我发现了一个奇怪的现象。它使我感动,使我流泪。它使我感受到了伟大的父爱。

父亲是个农民,并无额外收入。但生活过得很满足,早晨下地干完活之后,吃午饭时总会来一瓶啤酒,然后睡一觉,下午再去干活。到了晚上还会喝上二两大曲。每逢下雨天爸爸就会出去打扑克来打发时间。生活虽不宽裕,但父亲还是过得不亦乐乎。

渐渐的,我上初中了,开销也变大了。

有一次星期天回家,我却意外的发现爸爸这两天没有喝啤酒。我就好奇的问爸爸:“爸爸,你生病了吗?怎么不喝啤酒了?”爸爸微笑着说:“我这么健壮,怎么会生病呢?只是最近不想喝。”

我没有再想下去。

可过了几个星期,爸爸平日喝的优质大曲也下岗了,换成了塑料大曲(因是用塑料桶装的散酒,故戏称)。

我又问爸爸,爸爸说:“整天喝一种酒,口感不好,想换换口味。”爸爸的眼中透露出一种我琢磨不透的神情来,但我没敢往下想。

时间转瞬即逝,不觉得我已经上了初三,上学的开支更大了。

忽然有一天,我感觉到家里缺少了一种气氛,我仔细一想:爸爸没喝酒。

我去问父亲:“爸爸,今天怎么没喝酒啊!”他的表情变了一下,而后又微笑地说:“近来胃不好,不想喝酒。”从他的言辞中,我似乎听到了什么,但我没问。

一天,爸爸出去了。我就跑到母亲跟前问爸爸戒酒的原因。母亲说:“你现在大了,消费也高了,因此,你爸爸打算戒酒为你省一部分钱,现在还真的戒了。”

听到这里,我的眼泪不自觉的从眼中流了出来,母亲的眼睛也湿润了。

甜甜父爱,辛酸父爱,浓浓父爱。我这时似乎闻到了酒香,那浓烈的酒味正弥漫着整个屋子。近而飘到了世界的每一个角落。

“因为爱,所以爱。”也唱出了父亲的心声。

蜜蜂毫无所求,只求别人快乐,把蜜献给大家;老牛,也无所求,帮助别人干活,帮别人分担忧愁;父亲,更无所求,把爱注入我的心房,使我快乐,使我幸福。

这时耳边不觉传来“父亲是那拉车的牛……”的歌声。

点评:这是一篇用第一人称写的记叙文,文字质朴,情感真挚。有关父亲喝酒的细节描写,很能打动人的心弦。随着“我”的年龄的增长,年级的升高,上学开销的增大,平凡的父亲,用伟大而辛酸的父爱充实了儿子——“我”的成长过程,自然而然的扣紧了话题。习作以议论开头,以议论收束,抒情意味浓郁,观察细致,描写真实,人物对话推动了故事情节的发展。

篇5:我的发现话题作文

我虽然叫不出它的名字,但是记得爸爸说过,这种草可以玩,像飞镖一样射出去,射到光滑的东西会滑下来,一旦碰到毛绒绒的东西会粘在上面。所以,我叫它“飞镖”草。

飞镖”草的脑袋很像成熟的麦穗,上面已经有好几个“飞镖”露出来,可下面的“飞镖”包在叶子里面,应该是还没长好。

第二天,我去看“飞镖”草,咦,怎么还是老样子?是我太心急了吧。

第三天,我去看一看,“飞镖草”还没长好。我恨不得一口气把那“飞镖”草给拔了。可是,这是“飞镖”啊!谁不要“飞镖”?忍忍吧!

又过了两天,我一看,哇塞,真的“飞镖”草耶,我激动得快要喘不过气来了。“飞镖”草大概有稻子的两倍大,头上顶着一根天线,尾部像极了喷射器,很有趣呢!

我赶紧叫爸爸过来和我玩“飞镖”游戏。我从“飞镖”草上撸下一把“飞镖”射向爸爸,可谁知爸爸躲开了。爸爸撸了两把“飞镖”,一下子射向我,我虽然也学爸爸躲闪,可还是被击中了。

篇6:我的发现话题作文

今天早上我早早的起床,天气太闷热了,全身黏糊糊的,我要洗个澡凉快一下,刚走到洗澡间,地上全是小水珠,怎么回事呢?地面上怎么冒水了?吃过早饭我打开电视,哇!电视机怎么坏了?图像全是模糊的,一点也看不清,这又怎么回事呢?我觉得好奇怪。

我好奇的跑去问妈妈,今天怎么这么奇怪呢?妈妈告诉我,今天已经是伏天了,伏天是一年当中气温最高,最潮湿最闷热的日子,所以会出现上面的问题,在这一段时间内不要在户外玩耍,以免中暑。

哦,原来每年都有三伏天,希望三伏天快点过完,让我们度过一个凉快的暑假。

篇7:我的发现话题作文

是这样,有一大盆玻璃球,两个人一个一双筷子和一个盆,看谁在1分钟内夹的多,我觉得好玩便去试了一下。

终于到我拣第一颗时,我观察了一秒,发现很滑,而且我拣的是底部,我便换成了中部,居然那么稳,我便像这样,我瞬间领先了十颗珠子,后来我干脆直接丢进盆里,一分钟后时间到了,我破了全校最高纪录,我居然在不经意间拣了40个珠子,所以我得了八个奖票,又玩了几回,便活动结束了,我用一个奖票换了我最想要的机激光手电筒。

放学后我查了一下百度,;夹中间很稳,就像上坡很滑,走平路不滑一样;而在出水面就丢进棚里。“航道”没有丝毫偏差,是因为这球是流线体,所受空气阻力最小。

篇8:惊讶的发现话题作文

在当今信息大爆炸的时代,互联网已经成为人们工作、学习和生活中获取新闻、知识、娱乐等信息必不可少的途径。在互联网各式各样的信息传播渠道中,网络论坛BBS是中国网民的一个重要信息传播平台。以天涯论坛为例,每天都有数以万计的网民在论坛上发表自己感兴趣的帖子或者回复别人的帖子以表达自己的见解和主张。这种信息传递方式造成的影响是宽泛而又深远的。譬如2010年10月沸沸扬扬的“小月月”事件起源于一个网民在天涯论坛上发布的一篇名为《感谢这样一个极品的朋友给我带来这样一个悲情的国庆》的帖子。该帖子自发布以后在短短的几天内就吸引了数十万次的浏览,引发了数万条的回复。同时,“小月月”这一名字几乎红遍大江南北,甚至成为某些大学生的“口头禅”。同样,在当月发生的“我爸是李刚”事件也变得家喻户晓,很多BBS中关于这个话题的帖子也是炒翻了天,社会各界人士纷纷就“我爸是李刚”事件发表看法并参与到激烈的讨论中,导致这些帖子的热度超乎寻常,持续很久,而且至今尚未彻底平息。此外,如果社会有新的举措出台,在BBS相关的版面里很快就有大量的网民对新举措的利弊投以关注并加以分析评价,使人们在第一时间内对此举措有一个比较全面的认识与了解。所以,网络论坛BBS这个虚拟的平台在互联网这个大家庭中占据着举足轻重的地位。

然而,任何事物都不是绝对的,应该用辩证的眼光来看待网络论坛这把双刃剑。信息化的出现,也会有这样或那样的问题甚至矛盾,关键是如何解决问题和如何处理这些矛盾。既要维持网络论坛平台上的言论自由,同样也要使网络论坛言论自由不能超越法律的底线。借助舆论的压力,可以使不良、不法行为得以及时地纠正,给人们营造一个健康和谐的网络环境。假如把网络论坛当作散布消极言论甚至违法言论的空间,将会给社会带来不利影响甚至造成严重危害[1]。由此可见,应该通过一定的手段来发现和纠正网络论坛中这些不良和不合法的行为,这就需要相关的舆情分析调控技术。

互联网信息的传播以及舆情核心元素主要包括热点、焦点、敏点、频点等方面,其中热点是最基本的判断依据[2]。热点是指过去某一时间段内,被相对更加关注或集中关注的信息点。上文中的“小月月”话题就是一个热点。更具体地说,热点问题就是人们所关心的,与人们现实生活和切身利益完全贴近的,对社会造成广泛影响的一类问题,通常反映了社会成员对该类问题的关注程度。社会热点问题常常由于涉及面广、化解难度大、后果严重等特点而导致社会运行风险度增高,甚至影响社会稳定,危及和谐社会的构建[3]。所以,在舆情调控中,极其有必要对这一类问题进行跟踪、疏导和调控,只有这样,才能更好地维护社会的公平和正义。研究网络中热点问题的发现及其态势预测具有一定的学术意义和实用价值。

1 相关研究现状

目前,基于BBS的数据挖掘综合Web应用挖掘、话题检测与跟踪TDT(Topic Detection and Tracking),以及社会科学领域的理论与技术,分析BBS上的话题和社区结构、实现新闻传播与舆论导向、深入市场营销和社会学领域的研究[4]。根据对BBS进行数据挖掘需求的不同,可以归结为两个方面:热点话题的发现与跟踪以及虚拟社区结构的发现与分析。随着BBS的不断发展壮大,这两个方面已经成为基于BBS数据挖掘研究方向的核心。

网络论坛的数据挖掘包括两个方面的技术:一是BBS数据获取技术;二是BBS数据分析技术。对于后者的研究居多。总地来说,国外对BBS数据挖掘的研究工作起步不久,获得了一些研究成果;国内则刚刚起步,不论是从理论的研究上还是技术的实现上均有待于改进。

在开放的网络论坛BBS中,任何网民都可以超越时间和空间的限制,并且可能对某个群体产生比预期还快还大的影响[5]。原因是在虚拟的世界中,个体间的距离已经不再是地理上的距离,而是心理上的距离。心理距离一般可以通过BBS话题参与者的“影响力”来量化。2002年,日本东京大学的Naohiro Matsumura,Yukio Osama等人提出了影响力传播模型IDM(Influence Diffusion Model)。这个模型着眼于用户间的交互模式,通过分析帖子内容或者用户间的影响力传递来发现BBS中有影响力的人物或者热点的话题。在此模型的基础上,Naohiro Matsumura等人又进一步研究了BBS上舆论领袖挖掘的方法。微软的研究人员对新闻类网站中的新闻组结构进行了深入的研究,发现新闻组中的cross-post形成的网络是一个小世界网络(small-worldnet),就此提出了基于cross-post模型的聚类算法。这个算法无论从结果的质量还是性能上均优于语义聚类的方法[6]。国内对于网络论坛BBS的研究多是从舆论引导、社会学、语言学、心理学的角度出发,而以技术作为视角的BBS数据挖掘的研究较少。事实上,几乎所有的BBS网站都对帖子记录了一些基本的统计数据,如果将这些信息加以数学的定量分析方式,就会挖掘出一些重要的信息。

关于预测技术的研究,1982年,邓聚龙提出了灰色系统预测的概念[7,8]。1985年,Rumelhart提出BP预测方法,解决了多层网络隐单元连接权学习的问题,1960年至今,关于马尔可夫的预测应用大量地涌现。但是,对于BBS中热点话题热度走势的分析预测研究甚少,一些网站往往通过人工方式观察话题的热度走势以评估是否需要使用调控措施,这样既费时又费力,取得效果也不甚理想。所以,设计一个能够自动分析话题在未来一段时间内走势的算法变得尤为重要。

针对上述问题,本文提出一个快速有效的用于挖掘网络论坛BBS中热点话题并分析预测其发展态势的方法,利用统计的方法为同一版面下帖子的热度打分并排序,并使用相关的数学模型对热度较高的帖子的发展态势进行分析与预测。通过实验验证了该模型的可行性和有效性,为进一步研究复杂网络中热点话题的演化奠定了基础。

2 相关方法原理

2.1 数据收集

天涯社区,创办于1999年3月。自创立以来,以其开放、包容、充满人文关怀的特色受到了国内乃至全球华人网民的推崇。经过十年的发展,天涯社区已经发展成为以论坛、部落、博客为基础交流方式,综合提供个人空间、相册、音乐盒子、分类信息、站内消息、虚拟商店、来吧、问答、企业品牌家园等一系列功能服务,并以人文情感为核心的综合性虚拟社区和大型网络社交平台。其中,天涯论坛在国内有着很大的舆论影响力。所以,以天涯论坛作为实例,提出一个快速有效的挖掘天涯论坛中热点话题帖以及预测其发展态势的方法。

文中,使用网络爬虫抓取了天涯论坛中娱乐八卦版面从2010年2月开始到2010年12月为止共18 753个帖子。其中每个帖子的格式大致包括:帖子标题、所属版面、访问数,回复数、作者、发表日期、帖子内容和评论回复等字段。在这些属性中,主要关心帖子的访问数、回复数两个字段,将其作为热度分析的依据。

2.2 数据的分析

这里为了简化问题,将每个帖子的访问数和回复数提取出来,构成二元组(访问数,回复数)。所以,第i篇帖子就可以用二元组(xi,yi)来描述。然后将所抓到的每个帖子对应的二元组映射到平面直角坐标系中,如图1所示。

在图1中,横轴表示访问数,纵轴表示回复数。对图1分析发现,访问数与回复数多数集中于区间[x|0~2 000;y|0~50]这个矩形块中。随着访问数和回复数的不断增大,落在图中对应部分的点的数量也在不断减少。可见,这个版面中的热度帖在全部帖子中占有的比例较少。图中越接近右上方的点对应的帖子越是应该给予特别关注的。一般来说,对于BBS的同一个版面下的所有帖子而言,访问数和回复数的分布存在如下三种情况:

(1)访问数很少。这种帖子的一个特点是主题没有引起网民的兴趣,没有得到关注,只有很少人浏览。将其称之为“冷帖”。分析这种帖子是没有意义的。

(2)访问数很大但是回复数很少,对应于图1右下方的区域。由于这种情况的存在,不能单纯用访问数的多少来评价一个帖子是否为热点帖子。一篇帖子可能有很大的访问数,但是却只有极少数的回复,这种情况表明这篇帖子的主题可能比较吸引人,引来了大量网民的访问,但是这些浏览者往往仅是出于兴趣进来看看,了解个大概而已,没有或者只引发少量的讨论,在此将这种帖子称为“伪热点帖”。

(3)访问数很大而且回复数很大,对应于图1右上方的区域。这种帖子是需要的“热点帖”,一般具有回复密度高,持续时间长等特点。换句话说,这种帖子已经引起了大量网民的关注和讨论,话题参与者集思广益,纷纷提出了自己的观点和看法,往往可以延伸到很多其它的社会问题。正因如此,有很多不良或不法的言论就会借机滋生出来。如不加以扼制,可能会对社会造成不良的影响。舆情调控要实现因地制宜,有的放矢,所以,就需要对这种“热点帖”进行重点和有力度的调控。

那么具体应该通过什么标准来量化一个帖子的热度呢?下面给出关于帖子热度的计算方法。

2.3 帖子打分方法以及结果

文中,可以将访问数和回复数看成两个随机变量。据此推理,访问数多的贴子很可能回复数也多(访问数少,回复数多的情况一般是不成立的)。经过对这18 753个元组的两列属性计算皮尔逊积矩系数,得到rx,y=0.5,说明两个变量具有一定的相关性。另一个重要因素—回复数与访问数的比值,反映出该帖子能否引起人们对帖主话题的争论。该比值越高,说明话题的争论程度越高,应该投入更多的精力对这样的话题进行跟踪及调控。当然,访问数也要足够高,否则仅凭这个比值是没有意义的。比如分析一个访问数为2,回复数是1的帖子就是没有价值的。

下面给出评价帖子价值的打分公式:

其中,S(pi)代表第i篇帖子的热度得分;average(x)表示所有帖子访问数的均值;average(y)表示所有帖子回复数的均值;max(α)表示所有元组回复数与访问数的最大比值;ω1,ω2,ω3为权重因子。因为回复数更能体现出话题争论程度的高低,所以通常令ω1<ω2。当仅用访问数和回复数这两个指标难以区分帖子的热度得分时,可以考虑第三个因素:用回复数的比例来进行微调。由于故将ω3设置得大一些。经过对娱乐八卦版面特点的分析与测试,做出如下初始设置:ω1=0.1,ω2=0.2,ω3=0.8。由于不同版面讨论的主题特点不同,权重因子的设置会有所差别,具体可以通过机器学习的方法进行训练。

在选定的数据集上测试该方案,得到表1的结果。

这样,就可以选取排名靠前的N个帖子进行下一步的分析。虽然研究的最终目的是要从一个版面的所有帖子中提取到较有价值的热度帖,但是从其中也还可以挖掘出其它比较有用的信息。如这些帖子的发布者极有可能在这个版面中扮演着舆论领袖的角色,其发布的内容具有很强的影响力以及舆论的导向性[9];同时,也可以对这些话题中的参与者进行意见社区的划分,观察帖子中社区演化趋势等诸多问题。

3 发展趋势分析预测

3.1 预处理数据

基于上文的结果,取排名第一的帖子《妻子擅自动用孩子教育基金,气得想离婚!》继续进行分析。这篇文章是天涯社区一个昵称为“凭什么动用钱”的网民于2010年8月17日在《娱乐八卦》版面发表的一篇帖子。截至2010年10月14日,共有29 062次访问,7 894次回复,如图2所示。图2是2012年3月29日抓取的,故与刚才提到的点击数和回复数不一致,但这不会影响文中的分析方法。在接下来的研究中,要分析这篇帖子生命周期内的走势并且预测其在未来一定的时间内会如何发展。

对这篇帖子的HTML进行文本分析,从中提取出发表日期,以及最后一条回复的时间。后者减去前者就是这篇帖子截至抓取时的持续时间。按照提出的计算方法,这个差值为58,说明这篇帖子截至抓取时共持续了58天。在此,为每一天划分一个槽,里面存储该天这篇帖子获得的回复数。在计算机程序设计中,用数组这个数据结构即可实现此种需求。随后,可将数组下标作为横坐标的刻度,表示距离主发帖时间的天数,将数组元素的值作为点的纵坐标,表示当天获得的回复数。这样,在平面直角坐标系下就得到了很多离散的点,如图3所示。

3.2 数学模型的选用及评价

从图3中可以直观地看出,这篇帖子的热度已经趋于下降并平缓了,即将“沉没”。由于起初并不知道应该使用什么曲线来进行拟合,而高斯数学模型对一般曲线具有较好的拟合效果[10],且高斯函数的导函数存在,因而适用于后续的态势预测模型。高斯模型具有如下的一种形式:

使用高斯函数拟合经过这些离散点的曲线,得到如图4所示的结果。

经过推导,求得参数的值为:a=3 218(2 849,3 586),b=13.92(12.99,14.85),c=9.984(8.167,11.35)。括号中的值是其0.95的置信区间。代入高斯模型,得到:

下面列出拟合效果的评价指标:

(1)SSE=1.548e+07。SSE为误差项平方和,反映每个样本各观测值的离散状况,又称为组内平方和或残差平方和。

(2)R-squre=0.833 9。R-squre是拟合系数,值越大,拟合度越好。

(3)RMSE=525.7。RMSE为均方根误差,可以作为衡量测量精度的一种数值指标。

对这些指标进行分析后,认为拟合的效果是比较理想的。该曲线能够反映出话题热度的发展态势。

3.3 分析预测方法

接下来,对y=f(x)关于自变量x求导,得y'(x)。令y'(x)=0,求出最大的极值点,设其为xm。如果满足以下两种情况之一,则认为该话题在未来一定时间内很有可能变得活跃:

(1)y=f(x)没有极值点,且埚x>0,使得y'(x)>0。(2)若使y'(x)>0。

当条件(1)成立时,说明y'(x)>0,即y(x)单调性递增,表示话题活跃度上升;条件(2)成立时,说明当到达后于xm的某时刻x时,y'(x)>0,y(x)开始单调递增,同样可以说明话题热度正处于上升的状态。

如果存在点xn,使得y'(xn)=0,说明xn是热度走势中的一个转折点。此时,找出最大的使得y'(x)=0成立的点xmax。考察满足xt>xmax的xt,如果y'(xt)<0,说明该帖子热度正处于下降的状态;相反地,如果y'(xt)>0,说明热度正处于上升的状态。

此例中令y'(x)=0,求得x≈14,而且取xt=16>14,有y'(xt)<0。于是可以断定这篇帖子的热度正在下降。

4 结束语

随着Web2.0时代的到来,互联网日渐成为信息产生和传播的主要场所。为了加强对互联网的管理和监控,互联网舆情信息的汇集整理与分析成为目前各级政府部门亟待解决的问题。网络论坛BBS的出现,极大地改变了人们的网络生活习惯,网络论坛迅速成为人们发表观点,交换意见的虚拟平台。所以加强舆情管理与监控的重要任务之一就是对网络论坛进行分析与调控。帖子是组成网络论坛的元细胞,是信息传播的根源,唯有对热点话题进行很好的跟踪与调控,才能使舆情控管做到有的放矢,获得事半功倍的效果。本文提出了一种基于BBS的快速且有效的热点话题发现方法和对帖子生命周期内演化态势进行分析和预测的方法,旨在为后面的调控工作做好铺垫工作,打好基础。经过对实验数据的分析,该方法快速可行,获得了理想的结果。

摘要:网络论坛BBS是中国网民一个重要的信息传播渠道,而其中的热点话题自然就成为舆情调控和效果评估的首要目标。提出一个快速有效的用于挖掘网络论坛中热点话题并分析预测其发展态势的方法,利用统计的方法为同一版面下帖子的热度打分并排序,并使用相关的数学模型对热度较高的帖子的发展态势进行分析与预测。通过实验验证了该模型的可行性和有效性,为进一步研究复杂网络中热点话题的演化奠定了基础。

关键词:BBS,热点话题,舆情调控

参考文献

[1]王来华.论网络舆情与舆论的转换及其影响[J].天津社会科学2008(4).

[2]谢海光,陈中润.互联网内容及舆情深度分析模式[J].中国青年政治学院学报,2006(3).

[3]路斌.互联网舆情热点自动发现与分析技术研究与实现[D].北京:北京大学,2007.

[4]杨国俊.基于BBS的舆情预测算法及应用研究[D].合肥:合肥工业大学,2009.

[5]NARUSE K,KUBO M.Lognormal distribution of BBS articlesand its social and generative mechanism[J/OL].Proceedingsof the 2006 IEEE/WIC/ACM International Conference on We-b Intelligence,2006:103-112.

[6]吴刚,辛毅,赵熙.BBS数据挖掘研究[J/OL].中国教育网络,2007(5).

[7]王强.灰色理论与时序模型的发动机状态检测分析[J].计算机工程与应用,2009,45(8).

[8]林文龙.Web浏览预测的Markov模型综述[J].计算机科学,2008,35(1).

[9]王丹,张伟哲,卢珺珈.基于高权重词集的论坛影响力发现研究[J].微计算机信息,2011.

上一篇:如何学习伤寒论下一篇:hch激情成就梦想