统计学语言论文范文

2022-05-13

本论文主题涵盖三篇精品范文，主要包括《统计学语言论文范文(精选3篇)》，供大家参考借鉴，希望可以帮助到有需要的朋友。摘要：统计语言学是应用统计数学的方法来研究语言现象的语言学科，研究领域广泛，学界常常运用统计语言学，通过分析语言单位的出现频率及作家的用词频率、词长分布和句长分布，确定作家的写作风格。

第一篇：统计学语言论文范文

基于真实语料的小学语文课堂教学语言统计研究

摘要：本文以小学语文课堂教学语言为研究对象，借助语料库语言学和统计语言学的相关理论，对普通教师和特级教师的课堂教学语言展开比较研究。试图探索小学语文优质课堂教学语言的基本规律，为小学语文课堂教学研究提供一个学理意义的新视角，丰富小学语文课堂教学理论。

关键词：课堂教学语言语料库词频句长

夸美纽斯曾说：“一个能够动听、明晰地教学的教师，他的声音便该像油一样，浸入学生的心理，把知识带进去。”①教师高质量的课堂教学语言有利于发展学生的思维能力、提高表达能力和培养审美素养。而优质的课堂教学语言，对于还在听着故事长大的小学生而言，更是重要。但是目前小学一线教师对于课堂教学语言的研究、深度和广度都不够，容易脱离小学语文课堂这一具体的语言使用环境，不仅缺少说服力，有时甚至与真实的小学语文课堂相去甚远，而且对小学一线教学难以提供实质性帮助。

基于此，本文试图通过小学语文特级教师与普通教师教学语言的语料库分析，从词频、句长和频数，以及补充问句的重点研究，探讨小语优质课堂教学语言的基本规律，试图为小学语文课堂教学的研究提供一个学理意义的新视角，丰富小学语文课堂教学理论。

为了解目前真实的小学语文教学情况，笔者收集了义务教育阶段1-6年级的小学语文课堂实录共60节，357，032字的语料，并建立了语料库。其中特级教师20人，10人为2课时/人，共20课时;另10人为1课时/人，共10课时;合计30课时。普通教师30人，28人1课时/人，1人为2课时，合计30课时。通过人工转写、校对生成电子文本语料，利用计算机技术整理生成小型的课堂教学语言语料库，而后重点对词语和句子进行研究。为确保语料样本在统计中的代表性，本文从执教者的归属地、学习对象的年段，以及教材版本和抽样误差四方面做了图表和文字说明。

一、执教者的代表性

本文研究的是教师在课堂教学中的有声语言，尽管目前课堂教学中均倡导并推广使用普通话，但执教者在口头表达中难免会受到长期生活的地域口音的影响，方言中的常用语和特色用语都会影响到研究结果。因此，在选取样本时应尽量扩大范围，涵盖全国各地的教师。

从上表中可以发现，本研究采集的语料样本中的执教者来自我国29个省市地区。样本中江浙一带的老师比较多，江苏和浙江作为教育发达地区，涌现出的特级教师比较多，在特级教师的语料中江浙老师所占比例也较大。20位特级教师中江苏的教师8位，占40%;浙江的教师5位，占25%，江浙的特级教师比率达到了65%，超过了半数。

二、学习对象的代表性

目前我国小学的学制是六年，每一学年分为上下两个学期，共12个学期。一到六年级习惯上称为低、中、高三个年段。从图2-2和图2-3可知，本研究涉及的样本多集中在中高年级。尤其以四年级上学期、五年级下学期和六年级上学期居多。中高年级的小学生身心发展相对稳定，既摆脱了从幼儿园到低年级的过渡，又未与初中相衔接，具有小学阶段学生的典型特点。

三、教材版本的代表性

目前小学语文的教材版本比较多，不少省市都有自己的版本，还有不少学校有自行开发的校本教材。在实际的使用中，最为广泛的是人民教育出版社编写出版的教材(简称人教版)，本研究中共有40节课，占到约66.7%;其次是江苏教育出版社(简称苏教版)，共有11节课，占18.3%;北京师范大学出版社(简称北师大版)编写出版的教材，本研究中共有4节课。下表中列出了现阶段小学语文使用的几乎所有版本名称，并就语料库中样本所涉及的教材版本进行了相关统计。

四、抽样误差说明

抽样误差是指在遵循了随机原则的条件下，抽样方法本身所引起的，样本指标代表总体指标而产生的不可避免的误差。抽样误差越小，说明样本的代表性越高;反之，样本的代表性越低。抽样误差虽无法避免，但也是可控的。

1.抽样单位的数目。在本研究共选取了50位教师的60节课堂实录，语料库总量近40万字，范围较广，已经达到建立语料库的语料数量要求。

2.总体被研究标志的变异程度。本研究对象是小学语文课堂教学语言，尽管互联网的普及和迅猛发展推动了语言的更新速度，但是从宏观来说，语言作为文化现象，尤其小学语文课堂教学语言其发展基本是稳定的，总体不存在明显的标志性变异。

3.抽样方法的选择。本研究采用不重复抽样，语料库中的60节课堂实录，除因研究需要选取了2篇同题异构的课文，其余均不相同。涉及的教师来自全国29个省市自治区、学生来自2-6年级，故抽样误差小。

五、策略和建议

研制语料库后，从词语和句子两方面进行分析研究，从而进一步对提高小学语文课堂教学语言质量提出相应的策略和建议。

1.小学语文课堂语言教学词语的研究

笔者首先分别对普通教师和特级教师课堂教学语言中前100个常用高频词进行统计后，得出了68个教学常用词，形成教学常用词汇表(见表3-3)：

之后笔者分别选取了语料库中普通教师教学实录第30号和特级教师教学实录第6号的第一课时，教学内容为人民教育出版社版本的小语教材第十一课《月光曲》，教学时间均为40分钟。研究统计了两者的词频表、并对前100个高频词进行了比较筛选，得出前50个相同的词，如下表：

通过上表，可以看出在课堂教学中出现的高频词里，有不少是日常生活中高频词汇，比如“的”“是”“啊”等，作为教学语言，也有许多生活中不常用的特色词。下面选择语料中“读”一词进行对比例说，以图挖掘语言遮蔽下的深层理念。

“读”这个词的词频非常突出，是典型的高频词。通过比较发现，普通教师达到了1375，特级教师达到了1305，是在特级教师和普通教师相同的词中，唯一一个相差小于100的词。这说明“读”是小学语文课堂教学的一个重要特征。

动词“读”在教学中多带有指令性，提醒学生按照要求完成任务，比如例子中的“带着这种心情读读句子”就是要求有感情地读;“那么你们把第九节很有条理地读一下”是要求有顺序地读;“请你接着住下读”是要求连贯地读。

“读”还伴随提示，这时读常常单独出现在句末，即使组成词语，也很简短，如“‘你别动，我来抱你。’再读。”“太好了，谁还想读?”

“读”是阅读教学中重要的言语实践活动，也是《语文课程标准》所有学段必不可少的“目标”。在小学语文课上，学生要读字、读词、读句子、读课文。教师可以指导学生进行“默读”“朗读”“齐读”“个别读”等。

对于朗读的重视是源于以往应试教育中教师过分强调对课文的理性分析，忽视了整体的欣赏和感悟，忽略了朗读指导而提出的。正是针对这种现状，大力倡导教学中的“读”，目的是想将学习的主动权交还学生，让学生学会读书，摆脱无谓的理性分析。但在实际教学出现了矫枉过正的现象，“读”占鳌头，而“思考”、“倾听”、“言说”、“写”等却销声匿迹。这是目前小学语文课堂教学遭遇的新问题。

通过对上述特色词的深度思考，表明朗读教学仍是目前语文课堂教学的主要形式，在新课程改革的不断推进下，不少教师对于课堂、师生关系都有了新的认识，也努力在教学中加以实践，但是这些认识仍较多停留在表面和浅层，实际的操作中并没有真正成熟和内化。

2.小学语文课堂语言教学句子的研究

(1)特教和普教一般句长和频数的比较

统计表明，普通教师课堂教学语言的句长在1-155字之间，平均句长为35.6。特级教师课堂教学语言的句长在1-120字之间，平均句长为37.5。两者的平均值为36.55，是小学语文课堂教学中的平均句长值。以下是普通教师和特级教师课堂教学语言的句长统计(图3-1 图3-2)：

通过统计得知，普通教师各类句长的频数总和为6573，特级教师各类句长的频数总和为4698;特级教师低于普通教师约28.5%。从图4-1和图4-2上可以明确推算出特级教师在课堂上说的话少，而普通教师说得多。其次，普通教师相同句长出现频数的最高值是382，特级教师相同句长出现频数的最高值是228，普通教师超出特级教师约67.5%。这表明特级教师的课堂教学语言更加丰富，更富有变化。

(2)特教和普教问句句长和频数的比较

两图进行比较，可以发现特级教师在问句的使用比较稳定，他们的课堂教学语言在问句的使用已基本形成了一个固定的范围。这一句长范围内的问句在课堂教学的效果应该是比较理想的。同时，也可以发现普通教师的问句句长和使用频数都高于特级教师。

(3)特教和普教同题教学案例一般句长和频数的比较

就同一篇课文，普通教师和特级教师在课堂语言上的比较常更能发现差异。下面是一名普通教师和一名特级教师对同一篇课文同一课时，进行教学的课堂教学语言统计。执教内容为人教版第十一册《月光曲》第一课时，分别来自普通教师课堂实录30号，执教者为江苏的蒋军晶;特级教师课堂实录06号，执教者为河北的支玉恒。

特级教师和普通教师课堂中句长的差异，上面两个图是一目了然。和普通教师相比，特级教师每项指标的折线都趋于平滑，除了句长为120的出现一次外，其余均没有出现大的波动，而普通教师的折线则显得跌宕起伏，各项指标均不够稳定。这与前两个样本统计的结果一致，说明这三个样本的统计都是可信的。

通过对考查的结果进行了分析，可以发现特级教师和普通教师在句子使用上存在的差异，其原因如下：

(一)“教案被执行”和“被教案执行”的区别

在实际教学中，特级教师可以抛开预设好的教案，针对课堂的实际情况作出应对性的调整，许多课堂教学语言不是来自教案，而是现场生成的，所以口语化特征明显，多为短句，大量长句子的连续使用是很少见的。

普通教师对于教案的依赖程度高于特级教师，其课堂教学语言绝大多数来自预先设计好的教案，这就使得教师的语言常伴随着大段的抒情议论，书面化的语言离小学生的生活实际太远，没有亲切感，无法真正走进学生的内心世界，无法真正满足学生对于语言的实际需求。

(二)“学生配合课堂教学语言”与“课堂教学语言配合学生”的区别

据约瑟夫·特雷纳曼提供的数据，他认为听课前15分钟能记住所讲内容的41%;听了30分钟后，则能记住最初15分钟所讲内容的23%。普通教师相同句长句子的高频使用，就好像是同一节奏的曲子反复播放多次，即便是再悦耳动听，也会让人感到枯燥厌烦甚至反感。而小学阶段教学对象的年龄段在7-13周岁之间，对于同一事物保持的兴趣和注意力都极为短暂。要想让该年龄段的孩子注意力高度集中，始终将目光和心思放在课堂教学中，教师的课堂教学语言就要具有变化，通过变化刺激学生，调控学生的注意力。特级教师在这一点上比普通教师显然更到位。

(三)“教师的课堂”和“学生的课堂”的区别

课堂教学本质是指通过课堂的教学实现教与学的统一，逐步深化的过程，只有充分调动教师和学生两个方面的积极性，才能保证教学活动的顺利有效地进行。通过这组数据可以清楚地看到，特级教师的课堂上，留给学生的时间更充裕，这充分体现了课堂教学的学生主体意识。而普通教师的课堂还是很容易徘徊在“一言堂”和“教师话语霸权”的误区。

优质的课堂教学语言不是一蹴而就的，而是一个长期积累和磨练的过程。很多特级教师的课堂呈现出生活化、日常化的状态。他们寥寥几句平常语，已有情意在其中。一方面说明他们更了解教学对象，懂得孩子们要什么，能接受什么;另一方面则说明了特级教师技艺的精湛，正所谓大象无形，大音希声，大巧若拙，他们近乎日常的对话正是课堂教学语言达到一定境界后的返璞归真。

三、提高小学语文课堂教学语言质量的策略

通过对语料库的研究和理性分析，可以知道课堂教学语言对于上好一堂课的重要性，那么面对现在存在的问题，小学语文的一线教师应该如何提升课堂教学语言水平呢，笔者主要谈一谈升课堂教学语言水平的一般性策略。

(一)厚积薄发，建立巨大的知识储备

小学阶段的学生常常把教师当成百科全书，在他们眼中，教师是无所不知的，无所不晓，如果教师一问三不知，或者经常被问住，学生会非常失望，对教师的信任度和崇拜程度会大大降低，进而影响教师的教育教学效果。因此，教师要勤于学习，不断完善和充实自我，注重日常的积累，建立属于自己的巨大知识储备库，做一个知识渊博的教师，然后才能厚积薄发。教师首先应该随时收集个人一线的教育教学资料，并及时地进行更新，保证与时俱进;其次要加强阅读，撰写读书笔记;最后要在专业知识外，注意生活的积累。

(二)准确定位，把握课堂的核心本质

课堂应该是属于学生的课堂，学生是学习的主体，教材和教师都是为学生的学提供服务的。在教学中就应该给学生留有充足的思考与活动的时间，而不是整个课堂就听到教师一个人的声音。特别是在解决重点问题之时，要给学生比较充足的自读自悟和“交头接耳”的时间。因此，教师的语言要少而精，做到“点”和“拨”即可。

(三)关注学生，了解丰富的儿童科学

苏霍姆林斯基说过，教育技巧的全部诀窍就在于抓住儿童的上进心。对小学阶段的语文教学而言，教学中亲和力的语言表达技巧至关重要：教师要真诚对待学生，关心爱护他们，把学生当成朋友，平等相处;要善于用积极的语言鼓励学生，使学生从心底喜欢和教师接触;要多读儿童研究方面的书籍，了解儿童生理和心理的发展规律，从科学的角度爱护儿童、教育儿童。

(四)自我调节，拥有轻松的教学心态

教师在进行教学之前必须要建立良好的心理状态，无论是在课堂内还是课堂外，都应始终保持平和的心境，教师只有抱着轻松的心态智慧的处理，许多意料之外的课堂插曲也许就成了没有预约的精彩。

注释：

①[捷克]夸美纽斯著.傅任敢译.大教学论.人民教育出版社，1999.

作者：施晓玲

第二篇：浅议统计语言学在作家语言风格研究中的实际应用

摘要：统计语言学是应用统计数学的方法来研究语言现象的语言学科，研究领域广泛，学界常常运用统计语言学，通过分析语言单位的出现频率及作家的用词频率、词长分布和句长分布，确定作家的写作风格。通过“判定《静静的顿河》作者”“证明《红楼梦》是否出自一人之手”两个案例可以看出，统计语言学的研究方法在进入文学研究领域后，取得了非常好的实用效果。但是，在实际应用中，除了各类词汇等可控变量，还有其他潜在因素导致统计语言学的结论有时并非绝对精准。通过进行多方面、深层次地原因分析和推断，我们发现，要得到准确的研究结果，必须做好研究的前期准备，要选择具有相似语言环境的语料，要注意避开文学语言的形象思维影响，不能滥用统计语言学研究方法，并在操作过程中严格控制各种变量，以科学的思想指导研究。

关键词：统计语言学语言风格研究实际应用

作为大数据时代语言学研究的一个热点领域，统计语言学(statistical linguistics)属于数理语言学的一个分支，涉及语言学、计算机科学和数学等多个学科门类，是应用数理统计、概率论和信息论等统计数学的方法来研究语言现象的语言学科。

一、统计语言学的研究领域

相较于自然科学，人文科学的研究多涉及人(包括研究者本人)的大脑，因此很容易导致“自我中心性错误”和“内省性错误”。无论是过多地依赖本人的经验，还是过多地依赖自己的内省来做出判断，都会导致研究缺乏客观性与科学性，其价值是有限的。统计语言学则是倡导用科学的方法进行实验，进而得出结论，“特别注重语言本身的系统性和动态性特点，强调语言描写的真实性和精确性”。

从其研究内容看，统计语言学大致可分为语音统计学、词汇统计学、语法统计学和语义统计学，分别研究语言的语音、词汇、语法和语义的统计特征。从其功能看，统计语言学可分为描述统计与推断统计：描述统计的作用是对数据进行整理、归纳和总结，压缩数据，把握其一般性的特征和全貌;推断统计则是根据描述统计提供的结果，进一步对有关联系加以推断。

“统计语言学可用来发现语言学内在规律(词频与词排序之间的关系)、常用词和非常用词、词语搭配、短语获取、语言习得、语域变异以及作品风格分析等领域。”可以看到，统计语言学的研究领域广泛，但其中最主要、最熟稔的实际应用，当属通过语言单位的出现频率及作家的用词频率、词长分布和句长分布，确定作家的写作风格。统计语言学进入文学研究领域后，还催生出了另一个学科，即文艺风格学，一种应用现代语言学成果和技术来分析研究文学作品的边缘学科。如苏联学者用该方法研究赫尔岑、屠格涅夫的语言风格，国内也有人用这种方法研究巴金、曹禺、老舍等人的语言风格。

二、统计语言学与语言风格研究

黎运汉在《汉语风格学》中指出：“语言表现风格是综合运用风格手段的结果，从调音、遣词、择句到设格、谋篇等的风格手段，综合地反映在一篇文章、一部作品，或一种语体，或一个作家的作品，或一个时代的作家的作品，或一个民族的作家的作品里，这就从成了他们各自的表现风格。”换言之，语言风格的差异，正是由于作者使用特定语言单位的频率不同而造成的。于是，通过对语言结构特征的分析，我们可以比较直观地感受到不同文体与不同作者的风格，得出不同作者语言风格的同一性或區别性特征，而不仅仅是通过一系列描述型的论述，阐述文体或者语言风格问的差异。统计语言学的诞生，使语言单位的出现频率和分布数据变得重要，成为一种彰显作家语言风格的数学特征。

运用统计语言学判定作家风格的数学特征，其具体过程是：选取两位作家的公认代表作品作为语料样本，首先对样本进行分词处理，以文本为基本单位计算各类语言要素在文本中所占的频率和百分比，根据两个样本的平均值，比较语言要素分布是否具有差异。一般而言，为了测试数学统计特征是否能够有效辨别不同作家语言风格，还可以选用一个作家的其他作品为语料样本，计算该样本与统计所用语料样本的相关性。

鉴于其在判定作家风格方面的显著功效，统计语言学也被成功地运用到“作者考证”这个充满争议的研究领域中。在通过分析匿名文章的写作风格进而判定其真正作者方面，统计语言学也展现出了非常好的应用效果。以往，当某本名著的作者产生争议时，我们只能够凭借经验、历史文献和作家生平记录来进行考证。如今有了统计语言学，我们可以通过严谨的数据分析，提出更有说服力的证据。

三、实际应用案例

(一)《静静的顿河》的作者纠纷案

统计语言学最著名的实际应用，就是成功破解了文学史上关于《静静的顿河》的作者纠纷案。

《静静的顿河》在苏联文学史上占有较高的地位。此书全景式地描写了俄国内战时期顿河流域的社会景观，甚至有人将其与《战争与和平》等名著相提并论。然而自从《静静的顿河》第一册出版，就饱受剽窃的质疑。原因是作者肖洛霍夫少年参军，仅仅接受了几年正规教育，青年时期就能写出如此高水准的长篇小说，实在让文学界人士难以信服。更令人疑惑的是，肖洛霍夫本人生前对于自己剽窃的指控一直未曾公开表态。直到1999年，《静静的顿河》手稿被找到，经鉴定，有605页手稿是肖霍洛夫的笔迹，还有285页是肖洛霍夫的家人代为誊写的。但随即有人提出反对意见，声称该手稿其实是对克留柯夫原稿的抄写，并不能消除肖霍洛夫剽窃的嫌疑。于是，《静静的顿河》一书真正作者的争议，伴随着各种各样的谣言和似真似假的匿名诽谤，众说纷纭，真相始终扑朔迷离。学者们做出的各种学术考证，也始终难以让读者们普遍接受，更不用说使学界信服。

挪威奥斯陆大学的前苏联文学教授盖尔克其萨对肖洛霍夫、克留柯夫其他代表作品和《静静的顿河》分别采样，对三部作品的平均句长、句长分档、不同词类及其在句中的顺序、某些词汇特点、词频等进行了统计和分析，整理、归纳总结这些数据后，得出了令人信服的结论。为了更好地对比，盖尔克其萨把《静静的顿河》、肖洛霍夫的其他代表作品及克留柯夫的代表作品分成了三组，逐一研究统计：

首先研究的是一部作品中不同的词汇量与总词汇量的百分比，三组的数据分别为64.6%、65.5%和58.9%。其中克留科夫的作品的百分比明显低于肖霍洛夫的作品和《静静的顿河》。因此可以推断，克留柯夫的作品具有重复使用相同词汇的特点。

其次研究的是词汇分布频率，选取20个俄文中常见的词汇，比较这些词汇占作品中的全部词汇的百分比，三组的数据分别为23.3%、22.8%、26.2%，明显可以看出肖霍洛夫的作品与《静静的顿河》更为接近。

最后研究的是作品中出现过一次的词汇所占的百分比，三组的数据分别为81.9%、80.9%和76.9%。克留柯夫的作品仍然与另外两部表现出较大的差异

研究表明，所有参数都存在一致的趋势，但克留柯夫作品的与《静静的顿河》之间，存在着显著的统计差异。《静静的顿河》的语言风格与肖洛霍夫作品的语言风格几乎完全一致，与克留柯夫的作品语言风格却存在较大差异，这就令人信服地证明了《静静的顿河》的真正作者。由此可见，统计语言学的介入，使苏联文学界的这宗多年悬而未决的疑案真相得以明晰。

(二)《红楼梦》后四十回作者归属案

在中国，作为四大名著之一的《红楼梦》自问世以来就有很多悬而未决的问题，尤其是关于《红楼梦》是否出于一人之手的争论。从前，普遍的说法是：《红楼梦》的前八十回是曹雪芹所作，后四十回系时代稍后的高鹗所作;或者认为前八十回与后四十回不是同一人所作;再者便是坚持认为前八十回、后四十回均为曹雪芹一人所作。可以看到，问题的焦点聚集在后四十回的作者归属问题上。自清代以来，做“红学”研究的学者们对这一问题虽历经多方考证，仍然是莫衷一是、众说纷纭。

然而，在统计学进入文学研究领域，统计语言学的研究成果被引入红学研究之后，这一结论又面临着新的挑战。1981年，美国威斯康星大学的讲师陈炳藻发表的论文《从词汇上的统计论<红楼梦>的作者问题》中，通过对重要关键词的词频统计与分析得出后四十回仍为曹雪芹所写的结论。陈炳藻同时还另选了《儿女英雄传》作为对照组进行比较研究，具体方法是从每组里任选八万字作为样本，从各样本中挑出名词、动词、形容词、副词、虚词共五类，运用统计学方法算出各组之间用词的相关程度。陈炳藻的分析结果是：《红楼梦》前八十回与后四十回所用词汇的相关程度远远超过《红楼梦》与《兒女英雄传》所用词汇的相关程度，根据上述描写统计结果，推断出前八十回与后四十回均为曹雪芹一人所作这一结论。

与陈炳藻的分析不同，1987年陈大康在《从数理语言学看后四十回的作者》一文中，同样运用统计学相关原理，将《红楼梦》一百二十回分成三组，每组四十回，并统计了其中所含字、词、句等88个项目，“用斯米尔诺夫总体分布检验法得到前八十回与后四十回作者不同的结论”。陈大康发现前两组在字词选用、字词特征及句式规律上都表现出了惊人的相似性，而后四十回则迥异，由此得出后四十回非曹雪芹所作的结论。

张卫东、刘丽川通过统计《红楼梦》中230个非常用字尤其是4个粗话脏词和3个异体字的使用情况，以及每回结尾的差异，发现前八十回与后四十回有极大的差异，由此认为该小说并非由一人完成。

以上都是运用统计语言学的方法来解决语言学问题的实例。在语言陈述也无能为力的情况下，通过描述统计数据对数据进行归纳总结，有力地证明假设，或根据统计提供的结果推断出科学的结论，这正是统计语言学的魅力所在。

四、实际应用中出现的差异及原因分析

在运用统计语言学解决问题时，要求必须针对实验的性质特征选择合适的检验方法，同时在检验开始前要尽量找出所有的变量，尽量控制除自变量外的其他影响因素，合理操作实验，以避免检验结果不准确的情况发生。在这过程中，如果忽略了其中的任何一条，都可能引起操作结果的差异。

除了上述注意事项，一些其他的潜在因素也会影响推断统计的精确度，甚至有时会得出迥异的结论。例如上述关于《红楼梦》是否出于一人之手的争论，历次分析同样是采用了统计学的方法，却得出了截然相反的结论。结合两书及作者情况的不同，笔者认为得出截然相反结论的原因如下：

1.文学作品中的语言虽然经过作者的刻意经营，是对自然语言的变形，但并不是无限度地扭曲，其用词脱离不了作品内容。《儿女英雄传》作为《红楼梦》文本的参照对象，其对比结果是否先天存在偏差，仍然有待商榷。《儿女英雄传》主要表达女主人公的豪侠仗义并辅以爱情描述，《红楼梦》以贾宝玉、林黛玉的爱情悲剧为主线并辅以封建社会的衰败阐述。单纯从故事内容来讲，两书表达的主题不同，在叙述描写时选词自然也应有所不同，其用词造句的差异是不言而喻的。《儿女英雄传》中的人物以市井民间人士为主，相应的市井俚语也会多一些。言谈用语诙谐活泼、俏皮有趣。《红楼梦》中的人物以贵族门第人士为主，言谈用语规矩略刻板一些，对文言虚词的使用也会相应多一些。可以推断，两书所用词汇的相关程度存在较大差异，与其内容的不同有一定的关系。

2.《儿女英雄传》全书采用评话形式，《红楼梦》是白话文著作。龚千炎在《<儿女英雄传>是<红楼梦>通向现代北京话的中途站》中指出：“《儿女英雄传》反映的基本是19世纪中叶的北京话，《红楼梦》反映的基本是18世纪中叶的北京话，从北京话的近期历史看，《儿女英雄传》是《红楼梦》通向现代北京话的中途站。”汉语发展到近代，特别是白话文的进一步普及，对两书的选词用句有着必然的影响。正是因为《儿女英雄传》的语法上承《红楼梦》，下探现代北京话，具有许多过渡期的特点，从而导致了两书的所用词汇相关程度呈现较大差异。

3.《儿女英雄传》的作者文康，与《红楼梦》的作者曹雪芹并非同一人，语言风格自然不会相近。文康与曹雪芹同为“八旗子弟”，两篇作品都不自觉流露出他们的满族意识，比如尊崇女性、注重礼节以及对满族兴衰和满族命运的关注等等。但是，他们的人生境况虽然相似，文康却不具备曹雪芹那种人文关怀、审美情思和“举世皆浊我独清”的高洁性情，而更近似于一个屈服于封建“礼”的束缚之下的世俗之人，两人的语言风格也必然存在较大不同。

综上，由于《儿女英雄传》与《红楼梦》除了名词、动词、形容词、副词、虚词等可控变量以外，还存在其他各种潜在的影响因素，导致在进行对比研究时得出了具有差异的结果。“从目前来看，学界的研究多是从某些方面对《红楼梦》尤其是后四十回的作者归属进行判定。”笔者认为，若要解决这一悬案，唯有系统深入地对《红楼梦》整体的语言风格进行研究，再对前八十回与后四十回的进行比较，得出来的结果方能令人信服。

五、在实际应用中应注意的问题

统计语言学进入文学研究领域后如鱼得水，特别是在作家语言风格的研究中大显身手。但是基于科学研究的严谨性，我们也必须看到在统计语言学应用过程中必须注意的问题。

(一)选择具有相似语言环境的语料

统计语言学的结论之所以被认为是科学的，正是由于其依赖于数据的横向分析和纵向分析。但是，分析研究文学作品语言风格，不能只是单方面地从字、词、词类等层面进行，还应考虑句法、语义、语篇等层面的问题。特别是考虑到时代不同、地域不同等外部因素对语言的影响，极易导致语言学上的定性定量分析结果出现偏差，因此，必须注意的一点是，在选取语料时应注意选择具有相似语言环境的语料。

(二)注意避开文学语言的形象思维影响

“语言具有奇妙的结构，数学具有逻辑之美。”相较于人文科学容易导致的“自我中心性错误”和“内省性错误”，自然科学尤其是数理研究具有明显的准确性、客观性优势。统计语言学如同拆分机器一般，将文学作品中的语句逐一拆分为最小单位的零件，然后进行分类归纳整理，分析每个语言单位所发挥的作用，最終使整体研究结果无限接近于准确。

但是，数学统计方法还不能从根本上代替语言学原有的研究手段，毕竟文学作品有其不能忽视的特点。文学是用形象思维的方法创造的，而统计语言学讲求的是逻辑思维，使两者有着不可分割的联系，却也有着截然不同的性质。文学语言往往停留在理解的层次，其风格是看不见摸不着的，所以诉诸于语言。在统计语言学中，不管是词类划分、语音分类，还是语法公式的总结等等，都是在逻辑思维下的结果，最后得出的结论都是有形的、具体的语言材料。文学语言虽然能够适用从自然语言角度来的分析方法，但这个过程也是容易因形象思维和逻辑思维的不同引起差异，这是我们必须要注意的。要得到准确的研究结果，必须做好研究的前期准备，并在操作过程中严格控制各种变量，以科学的思想指导研究。

(三)统计语言学的应用不能无的放矢

统计语言学的出现，使我们文学研究的方法从定性走向定量，得以具体地描述作家语言风格。值得注意的是，统计语言学法在应用时一定要有个明确的目的，至少应该有一个基于理论的推断或猜想，比如判定不同作者之间风格的不同，或者对未知作者的假设与猜想。有了假设和猜想，然后再用各式各样的语言结构统计分析去证明。切忌为了统计而统计，导致统计语言学的滥用或者做了无用功。

六、结语

统计语言学在比较不同作者文学作品的风格特征，识别同一作者的不同写作风格，推测文学作品的来源，判定匿名文学作品的作者，辨别文学作品真伪等多个方面都得到了广泛而深入的运用。通过以上案例可以看到，基于语料库和数理统计方法，通过分析作家的用词频率、词长分布和句长分布等数据，确定作家的语言结构分布特征(即统计语言学视角下的语言风格)，已经成为对语言风格进行描写的重要方法。多年来，统计语言学用于作者判定的一系列实验，破解了许多未知作者的疑案，充分证明了这种方法是可行可信的。更重要的是，基于统计语言学研究成果得出的对比分析结果，都可以从语言学的角度进行分析和解释，而不是纸上谈兵。

统计语言学的实际应用不止于此，有待于继续深入研究。“标注体系和工具对统计结果的影响，语言风格在字、词、句等语言结构和语法、语义、语用层面的全面计量描写等，都是今后值得继续和深入研究的课题。”本文仅作管中窥豹之用，以期能够让统计语言学在文学领域的研究引起更多重视，并能引入更多的科学统计方法做这方面的研究，从而使未来统计语言学的方法与成果更加精准，甚至用途也能够进一步拓展。

作者简介：万晓雯，女，济南市历下区燕山学校教师。

作者：万晓雯

第三篇：大数据时代R语言模拟在概率统计课程教学中的应用

摘要：大数据时代，概率统计课程作为数据科学重要的核心课程之一，如何更好地进行课堂讲授成为许多专家学者关注的问题。基于R软件的sample函数，对概率统计课程中的经典案例掷骰子进行模拟，对虚拟的骰子进行不同次数的投掷，并对投掷结果进行分析，指出统计规律性及其重要性。该模拟过程可以激发学生的学习兴趣，培养学生的动手能力，达到理论与实践相结合的课程教学目标。

关键词：概率统计;骰子;R语言;模拟

随着经济、科技的快速发展，人们对信息精确化程度的要求越来越高，大数据的发展成为信息时代发展的必然趋势。概率统计课程作为数据科学的核心课程之一，引发了许多专家学者对大数据时代的概率统计教育教学献言建策。比如，赵彦云对我国统计教育进行了回顾与展望，指出运用统计思想和统计方法，让大数据的价值最大;白雪梅和刘志龙对我国应用统计学专业及统计行业进行分析，指出大数据只有在统计学这门工具属性学科的帮助下才能发挥其自身的作用，并对国内外统计实践教育方法进行比较;孟生旺和袁卫对大数据时代美国统计学会发布的统计学本科专业指导性教学纲要的核心内容进行了简单介绍，对我国统计类本科专业教育存在的问题进行剖析，指出了教学内容要突出数据的重要性，并建议在教学中使用专业的统计软件R。R语言是免费使用的，而且其源代码是开放的，这些特点使其已经成为概率统计教学中的标准语言之一，也成为国内外各大专院校开设的统计软件课程之一。笔者结合多年的概率统计实践教学经验，以R语言为工具，通过模拟概率统计常用的掷骰子实验，以更好地理解统计规律的思想及其重要性。

一、R语言简介

R语言最初由Auckland大学的Robert Gentleman和Ross Ihake及其他志愿者合作开发，是对S语言统计编程语言的集成。R语言是一种用于统计计算和绘图的编程语言和环境，是一种交互式编程语言，因为其免费使用且开源，已经成为统计分析和数据分析的全球化通用语言。如果在百度中输入一个字母R，就会有将近1亿个相关条目，而且有丰富的R语言学习资料。R语言还在持续发展中，而且还得到了CRAN(Comprehensive R Archive Network)社区的支持，在这里既有数据科学家也有程序员，他们很愿意为R语言用户提供帮助。

二、R语言模拟骰子

擲骰子作为研究随机现象的一个经典实例，受到很多概率统计教材的青睐，在介绍随机现象及样本空间的概念时，教师可以通过该实例帮助学生理解随机现象的随机性和所有可能结果的已知性。

我们知道，均匀的骰子具有六个面，分别刻有一个点、两个点直到六个点，而掷一枚骰子出现的点数则是1到6之间的某个正整数，而掷一个骰子所有可能的结果构成的集合为Ω={1，2，3，4，5，6}，一般称“Ω”为掷骰子这个试验的样本空间。

基于上述的分析，我们可以构造一个具有这1到6的整数向量，并将其值赋给变量dice，即dice<-c(1，2，3，4，5，6)，则dice为一枚虚拟的骰子，具有6个值。那么，如何让这个虚拟的骰子像真实的骰子一样，每投掷一次，产生一个点数?下面，我们结合R语言中的sample函数，让这个虚拟的骰子和真实的骰子一样，可以产生点数。

三、虚拟骰子的运转

首先，现实生活中，每次掷骰子的结果，肯定是样本空间Ω中的一个元素值，且这个值是随机的，并与其他投掷结果相互独立。骰子是均匀的，每个值出现的可能性相同，而且可以在相同条件下连续不断投掷。

由上面的分析，我们可以这样理解：掷骰子产生的结果实际上是从样本空间中随机抽取的结果，每次抽取是相互独立的，而且每一个值被抽到的可能性是相同的。这其实就是统计中的有放回抽样。

基于上述的分析，我们可以利用R语言中的sample函数来处理这个问题。运行下列代码：sample(dice，size=1)，就可以得到一个值，这就像掷一次骰子。若连续运行该语句，就好似连续投掷骰子，可以得到不同的点数，而且点数之间是相互独立的。这样，我们就完成了虚拟骰子的构建与运行。为更好地理解统计规律，我们有必要解释一下sample函数。函数sample为“抽样”函数，dice为抽取的对象，size为抽取的样本大小，目前我们模拟的是投掷一枚骰子，故本语句中的size=1，即每次抽一个，只产生一个结果。

四、随机现象的统计规律性

首先，我们将骰子扩展到两枚，即每次产生两个结果，可以运行下列语句sample(dice，size=2，replace=TRUE)。该语句的抽取对象没有变化，但是size=2，表示产生两个结果，因为投掷的是两枚骰子;因现实中两枚骰子产生的结果是相互独立的，故我们设置参数replace=TRUE。

假如班里有60名学生，在各自执行语句后，相邻同学比较执行结果是否相同?再运行一次该语句，能不能预测运行结果?多次重复执行语句，结果的平均值能不能知道?带着这些问题，与现实生活中的投掷骰子相结合，上述问题中的前两个就很容易回答了。关键是第三个问题，运行结果的平均值是否在投掷骰子前就可以预测出来?那么计算运行结果的平均值又有什么意义?

下面分析骰子均值预测和结果均值意义这两个问题。首先，骰子理论上应该是均匀的，即每一个点出现的概率都是，结合期望的定义，可以计算出期望值，这就是我们预测投掷一枚骰子结果的平均值，两枚骰子的平均值也应该为3.5，考虑到随机因素，如果多次投掷，结果平均值应该在3.5左右。

然后，利用我们的虚拟骰子，分别模拟两枚骰子投掷100次、1000次、10000次的平均值，这对应于抽样200次、2000次、20000次。为了使得模拟可重复，在运行各语句前，先运行语句set. seed(1234)，再运行以下各语句：mean(sample(dice，size=200，replace=TRUE);mean(sample(dice，size=2000，replace=TRUE);mean(sample(dice，size=20000，replace=TRUE)。三条语句运行结果分别为3.355、3.475和3.513，这和我们的期望的3.5相差很小，而且次数越多，与期望的3.5的距离也逐渐缩小，进一步验证了我们的均值预测结果，这就是掷骰子这个随机现象的统计规律性。

五、结语

概率论与数理统计作为研究随机现象统计规律性的一门学科，越来越引起人们的关注，与其他学科的相互交叉的研究成果也越来越多。如何更好地进行课堂教学，使学生更好地理解概率统计的知识和思想，笔者结合掷骰子的实验，基于R语言进行模拟，对概率统计课程教学进行了举例。该模拟过程不仅可以提高学生的分析能力、动手能力和实践能力，而且可以激发学生的学习兴趣，更好地达到课堂教学目标。

参考文献：

[1]赵彦云.加速开拓统计学的应用价值——中国统计教育回顾与展望[J].统计信息论坛，2016，(6).

[2]白雪梅，刘志龙.我国应用统计学专业与统计行业分析[J].中国统计，2015，(5).

[3]孟生旺，袁卫.大数据时代的统计教育[J].统计研究，2015，(4).

作者：郭念国

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处

【统计学语言论文范文】相关文章：