标注数据

2024-05-19

标注数据(精选九篇)

标注数据 篇1

Social Bookmarking是Internet用户用来组织、存储、管理、查询在线资源书签的一种方法。该方法仅仅是作为书签被引用 (或分享) , 用户可以很方便地依据附加在这些书签上的元数据描述来知道这些资源的内容, 而不需要在第一时间去下载才能了解其内容。这些描述可能是以比较自由的文字评价、对资源质量的满意或不满意、集成或协作的标签而形成一个Folksonomy。Folksonomy也被称作Social Tagging, 即“很多用户添加关键字元数据来达到共享内容的处理过程”[1]。

在Web2.0环境下, Social Tagging得到广泛应用。其应用历史要回溯到1996年4月itList的尝试[2], itList的特征包括公开的和非公开的书签[3]。在接下来的3年里, 伴随着Backflip、Blink、Clip2、ClickMarks、HotLinks以及其它风险投资公司进入这个市场, 在线书签服务变得有竞争力。再后来出现了Delicious、Youtube、LibraryThing、Connotea、CiteUlike等众多新的应用与体验。在Social Tagging系统应用中, 允许用户对网络信息资源进行自由标注。这些标注通常是在用户自身对资源理解的基础上公开进行的, 所有用户对资源添加的标注都相互可见。Social Tagging这种自由、开放的模式及其所反映用户真实意图的标注信息, 为网络信息资源的检索性能提高和有效利用带来了方便。

1 相关理论

1.1 标签与标注界定

标签 (tag) 是互联网用户标志网络资源类别或内容的相关用语, 标注则是对用户针对网络资源添加标签这一动作行为的描述。当众多的互联网用户针对多个网络资源对象添加体现个性意识的标签时, 便形成了所谓标签云, 这就使得标签具有了社会性, 也就使其成为社会化标签 (Social Tag) 。这种行为模式称之为社会化标注 (Social Tagging) 。

在文献[4]中, VanderWal将社会化标注系统划分为两种类型:广义和狭义的社会化标注。在广义的社会化标注系统中, 网络用户可以针对任意网络共享资源添加标签。这种情形常常体现为多个网络用户对同一网络公共资源进行标注。这些网络用户通常具有不同的年龄层次、学历层次、专业知识结构和兴趣爱好, 其添加的标签信息反映着个人背景。在狭义的社会化标注系统中, 网络用户在得到授权许可后才可以对其他网络用户添加的网络资源进行个性化标注。这种网络资源有限共享式标注对于单个网络资源而言, 一般情况下, 只有较少的网络用户才会被授权添加标签, 这使得每个标签所对应的网络资源相对较多, 而且标签的内容所选用语基本相似。因此, 利用单个标签就能相对准确地找到尽可能多的相关资源。

1.2 Social Tagging系统模型

Social Tagging系统模型中有3个主要对象:用户 (User) 、资源 (Resource) 和标签 (Tag) [5]。用户是指 (网络) 资源的创建、标注或使用者, 对于Social Tagging系统而言, 用户基本都是互联网的普通使用者, 资源则是互联网中的网络信息, 标签是指对资源进行标注的用语。通过社会化标注这一处理过程, 标注系统将网络用户、标签、网络资源三者之间建立联系, 在用户与用户、资源与资源、标签与标签间也建立了联系, 从而形成了用户、标签与资源之间的关系网络, 如图1所示。

文献[6]中, Mika对用户、标签和网络资源进行分析并提出了一个三分超图模型:H (T) =, 其中V=A∪C∪I, A、C、I分别代表用户、标签和网络资源, E={{a, c, i}| (a, c, i) ∈T}, 为三者之间的关系。有研究者认为该模型不能反映用户标签的上下位关系, 就将模型修改为F=, 其中*为新变量[7]。在此基础上, 有分析者又提出了更为一般的模型:F:= (U, T, R, Y, ) , 表示用户所定义的标签之间的层级关系[8]。从后来的研究来看, Mika的模型应用得比较多。考虑到标注系统的动态性与用户的集聚性, 有研究认为标注系统具有动态性以及用户的集聚性应将时间和用户组 (group) 因素考虑到系统模型中[9,10]。此外, 随着对社会化标注研究的深入, 一些研究者将社会情感[11]等考虑到标注系统模型中。

2 在数据挖掘中的应用

Social Tagging建构的用户、标签、网络资源之间的关系网络, 为网络信息、知识的挖掘提供了较高质量的数据源, 为社会化网络信息挖掘、推荐等应用服务打下了坚实基础。这也引起很多研究者对该领域的密切关注, 并成为当前研究的热点。

2.1 社会化标注信息挖掘

在社会化标注系统中, 标签为信息挖掘提供了高质量的数据。在文献[12]中比较了作者 (Author) 元数据与标签信息后, 发现标签信息比作者元数据在了解用户关注点的知识方面更具有优势。文献[13]对标签在信息检索中应用的效果进行实证分析, 结果显示标签具有较好的检索性能, 用户对同一标签的多次使用也从侧面反映用户兴趣所在。在对社会化标注信息进行挖掘时, 研究者们普遍将数据挖掘方法应用于标注信息挖掘中。

(1) 标注信息聚类。标注信息聚类主要包括对用户的聚类、对网络资源的聚类和对标签的聚类。对用户的聚类主要是计算用户间的相似度或是网络的社区划分来实现用户聚类, 如文献[14];对资源的聚类则应用了支持向量机等方法, 如文献[15];对标签的聚类则类似于文本聚类, 更接近于关键词聚类, SOM、马尔科夫等聚类方法[16,17]聚类中都有所尝试。

(2) 信息检索与个性服务推荐。通过研究一些算法尝试将标签与搜索相结合, 如将标签、分类和浏览进行集成[18]以期达到提高检索效果, 也有研究将标签应用到Google上[19];文献[20]中介绍了folkrank算法, 用以更全面的计算用户、标签和资源之间关系, 以提高信息检索与推荐的效果。在其研究中, 采用了基于矩阵的LSA及基于标签共现来进一步提高用户、资源、标签之间的相关度来达到有效的信息推荐服务[21,22]。

2.2 标签语义分析

社会化标注是一个自由、开放的大众化数据资源, 在具体操作过程中还存在着标签的同义、多义等不足之处, 因此影响了社会化标注在实际应用中的效果。为了弥补这些应用中的不利因素, 目前研究采取的主要解决方法是从标注系统中提取浮现语义, 并借助一些相关语义词典、领域知识本体等语义工具来增强标签的语义表达, 提高对标签的自动正确理解, 减少信息混乱。 (1) 利用一些概念集合进行标签的同义与多义处理, 如文献[23]和[24]; (2) 将标签进行层级化处理, 如文献[25]; (3) 结合诸如Wordnet、Hownet、wikipedia等公开的语义工具可以减轻甚至消除标签在语义理解上存在的一些问题, 如利用Wordnet可以返回标签所属的类别, 藉此查对该标签与其内容是否属于同一类别[26], 文献[27]使用Wordnet将相关标签建立起语义层级来帮助网络用户更容易寻找相关资源。这些方法对解决标签的同义方面比较有效, 但对标签的歧义问题却效果有限。因此, 在后来的研究中, 有研究者在分析中引入了用户喜好信息, 通过计算用户的喜好与标签所表达概念的相似度来辨别标签的具体含义, 达到解决标签歧义问题的目的, 如文献[28]; (4) 结合本体进行标签语义分析。Tom Grube[29]认为标签数据体现了大众智慧, 若能使用本体对其进行形式化描述, 则有利于提取标签的语义信息。据此, 他提出TagOntology的思想, 设计了一个基于标签构建本体的概念模型, 定义了Term (为人或计算机能够识别的词或短语) 、Document (用URI或相似的命名服务标示的事物) 、Tagger (标注者) 、Tagged (已标注) 等主要特征。这些特征进一步清晰地标示出了用户、资源、标签三者之间的潜在语义关系。文献[30]在前述研究的基础上给出了更为一般的本体模型, 试图为标签建立起统一的结构和语义。

2.3 当前应用

社会化标准系统出现伊始, 标签多用于个人博客的资源组织与标注。随着标注信息的广泛传播与应用, 人们对大众标注概念的进一步理解与熟悉, 标签的对象已经从最初的博客资源向网络图片、音视频等网络多媒体资源拓展。目前, 标签已成为一种用于标注和组织包括博客等在内的各类网络信息资源的重要工具。Gilad Mishne则开发了一个名为AutoTag的软件工具, 它可以通过采用合作过滤的方法, 为网络用户在标注自己的博客时自动推荐更为合适的标签[31]。图3给出了一个一般的社会化标注系统结构[32]。

在系统结构图的下层是一个社会化标签服务的模拟;右上角是不同身份使用者互动情况的模拟, 包括资源的发布、收集、回应与补充等动作;左边是一个tagging system场景的模拟, 包括使用标签的角色、使用标签以及被标注标签的资源。

对用户而言, 社会化标注可用于作为访问一个从不同计算机集结起来的标签集, 组织大规模的标签并且在特定协议下共享标签的一种方式。同时, 大规模的社会化标签也进一步为建立高质量的搜索引擎企业级应用贡献力量, 所有基于标签的Internet资源分类 (如Web网站) 都是人工完成的。用户能够充分理解这些资源的内容, 也能找到和用书签标注那些不曾被Web Spiders关注或索引的Web页面。

3 结语

社会化标注系统的出现为网络信息研究以及自然语言处理领域带来了新的研究热潮。通过对标签、用户、资源之间的相互关联性进行研究, 可以提供对网络信息理解和自然语言处理的新思路、新方法。标签与自然语言处理方法相结合, 可以提高对网络信息的准确抽取、对语义分析及理解的效果。因此, 对基于社会化标注的搜索算法、排序算法进行改进, 将极大促进社会信息的检索与推送服务。

摘要:社会化标注系统的出现为网络信息研究以及自然语言处理领域带来了一个新的研究热点。通过对标签、用户、资源之间的相互关联性进行研究, 提供一些对网络信息理解和自然语言处理的新思路、新方法。社会化标注现在已广泛应用于各种网络资源 (如网页、视频、音频、图片等) 的组织、管理中, 为网络信息检索及网络知识个性化服务推送带来了极大方便。

标注数据 篇2

(1)请运用已经学过的教育理论,提出自己处理教学过程中意外问题的看法。(2)请针对上述案例,提出自己解决这一问题的具体作法。

【参考答案】陈老师的作法是:第一、不急于表达自己的意见,而是让同学们安静下来思考这一问题(2分);第二,针对同学的质疑,陈老师提出了三个思考题:一是昆明湖静得怎样?绿得怎样?二是昆明湖美吗?美在哪里?三是让同学们思考用“滑还是用‘划’字好?(2分)第三、简要解释”教学机智“的概念。教学机智是教师在教学过程中,遇到意外的突发事件或者事故,能冷静对待,巧妙地运用各种灵活机动的方法或手段,解决突发事件或事故的一种灵活的处理教学问题的一种方式(6分)【案例2】某中学的于老师作为一名班主任,每天都要管理的事情太多,经常感到分身乏术,真希望有个助手能够帮助自己。有一天,于老师突然想到,能不能让学生来代替自己,行使班主任的权利呢?于是决定试一试。经过认真考虑,于老师决定选择平时在班上威信较高的班干部郑莉莉作为第一个试验对象。一天课后,于老师找到郑莉莉同学作了一次长谈,说明了自己的设想,也谈了老师对她的期望,第二天,在班会会议上,于老师向全班同学宣布了自己的计划:下一周,由郑莉莉同学当班上的“代理班主任”,我只是一名普通的任课老师,班上的一切工作由“郑老师主持”。

思考:

1、让学生“代理班主任”说明了于老师:A、信任学生B、为了锻炼学生的工作能力C、减轻老师的负担D、以上各项

2、请运用所学过的有关班主任工作的课论,对于老师的这一做法作出理论分析。

【参考答案】第一、让学生“代现班主任”工作,说明于老师既信任了学生,调动了学生干部参与班级管理的积极性,又锻炼了学生干部的实际工作能力,班干部是班主任工作的得力助手,是形成班级集体的核心力量。(4分)第二、班主任培养班干部的具体做法主要有两点:其

一、大胆使用。班上的主题班言、各种文化体育活、春游、社会调整等工作都是学生锻炼的大好机会,应该让班干部自己去策划、组织和安排,使班干部在活动中不断增长才干。其二,热情支持。帮助班干部正确处理工作和学习的关系,使他们做到学习、工作两不误。保护他们的工作积极性。班主任工作有成绩,要给予肯定、表彰;工作有困难,要帮他们想办法解决:工作中出了岔子,要主动为他们承担责任,为他们撑腰,帮助他们总结经验教训(6分)【案例3】王老师讲秦牧的《土地》一文时,对其中精彩段落动情地高声朗诵:“骑着思想的野马,奔驰到很远的地方,收起缰绳,回到眼前灿烂的现实。”话音刚落,一位学生站起来说:“老师,野马怎么会有缰绳?”教师毫无准备,不耐烦地说:“你总爱钻牛角尖,学习成绩会好吗?”这时,学生的脸涨得通红,自尊心受到打击,欲言又止。同时,这个学生又站起来顶撞老师说:“这样的老师教学水平太差,不配当我们的老师!” 分析:

1、请指出王老师的错误有几点

2、请分析学生的错误

【参考答案】

1、王老师的错误有两点:一是作为一个科任教师,有责任管理班级上的教学秩序,而不能把自己的责任推给班主任。因为管理学生是每位教师应尽的责任和义务(3分);二是王老师缺乏对学生的热爱之心。王老师不应该用带有侮辱性的语言来批评学生,这样严重伤害了学生的自尊心,打击了学生举手发言的积极性。这违反了教师应该尊重学生人格的基本义务,违反了教师基本的职业道德(4分)

2、学生的错误在于一是在课堂上不应该不举手就发言,违反了课堂纪律。(1分)二是当王老师指出他们的错误时,他们不应顶撞王老师,缺少对教师的尊重(2分)

3、【案例4】最近一项调查结果显示:98.6%的学生见到老师能主动问好或打招呼,而只有不到9%的老师主动跟学生问好或打招呼。

4、问题:这个现象说明了什么问题?请从教师职业道德素养及师关系角度进行分析。

5、【参考答案】这个现象说明在现今的教育过程中,教师的职业道德素养的缺点以及教师对学生亲切关怀耐心帮助平等相待,作学生的知心人。教师对学生的这种爱应是对学生严格要求和尊重信任的统一,应做到公正无私,关心热爱每一个学生,尤其是那些需要帮助的落后生,差生做为教师应努力营造和谐融洽的师生关系,而不要扮演高高在上,遥不及的“老师”。

6、【案例5】班主任老师认为学习成绩好的学生就是能努力刻苦学习的好学生;而学习成绩差的就是不努力不刻苦学习的学生。因此,他经常把考试成绩差,作业出错多的学生叫到办公室进行训斥,他希望通过对差生的严加管教,使全班的学习成绩拉齐。这位班主任老师的想法能否变成现实?

7、【参考答案】这一实例说明教师不仅要懂得教育理论,同时还要有教育实践中运用科学理论指导实践。这位班主任老师有良好的愿望并有较强的责任感,但是,他没有意识到学生学习成绩出现差距,甚至是较大的差距,其原因不完全取决于学生的学习态度,它是多因素影响的结果。

8、教育理论已告诉我们影响人的身心发展的因素既有社会因素,也有生物因素。虽然学校教育作为社会因素是具有主导作用的因素,但是切不可无视生物因素中起至关重要的遗传素质对人的发展的物质前提作用。因此,面对学习成绩参差不齐的学生,应具体情况具体分析。有的学生成绩差是因为学习态度不端正;有的学生尽管付出很大代价,学习成绩就是上不去,这就很可能是由于遗传素质或先天的,遗传因素的原因造成的,强求这类学生也达不到和其他优等生的一样水平,这不仅是难以实现的目标,而且搞不好还会给这些学生造成心理负担甚至心理障碍。使这些学生本来经过适当的教育原有的基础上得到发展的可能性受到不应有的干扰,甚至是负效应。因为这种认识和做法违背了教育科学,忽视了遗传素质对学生学习的影响,过于强调教育的单一作用。这就如同体育老师要求全班学生100米跑的速度都能达到全校冠军水平一样,有的学生再刻苦训练也是难以实现的,如果说有进步的话,也是在自己原有水平上的提高。由于每个学生的遗传素质、环境影响、家庭教育等因素的不同,其个别差异性是客观存在的。作为教育工作者切不可有不分什么情况,强求一律的做法。

9、【案例6】70%的学生恐惧开家长会,从一项调查结果看,至少有70%的学生在开家长会的时候提心吊胆,剩下的30%是那些被公认的好学生。造成这种结果的原因有两个,一是长期以来,家长会的主要内容是教师向家长揭孩子的短儿,甚至有些家长会遭到教师的严厉批评,以至于家长都不愿意开家长会,怕丢面子,而学生也有“天不怕,地不怕,就怕教师找爸爸”的想法。另一方面,即使教师在家长会上以表扬学生为主,但多数家长回家后只表扬孩子几句,剩下的又是一顿“臭批”。在学校进行的一次测试中,教师在家长会上表扬了全班学生,第二天教师问学生,谁在家长会后得到了家长的表扬,举手的只有两名学生。

10、问题:你认为应该如何开家长会?如何让家长会成为教育孩子的新契机?如果你是学生家长,会后如何做好与孩子的沟通?

11、【参考答案】举行家长会一般在学期开始,期中或期末举行,主要内容是向家长汇报学校或班级教育工作的基本情况和今后工作计划,征求家长意见,表扬介绍教育子女的经验等,家长会的方式有全校性的,年级的和班级的三种,一般是把三者结合起来,先开全校的,接着分班座谈,要让家长会成为教育孩子的拳契机,举办家长会就必须利用学校的有利条件,向家长传授抚养教育子女的科学知识,交流推广成功的教育经验,提高家长的教育能力和教育素质。

12、我以为新型家长会中最重要的,是教师角色的转变,家长坐台下,而是围成一圈,相邻而坐,学生也不再被一概排斥在家长会之列,成为永远的“缺席审判者”,有些家长会让学生参加,有些家长会的内容请学生讨论决定,可通过以下模式:交流式,对话讨论式,展开式,家报告会,联谊式,参观游览式等,如果我是学生家长,我一定要和孩子沟通,更全面地了解孩子自己孩子,想办法和孩子交朋友,为他们创造和谐宽松的空间。

【案例7】赵老师是某中学的一名青年教师,现在正担负着班主任工作,他深深服膺于伟大的人民教育家陶行知先生“爱满天下”的教育格言,发誓要做一名热爱学生的优秀教师。大学毕业走上工作岗位后,他一心扑在对学生的教育教学上。为了解和接近学生,以便取得学生的依赖,他与学生一起参加课外甚至校外活动,如打球、下棋、逛电子游戏厅等,几乎对学生的各种愿望都是有求必应。但是,一学年下来,赵教师却感到非常沮丧;不仅学校领导批评他过于放纵学生,而且班上的同学也对他的管理方式颇有微辞,抱怨老师有偏向。为此,赵老师非常苦恼,几乎动了辞掉班主任职务的念头。问题:

(1)请从教育学有关原理的角度,指出赵教师工作的主要问题在哪里?(2)试结合教师素养的理论观点,谈谈如何改进赵老师的工作。【参考答案】(1)赵老师用教育家陶行知先生“爱满天下”来鞭策自己是正确的,立下的志愿也很好,但他为了取得学生的依赖,几乎对学生的各种愿望都是有求必应,这种做法严重违背了德育的基本原则,德育要方向性与现实性相结合,严格要求与尊重信任相结合,才能获得良好的效果,赵老师方法失当,爱严相失。(2)赵老师应加深教师的基本素养,特别是教育理论素养和教育能力素养,要懂理理论联系实际,把所学到的知识分析,再创造,制定一套可行的方案,要尊重信任学生,也要严格要求学生。

【案例8】近日有报道称,新学期开学不久,南京市的一些小学一年级教师很是为自己班上一部分新生“超前”的学习基础发愁,有的孩子已经认识几百个汉字并且会做简单的加减乘除,识字最多的竟已过千,大大超出小学一年级的课程要求。按理说,学生基础好,教师工作起来也应该更轻松。实则不然,“超前教育”带给小学教师更多的是多方面的困惑。问题:你对当前家庭教育中这种“超前教育”现象的看法如何?

【参考答案】一方面,有超前“基础”的孩子并不是全部,这就必然因学生基础差异太大,而导致学习进度参差不齐。

另一方面,“超前教育”也容易使学生养成不良的学习习惯,缺乏端正的学习态度和明确的学习目标,当孩子满怀憧憬地开始自己的学生生涯时,却发现学校里上课教的东西早已烂熟于心,便很容易对学校生活产生倦怠心理,上课不听讲自然是家常便饭,因此“超前教育”要因人而异,“超前教育”的后果是不容忽视的,家长在对孩子进行超前要三思而后行的。

【案例9】上课铃响了,王老师拿着课本轻快地走上讲台,开始上课。当课上到十分钟左右时,两位学生突然打了起来。在劝阻无效的情况下,王老师只好将课停下来,要求他们到外面去打。两位学生收起了“手”。改用“口”。开始互相辱骂对方。王老师说自己是科任任老师,此类事情请他们找班主任解决。那个似乎受了委屈的学生对王老师的话不以为然。出口说道:“你这是什么老师?”这下王老师生气了,喝道:“给我出去!”。可是学生就是不动,王老师便动手去拉学生,学生死死地拉着课桌,坚决不出去。王老师非常愤怒,说:“好,你不出去我就不上课!”于是,双方进一步僵持起来。

藏语词性标注 篇3

在自然语言发展过程中, 出现了一词多义、一词兼类的现象, 确定这些词在特定语言环境中的词性, 是词性标注该完成的任务。

基于统计的词性标注很难达到100%的准确率, 所以提高词性标注效率和准确率显得很有必要。

提高词性标注效率和准确率的方法

1.利用词性方法提高词性标注效率

(2) 有些词虽有多个词性, 但在具体的语境中, 它的词性也能确定下来, 例如”དང”这个词, 在藏语里它有n (n>=2) 个不同的语法功能, 即有n个不同的词性, 不管它在句子 (用W表示词串, Wi表示第i个词, 其中1≤i≤N, N为句子中最后那个词的编号) 的什么位置 (Wi) , 只要出现在没有词缀“པ”、“བ”的动词后, 就有激励之意, 用up表示其词性, 反之, 当它出现在Wi (1

下面通过例子说明:

对这个句子作如下几步处理:

(1) 程序通过扫描发现W9是“དང”, 且1<9

(3) 对S1和S2分别用Viterbi算法进行词性标注, 求得的S1和S2的最佳词性串分别用T1和T2表示, 最后用T1+lh+T2表示上述完整句子的词性标记串。

需要注意的是, 因为S1和S2本是一个完整的句子, 所以对S1和S2两个子句进行词性标注时, 对两个句子的第一个词W1, 做不同的处理, S1的第一个词 (用Ws11表示) 是未分开前的句子的第一个词, 所以不用考虑其转移概率aij, 只要获得相应词性在句首出现的概率πi即可, 而Ws21 (S2的第一个词) 不是整个句子的第一个词, 所以对它要计算转移概率aij而不用考虑句首概率πi, 其中转移概率aij的i是“དང”的词性lh, 而j是Ws21的相关词性。这样处理的依据可用如下公式1说明:

对Ws21而言, 假设此处其词性为形容词, 用aq表示, 那么在语料中词性lh后出现aq的转移概率 (此处用alh, aq表示) alh, aq不一定等于πaq (词性aq出现在句首的概率) , 化成公式为

这样做有两点好处, 一是节省计算时间, 二能防止级联错误的发生。

2.利用规则方法提高词性标注准确率

藏语文法和一些藏语表达习惯使句子中的某些词有固定的顺序, 或者某些词性串的生成在藏语中是不合法的, 即某些词性永远不会出现在某些词性的前后, 因此若将合法的、在藏语中已形成固定格式的语法写成规则加以使用, 那么可以用它去检验计算机自动标注词性的结果, 如有不符合语法的词性串出现, 则可通过修改提高词性标注准确率。

接下来, 将通过几个实例加以说明:

总结

词性标注的准确率除跟算法性能有关外, 还依赖于一个大家都公认的词性标记集及一个经专家标注过词性的训练语料。

斜度和锥度标注 篇4

1. 斜度 斜度是一直线(或平面)对另一直线(或平面)的倾斜度 ,其大小用该两直线夹角(或两个平面夹角)的正切来表示(图1-14),其中BC的斜度=tgα=H/L,在图样中用∠1:n来标注,

斜度符号的画法见图1-15.a,h为字体高度。 图1-16.a为斜度1:5的画法与标注,作图时先取AD作为一个单位长度,再取AB等于5个单位长度,连接BD即得到斜度为1:5的斜度线.图1-16.b为斜度标注示例。 注意:斜度符号的方向应与斜度方向一致。

图1-14 斜度 图1-15 斜度和锥度符号的画法  a)斜度符号 b)锥度符号

标注数据 篇5

袁行霈先生主编的《中国文学史》 (高等教育出版社, 1999年版) 、章培恒先生主编的《中国文学史》 (复旦大学出版社, 1997年版) 和郭预衡先生主编的《中国古代文学史》 (上海古籍出版社, 1998年版) , 代表了20世纪90年代以来“文学史研究和编写的最新水平”, [1]这些著作博大精深、气魄宏伟, 是当今高校文科最具权威性和使用最广泛的中国文学史教材。但由于是集体编写的缘故, 参编人员不尽相同, 难免会出现一些疏误。其中应引起我们注意的是, 几部文学史对某些地名的标注不太规范, 主要表现为有些地名在这些著作出版之前已经更改了名字, 而这些著作中依然沿袭旧有地名而没有把地名的变更体现出来。由于时代的发展进步, 地名的演变发展更新非常快, 按照国家“积极发展小城市”的策略, 近年来撤县设市非常频繁, 而且国家还在不断设置和命名一些新城市。文学史中地名的标注也应该适应时代的需求而随时更新, 不然就会使注释混乱, 给读者造成认识上和理解上的麻烦。因此在学术著作中地名应按照“通名专一性、用字简洁、自成系列的原则进行规范。”[2]应该使用更为规范、标准和符合现势性的地名。笔者以这几部著作出版的时间为断限, 对著作中没有更改过来的地名予以指正, 对著作出版以后地名又发生变化的附列于文后, 以备读者参考:

1. 孟子, 邹 (今山东邹县) 人 (章培恒, 上册第123页) ;邹 (今山东邹县东南) 人 (郭预衡, 第一册第103页) ;邹 (山东邹县) 人 (袁行霈, 第一册第125页) ;仲长统, 山阳高平 (今山东邹县西南) 人 (章培恒, 上册第263页) ;山阳高平 (今山东邹县一带) 人 (郭预衡, 第一册第199页) ;王粲, 山阳高平 (今山东邹县西南) 人 (章培恒, 上册第324页) ;山阳高平 (今山东邹县) 人 (袁行霈, 第二册第48页) 。按:邹县于1992年撤县设市, 并更名为邹城市。邹城以前为县, 但自其撤县设市后, 我们应按照术语规范化的要求使用“邹城市”这样的符合现势性的称谓, 使称呼更加科学化、规范化。另外为求行文方便, 以下将袁行霈、章培恒、郭预衡三位先生各自主编的中国文学史教材分别简称为袁、章、郭, 页码均用数字标出。

2. 吕不韦, 战国末卫国人, 后为秦阳翟 (今河南禹县) 富商 (袁, 第一册181) ;贾山, 颖川 (今河南禹县) 人 (郭, 第一册180) ;晁错, 颖川 (今河南禹县) 人 (章, 上册199) ;汉颖川 (今河南禹县) 人 (袁, 第一册182) 。按:禹县于1988年撤县设市, 并更名为禹州市。

3. 王充, 会稽上虞 (今浙江虞县) 人 (郭, 第一册195) 。按:1992年虞县撤县设市, 并更名为上虞市。

4. 曹操, 沛国谯 (今安徽亳县) 人 (章, 上册310) ;沛国谯 (今安徽亳县) 人 (郭, 第二册16) ;李绅, 祖籍亳州谯县 (今安徽亳县) (郭, 第二册324) 。按:亳县于1986年撤县建市, 并更名为亳州市, 2000年升格为省辖市, 原亳县为今亳州市樵城区。

5. 陆机, 吴郡华亭 (今上海市松江县) 人 (章, 上册342) ;吴郡吴县华亭 (今上海松江县) 人 (郭, 第二册49) ;吴郡华亭 (今上海市松江县) 人 (袁, 第二册66) 。按:松江县于1998年撤县设区, 并更名为松江区。

6. 魏收, 巨鹿下曲阳 (今河北晋县南) 人 (章, 上册428) 。按:晋县于1991年撤县设市, 并更名为晋州市。

7. 郦道元, 范阳涿鹿 (今河北涿县) 人 (章, 上册429) ;范阳涿鹿 (今河北涿县) 人 (袁, 第二册181) ;卢思道, 范阳 (今河北涿县一带) 人 (袁, 第二册233) ;贾岛, 范阳涿鹿 (今河北涿县) 人 (章, 中册144) ;卢挚, 大都涿州 (今河北涿县) 人 (郭, 第三册436) 。按:涿县于1986年撤县设市, 并更名为涿州市。

8. 储光羲, 润州延陵 (今江苏丹阳县) 人 (袁, 第二册259) 。按:丹阳县于1987年撤县建市, 并更名为丹阳市。

9. 韩愈, 河阳 (今河南孟县) 人 (章, 中册138) ;河南河阳 (今孟县) 人 (郭, 第二册329) ;河阳 (今河南孟县) 人 (袁, 第二册313) 。按:孟县于1996年撤县设市, 并更名为孟州市。

10. 李德裕, 赵郡 (今河北定县) 人 (袁, 第二册332) ;刘禹锡, 祖籍中山 (今河北定县) (郭, 第二册375) 。按:定县于1986年撤县并改为定州市。

11. 司空图, 河中虞乡 (今山西永济县) 人 (袁, 第二册423) 。按:永济县于1994年撤县设市并更名为永济市。

12. 贺铸, 卫州 (今河南汲县) 人 (郭, 第三册141) 。按:汲县于1988年撤县设市, 并更名为卫辉市。

13. 范成大, 吴郡 (今江苏吴县) 人 (章, 中册435) 。按:吴县于1995年撤县建市, 并更名为吴县市。

14. 元好问, 太原秀容 (今山西忻县) 人 (郭, 第三册313) 。按:忻县于1983年改为忻州市 (县级市) , 改称忻州行署, 2000年忻州行署改为忻州市 (地级市) 。元好问故里应在今忻州市忻府区。

15. 陈铎, 邳州 (今江苏邳县) 人, (章, 下册370) 。按:邳县于1992年撤县设邳州市。

这里需要指出的是, 这几部文学史由于是集体编写的缘故, 所以对地名的标注会出现前后体例不一致的地方, 如:

1.在章培恒先生主编的《中国文学史》中:曹丕, 沛国谯 (今安徽亳县) 人, (章, 上册310) ;秦醇, 沛郡亳州 (今安徽亳州市一带) 人 (章, 下册150) 。按:邹县1992年撤县设市后, 亳县是旧有地名而亳州市才是符合现势性的地名。

2.在袁行霈先生主编的《中国文学史》中:储光羲, 润州延陵 (今江苏丹阳县) 人 (袁, 第二册259) ;许浑, 寓居润州丹阳 (今江苏丹阳市) (袁, 第二册421) 。按:丹阳县1987年撤县建市后, 丹阳县是旧有地名而丹阳市才是符合现势性的地名。

3.在郭预衡先生主编的《中国古代文学史》中:卢思道, 范阳 (今河北涿州) 人 (郭, 第二册144) ;贾岛, 范阳 (今河北涿州) 人 (郭, 第二册363) ;卢挚, 大都涿州 (今河北涿县) 人 (郭, 第三册436) 。按:涿县1986年撤县设市后, 涿县是旧有地名而涿州市才是符合现势性的地名。此外, 游国恩等主编的《中国文学史》 (修订本) (人民文学出版社, 2002版) 中对地名的标注依然是沿袭《中国文学史》 (人民文学出版社, 1963年版) 的体例, 因此其著作中地名的标注已经不能适应学术发展的要求。如:

1.陆机, 吴郡 (今江苏松江县附近) 人 (第一册264) 。按:松江县1958年自江苏省划入上海市, 1998年撤县设区。

2.江淹济阳考城 (今河南考城) 人 (第一册321) 。按:1954年考城、兰封两县合并为兰考县, 考城早已不复存在。

王运熙、顾易生两位先生所主编《中国文学批评史新编》 (复旦大学出版社, 2001年版) 基本上也是沿袭《中国文学批评史》 (上海古籍出版社, 1981年版) 中古今地名标注的体例, 如:

1.孟子, 战国邹 (今山东邹县东南) 人 (上册21) ;曹丕, 沛国谯 (今安徽亳县) 人 (上册70) ;元好问, 太原秀容 (今山西忻县) 人 (上册390) 。按:邹县为今邹城市;亳县为今亳州市樵城区;忻县为今忻州市忻府区。

2.胡祗遹, 磁州武安 (今河北武安县) 人, (上册408) 。按:武安县于1988撤县建市, 并更名为武安市。

3.沈既济, 苏州吴 (郡治今江苏吴县) 人 (上册420) ;冯梦龙, 长洲 (今江苏吴县) 人 (下册167) ;毛宗岗, 长洲 (今江苏吴县) 人 (下册360) 。按:吴县于1995年撤县建市, 并更名为吴县市。

4.徐念慈, 江苏昭文县 (今江苏常熟县) (下册539) 。按:常熟县于1983年撤县建市, 并更名为常熟市。

对于游国恩先生和王运熙先生的著作中地名标注的疏误我们只是举其要者, 其它古今地名标注的疏误和以上所举文学史中的情况大致相同, 可参考上面所列情况。

另需指出的是, 在几位先生的著作出版之后一些地名又发生了变化, 现胪列于下:

1.枚乘, 淮阴 (今属江苏) 人 (章, 上册187) 。陈琳, 广陵射阳 (今江苏淮安县东南) 人 (袁, 第二册48) 。按:淮安县于1987年撤县设市, 并更名为淮安市, 2001年淮阴市更名为淮安市, 原县级淮安市改为淮安市楚州区, 原淮阴县改为淮安市淮阴区。

2.桓谭, 沛国相 (今安徽宿县一带) 人 (郭, 第一册195) ;嵇康, 谯国铚 (今安徽宿县西) 人 (章, 上册336) 。

按:1999年宿县撤地建市, 设立省辖宿州市。

参考文献

[1]孙逊.关注学术前沿熔铸众家之长——评袁行霈主编的《中国文学史》[J].文学遗产, 2001, (3) :18.

万邦皮鞋没有标注鞋号 篇6

抽查结果:合格49个批次, 不合格1个批次, 不合格产品检出率为2%。

主要问题:外观质量不合格。

红榜

黑榜

皮鞋的日常护理

皮鞋的样式不同, 对护理的要求也不一样。磨砂皮、羊绒、牛绒面用毛刷顺向梳刷 (磨砂皮可用硬质毛刷刷;羊绒、牛绒面可用软质毛刷刷) , 宾度王皮面、漆皮、开边皮以及一些高档皮鞋应定期进行打腊保养。

注意皮鞋穿着时间。同一双皮鞋不要一直穿起来没完, 穿上两天后应该更换鞋子。让松胀了的皮面纤维回缩还原, 舒展折痕, 挥发鞋内湿气。很多真皮鞋的皮面就像我们的皮肤, 也需要透透气, 休息一下。皮鞋穿时间长了, 脚部汗水易使鞋内产生湿气, 应置于阴凉处, 吹吹风, 以防止滋生细菌, 必要时可放在有阳光而无直射的地方晾30分钟左右, 这样杀菌效果更好。

注意穿着方式。皮鞋穿着很重要, 走路应脚踏实地, 尽量避免崴脚。最好在平坦的路上行走, 绕开水坑、石子路等路段。避免穿着皮鞋爬山、打球等, 那样对鞋子损害很大, 时间一长鞋就变形, 直至没法穿。

注意勤给皮鞋上油。穿一段时间后对皮鞋护理时, 先用软布或专用擦鞋布擦掉鞋上的尘垢。上油时应薄而均匀用力, 不要损伤鞋面, 鞋面不宜堆积鞋油;上油后, 不要马上擦拭, 需等5~10分钟, 让皮面充分吸收、滋润, 然后轻轻擦拭抛光, 皮鞋就会光亮如新。上油需注意对深色和浅色的鞋使用不同的鞋油, 拼色的皮鞋尽量使用无色透明的鞋油。上油的同时加一滴醋, 皮鞋会越擦越亮。

注意皮鞋存放地点。皮鞋要避免放置在靠近酸、碱、盐、油等物质的地方, 防止表层被化学物质侵蚀, 影响穿着美观及皮鞋寿命。暂时不穿的皮鞋应先将适量而柔软的纸团填充于鞋内, 也可用鞋撑, 以免皮鞋变形;再装入鞋袋或鞋盒内, 放在阴凉干燥通风处保存, 最好再放些防潮剂, 避免在潮湿环境下皮鞋发霉和出现皱纹。

主要不合格项目分析

本刊摘要的标注规范 篇7

摘要应着重反映研究中的创新内容和作者的独到观点;不要简单地重复题名中已有的信息。论著类文章摘要的内容应包括研究目的、研究方法、主要发现(包括关键性或主要的数据)和主要结论,一般应写成冠以“目的(Objective)”、“方法(Methods)”、“结果(Results)”和“结论(Conclusions)”小标题的结构式摘要。综述类文章摘要的内容应包括综述的主要目的、资料来源、综述时所选择的研究数目及这些研究是如何选择的、提炼数据的规则及这些规则是如何应用的、数据综合的最重要的结果和结论。可以写成结构式摘要,也可写成指示性或报道-指示性摘要。

中文摘要一般使用第三人称撰写,不列图、表,不引用文献,不加评论和解释。摘要中首次出现的缩略语、代号等,除了公知公认者外,首次出现时须注明全称或加以说明。中文摘要一般置题名和作者姓名下方,摘要前应冠以“摘要(Abstract)”字样。

本刊摘要的标注规范 篇8

摘要应着重反映研究中的创新内容和作者的独到观点;不要简单地重复题名中已有的信息。论著类文章摘要的内容应包括研究目的、研究方法、主要发现(包括关键性或主要的数据)和主要结论,一般应写成冠以“目的(Objective)”、“方法(Methods)”、“结果(Results)”和“结论(Conclusions)”小标题的结构式摘要。综述类文章摘要的内容应包括综述的主要目的、资料来源、综述时所选择的研究数目及这些研究是如何选择的、提炼数据的规则及这些规则是如何应用的、数据综合的最重要的结果和结论。可以写成结构式摘要,也可写成指示性或报道-指示性摘要。

中文摘要一般使用第三人称撰写,不列图、表,不引用文献,不加评论和解释。摘要中首次出现的缩略语、代号等,除了公知公认者外,首次出现时须注明全称或加以说明。中文摘要一般置题名和作者姓名下方,摘要前应冠以“摘要(Abstract)”字样。

图书领域的语义标注 篇9

随着Word Wide Web的飞速发展, Web中的文本和超链接构成了丰富的网页信息, 同时, Web中出现了越来越多可以访问的在线数据库, 其中蕴含的海量信息可供我们利用。整个Web按照信息蕴含的“深度”可以划分为Surface Web和Deep Web两大部分。Surface Web是可以被传统搜索引擎索引到的页面集合。Deep Web目前还没有比较明确的定义, 通常是指Web中可访问的在线数据库, 简称为Web数据库[1]。Deep Web中蕴含的数据量更大, 结构化程度更高, 覆盖领域更广, 内容更加专业化, 因此对Web数据库的访问逐渐成为获取信息的主要手段。

Deep Web数据的集成是对结构化信息的集成, 以尽可能自动的方式来完成对Web数据库中信息的有效利用。目前, Deep Web数据集成框架共分为两大模块:集成查询接口生成模块和对集成查询接口上查询的处理, 其中后者又包括领域的映射、Web数据库的选择、查询分派、结果抽取、结果注释、实体识别和结果合并七个模块[1]。

2 deep web语义标注

2.1 语义标注的定义

语义标注是指利用一组语义明确的词汇, 标注web数据库查询结果中的每个数据, 使查询结果不但人容易理解, 而且是机器可处理的。这是一个对web数据库查询结果添加机器可处理的语义标记的过程[2]。

领域知识指的是在某一特定领域内的概念与概念之间的相互关系, 以及具有相关性概念间的约束的集合[3]。一般来讲, 领域知识是指人们在日常生活中长期积累、社会流通度高、众所周知的一些动态的语义知识, 往往与具体领域相关。

2.2 查询结果语义标注

基于Deep Web数据库的查询, 返回的结果是通过提交的查询词, 利用后台数据库中预先定义好的模板动态生成, 这些模板结构清晰, 可读性强, 因此对同一个Deep Web数据库提交同一个领域内不同的查询, 返回结果页面的模式也是相同, 主数据区中的各个数据记录相同的位置描述相同的属性信息, 基于这一点, 本文利用实例对象建立本体模型, 然后通过训练本体中的实例生成标注模板。

查询结果的模式中包含查询词和接口中的部分属性名称, 因此将对象的标注转化为对其属性的标注。对将标注的对象进行属性选取时, 主要根据两点进行选取:第一是根据查询接口和返回结果页面中各属性出现的次数;第二是根据某特定领域的特征选择领域对象的属性。本文对标注对象进行抽象概括后, 给出标注模型:ObjectModel{U, AN, A, T}, U是网站的域名集, AN是该领域对象要标注的属性名称集;A是领域对象的属性值集合, 是该领域对象的所有属性值;T是领域对象的数据特征集合, 它是领域对象所对应属性的基本特征集合[6]。语义标注就是对于任何一个Ui (UiU) 中的结果记录的属性值Aj (AjA) , 都要从AN中找到一个明确的词汇并对其添加必要的语义信息, 使得计算机可以识别、处理。

在基于本体的Deep Web数据集成系统的实现过程中, 领域本体的构建关系着整个系统的效率, 本文构建的本体以图书领域为背景, 给出本体中相关概念的定义和模型。图书领域本体主要用于描述说明图书领域知识的概念集, 它是该领域中实体概念、相互关系以及该领域所具有的特征信息[6]。因此本文认为图书领域本体由概念、关系、属性和实例组成。在本体的构造过程中, 本文应用斯坦福大学开发的本体开发工具Protégé, , 选取图书的“ISBN”、“TITLE”、“AUTHOR”、和“PUBLISHER”四个属性构造了一个小型的图书领域本体。

通过统计与观察大量的图书网站, 本文选取了几个最为常用的属性名称:书名、作者、出版社、出版时间、原价和折扣价, 即标注模型中的取值定位AN={书名、作者、出版社、出版时间、原价和折扣价}。本文的标注方法分为训练阶段和标注阶段, 训练阶段主要是根据样本结果集生成某特定网站的标注规则, 由于图书领域的数据特征和特性, 生成标注规则分为两种:一种是对于书名、作者和出版社这三个属性应用本体中的实例模板生成, 另一种是对于出版时间、原价和折扣价这三个属性应用数据特殊格式形成标注规则。标注阶段的任务是根据训练阶段形成的标注规则对抽取结果进行标注。标注过程如下:

Step1:从的处理结果文档中随机选取若干个处理结果记录, 存入本体中, 作为该网站的实例样本, 也是语义标注的训练标注模板, 由多个属性名称和属性值组成的元组构成的。

Step2:从XML文档集中随机的选取一部分文档作为训练集, 再随机的选取一部分作为测试集, 将本体中的实例模板与训练样本中的数据记录进行匹配, 在训练样本中找到本体实例在页面中的位置, 即, (Rj训练样本中的数据记录) 再将这个实例模板的各个属性值与的各个数据单元进行匹配, 如果匹配成功则说明的属性名称是标注的候选标注名称。通过训练之后, 统计数据记录相应位置所选的候选标注名称, 将概率最大的作为最佳标注名称;如果在的所有属性值中没有找到与的数据单元相匹配的, 说明不能够使用本体中的标注模板来标注, 应该使用特殊格式来标注。

Step3:这一步是标注阶段, 主要任务包括:首先通过该网站的URL判断其是否包含在域名集中, 如果不包含, 则根据“Step1-Step3”生成标注规则, 如果包含, 则通过映射规则找到该网站的标注规则, 再应用标注规则对待标注页面进行语义标注。

3 实验数据与结果分析

对语义标注的评价采用准确率和召回率作为评价标准, 基于领域的特征本文选择了书名、作者、出版社、出版时间、原价、折扣价这六个基本属性属性。

表1针对图书领域的语义标注的实验结果, 本文对5个网站

进行了测试, 实验表明本文应用的标注方法具有良好的召回率和准确率。

4 结论

对deep web数据库的查询结果添加语义标注是一个新的研究问题, 为了获得完整、一致的标注结果, 本文提出将领域本体应用到标注过程中, 并充分考虑到了查询接口和查询结果的特征, 生成属性标注的过程, 最后对图书网站进行了实验与分析, 实验结果表明该方法有较好的查全率和查准率。

参考文献

[1]刘伟, 孟小峰, 孟卫一.Deep Web数据集成研究综述.计算机学报, 2007, 30 (9) :1475-1489.

[2]李文俊.Deep Web数据源发现和语义标注技术研究.兰州:兰州大学, 2008.

[3]T.R.Gruber.A translation approach to portable ontology specification knowledge.Current Issues in Knowledge Modeling.London, UK, June1993, 199-22.

[4]丘威, 张学先, 张立臣.Ontology开发应用研究.情报杂志, 2008, (6) :13-16.

[5]时念云, 杨晨.基于领域本体的语义标注方法研究.计算机工程与设计, 2007, 28 (24) :5985-5987.

上一篇:插入基础下一篇:试验检测数据处理