抵房申请书

2024-04-14

抵房申请书（精选5篇）

篇1：抵房申请书

《抵款申请表》

申请表致：

基于

合同（编号），截止

****年**月**日贵公司共欠付我公司

元（简称“应付款”）。现我方申请

项目，楼

单元

室房源一套（面积

平方米，单价

元/㎡，房款共计

元，以下简称“购房款”）。

现特申请将应付款冲抵购房款。

公司名称（盖章）：

公司法定代表签字：

联系电话：

****年**月**日

篇2：抵房申请书

甲方：沭阳光中房地产有限公司

乙方：周生波

就甲方所欠乙方工程款一事，经双方友好协商达成如下协议：

一、甲方所欠乙方工程款。

二、甲方将楼元的价格，抵给乙方，合计房价款元。

三、甲方负责协助乙方办理房产有关手续。

四、乙方所抵房屋，享受正常购房待遇。

五、所抵房价款与所欠工程款如有差别实行多退少补。

六、本协议具有法律效力，双方不得以任何理由违约。

协议人：甲方：

乙方：

篇3：科技项目申请书关键词提取方法

目前关键词提取方法主要分为3类:(1)基于统计特征的方法,如词语频度统计。(2)基于词语网络的方法,如文献[1]根据规则将文档映射为词语共现网络并用计算词语的关键度来提取关键词。(3)基于语义的方法。前两种方法虽然具有简单高效的优点,但由于算法局限于字面匹配、缺乏语义理解而排除了低频率的关键词。针对这个问题,引入语义特征进行关键词提取是目前的主要研究方法,如文献[2]引入《同义词词林》计算词语的语义距离,一定程度上提高了关键词提取的准确度,但没有结合词频因素。另外,科技项目申请书中包含的专业术语通常是项目的关键词,但很多术语没有收录在词典中,因而这类未登录词的识别尤为重要。

本文针对科技项目申请书的特征,利用Apache Lucene[3]和互信息统计相结合的多策略融合的方法进行分词,并采用识别未登录词作为项目关键词的一部分;对于特殊分词进行语义处理,利用知网中丰富的语义关系,分别计算词语之间的语义相似度,依据社会网络理论建立词语语义相似度网络,将词语的“关联度”和词频进行加权获得词语的关键度,并根据所设定的阈值完成关键词的提取。

1 科技项目申请书特征分析

相对于一般的文本,科技项目申请书具有以下特征:(1)科技项目申请书中的文字较精简、规范。(2)科技计划项目涉及各种技术领域,申请书中存在大量的专业术语,这些专业术语往往是项目的关键词。(3)申请书格式较统一,其中存在较多潜在的显性切分标记,例如在填写主要内容和主要技术指标时有(1)(2)(3)……切分标记;在出现领域词的时候会用双引号将词语引起来。(4)对训练语料库研究发现,很多科技项目名称中包含有隐性切分标记。(5)申请书中存在一些特殊词具有具体的语义,如“本系统”、“本课题”,“本项目”等。

2 科技项目申请书关键词提取方法

2.1 关键词提取流程

科技项目申请书关键词提取流程如图1所示,主要分为两部分:(1)对科技项目申请书进行分词并识别未登录词作为关键词的一部分。(2)基于语义的关键词提取,即通过计算词语语义相似度建立语义相似度网络,结合词频计算词语关联度来提取项目其他关键词。

2.2 多策略融合分词及未登录词识别方法

对科技项目申请书中的项目名称、主要内容进行分词:(1)根据申请书中潜在的隐性和显性切分标记,将项目名称、主要内容文本切分成子串序列。(2)在通用停用词库的基础上,针对申请书中的词语特点建立专业停用词库,如技术、开发、研究等专业停用词。对(1)中的子串序列分别利用Apache Lucene进行分词及去停用词处理。最后形成词序列集合,SW={w1,w2,…,wn},其中,wi=(ui,fi);ui表示词;fi表示词频。

研究发现,各个领域的科技项目申请书中存在较多专业词即未登录词。未登录词造成分词精度的损失比其他因素大[4],因此本文融合了互信息统计的未登录词识别策略,考虑文本的上下文信息来提高未登录词的识别率。

概率论中定义了两个随机变量之间的互信息,即计算随机分布中的两个变量之间的互信息

$Ι (A, B) = Ι_{b} \frac{p (A, B)}{p (A) p (B)} (1)$

定义1 “未登录词”通常是单字词和其他汉字组成的多字词。因此,本文定义成词的可信度来度量两者之间组成词的可能性。n(i)表示词wi在训练语料中的词频;N表示训练语料中词语的总频数。则它们成词的可信度的计算公式定义为

FWC $(A, B) = \frac{1}{l e n (A) + l e n (B)} (1 - \frac{\sum_{i = A, B} n (i)}{Ν}) (2)$

文献[5]提出了较长字串组成新词的可能性小于较短的字串。因此,在计算词A、B成词可信度过程中考虑了A、B的长度len(A)、len(B),这样成词可信度的计算准确度将有一定的提高。

本文将成词可信度融合到词语互信息计算之中,依据式(1)将两词互信息计算公式定义为

I(A,B)=FWC $(A, B) Ι_{b} \frac{Ν \times n (A, B)}{n (A) n (B)} (3)$

其中,n(A,B)表示训练语料中词A与B相邻出现的频数。

“未登录词”经过分词后被划分成包括单字词的多个词语,首先将划分出来的单字词分别和其前一个词以及后一个词组成两个新词并放入临时词典,然后根据上面给出的互信息统计语言模型计算临时词典中词的成词可信度,最后根据设定的阈值识别出“未登录词”。

对于上述识别出的特殊词将做语义处理,如“本系统”、“本课题”,“本项目”等特殊词将它们替换成项目名称并利用同样的方法进行分词,这样可以提高接下来关键词提取的准确度;对于识别出的未登录词将作为关键词进行提取。

通过对未登录词识别并将未登录词作为项目部分关键词后,词序列集合SW={w1,w2,…,wn}将变为另一个词序列集合SW′={v1,v2,…,vm}(m≤n)进入下一步的关键词提取。

2.3 基于语义相似度网络的关键词提取

2.3.1 词语语义相似度计算

刘群认为两个词语的相似度是它们在不同的上下文中可以互相替换且不改变文本句法语义结构可能性的大小[6],而词语间的语义相似度一般由它们之间的语义距离来衡量,一种比较流行的方法是根据知网语义词典来计算词语义原之间的距离,从而得到词语的语义相似度。

在《知网》的结构中,每个词由多个概念来表达,而每个概念又是由义原来描述;义原根据其属性被组织成不同的树状层次结构,树与树之间存在关系而连接在一起,进而形成网状的知识结构,所以义原的距离是根据义原树结构的相对位置来衡量的。

假设词语w1在知网中有n个概念c11,c12,…,c1n,w2有m个概念c21,c22,…,c2m,则本文中规定词w1与w2的相似度为各个概念相似度的最大值,即

Sim $(w_{1}, w_{2}) = \max_{i = 1, \dots, n, j = 1, \dots, m} S i m S (c_{1 i}, c_{2 j}) (4)$

因此,两个词语之间的相似度最终归结到义原的相似度。对于两个义原节点相似度计算,李峰认为主要分为两大类:基于两个节点之间的路径长度和基于两个节点所含有公共信息的大小[7]。对于基于路径长度的计算,吴健认为,对于同样距离的两个义原,它们的相似度是随着它们所在的层次深度总和的增加而增加的,随着它们之间层次深度差的增加而减小[8]。针对以上两人论证的观点,文献[9]基于节点的层次和义原的相对路径长度提出了一种计算两个义原s1,s2相似度。

词序列集合SW′中两词语语义相似度计算过程:首先借助于知网语义词典,计算两词语义原之间的相似度,并取其最大值;再根据式(4)的定义求得了两个词语的语义相似度。

2.3.2 建立词语语义相似度网络图

词语共现网络没有从词语语义上体现它们之间的关联,导致一些没有关联的词语也将被加入共现网络中。因此,本文从词语之间的语义层面出发,建立词语语义相似度网络。

定义2 设W={v1,v2,…,vp}为预处理后得到的词语序列集合,则W对应的语义相似度邻接矩阵Mp定义为

$Μ_{p} = (\begin{matrix} S i m (v_{1}, v_{1}) & \dots & S i m (v_{1}, v_{p}) \\ ⋮ & ⋮ \\ S i m (v_{p}, v_{1}) & \dots & S i m (v_{p}, v_{p}) \end{matrix})$

其中,Sim(vi,vj)为词vi和vj的语义相似度,Sim(vi,vi)=1,Sim(vi,vj)=Sim(vj,vi)。

词序列集合SW′={v1,v2,…,vm}经过词语语义相似度计算得到m×(1+m)/2个词语间相似度的值,并对这些值进行递减排序;设定一个阈值β(0<β<1),取出前β×m(1+m)/2的值,假设这些相似度值所对应的词组合成另一词序列集合为SW″={s1,s2,…,sq}(q≤m),并根据它们之间的相似度值生成SW″对应的语义相似度邻接矩阵Mq。

定义3 设SW″为输入的词序列集合,Mq为输入的语义相似度邻接矩阵,则其对应的词语语义相似度网络图定义为G={V,E}。其中,图G为无向加权图;V表示图G中的顶点集;vi表示V中第i个顶点(词);E表示G中的边集;图G边的权值矩阵为Mq,其中Sim(vi,vj)为第i个顶点和第j个顶点之间边的权值,因为是无向图,所以Sim(vi,vj)=Sim(vj,vi)。

2.3.3 词语语义关联度计算

社会网络是由一群节点以及节点之间的连线所组成的关系集合,节点代表相应的群体,节点之间的连线表示节点间的联结关系。社会网络的实质是个体与个体之间,组织和组织之间为了达到特定的目的进行信息交流和资源利用的关系网[10]。通过对社会网络的分析,可以得到节点间的关系以及每个节点和其他节点的关联度,进而可以分析出节点在整个网络中的重要程度。

将上述建立的图G视为社会网络,图中的边的权重表示相邻两个节点之间的关联度。每个节点在整个社会网络中的重要程度,即删除该节点对整个社会网络的影响程度,则需要计算出该节点对于整个社会网络的关联度。

定义4 设图G为构建的社会网络图,其中G为加权无向图,图中两个顶点之间边的权值为它们之间的语义相似度;vi到vj的最短路径经过的顶点依次为vi,vi+1,…,vj,路径对应的边的权值依次为si,si+1,…,sj-1,则G中顶点vi和vj(i≠j)之间的关联度定义为

$r d_{i j} = f_{j} \sum_{p = i}^{j - 1} s_{p} (5)$

其中,fj为词序列集合SW″中第j个词在申请书中的词频; $\sum_{p = i}^{j - 1} s_{p}$ 为顶点vi和vj之间最短路径长度。

所以对于图G中的顶点vi,它在整个图中的关联度为

$r d_{i} = \sum_{j = 1, j \neq i}^{q} r d_{i j} (6)$

最后得到q个关联度的值,设定一个阈值γ(0<γ<1),取出前γ×q个的值,则这些值所对应的顶点将作为关键词进行提取。

3 实验结果及分析

在相同的相似度计算模型下,关键词提取的准确性直接影响到科技项目相似度计算的效果。本文设计了基于关键词的科技项目相似度计算实验,其中关键词分别采用传统的统计特征方法和本文的新方法来提取,相似度计算算法采用经典的余弦模型如下

Sim $(d_{i}, d_{j}) = \frac{\sum_{k = 1}^{n} f_{w_{k}} (d_{i}) \times f_{w_{k}} (d_{j})}{\sqrt{(\sum_{k = 1}^{n} f_{w_{k}}^{2} (d_{i})) (\sum_{k = 1}^{n} f_{w_{k}}^{2} (d_{j}))}}$

其中,di,dj为两个科技项目申请书;fwk(di)表示关键词wk在申请书di中词频。

针对浙江省科技项目库中的项目1进行相似度计算实验结果如表1所示。

实际比较可知,待查项目1和项目2研究内容类同,和项目3、6研究内容基本不重复,和项目4、5部分研究内容相似。如表1所示,新方法提高了相似性项目的相似度值,明显降低了不相似项目的相似度值,更有利于准确查找出相似的项目并排除不相似项目的干扰。由此表明,与传统的关键词提取方法相比,本文的关键词提取方法能更准确地提取出项目的关键词。

4 结束语

本文针对科技项目申请书特征,提出了一种基于未登录词识别与语义的科技项目申请书关键词提取方法。利用Apache Lucene和互信息统计的多策略融合方法进行分词并识别未登录词作关键词的一部分,然后通过建立词语语义相似度网络并计算词语的关联度提取其余关键词。实验结果表明,与传统的关键词提取方法相比,基于未登录词与语义的新方法能更准确地提取出项目关键词,改善了科技项目相似性检查的效果。

摘要：关键词提取在文本相似度计算得到应用。传统的关键词提取方法忽略文本中的未登录词以及缺乏对词语语义的理解。针对科技项目申请书,研究提出一种基于未登录词识别与语义的关键词提取方法。应用Lucene和统计相融合的方法进行分词,并识别未登录词作为申请书关键词的一部分;依据社会网络理论构建词语语义相似度网络,并计算词语关联度提取申请书其他关键词。实验结果表明,与传统的关键词提取方法相比,新方法能提取更准确的关键词,有更好的科技项目相似性检查效果。

关键词：关键词提取,未登录词,社会网络理论,语义相似度网络

参考文献

[1]马力,焦李成,白琳,等.基于小世界模型的复合关键词提取方法研究[J].中文信息学报,2009,23(3):121-128.

[2]王立霞,淮晓永.基于语义的中文文本关键词提取算法[J].计算机工程,2012,38(1):1-4.

[3]The Apache Software Foundation.Apache Lucene[EB/OL].(2010-09-06)[2012-10-12]http://lucene.apache.org.

[4]宋彦,蔡东风,张桂平,等.一种基于字词联合解码的中文分词方法[J].软件学报,2009,20(9):2366-2375.

[5]李振星,徐泽平,唐卫清,等.全二分最大匹配快速分词算法[J].计算机工程与应用,2002,38(11):106-109.

[6]刘群,李素建.基于《知网》的词汇语义相似度的计算[C].台北:第三届汉语词汇语义学研讨会,2002.

[7]李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105.

[8]吴健,吴朝晖,李莹,等.基于本体论和词汇语义相似度的web服务发现[J].计算机学报,2005,28(4):595-602.

[9]江敏,肖诗斌,王弘蔚,等.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):84-89.

篇4：请假申请书

这个月，我先后三次向公司请假都没得到批准。今日我再次向公司申请假期。我知道公司最近很忙，目前正在大量地招兵买马。每个工友都勤勤恳恳地工作，而我却在这个时候请假，实在是太自私了。其实我真的不想这么做，我真的是有苦衷，就请你们听我细说。

我自幼家贫，门庭衰微，常受外人欺负。从小我就身体虚弱清瘦，病不离身。谢谢慈祥父母的宠爱，他们带着我寻医治病，才保全性命，活到今天。不巧在我九岁那年慈母又生病，两位才刚满十岁、十三岁的姐姐就不得不离校外出打工，想来也流泪。只留下我们父母三人在家相依为命，同甘共苦。如今我已长大成人，应当在家孝顺父母，可母亲一直有病，需要钱治病住院，每日花费巨大，父亲又年老，无力劳动，一家人的开销全靠我盘点，我才不得不离开年老的父母。

家中父母二人相濡以沫，每天两人相互说话，消除寂寞。如今我也离家半年，千里离家一日寒，这些日子我每时每刻都想念家中的父母，每想到他们的处境，我的眼泪就情不自禁流下来。家中的父母何尝不牵挂在外的子女？何尝不希望自家子女守候在自己身旁，多看几眼？

公司一向招大专生，而我只是中专生，要想进公司上班还真是没门，更何况在我进公司的时候早就已经招够人了。也许公司出于同情心，怜悯我的遭遇，破例招我进公司上班，使我不再流浪在外头。我知道我是个穷人家的孩子，书读得少，工作效率不高，但公司从没嫌弃我，对我十分眷顾，让我在外有一个如此温暖的大家庭。公司如此待我，我应当小心翼翼地珍惜这份得来不易的工作，好好上班，以自己的全部精力为公司效劳，没理由推辞，可是我请假真的事出有因，万请见谅。

眼下农忙，父母年事已高，需要人照顾，我想请半个月的假，回家照顾父母以尽孝道。乌鸦都有反哺之义，更何况是人。就请领导成全我的一片心意。往后的日子还长着，上班的时间有的是，为公司效力的机会还很多。

民以粮为主，田里的稻米不能少，农田不能闲，家里又无兄弟，两位姐姐又远嫁，现在我又不在家，只有在家的双亲孤苦伶仃，无依无靠，我只好做些做儿子该做的事情，以表心意。

我从小家里就十分清苦，父母吃尽苦头才把我养大，自己却白了头发，只求你们明白我的苦处，了解我的一片心意。我怀着感恩的心情，恭敬地递上此请假申请书，以求批准。

申请人：郑学政

责编：黄素芳