搜索方法

2024-05-06

搜索方法(精选十篇)

搜索方法 篇1

相似性搜索在许多方面有着非常重要的作用, 如数据压缩、数据库和数据挖掘、信息检索、图像和视频数据库、机器学习、模式识别、统计和数据分析等。它们所研究的对象一般能用相关特征的集合和高维空间中的点表示, 根据给出的查询点找出距其最近的点。这些点的维数范围很大, 会从几十到几千。当维数较低时, 这类问题比较容易, 当维数比较高时, 解决起来会比较困难, 也就是所谓的“维数灾难”。尽管已经经过了几十年的努力, 但现在的解决方案仍然不能让人十分满意。当维数比较高时, 这些方法和线性穷尽搜索相比几乎没有什么进展甚至会退化到线性搜索[1]。这种情况严重影响了相似性搜索的效果。

位置敏感哈希[1,2] (Locality Sensitive Hashing, LSH) 是当前高维空间中近似近邻搜索 (Approximate Near Neighbor, ANN) 速度最快的解决方法, LSH在汉明空间进行搜索, E2LSH[3,4]是对LSH的改进之一, 在欧氏空间进行搜索。与基于树的索引方法相比, 它们不但复杂度低、支持维数高, 而且检索时间大大缩短。目前LSH在图像检索[5]、复制检测[6,7,8]中已有很多应用。

1 LSH基本思想及实现方案

1.1 LSH

实际上, 相似性搜索并不一定要得出精确结邻搜索的应用中, 近似最近邻提供的结果已经比较让人满意了。关键在于它能以更小的代价完成目标, LSH近似最近邻搜索算法, 它的基本思想是:如果两个点相距很近, 那么在进行映射操作后, 这两个点仍然相距很近。这个思想可用图1解释。为了对这些点进行映射, 要先建立哈希表, 对数据点进行哈希, 使那些比较接近的点对于每个哈希函数发生冲突的概率比距离远的点要大。也就是把比较相近的点哈希到同一个桶。这样, 通过对查询点进行哈希并获取它所在桶中的标志就可以进一步得到比较近的邻居。好的哈希表可以使一个点的查询在O (1) 时间内和O (N) 内存空间上完成查询, N是数据点的数目。

1.2 E2LSH

初期的LSH的哈希函数是针对二进制汉明空间{0, 1}d中的点的。虽然通过把l2空间嵌入到l1空间, 并把l1空间嵌入到汉明空间也能把算法扩展到l2范数, 但这在很大程度上增加了算法的查询时间和错误率, 也增加了算法的复杂度。E2LSH不需要嵌入就可以直接工作在欧式空间中的点上, 它还可以工作在任何p∈ (0, 2]的lp范数上。

该方案继承了原始LSH的两个特点。其一是它很适合于维数很高但稀疏的数据点。尤其是当d是向量中非零元素的最大数目时, 算法的运行时间限会保持不变。该特点是其他空间数据结构所不具有的。与线性扫描相比, 该方案在速度上能够达到一个或几个数量级的巨大提高。其二是如果数据满足一定的有界增长特性 (Bounded Growth Property) , 新方案可以很快地找到精确的近邻。对于点q, c>1, N (q, c) 代表ξqc-近似近邻的数目。如果N (q, c) 以c的函数按次线性 (sub-exponentially) 增长, 并且给定常量因子去近似q到它的最近邻居的距离, 那么, 算法能够以固定概率在时间O (dlog n) 内找到最近的邻居v。特别地, 如果N (q, c) =O (cb) , 则运行时间为O (log n+2O (b) ) 。

1.3 LSH函数族

对于点域S, LSH函数族定义如下:

函数族H={h:SU} 是位置敏感 (Locality sensitive) 的, 如果对于任何q, 函数p (t) =PrH[h (q) =h (v) :‖q-v‖=t]随t严格递减, 也就是说, 点qv冲突概率随他们的距离递减。这样, 对于点vB (q, R) 和点uB (q, R) , 就有p (‖q-v‖) >p (‖q-u‖) 。LSH函数族把点集S中的点哈希到某个域U, 然后计算点q的哈希值, 据此找到与它冲突的点。为了使运行时间满足需要, 可增大[0, R]和[R, ∞]之间冲突概率的差距。为此, 可将多个函数hH连接起来。定义一个函数族, g (v) = (h1 (v) , h2 (v) , …, hk (v) ) , 其中h (i) ∈H。算法从中选择独立且分不一致的L个函数g1, g2, …, gL。在预处理过程中, 算法把每个点vp存储在桶gj (v) 中。给出查询点q后, 算法搜索所有的桶g1, g2, …, gL, 并对某个桶中发现的每个点v计算qv的距离, 如果‖q-v‖≤R (v是一个R近邻) , 则认为v就是算法要得到的点。

1.4 lp范数下的E2LSH

E2LSH是基于p-稳定函数的, 并且对于p∈ (0, 2]的所有值都适用。稳定分布被定义为归一化独立同分布变量和的极限。稳定分布常用的例子是高斯分布, 它的定义如下:

R上的分布D被称为p-稳定分布, 如果存在p≥0对于n个实数v1, v2, …, vn和分布D的独立同分布变量X1, X2, …, Xn, 随机变量iviXi和变量 (i|vi|p) 1pXiX是分布D的随机变量。

算法通过计算内积 (a·v) 为每一个向量v分配一个哈希值, 哈希函数ha, b (v) :Rdz把一个d维向量v映射到整数集上。哈希函数通过随机选择的ab进行排序, a是从p-稳定分布独立选择的d维向量, b是一个在[0, w]上均匀选取的实数。ab选定后, ha, b (v) =|av+bw|

在进行哈希运算时, 内积 (a·v) 把每个向量映射到一条实线上。由p-稳定分布定义可知, 2个向量 (v1, v2) 投影的距离 (a·v1-a·v2) 的分布与‖v1-v2‖pX的分布相同。X服从p-稳定分布。如果能够把实线以合适的长度w进行等长分割, 并且根据向量被投影到分割后的哪一段为该向量分配一个哈希值, 那么这样的哈希函数应该满足前面位置敏感的描述。两个向量 (v1, v2) 在从上述哈希函数族中随机抽取的哈希函数下冲突的概率是可以计算的。设fp (t) 代表p-稳定分布绝对值的概率密度函数, c=‖v1-v2‖p, 对于取自p-稳定分布取值的随即向量a, a·v1-a·v2与cX分布相同。可见:

p (c) =Ρra, b[ha, b (v1) =ha, b (v2) ]=0w1cfp (tc) (1-tw) dt

对于固定的参数w, 冲突概率p (c) 随c=‖v1-v2‖p单调递减。

2 基于外存的位置敏感搜索方法

E2LSH算法在进行检索时, 需要对所有高维向量进行哈希, 然后将各个向量分到一些哈希桶中, 这样可以缩小了检索时查找的范围。但它每次检索都要读取所有向量并进行桶的分配, 而且, 桶哈希的结果位于主存中, 不利于系统效率的提高。实际上, 由于图像库的相对稳定的, 所以桶分配的结果在使用相同哈希函数时也是几乎相同的, 为了加快检索速度, 可将桶分配结果存为文件, 检索时直接从文件中寻找相关的点, 并进一步计算精确的欧氏距离。在哈希函数族确定后, 对数据集中的点进行哈希运算, 得到L个哈希值h1 (v) , h2 (v) , …, hL (v) , 然后对这L个值进行哈希得到一个索引值Index, 再将Index存入外存索引文件IndexFile, 该文件还包含索引值对应的数据点的序号 (arg (Index) ) 。重复该过程直到所有点的Index值都已经得到并被存入文件, 同时Index相同的点不再建立新的索引文件。这样就得到一系列的索引值Index1, Index2, …, Indexm, 及外存索引文件IndexFilei, 各文件所包含的内容如下:

外存索引文件的建立过程如下:

(1) 计算E2LSH所需参数, 产生p-稳定随机数并存储为参数文件paraFile;

(2) 根据哈希函数族对数据集进行哈希得到L个哈希值h1 (v) , h2 (v) , …, hL (v) ;

(3) 对L个哈希值进行哈希得到一个索引值Index, 并将其击对应点的序号存入文件IndexFile;

(4) 重复第 (2) , (3) 步, 对索引值相同的点直接将其序号存入该索引值对应的文件, 直到遍历完整理数据集。

搜索过程如下:

(1) 读取参数文件paraFile;

(2) 根据paraFile重建哈希函数, 读取查询点计算它的索引值Index;

(3) 查找包含该索引值Index的IndexFile;

(4) 读取IndexFile中各点的坐标并计算与查询点的距离, 得到相似度排序结果, 完成搜索。

3 实验结果

首先测试参与最后相似计算的样点数量。实验采用的数据集点总量约为26万个, 采用线性扫描方法时全部样点参加计算;而在本文方法中, 由于对样点进行了划分, 因此参与比对的数量明显减少, 结果如图2所示。

然后查询所需要的时间, 该实验特征从文件读取特征。采用线性扫描方法时全部样点参加计算, 耗时相对稳定在9 535 ms左右;而在本文方法中, 由于对样点进行了划分, 每次不需要读入全部样点, 因此节约了大量文件I/O的时间, 在检索的用时上同直接比对有较大幅度的下降 (平均每次检索耗时在1 396 ms左右) 。实验结果如图3所示。

最后检验满足条件样点检出率的情况。由于线性扫描对每个样点进行比较计算, 将它的检出结果作为比较基准;本文方法由于进行了样本的划分, 可能导致部分样点被划分在外, 从而不能被完全检出。在100次随机实验中, 只有1次查询有样点遗漏了, 该次检出率为75%。其他检出结果与线性扫描检出结果相同, 检出率都为100%。实验结果如图4所示。

4 结 语

LSH思想从提出到现在已经超过10年, 算法本身得到了不断发展, 适用的空间从汉明空间发展到了欧式空间。将样点全部读入内存, 随着样点数量的增加 (或者是特征维数的增加) , 内存也会快速增加, 将会超出实际可用的物理内存, 导致检索无法进行。解决方法之一就是建立外存索引, 但是由于现行扫描每次检索都要读取全部的样点, I/O时间较长, 且检索时间会随样点数量增加线性增加, 也会超出实用的要求。而本文方法由于进行了样点的划分, 因此每次检索不需要读入全部的样点, 节省了大量文件I/O时间, 且内存占用也较小, 其检索时间随样点数量的增加而缓慢的增加。近两年来, 多数图像检索、视频检索和目标识别的论文, 尤其是TRECVID2009评测报告很多都用到了LSH方法。在大规模数据的快速检索上它的作用尤为明显。经过优化的算法在约26万幅图像上对单幅图像的检索可以低至几十ms, 平均检索时间约为1 400 ms, 这样的速度明显优于现有的基于树的检索算法。新算法对与信息检索有关的应用有重要的推动作用。

摘要:位置敏感哈希在信息检索、目标识别和视频语义搜索等领域得到了广泛应用, 与基于树的方法相比, 它们虽然初步解决了高维检索问题, 但这些基于主存的方法在实际应用中仍有较大的局限性。为解决大数据集快速检索问题, 在E2LSH基础上提出了基于外存的位置敏感搜索方法, 将数据集各点通过位置敏感哈希函数族进行映射并在外存建立索引文件, 实验证明该方法在检索准确率几乎相当的情况下检索时间大大缩短。

关键词:高维检索,位置敏感哈希,外存,E2LSH

参考文献

[1] GIONOS A, INDYK P, MOTWANI R. Similarity search in high dimensions via hashing [C]. Edinburgh, Scotland: Proceedings of the 25th International Conference on Very Large Data Bases (VLDB) , 1999.

[2] INDYK P, MOTWANI R. Approximate nearest neighbor: towards removing the curse of dimensionality[C]. Dallas, Texas, USA: Proceedings of the Symposium on Theory of Computing (STOC) , 1998.

[3] ALEXANDR A, INDYK P. E2LSH 0.1 user manual[EB/OL]. [2010-08-20]. http://www.mit.edu/~andoni/LSH/.

[4]DATAR M, IMMORLICA N, INDYK P, et al.Locality-sensitive hashing scheme based on P-stable distributions[C].NewYork, USA:Symposium on Computational Ge-ometry (SoCG) , 2004.

[5]JEGOU H, DOUZE Matthijs, SCHMID Cordelia.Impro-ving bag-of-features for large scale image search[J].Inter-national Journal of Computer Vision, 2010, 87 (3) :316-336.

[6]LIU Zhu, LIU Tao, GIBBON David, et al.Effective andscalable video copy detection[C].Pennsylvania, USA:ACM SIGMM International Conference on Multimedia In-formation Retrieval (MIR'10) , 2010.

[7]LIU Zhu, LIU Tao, SHAHRARY Behzad.AT&T Re-search at TRECVID 2009 content-based copy detection[C].Gaithersburg, MD:TRECVID Workshop at NIST, 2009.

文献搜索方法概述 篇2

[ 日期:2007-1-25 ] [ 来自网络]

一、文献密码搜索的方法概述

文献密码搜索的方法精要总结如下: 1.google是密码搜索的利器

2.标准检索表达式:杂志名(数据库名)+password+username 3.检索表达式的变异(pw,pwd等衍生词)4.冗余信息的去除(-NEED)

5.密码的区域性问题(site:EDU,KR,TW)6.文件类型限制

7.INTITTLElink等限制的妙用

8.著名杂志带其他杂志

9.逆向查找:安全,原理简单.但全人工,烦琐,管理和调度技术有待于完善

二、文献缩写-全名自动查询系统

使用方法:

方法一:

将缩写输入查询框内,按“search”就可以了。注:不需把缩写后的“.”号输入,但每个缩写单词间要空格。

网址: http://jake.openly.com/

方法二:

采用耶尔大学的杂志缩写查询系统:

网址:http://info.med.yale.edu/library/journalfinder/

方法三:

生物工程类杂志缩写专用搜索器:

网址:http://darwin.nmsu.edu/~molbio/bioABACUShome.htm

方法四:

生物医学类杂志缩写专用搜索器:

网址:http://library.med.ohio-state.edu/abrv/

方法五:

Medline杂志缩写专用搜索器:

网址:见下跟贴

这里还有个杂志全名与缩写对照的文件供下载: 请登陆

绝对盗版google----供google扬名

http:///

如何找到powerpoint图片?如何找到一些讲座的资料?

方法简单:输入一个关键词,然后找相关的PPT资料,如找transgenic资料可以:transgenic filetype:PPT

这时可以搜索出大量结果,但这并不完成,可以粗略看看什么内容,然后再看看来源什么网站,寻根求源,可以获得大量相关信息,因为许多讲座不是一个PPT组成,而是由一系列PPT,这样可得到一些较完整的资料。

幻灯片是重要资料来源,不要忽视!

十三、Bioon新讲座----有机检索理念

为什么又要谈检索,不是因为我有什么新发现,而是我与一些检索高手和新手交谈后,发现了很多问题,如重复检索,需要的时候却检索不到,只了解一些文献数据库,对其它数据库却不了解,密码和代理资源严重枯竭......等等。因此感到很忧虑,于是有感而发写的,希望大家能树立新的检索方式和理念,改变上述现状。谈到检索,大家第一想法是查文献,有人便认为是找数据库,有人说是pubmed,都不完全对。检索是一种举动,从最初不懂到懂,这需要一个过程,但许多战友检索水平高了,会找密码和代理了,便认为自己天下无敌了,其实不然,这不是真正的检索高手,真正的检索高手,应该是全方位地了解检索,全方位地、高效地运用你的检索技巧,正如以前一句话:检索让你的生活变得轻松起来!打个比方,为什么检索水平越高,在检索上花的时间反而越多?而且随着你的检索水平提高,你获得文献的速度并未成正比?因为我们都有一些不良的检索习惯,因此今天我倡导的是一种新的检索理念---“有机检索”或叫“生物检索”。这也是我通过长期文献检索获得的经验和教训,希望大家能此为起点,达到一个更高的高度,那么我的目的便达到了。

为什么叫有机检索或生物检索呢?强调的是有计划,有组织,协调检索过程,使检索变得简单化,高效化,为工作和学习带来更多的便捷。

首先应该了解为什么要检索,什么东西需要我检索,在什么地方检索?如何高效率地检索到自己的所需?如何应对检索不到的文献和资料?检索后应该怎么做?

具体说一说,希望大家看完这里内容后,能反思一下,自己过去的检索方式,能否需要进一步改进一下? 检索的第一步是为什么要检索?检索是工具,是学习和工作的工具,为更好的学习和工具提供指南,因此我这篇的名字也叫指南针,即源于此。什么东西需要检索?大家多认为是文献,paper。不完全正确,我们真正需要的东西,只有一部分是paper,更多的是其它的东西,这些东西同样需要检索!同样值得重视。因此在检索之前你就应该思考,我检索什么东西。

打个比方,我想作一个PPT,想找一个“cell”或一个mitochondria,那么你怎么找?至少有以下一些答案:

(1)在google上找图片,输入关键cell,OK很好,找到很多你需要的,很方便。但众所周知原因,google搜索到的图片,很难打开很多。

(2)输入cell filetype:PPT,在google中找,找到专业的PPT作参考。OK,也是好方法之一。(3)去pubmed,sciencedirect,OVID上去找最新的paper,然后从paper中挑出好看的图作参考。我想以上几种方法都可以实现,但都不是理想的方案,你至少要花一定的时间,可以说你都不是很高效的检索手段。因为有时会存在一时找不到合适的东东的现象,为此许多大虾很迷茫,甚至说昨天我还找到了,怎么今天老找不着呢?搜呀搜,还是找不到!我想大虾级人物经常会遇到这些情况,如果你有,表明你应该更改一下你的搜索理念了。在什么地方检索?当然在数据库。不,在数据库,以及互联网上其它一些地方。大虾级人物可能不以为然,当然了,找全文,可以在数据库中找,可以通过google搜索PDF文件,可以到作者的个人主页上找,或所在研究单位去找,还可以用email去要,也可以去生物谷等网站去求助,还可以找图书馆馆际互借......,但如何有机地处理这些方式,以达到最快找到你所需的东西?方法千万种,但我们需要的是最快的一种!这便是有机检索的精髓。

如何达到有机,或高效率检索?

其一,在知识层面上要了解全球数据库的概况,使检索具有方向性和合理性。

需要大家熟悉全球大的数据库(不包括个人主页等检索方式了),数据库不仅是文献数据库,如OVID,sciencedirect, human press, blackwell, BP,ACS,CA,BA,还包括专业数据库,如疾病数据库,基因和蛋白质各种数据库等等,这里列了较齐全的数据库集合吧Article_Class.asp?ClassID=48,只要找对合适的数据库才能达到有效地检索。如果大家都能对数据库有个大概了解,我想,你的检索水平已经足够高了。当然,检索内容还包括用google对图像,PPT,PDF,等检索(下一代检索也许会用微软的longhorn的新的检索工具了),因此要求大家对检索知识有个初步的掌握,我想我们论坛中有足够多的教程,尤其是入门教程供参考了。千万不要忽视这些入门的东西,对检索高手来说,常温习这些知识同样重要!因为这是检索的基础。

其二,检索不要贪多,一定要精,使检索达到最简化和最优化。尤其是检索文献,有人喜欢一次性下载一两百篇文献,所谓“通吃”,最终看了多少?十有八九是浪费!paper是用来读的,不是用来收藏的。如何高效地检索也包括这一点:只要必需的!不是必需的,不必找!同时看paper只看重要的paper,一般的,或比较差的paper最好少看,有时会误导你的思路的。看时要做标记,并且进入你的数据库,至少今后你会大概的印象,你读过这些文献没有?另外,经常见到网上有人求助没有电子版的文章,或一些偏僻的杂志的文章,我不说这些文章一定没有价值,至少大部分时候,我们都可以将这些文章价值忽略!并不是自己必需要的东西,如果没有也不必可惜和遗憾!多读重要的,有创新的paper(大多网上有电子版)。同时也没有必要每一篇都读过去,只读特别相关的,了解一些周边的信息。文献读多了,会被文献套牢了,你没有思路了。相反,一篇好文献,值得你反复回味,多读数遍都可以,一直到读懂,读透为止。

其三,要求一次检索服务终生,使检索效率达到最大化!这便是高效!许多朋友在需要时便检索,检索完毕,东东就没了,或者不知道放到哪了,或者随手扔了,下次需要时再检索。但一定要知道,有时候当你需要的时候,它并不容易被你检索到。如何避免这种情况呢,这便是我讲的重点之一。

建立自己的数据库是达到有机检索的重要方法之一,也是检索后应该做的主要事情!personal database,或private database。将你所查过的有用信息(因为你现在查了,如果你学习和工作的方向不变,将来可能还会有用),尤其是精华的,有用的信息,及时进行归类整理,相信时间长了,自然便有了自己的小数据库,如果要查什么内容,首先想到的是自己的数据库,如果刻盘,可以随身携带,多么方便快捷,即使不能上网的地方也可以用!其实我们只要细心,就会发现网上有许多试用数据库和免费的内容,但过一段时间后便不免费了,那时再想查这方面文章,就来不急了,甚至你以前查到的内容现在没有了,难道不可惜?如果建立数据库后,便不存在烦恼了。

如何建立自己的数据库呢?我讲一点我个人经验供参考。可以在硬盘(不要在C盘)设立一个文件夹,可以进行分类(最好用英文名),如image, protocol,PDF,Note等,然后分别建立下级文件夹,如在image中建立cell, DNA, human, animal, disease等,Protocol 中建立Immune, molecular biology, cellular biology, biochem...,以供实验使用。这个看自己的专业需要而定。而PDF文件,我希望所有的求助者和应助者都应养成一个良好习惯!

变形测量中的数字散斑相关搜索方法 篇3

【关键词】数字散斑;搜索方法;变形测量;相关分析

一、前言

变形测量作为一个十分重要的测量方法,对其的开发和运用可谓相当的广泛,尤其体现在力学研究中。而数字散斑相关的方法是对光学进行变形测量的一种方法,也就是在物体变形及应变的测量中引入数字散斑的相关方法,并经过不断的发展,逐渐被人们应用到各个重要的领域中,展现出他的优越性。

二、数字散斑在变形测量中运用的发展过程

随着人类的不断探索,人们对力学的研究不断的深入,数字图像技术在力学实验中的运用也越来越广泛。六十年代,Dyson和Dew首次运用电子辅助仪器进行了条纹分析,随后的科学家们也纷纷致力于将图像处理技术引入到力学研究的领域。这主要是由于光测法突出的优点形成的,主要体现在全场与非接触(如全息、散斑法)上,其得到的图像往往也是呈现出条纹状,所以分析重点也转移到对条形图谱的分析上来了。基于这些,科学家们就开始利用图像处理技术对其进行处理,大大减轻了人工分析的工作量。经过不断的发展,到目前为止相关学者已经提出了许多的、成体系的方法供人们使用,实现了一系列的自动、半自动的对条纹进行了跟踪、定级、细分等相关的分析。

三、实验

本文运用到的相关搜索方法,具体的对缸体的转动和移位以及均匀变形都进行了具体的分析验算。对这些做的相关分析计算都是在Magiscan-2A这种图像分析仪上进行的,其采用的扫描阵列是512*512型的,并使用的是6比特(64辉阶)的辉度水平。除此之外,试验中另一个重要的仪器是显微镜,具体目的在于:在需要的时候将散斑颗粒进行调整,调整到与摄像机分辨率相匹配的程度上,使得得出的散斑场的离散误差达到最小,相关的搜索实施是通过实现编制好的程序来实现的。

1、剛体移位

在进行刚体移位试验中,选用的是如【1】所示的两个试件。(A)是一副散斑图,其具体是由一块全息玻璃干板对特定的一个散斑场进行曝光处理而得到的;而(B)则是一块仅仅只印有一些字母而组成的玻璃片,玻璃片上随机分布的字母就可以形成一个相对意义上的散斑场(白光散斑)。在整个实验过程中,借助微调平台和显微镜进行配合,就可对试件施加一定的作用,使其产生一定的位移量。然后,使用摄影机将原始位置的试件进行记录,移位之后再进行一次记录,对这两次采集的信息进行数字化的处理输入Magiscan-2A这种图像分析仪,进行相关的搜索分析。得到的具体实验结果被绘制成下图,对其进行分析可以发现:对位移量的测量最小的、可测定的是0.1像素的位移量,小于这个值之后仪器就不能进行测量了;而最大的可测的位移从原则上来说是没上限的,但对其不能进行测量主要是因为受到摄像机视场的限制。但是对两个刚体进行对比分析发现,两个试件的结果是相当的接近的,这也就表明在对刚体进行位移的测量时,物体表面只需要拥有一些散斑的特性就可进行。本次实验计算所取的散斑子区域的大小介于7*7与17*17像素之间,具体来说,子区域大小对于结果的影响几乎是没有的,只要选取的散斑子区域至少有一个散斑就可以达到相应的目的。

2、刚体转动

同样,也可以采用以上两个试件进行刚体转动试验,转动试验的转角可以通过测量两点的位移差来获取。具体的试验结果表明,对转角的测量最大在15°内,如果刚体的转角超过15°之后,结果就会出现很大的误差,更严重的情况就是无法测出。这是因为刚体在转动的时候一些参数不为零,转角一旦变大,就不得不考虑这些参数的影响。如果忽略了这个重要的条件,就会带来巨大的误差,甚至使原来相关的散斑子区出现不相关的现象,导致对散斑子区的分辨出现问题。

3、面内应变

在进行这个实验中,如果我们采用如【1】的试验仪器来记录来直接测量物面应变,会因为其产生的激光束直径太小,导致即使应变场比较复杂,我们在激光束照射的区域得到应变场仍然是均匀的。这样,采用下图的记录方式以及相关的搜索测量的方法对每个物面产生的应变场产生均可以进行测量。我们用两张全息的干板对物体变形前后的散斑场进行测量,并记录在XOY平面上,经过光学处理得到两张散斑图【1】。在被测量的两个刚体的法线对称位置的两点进行测量,并运用相关的搜索方法计算出相应的散斑位移,再由相关的计算式进行计算,从而得出被测点的应变。在试验中,运用光学显微镜可以使法线对称两点的距离远远大于摄像机的视场范围。采用这种方式,其结果相当于扩大了图像处理机可以扫描到的范围。在显微镜操作的条件下,法线对称的两个点之间的距离就相当于摄像机视场的十倍,理论上来讲相应的最小可测应变应该降低了十倍,同时考虑到地位等相关因素的累积误差,应变的灵敏度提高了4-5倍。试验的结果同时还表明,测量应变的灵敏度和精度主要受到相关分析仪器的图像分辨率的影响,除此之外,还需要合理的选择散斑子区的大小,如果对散斑子区的选择范围过大,费时费力;对散斑子区的选择过小,则容易出现错误的判断,所以,选择适当的散斑区域的大小,可以保证搜索过程快速而准确的进行。

四、结束语

数字散斑技术经过几十年的不断发展和进步,被越来越广泛的进行着运用。这种技术是适合于不能直接对物体 进行接触的测量,同时有希望通过不断的发展实现变形测量的自动化。相信在相关人员的不断努力下,数字散斑技术一定可以得到更高层次的发展。

参考文献

[1]金观昌.计算机辅助光学测量.北京:清华大学出版社,1997: 143~155.

枚举搜索剪枝常见方法与技巧 篇4

关键词:搜索方法,剪枝,技巧

搜索的效率是很低的, 即使剪枝再好, 也无法弥补其在时间复杂度上的缺陷。因此, 在解题中, 除非其他任何方法都行不通, 才可采用搜索。

既然采用了搜索, 剪枝就显得十分的必要, 即使就简简单单的设一个槛值, 或多加一两条判断, 就可对搜索的效率产生惊人的影响。例如N后问题, 假如放完皇后再判断, 则仅仅只算到7, 就开始有停顿, 到了8就已经超过了20秒, 而如果边放边判断, 就算到了10, 也没有停顿的感觉。所以, 用搜索就一定要剪枝。

剪枝至少有两方面, 一是从方法上剪枝, 如采用分枝定界, 启发式搜索等, 适用范围比较广;二是使用一些小技巧, 这类方法适用性虽不如第一类, 有时甚至只能适用一道题, 但也十分有效, 并且几乎每道题都存在一些这样那样的剪枝技巧, 只是每题有所不同而已。

问题1: (任务安排)

N个城市, 若干城市间有道路相连, 一辆汽车在城市间运送货物, 总是从城市1出发, 又回到城市1。该车每次需完成若干个任务, 每个任务都是要求该车将货物从一个城市运送至另一个。例如若要完成任务2→6, 则该车一次旅程中必含有一条子路径。先到2, 再到6。

如下图所示, 如果要求的任务是2→3, 2→4, 3→1, 2→5, 6→4, 则一条完成全部任务的路径是1→2→3→1→2→5→6→4→1。

编程由文件读入道路分布的领接矩阵, 然后对要求完成的若干任务, 寻找一条旅行路线, 使得在完成任务最多的前提下, 经过的城市总次数最少。如上例中经过城市总次数为8, 城市1和2各经过2次均以2次计 (起点不计) , N<60。

这道题, 因为很难找到数学规律, 便只有采用搜索的方法。

首先, 第一感觉便是:从城市i出发, 便搜索所有相邻的城市, 再根据当前所处的城市, 确定任务的完成情况, 从中找到最优解。这种搜索的效率是极低的, 其最大原因就在于:目标不明确。

根据题意, 我们只需到达需上货和下货的城市, 其它的城市仅作为中间过程, 而不应作为目标。因此, 首先必须确定可能和不可能完成的任务, 然后求出任意两城市间的最短路径。在搜索时, 就只需考虑有货要上的城市, 或者是要运到该城市的货全在车上, 其它不须考虑。同时, 还可以设定两个简单的槛值。如果当前费用+还需达的城市>=当前最优解, 或当前费用+返回城市1的费用>=当前最优解, 则不需继续往下搜索。

这种方法与第一感的方法有天壤之别。 (附程序travell.pas)

问题2: (多处理机调度问题)

设定有若干台相同的处理机P1, P2……Pn, 和m个独立的作业J1, J2……jm, 处理机以互不相关的方式处理作业, 现约定任何作业可以在任何一台处理机上运行, 但未完工之前不允许中断作业, 作业也不能拆分成更小的作业, 已知作业Ji需要处理机处理的时间为Ti (i=1, 2……m) 。编程完成以下两个任务:

任务一:假设有n台处理机和m个作业及其每一个作业所需处理的时间Ti存放在文件中, 求解一个最佳调度方案, 使得完成这m个作业的总工时最少并输出最少工时。

任务二:假设给定作业时间表和限定完工时间T于文件中, 求解在限定时间T内完成这批作业所需要最少处理机台数和调度方案。

此题有两种搜索方法:

方法一:按顺序搜索每个作业。当搜索一个作业时, 将其放在每台处理机搜索一次。

方法二:按顺序搜索每台处理机。当搜索一台处理机时, 将每个作业放在上面搜索一次。

对比上述两种方法, 可以发现:方法二较方法一更容易剪枝。

下面是两中方法剪枝的对照:

对于方法一:只能根据目前已确定的需时最长的处理机的耗时与目前最佳解比较。

对于方法二:可约定Time[1]>Time[2]>Time[3]>……>Time[n] (Time[i]表示第i台处理机的处理时间) , 从而可以设定槛值:如当前处理机的处理时间>=目前最佳解, 或剩下的处理机台数×上一台处理机的处理时间<剩余的作业需要的处理时间, 则回溯。因为在前面的约束条件下, 已经不可能有解。

因此, 从上面的比较来看, 第二种方法显然是比第一种要好的。下面就针对第二种方法更深一层的进行探讨。

对于任务一, 首先可以用贪心求出Time[1]的上界。然后, 还可以Time[1]的下界, UP (作业总时间/处理机台数) 。 (UP表示大于等于该小数的最小整数) 。搜索便从上界开始, 找到一个解后, 若等于下界即可停止搜索。

(附程序jobs_1.pas)

对于任务二, 可采用深度+可变下界。下界为:UP (作业总时间/限定时间) , 即至少需要的处理机台数。并设定Time[1]的上界为T。

(附程序jobs_2.pas)

小结

搜索的使用相当广泛, 几乎每题都可以采用搜索的方法。虽然如此, 搜索也切不可滥用。只有当问题无规律可寻时, 才可用搜索。一旦确定了使用搜索, 就一定要想办法对其进行剪枝。无论是采用剪枝的常见方法, 还是用一些搜索的小技巧, 虽都无法降低搜索的时间复杂度, 却总还是大有裨益的。

参考文献

[1]吴文虎, 王建德.国际国内青少年信息学 (计算机) 奥林匹克竞赛试题解析 (1994-1995) [M].北京:清华大学出版社.

搜索方法 篇5

利用360安全卫士

1。我们在电脑安装一个“360安全卫士”电脑管家,然后打开“360安全卫士”,然后在主界面点击菜单上的“电脑清理”然后我们把自动清理。把该勾选的都勾选上。

网页浏览器上的设置

1.我们在打开浏览器中点击“工具”→“删除浏览的历史记录”如下图所示,

2.然后我们把下面的全部选中了,然后点击确定这样就删除了哦。    3.如果找不到工具选项,是隐藏了菜单栏。鼠标停留至浏览器顶方空白处,右击鼠标勾选菜单栏即可。

应用内搜索满足移动搜索「快感」 篇6

然而在移动端,这个模式正在被改写。

如果你的手机正好安装了百度的light app或者下载了豌豆荚应用,此时你只需要打开它们中的任意一个,然后输入你需要的内容,那么你得到的结果就是直接进入某家视频进行观看。

搜索的流程正在变快变短,浏览器也不再是唯一的搜索入口。而让这些发生改变的,是“应用搜索内技术”的全面来袭。

2004年4月,曾经的应用分发渠道豌豆荚,召开“应用搜索内技术发布会”,在号召第三方应用都来进驻平台的同时,还宣布了自己的移动搜索战略:全面准确、直达行动、情景化。

事实上,提出“应用内搜索技术”概念的,豌豆荚并不是唯一一家企业。2012年百度也提出针对自有App资源的应用内搜索,2013年底奇虎360和谷歌也相继发布过“应用内搜索”策略,试图在移动搜索领域打开新局面。就在近日,谷歌又宣布将要推出“深度链接”广告,让广告主能够将智能手机用户引向其设备上的应用,其背后也运用了“应用内搜索技术”。从业者们在这方面的布局,让行业竞争越发激烈的同时也说明,用户对移动搜索的需求正在变得越来越强烈。

长久以来,因为手机屏幕过小导致操作不便,加之网速、或者转码技术的桎梏、抑或网页内容与App内容混乱出现在搜索结果中等种种因素的限制,使得我们对移动端的搜索结果不满意。而且,移动互联网时代,大部分内容都隐藏在了App当中,导致大量信息孤岛的存在,而“应用内搜索技术”的出现就是为了解决这些难题。其核心点在于通过搜索结果呈现隐藏在App之中的内容资源,让用户快速从应用中获得并且消费内容,真正满足消费者在移动搜索时代的“快感”要求。

“在桌面互联网,我们大部分的时间都花在浏览器上。而在手机上,80%的用户时间是在应用里。”豌豆荚创始人王俊煜的看法有力地解释了为何大佬们纷纷布局于此的缘故,也解释了为何豌豆荚开始抢占移动搜索入口的原因。据悉,豌豆荚发布垂直搜索产品“应用内搜索”是在2011年,两个月之后,收录应用数22个,截至今年2月,这个数字已经达到140万。大批量的应用增长背后,是用户对移动应用搜索的精确性需求。而仅有百度、谷歌、360等几家大佬布局的行业现状,也给了豌豆荚这类从业者们进军移动搜索的信心。

基于阀值搜索的电网优化分区方法 篇7

关键词:电网分区,阀值搜索,电气距离,无功控制

0 引言

电网中无功功率的远距离传播可导致有功功率损耗增加和负荷节点电压控制水平下降, 因此无功功率在电网中不宜远距离传播, 宜就地平衡。电网合适的区域划分满足电压控制的局域性要求, 有利于增强无功功率的就地平衡能力和节点电压的控制水平。

最简单的电力网络分区是根据地域或电网所属电力公司进行划分, 但是仅仅考虑电网的自然属性而不考虑电网的电气特性所得到的分区是不合理的。本文在总结传统分区方法的缺点和不足的基础上提出一种优化分区方法:首先应用阀值搜索的方法来得到系统的初始分区, 然后根据最大-最小电气距离法[1]合并或解裂各分区直至形成合适的分区。本文最后用IEEE 30节点标准系统验证本方法的可行性、合理性和正确性。

1 电气距离

在本文, 两点间电气距离[2]的定义用某一节点处电压幅值变化量∆V对另一节点处无功功率变化量∆Q的灵敏度Svq来表示。

在文献[3]、[4]中, 灵敏度矩阵由潮流计算的雅克比矩阵得到。其原理如下:令矩阵中有功功率变化量∆P≡0, 消去公式中的Dθ得到∆Q和∆V的关系式, 即

式中SVQ即为所求的灵敏度矩阵, JPi、JPV、JQi和JQV为雅克比矩阵的子块。

在实际电力系统运行时, 有功功率变化对节点电压的影响比较小, 因此本文不考虑有功功率变化量对节点电压的影响。根据潮流方程式 (2) 中无功功率方程式, 直接对∆Q关于∆V求导数。即:

即为节点电压幅值变化量∆V对节点无功功率变化量∆Q的灵敏度矩阵。

当i≠j时, 由于灵敏度矩阵Svq中元素 (Svq) ij≠ (Svq) ji, 且二者相差不大, 考虑到电气距离矩阵中两节点之间电气距离的对称性, 定义:

为两节点i、j之间的电气距离。D为电气距离矩阵。

2 目标函数

节点间电气耦合性强弱可用节点间电气距离的大小来表示, 电气耦合性强则电气距离小, 电气耦合性弱则电气距离大。无功功率的就地平衡原则可表现为无功电源节点与负荷节点间电气距离小。电网优化分区的目的是使区域内部节点间电气耦合性强、区域间临界节点间电气耦合性弱。

每个电网分区的大小应适度。分区过大不易实现无功就地平衡、节点电压控制;且线路中无功功率传输过多, 会增加电网中有功功率的损耗。分区过小则无实际意义, 且会影响系统整体性能。

因此, 对各分区节点数设置约束为:

ni为区域qi所包含节点数。

同时考虑约束条件时的目标函数式为:

iD (x) 表示区域内各节点间的电气耦合性, 即区域内两两节点间电气距离的平均值;

M表示各区域临界节点间的电气距离的平均值。

φ为约束条件ni的函数。其取值如下:

当分区节点数ni在约束条件内时, 约束条件函数φ赋值为零, 其对目标函数值没有影响;当分区节点数ni不在约束条件内时, 约束条件函数φ赋值为100, 使目标函数值增大。

3 基于阈值搜索的分区法

基于阈值搜索的分区法是利用图论的方法来研究电力系统的建模[5]。这种方法的基本思想是:将系统的变量用图的节点表示, 各变量间的相互关系用连接相应节点的边表示, 各变量间的耦合强度用赋予每一条边的权重系数表示, 从而可将一给定系统用图的形式表示。然后给定一个门槛值A, 消去图中那些权重小于A的边, 并对完成消去操作后图的节点进行重新安排, 将其中不相连的各个子图区分出来, 则这些子图实际上就表示相互间的耦合强度小于或等于门槛值A的子系统。这样, 就可将一个大系统分成若干个子系统。这种方法的过程相对较简单, 不需要进行复杂的计算, 可直接根据灵敏度矩阵来分区。

这里, 门槛值A的设定是个关键, 门槛值设定的不同, 所得分区结果也不同。本文采用系统中节点间电气距离的中间值作为分区的门槛值。采用中间值做门槛值A来得到初始分区, 即可使分区数不是很多, 也有利于后面更进一步的操作以得到最终的合理分区。

4 算法流程

4.1 具体流程

1) 输入系统原始参数;

2) 根据公式 (5) 和 (6) 计算系统中节点电压幅值变化量∆V对节点无功功率变化量∆Q的灵敏度矩阵Svq, 由灵敏度矩阵Svq按公式 (7) 求得系统的电气距离矩阵D;

3) 根据电气距离矩阵D求得阀值搜索的门槛值;

4) 用阈值搜索的方法找到初始的分区方案;

5) 根据所得分区结果计算目标函数值。如果达到要求, 则转至步骤7;否, 则转至步骤6;

6) 计算区域之间电气距离, 合并电气距离最小的相邻区域, 返回步骤4;

7) 检验区域内无功功率是否平衡。是, 转到步骤7;否, 调节区域临界节点, 继续执行步骤7;

8) 结束。

4.2 需要注意的问题

1) 变压器支路不能分属于不同的区域;

2) 保证各区域中要有足够的无功储备以便进行电压控制。

5 算例

笔者在MATLAB软件系统的基础上, 通过IEEE 30节点验证本文所提出方法的可行性和正确性。

IEEE-30系统有6个发电机节点、24个负荷节点、2个无功补偿节点、41条支路, 4条变压器支路。具体数据参考文献[6]。

首先, 利用公式 (6) 求出灵敏度矩阵Svq。由于矩阵Svq阶数大, 这里只列出其前四行四列, 如表1所示。

由灵敏度矩阵Svq, 通过公式 (7) 求得电气距离矩阵D。同样, 对于电气距离矩阵D此处仅列出其前四行四列, 如表2所示。

由步骤3~4可得到30节点系统的初始分区。

所得初始分区为:初始区域1: (1, 2, 3, 4) ;初始区域2: (5, 7) ;初始区域3: (6, 8, 28) ;初始区域4: (9, 11) ;初始区域5: (12, 13, 14, 15, 16) ;初始区域6: (10, 17, 18, 19, 20, 21, 22) ;初始区域7: (23, 24, 25, 26, 27, 29, 30) 。

目标函数的约束条件参数设置为:10≤ni≤20

根据步骤 (6) 、 (7) 确定各分区的合并与解裂, 计算目标函数的值。从所得初始分区开始, 共进行7次计算, 其结果如表3。

由此可知, 所得分区结果为:初始分区1、3、5、7等5个区域合并为1区域;初始分区2、4、6等3个区域合并为2区域。由于1区域中节点6与2区域中节点9和节点10之间所连支路为变压器支路。由于变压器支路两端节点不能分属于不同区域, 因此计算节点6与区域2中各节点电气距离, 记录所得最大值d6;计算区域2中节点9、节点10与区域1中各节点电气距离, 记录所得最大值d9、d10。由于比较得d6小于d9和d10, 因此把节点6归并入2区域。

对所得两分区进行区域内无功功率平衡校验, 可知各分区均有足够的无功容量用以满足本子区域内节点无功负荷的需要。

所得最终分区结果为:1区: (1, 2, 3, 4, 8, 12, 13, 14, 15, 16, 23, 24, 25, 26, 27, 28, 29, 30) ;2区: (5, 6, 7, 9, 10, 11, 17, 18, 19, 20, 21, 22) 。

具体分区结果如图1所示。

本文所得分区结果提高了电源节点对区域内负荷节点电压的调节能力, 使无功电源节点的分布与无功负荷节点的分布相适应;使各区域内无功电源均满足无功负荷的需要。

6 结论

本文所提由根据阀值搜索的方法形成初始分区, 保证了各区域内电源节点对负荷节点电压的控制能力。最大-最小电气距离法的应用保证了由无功电源节点相连的负荷节点都与其联系紧密的节点, 这符合无功功率宜就地平衡的原则, 且符合无功电源节点对负荷节点电压的控制作用强的要求。

参考文献

[1]王耀瑜,张伯明,孙宏斌,等.一种基于专家知识的电力系统电压/无功分级分布式优化控制分区方法[J].中国电机工程学报,1998,18 (3) :221-224.

[2]LAGONOTTE P, SABONNAD IERE J C, LEOST J Y, et al.Structural Analysis of the Electrical System:Application to Secondary Voltage Control in France[J].IEEE Transactions on Power Systems, 1989, 4 (2) : 479-486.

[3]刘大鹏,唐国庆,陈珩.基于 Tabu 搜索的电压控制分区[J].电力系统自动化, 2002, 26 (6) :18-21.

[4]胡彩娥,杨仁刚.用电力系统分区方法确定无功源最佳配置地点[J].电力系统及其自动化学报,2004,3:46-49.

[5]ZABORSZKY JOHN, WHANG KEN-WEN, HUANG GARNG, etal.AClustered Dynamic Model for a Class of Linear Autonomous Systems Using Simple Enumerative Sorting[J].IEEE Trans on Circuits and Systems, 1982, 29 (11) :747-758.

植物信息资源搜索引擎优化方法研究 篇8

一、ASP.NET网站架构在SEO方面的特殊性

当前进行网站开发的平台有很多种, 它们的实现方式各不相同, 对于搜索引擎的友好程度也不尽相同, 这些都是由各种平台的实现架构决定的。ASP.NET作为一个优秀的网站开发平台, 控件丰富, 开发方便, 但它的以下几个实现方式决定了它对搜索引擎不太友好。

(一) Javascript实现服务器回传 (Postback) 。

ASP.NET的大多数服务器控件在服务器端处理客户端事件编程时很方便, 但对搜索引擎不友好, 这些控件的实现机制是通过Javascript脚本回传实现网页的调用, 从而响应用户的点击操作, 而搜索引擎是不能追踪执行这些操作并深入跟踪链接的。

(二) 状态视图 (Viewstate) 。

当ASP.NET执行某个页面时, 该页面上的view. state值和所有控件将被收集并格式化成一个编码字符串, 然后被分配给隐藏窗体字段的值属性。由于隐藏窗体字段是发送到客户端的页面的一部分, 所以viewstate值被I临时存储在客户端的浏览器中。虽然有利于编程实现和保持页内状态, 但过于庞大的Viewstate会使得网页中有意义的内容被挤到搜索引擎“够不着”的地方。

(三) 动态URL。

大多数开发平台处理链接串都是用查询串方式 (即动态URL) 实现的, 由于没有包含有意义的关键字信息, 所以搜索引擎对这种链接无能为力, ASP.NET平台也不例外。

(四) 站点地图 (Sitemap) 。

ASP.NET没有实现用来给搜索引擎抓取的协议性Sitemap, Sitemap 0.90是Google, Yahoo, Microsoft, Ask等大多数搜索引擎所支持的一种标准。ASP.NET内置的Sitemap与这里讲的Sitemap是完全不同的, ASP.NET中的Sitemap主要用于给用户导航。

(五) MAX使用了大量的JavaScript。

JavaScript是AJAX实现的基础, 但也是搜索引擎的“敌人”, ASP.NET中很多控件是用它实现的, 对搜索引擎非常不友好。

二、ASP.NET网站SEO优化的方法

(一) ViewState优化。

网络蜘蛛在网络爬行时通常只抓取某一网页的有限行内容, 大约只有100k左右的内容。在ASP.NET中, Viewstate是客户端的一种特殊的字符串, 它表示一个隐含字段。如果在一个ASP.NET页面中, 使用过于庞大的Viewstate, 那么很有可能网络蜘蛛不能抓取到网页的真正内容, 这对网站的排名是不利的。最简单的方法是如果不需要Viewstate的话, 可以关闭它或者至少不要每个简单控件都使用它。

(二) 数据分页优化。

ASP.NET有很多用来显示数据的控件都是直接可以用的, 既简单, 又方便, 代码量也很少。GridView和DataGrid就属于这类控件, 但这类控件分页机制采用的是JavaScript回传与本页交互实现的, 分页后URL不会有新的改变。这样对SEO不是很友好, 因为当网络蜘蛛从你的网页上得到不同分页的链接时, 点击进入发现是属于同一页面, 就不会将分页后的结果录入搜索引擎的编制结果。

(三) Sitemap优化。

Sitemap在SEO中也是相当重要的, Sitemap可方便让搜索引擎知道网站上有哪些可供抓取的网页。最简单的Sitemap形式, 就是XML文件, 在其中列出网站中的网址以及关于每个网址的其他元数据 (上次更新时间、更改的频率以及相对于网站上其他网址的重要程度等) , 以便搜索引擎可以更加智能地抓取网站。网络蜘蛛通常会通过网站内部和其他网站上的链接查找网页。Sitemap会提供此数据以便允许支持Sitemap的抓取工具抓取Sitemap提供的所有网址, 并了解使用相关元数据的网址。

(四) 页面重定向SEO优化。

ASP.NET网站运行过程中会面临很多问题, 例如:服务器出错, 用户请求的页面不存在, 程序配置错误等诸多问题。用户请求浏览网页遇到这些问题会出现系统默认的错误页面, 这样对用户很不友好, 同时对搜索引擎来说更是不友好。在SEO过程中, 301转向往往起着一定的作用。301重定向是当用户或搜索引擎向网站服务器发出浏览请求时, 服务器返回的HTTP数据流中头信息 (header) 中的状态码的一种, 表示本网页永久性转移到另一个地址。当你需要在转向的同时传递PR值, 增加搜索引擎友好度, 把原来老的网站牵引到新网站的时候, 需要使用301转向。

(五) AJAX优化。

ASP.NET中大量应用了AJAX技术, Java Script对于Ajax来说是必不可少的, 是AJAX实现的基石。而对于搜索引擎来说, 则是一大“罪魁祸首”, 用AJAX实现的网站在搜索引擎优化方面存在重大隐患, 有可能网络蜘蛛根本不收录它。可以关闭浏览器的Java Script功能, 试试能不能访问网站的所有内容, 看不到的内容, 搜索引擎同样也抓取不到。解决方法是在协议性Sitemap中建立网站的所有链接, 建立所有内容的静态导航链接, 或者确实做到不需要Java Script就能初始化加载页面。

三、结语

网站为了获得较高的搜索引擎排名和较高的流量, 必须遵循一定的搜索引擎优化规则。搜索引擎优化涉及的内容很广, 需要优化处理的要素也很多, 所有的网站架构除了对共性的要素作优化处理外, 必须要有针对性地基于不同平台的特点作特殊的优化处理。本文对ASP.NET网站的搜索引擎优化处理作了一些有益的探索。NET网站进行SEO优化就可以一蹴而就, 还有很多所有平台共有的优化要素都要全面加以优化, 才能获得较好的优化效果。

参考文献

[1].刘建国.搜索引擎技术概述.http://162.105.203.94/asp/paper/paper·asp

[2].吴泽欣.SEO教程:搜索引擎优化入门与进阶[M].北京:人民邮电出版社, 2008

[3].瓦尔特.Web标准和SEO应用实践[M].北京:机械工业出版社, 2003

搜索方法 篇9

工业现场经常会遇到自由旋转状态下的电机启动问题。如处于坡道滑行中的电气车辆,其滑行速度甚至可能超过额定速度,大型通风设备因风道残存风量可能造成电机自由逆转,大惯量负载遇到突然停电自由旋转时间可长达几十min。此类应用场合均涉及对旋转(甚至逆转)电机的启动问题。常规的直接启动势必因当前电机速度处于未知状态,若直接启动电机,会因电机可能处于较大的转差状态而使启动失败(过电流保护),为此转速跟踪再启动是考核逆变器性能的一个重要指标。无速度传感器矢量控制虽然考虑到了电机的动态模型并通过内部电流调节器(转矩电流调节及磁场电流调节)实现电流限制,但对自由旋转的电机,数学模型中初值的无法确定往往造成系统控制模型不收敛,进而无法实现正常启动。

对于普通V/f控制而言,简单的启动方式基本上不能解决此类问题。国内外学者多年来对转速跟踪进行了深入的探索[1,2],文献[1]提出的无电跨越方法利用电机动能反发电原理克服瞬间掉电,但对自由旋转电机的再启动显然不能适用。文献[2]实现了对电机速度辨识,解决了瞬时停电再启动,但未提及逆向速度搜索问题。此外,对于无速度传感器矢量控制模式下跟踪再启动的实施方法未见具体报道。国外品牌产品如西门子及安川变频器所采用再启动方法均为速度搜索方式,而有关其实施方法的具体细则很难从其技术资料上得到,但这也从侧面反应速度搜索方法已成为解决飞车启动的大趋势。

本文综合了各家之长并参照了国外现有品牌产品的相关功能,尝试了一种初始搜索频率可高于电机额定频率的双向速度搜索模式,并结合典型的V/f控制和矢量控制模式对速度搜索再启动所涉及的几个边缘问题进行了探讨,并结合低压两电平、中压三电平和级联式多电平逆变器的几种拓扑形式进行了大量试验,试验结果证实了该方法在系列产品上所表现出的高稳定性及高可靠性。

所谓转速跟踪启动的实质是如何使无速度传感器前提下辨识旋转电机转子转速,并在该速度点将电机平滑过渡到常规的工作模式。由异步电机理论可知,自由旋转电机转子剩磁消耗殆尽以后,定子几乎不存在感应电压,很难依此获取感应电机的速度信息。故欲辨识处于自由(随机)运转过程中电机转速需对定子施加一定强度的预激励。电机理论还表明:当定子激励频率远远偏离转子旋转速度所对应的频率时,电机定子电流对转差频率敏感性已经不大,此时定子电流主要由定子电压幅值与定子频率的比值决定。利用这一特性我们不妨采用较低斜率的压—频特性激励电机,使之建立“弱性气隙磁场”,以达到限制定子电流的目的。

磁场达到相对的稳态之后,再以扫频的形式给定子施加搜索电压。扫频过程中实时观测定子电压电流的相位角或功率因数,当功率因数接近“零点”时,此时定子的激励频率也即为当前的转子的同步频率。搜索到同步频率以后再利用滤波器将当前的弱定子电压—频率特性过渡到额定电压-频率特性,从而完成整个速度搜索并实施电机启动。

本方案采用从某一较高频率(可高于电机额定转速)开始向最低频率进行搜索,若该方向搜索不到同步速度再转为逆向搜索,以确保扫频区域覆盖电机可能存在的转速区域。因电机参数差异,速度搜索期间激磁给定可能存在分散性。过小的磁场激励会因定子电流幅值过小,而造成同步点辨识出现较大误差;过大的激磁可能造成过电流,从而使得搜索失败。为此,需增设搜索电流限制调节器。即当搜索电流超过设定值,电流调节器会自动调整搜索电压使定子扫频电流维持限定值。

2 基本原理

2.1 速度搜索压频特性

异步电机等效电路如图1所示。若扫频过程采用从最高频率(额定频率)向下进行,则电机在开始扫描时转差最大(s≈1),此时电机模型可近似为图2所示的等效电路。而此时电机的等效阻抗最小。

由于电机定子、转子漏感远小于电机的激磁电感Lm,故大转差下电机的近似模型还可等效为电机总漏感,即定子与转子漏感之和。相应的定子电流幅值为

ΙsVsωLσ(1)

式中:Lσ为总漏感,Lσ=Lσs+Lσr。

而电机空载电流近似激磁电流为

Ι0=VsωLm(2)

电机空载电流(近似额定激磁电流)约占电机额定电流的20%~50%,电机总漏感约占激磁电感Lm的比例在2%~5%之间。如果直接对电机定子施加额定电压,此时电机相当于转子短路,其定子电流可达到5~10倍额定电流。因此频率搜索必须在降压(低斜率压频特性)条件下进行。实验表明,对于100 kW以内的异步电机,取额定压频特性斜率的15%左右,扫频过程电机电流不会超过额定电流。对更大容量电机,搜索额定压频特性斜率应适当减低。考虑到逆变器数字电流采样的分辨率,在不产生过电流的原则下尽量提升扫频电流会提高同步速度辨识的可靠性。

2.2 速度搜索的一般方法

为避免在速度搜索过程中可能出现的逆变器直流母线过电压,本方案采用从最高频率向最低频率扫描方式进行速度搜索。搜索过程中逆变器实时监控电机功率因数,一旦发现功率因数极性发生突变则记录当前的搜索频率,该频率即电机转子对应的同步频率(速度)。由于逆变器均设有电流传感器,而逆变器输出电压为控制系统所已知的变量,因此功率因数角可通过逆变器输出电流矢量向定子电压矢量定向方法得到[1]。

图3给出本文所采用方案速度搜索过程中电机电压、频率及功率因数的一般规律。其中f0为初始搜索频率,该频率可高于电机额定频率;fr为电机转子频率,即待辨识的电机同步频率;fg为当前目标设定频率(速度);V0为速度搜索初始电压,一般取额定电压的20%左右;k为电机额定V/f曲线的斜率,k0为速度搜索所采用压频曲线的斜率,通常k0小于k1;cos φ为电机功率因数。

由于同步搜索模型是建立在电机稳态模型下进行的,因此为确保同步频率判断条件的稳定性,速度搜索前需增设一定的初始化时间使电机建立相对的稳态,如图3中t0~t2时间,其中t0~t1为搜索电压建立的软启动时间或称第1软启动时间,t1~t2为初始状态保持时间。增设第1软启动时间目的是在逆变器与冷态电机间建立平滑链接,保持时间是为了使逆变器在搜索前进入相对稳定的状态,整个初始化时间以略大于电机转子时间常数为佳。t2~t3为向下频率搜索过程并在t3点功率因数发生极性变化,此时对应的搜索频率即为电机同步频率。t3~t4为同步点升压过程,其目的是使将速度搜索过程中的减低V/f曲线过渡到额定V/f曲线,此过程也称为第2升压过程。第2升压时间完成了由搜索模式向常规模式的过渡。t4~t6是进入常规模式后电机由同步频率向目标给定频率的动态加速(或减速)过程。

2.3 速度搜索下限频率

电机低频段受定子电阻影响,cos φ的识别误差较大,因此速度搜索必须考虑下限频率。当搜索频率低于下限频率可认为电机处于静止,并终止速度搜索,同时将启动模式直接转为常规模式。

2.4 不同控制模式下速度搜索再启动的方法

2.4.1 V/f方式

扫频找到同步速度后,逆变器输出维持当前同步频率,并用数字滤波器将当前搜索电压与额定V/f曲线对应的电压进行连接,以达到平滑过渡,完成搜索及跟踪过程,并使电机过渡到额定工况。

2.4.2 无速度传感器矢量控制

无速度传感器模式下若采用直接强迫初始化调节器的方法启动旋转电机常常会因为电机模型的不收敛而造成启动失败。因此,采用速度搜索模式使电机模型建立初始状态显得尤为重要。速度搜索方式仍在V/f模式下进行,并同时启动无速度传感器矢量控制的模型计算,待速度搜索找到同步速度以后将无速度传感器矢量控制模型的速度给定积分器按已搜索到的同步速度初始化,并将速度调节器和转矩电流调节器输出清零,而激磁电流调节器输出则按搜索到同步速度瞬间的电压指令分量(Vβ)进行初始化,以实现V/f控制与无速度传感器矢量控制的衔接。衔接完毕后还需矢量控制的励磁恢复时间,此时的做法是将转矩电流给定清零,并开放激磁调节器,待激磁电流调节器趋于稳定后再将转矩电流给定经滤波器恢复与速度调节器输出对接,即过渡到正常双闭环模式,实现整个再启动过程。

2.4.3 有速度传感器矢量控制

有速度传感器因为逆变器已知电机的速度信息,故不需要进行速度搜索。启动前只需将转矩电流调节器及激磁电流调节分别清零,并将速度给定积分器输出按当前电机的实际反馈速度初始化即可实现平滑再启动。

2.5 双向速度搜索软件实施

该速度搜索模块在方圆公司28xx-c语言软件公共平台上实现,该软件平台涵盖两电平、三电平、级联式多电平逆变器结构,以确保系列产品的基本性能的一致性。软件实施逻辑框图如图4所示。程序设计考虑了搜索频率、搜索电压、各时间记数器的初始化、内嵌两级软过渡(软启动),正反两个方向的速度搜索、搜索失败等逻辑。

3 实验及结论

以下给出了3种典型拓扑结构下的速度搜索试验。试验波形由泰克DPO3203数字存储示波器采集,上部窗口给出整个速度搜索再启动的宏观过程,下部窗口给出由同步速度向常规模式过渡的波形细节。图5~图7分别给出了5.5 kW两电平、三电平和9电平级联式3种试验样机上的测试结果。

图5为两电平逆变器V/f模式下5.5 kW试验电机的双向速度搜索实验波形。可见,速度搜索期间,电机最大电流仅略大于电机空载电流,且各区段电流连接平滑。

图6给出了中点嵌位式三电平逆变器拖动5.5 kW电机在无速度传感器模式下的双向速度搜索输出电压及电流波形。因矢量控制需要第2软启动时间,因此速度搜索找到同步速度后几乎在一个基波周期内(如20 ms)完成电机模型收敛并进入常规模式,电流冲击很小。

图7为级联9电平10 kV,500 kW高压变频机组上V/f控制模式下速度搜索再启动的试验结果。可见整个启动过程电流波形非常平稳。

经过在方圆28xx软件平台所覆盖的低压两电平(380 V级)、中压三电平(1 500 V级)和级联式高压多电平系列变频器典型负载试验可知,该速度搜索再启动方式解决了任意随机旋转状态中的电机启动问题。不仅适合于无速度传感器条件下的V/f控制模式,同样适合无传感器矢量控制模式。

参考文献

[1]Joachim Holtz.Controlled AC Drives with Ride-through Capability at Power Interruption[J].IEEE Trans.Ini.App.,1994,30(5):1275-1283.

分面搜索的分面推荐方法研究 篇10

关键词:XML分面搜索,XML分面推荐,XML面相关性,覆盖率

0 引言

传统的基于关键词的web下XML文档的检索不能准确表达用户的查询意图,缺乏与用户之间的交互,影响了检索效果。分面搜索是一种在图书馆学领域中常用的正交多维划分信息空间的分类体系;是一种基于分面理论的在结构化数据集上的探索性的搜索技术[1],分面搜索的出现为交互式信息检索奠定了基础。传统的分面搜索大部分是针对结构化数据进行的检索,目前对XML这种半结构化文档的分面搜索研究并不多。对于web下大量异构的XML文档采用分面搜索技术,由于XML分面数量巨大,显示给用户所有可能的分面-值会很快地淹没用户,需要选择合适的面和值推荐给用户。

本文对XML分面推荐技术进行研究,通过在已有统计方法的基础上结合XML分面之间的相关性推荐XML分面,以推荐最有导航能力的分面,提高推荐效果。

1 相关研究

分面搜索提供的结果是上下文相关的,用户选择某个条件后,分面结果会在该条件限定下的结果集中动态获取,从而能够从不同的角度对数据集进行归类整合,帮助用户进一步了解他们需要获取的数据信息。在查询过程中,用户可灵活地切换导航面;另一个显著优点是解决了查询结果为空集的难题,改善了用户体验[2]。

目前,分面搜索技术已经应用在电子商务[3]、图片搜索[4]、多媒体数据库[5]、数字图书馆、软件组件开发[6]等领域。

在上述分面搜索技术的研究中,往往将所有的面-值显示,当分面数量巨大时,显示所有分面-值会很快地淹没用户,因此需要选择合适的面和值推荐给用户。文献[6]提出应推荐结果集中覆盖率高的分面,尤其是那些包含在所有的文档中的分面值,而不是仅存在于小部分文档中的分面值。文献[7]则提出对于每一个用户的行为使用协同过滤和个性化自定义搜索界面。一个面搜索界面逐步引导用户在一个推荐的查询精炼列表里选择来缩小范围,而不是等着用户从零开始创建结构化查询;并提出使用明确的用户评分,产生智能的分面搜索界面,它自动选择面-值,根据用户偏好创建一个界面。

目前针对半结构化数据的分面搜索研究仅仅是对RDF数据进行的分面搜索,文献[8]将分面导航技术应用到RDF,提出把分面浏览看作是构建和遍历一棵决策树,帮助选择最有效的分面。文献[1]提出了一种基于分面浏览技术的持久化RDF语义数据的存储策略,利用统计学方法从RDF实例中挖掘出适合作为面的谓词。

目前,国内外对于XML文档分面搜索的文献报道很少,许多关键技术还在初步研究中。XML分面之间存在相关性,在XML分面推荐与交互过程中,结合XML分面之间的相关性进行XML分面推荐可以提高推荐效果。

2 结合XML分面相关性的XML分面推荐方法

分面搜索系统在执行一个查询的时候,首先确定满足查询约束的结果集,此任务可以通过倒排索引技术有效地完成,接下来的任务是显示可用于进一步查询精炼的分面-值,除了显示分面-值以外,还要动态统计每一类所含结果的数目。

2.1 基于覆盖率的分面值推荐方法

基于覆盖率的分面值推荐方法指优先推荐结果集中覆盖率高的分面值,尤其是那些包含在所有的文档中的分面值,而不是仅存在于小部分文档中的分面值。分面值覆盖率的计算公式如下:

式中ns(p)代表包含分面值p的文档数,ns代表文档总数,f(p)就代表分面值p的覆盖率。因为这里ns是一个常量,所以只需计算ns(p)的值。

2.2 XML分面之间的相关性

XML文档结构潜藏着一定的语义关系,XML文档树的多个结点间是语义相关的,这就意味着XML分面之间也存在着相关性。传统的分面推荐技术没有考虑XML分面之间的相关性,本文将基于覆盖率的分面推荐方法与XML分面之间的相关性结合进行XML分面推荐。

本文给出XML分面之间的相关性定义如下:

其中XiYj代表第i个面与第j个面同时出现在一篇文档中的文档总数。Xi代表包含第i个面的文档总数。

2.3 基于覆盖率和XML分面相关性的XML分面推荐

根据所输入的话题关键词进行传统XML检索得到初步检索结果后,在此基础上按以下步骤进行XML分面推荐:

(1)根据话题关键词在XML分面值中出现的频率大小推荐分面,推荐值中出现该关键词最多的前几个XML分面;

(2)用户选择XML分面之后,得到精炼结果集。然后根据XML分面相关性计算与用户选择的XML分面相关性高的几个XML分面推荐给用户进行选择;

(3)用户再次选择XML分面之后,根据覆盖率公式推荐覆盖率较高的值,精炼查询结果;

(4)重复步骤(2)、(3),直到找到用户想查找的信息。

3 实验结果分析

本文选用2011年INEX会议网站上提供的IMDB(Internet Movie Database)数据集,该数据集里有两种对象:电影以及电影涉及到的人物。本实验用到了IMDB数据集中的关于电影的1,594,513个XML文件,共包含24个XML分面,实验中对24个XML分面分别进行了编号。

本文分别用统计的方法以及统计与相关性相结合的方法进行了实验。

表1至表4是对话题“张艺谋”初步检索后用统计方法得到的推荐过程与推荐结果。

根据表1的统计结果选择编号为16的XML分面,即演员名称进行推荐,继续计算演员名称分面对应值的ns(p),推荐ns(p)>3的演员名称如表2所示。

假如选择演员名称=巩俐,得到精炼结果集,在该结果集中再次计算包含的面的覆盖率,推荐ns(p)值大的前3个分面,即编号为17、10、21的XML分面,分别对应角色、发行日期和制片人。假如选择分面10(发行日期),则统计巩俐拍摄的影片的发行日期的值的覆盖率,如表3所示。

其中ns(p)>1的发行日期有:1990、1994、2005、2007。

假如选择发行日期=1994,得到精炼结果集,在该结果集中包含的所有面的统计情况如表4所示。

由表4可见,大多数分面的ns (p)值都为3,根据ns(p)的值不能继续有效推荐分面。

表5-表9是输入话题“张艺谋”后用本文方法得到的推荐过程与推荐结果。

情况如表5所示。

根据表5的结果选择编号为12的分面,即导演进行推荐,得到的结果集中各个分面与导演的相关性如表6所示:其中i=12。

由表6得出与导演相关性高的前5个分面:10-发行日期,13-编剧,15-关键字,16-演员名称,21-制片人。

假如选择编号为16的分面:即演员名称。则进一步计算演员名称所有值的覆盖率,ns(p)>2的演员名称如表7所示。

假如选择演员名称=巩俐,得到的精炼结果集中各个分面与演员名称的相关性xsdij如表8所示。其中i=16。

由表8得出与演员名字相关性高的前3个分面推荐:10-发行日期,11-评分,14-电影风格。

假如选择编号为10的分面,即发行日期,得到的精炼结果集按发行日期统计如表9所示。

选择发行日期值,就可以得到某一年份发行的影片信息。

为进一步说明本文方法的有效性,对第2个话题即与“周星驰”有关的影片进行了XML分面推荐。

输入“周星驰”后得到初步xml文档结果集,根据关键词“周星驰”所在的分面统计情况得出编号为16的分面覆盖率最大,选择编号为16的分面,即演员名称进行推荐。然后在得到的结果集中计算各个分面与演员名称的相关性xsdij,得出与演员名称相关性高的前5个分面分别为:3-国家,4-语言,5-颜色,11-评分,14-风格;假如选择编号为14的分面,即风格,得到精炼结果集中风格的覆盖率值,推荐覆盖率值大的前3个影片风格:Comedy,Action,Drama;假如选择风格=Comedy (喜剧),进一步得到精炼结果集,计算所有分面与风格的相关性xsdij,得出与风格相关性高的分面有:3-国家,4-语言,11-评分;12-导演;13-编剧;如选择编号为12的分面即导演,得到精炼结果集中覆盖率最大的前3个导演分别是:周星驰,李力持,王晶。假如选择导演=李力持,进一步得到精炼结果集,计算所有分面与导演相关性xsdij,得出与导演相关性高的分面有:1-运行时间,10-发行日期,11-评分,13-编剧,21-制片人。如选择编号为10的分面即发行日期,得到精炼结果集,如表10所示。

由表10就可以查询某一年份发行的影片了。

实验结果表明:统计的方法在前几步分面推荐过程中推荐效果很好,但是在后续的推荐过程中就很难推荐出有效的分面了,而考虑XML分面之间的相关性就能够达到更好的效果。

4 结语

本文对XML分面搜索中的分面推荐方法进行了研究,根据XML文档结构的语义特点,提出了XML分面的相关性定义,并将XML分面的相关性和传统的覆盖率方法结合进行XML分面推荐,实验结果表明本文方法有效地提高了XML分面的推荐效果。

参考文献

[1]王莉,高仲利.基于分面导航理论的RDF数据的持久化研究[J].计算机工程与应用,2010,46(9):130-133.

[2]陈波.基于开源全文检索系统Solr的OPAC分面浏览[J].应用实践,2007,11:72-75.

[3]Sacco,Giovanni M.Dynamic taxonomies and guided searches[J]. Journal of the American Society for Information Science and Technology 2006,57(6):792 -797,2006.

[4]S ebastien Ferre.Agile Browsing of a Document Collection with Dynamic Taxonomies[C]//19th International Conference on Database and Expert Systems Application.DOI 10.1109/DEXA.2008.28.

[5]Sacco,Giovanni M.Uniform access to multimedia information bases through dynamic taxonomies[C]//IEEE6th Int.Symp.On Multimedia Software Engineering,(ISMSE'04),2004:320 -328.

[6]Niu Nan,Anas Mahmoud,Yang Xiaoyong.Faceted navigation for software exploration[C]//19th IEEE International Conference on Program Comprehension.IEEE,2011.

[7]Jonathan Koren,Zhang Yi,Liu Xue.Personalized Interactive Faceted Search[C]//WWW 2008,April 2-125,2008,Beijing,China.

上一篇:依靠群众下一篇:自然资源损害评估