bbs社区毕业设计

2024-04-29

bbs社区毕业设计（共5篇）

篇1：bbs社区毕业设计

反思BBS社区：做BBS社区的目的1, 看完麦田写完的两篇反思后，还是有点迷糊；所以我接着写2.3，我发表我的观点。另外不知道麦大帅是不是特喜欢写这种含糊的东西，让每个人都去讨论，达到PR的效果。2, BBS社区跟着麦田的下定义，BBS社区即传统的论坛，像现在的tom论坛，謦灵风软影视论坛。

3, 新类型社区，贴吧，博客，豆辩都规类为新类型社区。

反思BBS社区？研究那么多没用的东西。为什么不说一点实际的，搞一大堆废话和咬文掐字呢!说BBS受挫，有没有考虑过当时BBS产生的环境？说商业模式，有没有考虑过做BBS的目的？

一做BBS的目的个人娱乐类,站长多为电脑爱好者。下载一个论坛程序，简单的修改下；然后拉上自己的朋友，一起聊些几个朋友感兴趣的话题。再通过朋友这几个核心用户发展人气，就类似于现在web2.0网站的“朋友圈”和“家族”专业服务类，像謦灵风软。专业的提供影视方面的交流和信息。这类核心用户多了，不满足专业服务主题方面的交流，一般会另外再开几个小版块，专业交流类，摄影、收藏、养宠物、女士化妆美容等，这些方面的论坛我也看过好几个比较成功的，他们更多的是为了爱好和兴趣的交流。粘结用户类，大多是有一个人气比较高的网站，为了更好的留住用户和方便用户了解网站不能提供的信息，而开设了BBS论坛增加用户的互动和粘结程度。大多数论坛的内容和网站的内容有一些联系。生活娱乐类，生活娱乐类，就是纯为了发展人气，希望用bbs社区来赚钱的，mop被收购之前的那个壮态最像了。

二BBS产生的环境互联网刚出现，中国网站刚出来的时候；像网易、腾迅、联众有多少人去接受他们？这时候他们有多少盈利点去赚钱？很简单的例子：马化腾接手最初穷的都想把QQ这款软件给卖了；就是因为不够完善、找不到更好的盈利点；当QQ秀开发出来，马上就暴赚一笔。2 看上面几类现在有没有赚钱：

个人娱乐类：大多数是为了玩，不是为了赚钱；一般成功的极少，也有个别的变成了第五类。专业服务类：现在有的发展成个人站、有的转变成网站；也都可以赚点小钱，像謦灵风软、伊甸园这些站都是赚钱的专业交流类: 也可以说是某一个行业，有些可以收会员费，像女士化妆类的也能接到不错的广告

粘结用户类: 为了让网站去赚更多的钱，而不是让BBS去赚钱，就像tom论坛

生活娱乐类: 人气够强，一样能赚钱的，mop在被收购之前也是在赚钱的，收入至少是高级金领的级别。

三为什么选择BBSBBS是版块型的，适用于人气少的网站。人气不够少开几个版块就行，不是每个网站能有百度那种流量，选择BBS少开几个版块最适合了。成本低，管理简单。BBS程序网上都有下载，稍微修改就能用。在管理方面有版块版主就行；如果说新类型方面的博客，那管理是完全不一样的，对比起来很麻烦。交流性较强，用户发贴是为了别人的回贴，君可见“看贴不回贴”那种搞笑图片有多少。对比新类型社区，BBS用户更多的是为了交流，而新类型的社区像博客，是非常有目的性的行为。我没记错的话，mop最开始也是以提供游戏方面的交流发展到一定的程度，再提供更多生活娱乐方面的信息交流，再发展更多的用户，后面再被收购。

总感觉“BBS” “社区” “web2.0”这种概念都很模糊，就写这么多了。希望能给朋友们一点启发，木头鱼写于凌晨五点，文笔不行，有些想法也表达不出来，闲时瞎说.......论坛盈利模式

1、积累流量，广告收入

2、推精华帖子内容，收费

3、与媒体结合运作

篇2：浅谈BBS社区营销

在利益面前, 人们往往容易忘记原则和规律。BBS社区营销虽然有着传播准确、形式新颖等特点, 但它并不是万能的。对B B S社区的营销应该遵循一般性营销法则, 而不能一拥而上, 不顾章法。口碑营销、互动营销、话题炒作、病毒营销等都不是BBS社区营销的本质, 更不是BBS社区营销的专属地。BBS社区的首要属性就是媒介属性, 其最突出的特点就是自媒体, 将社区与传统媒介孤立起来是愚蠢的想法, 所有营销目的达成都是整合营销的结果。想要依靠社区营销一炮走红甚至无敌于天下, 那真的“很傻很天真”。

由于对本质的定位不准, 可以看到, 很多从事BBS社区营销的业内人士对BBS的操作存在误区, 不仅使营销效果受到影响, 更让很多准备或已经尝试BBS社区营销的客户对其大失信心。

首先, 社区营销不是六合彩, 策划很重要, 但是我们不能极度夸大它的作用, 从营销史甚至是社区营销史上看, “一策而红”的案例少之又少。

其次, BBS社区营销需要关注性价比, 任何不考虑成本的推广是无意义的。只有投入产出比达到较高水平才是成功营销, 高成本最终只能导致一种营销方式的消亡。

再者, BBS营销不是网络恶搞, 很多人一提到BBS营销就想到恶搞、无厘头, 这是一种非常错误的观念。我们必须要根据受众特点、推广目的来设计推广方式, 恶搞一招鲜, 一帖制胜是非常片面的推广理念。

说了这么多误区, 那么BBS社区营销是否真的难以进行呢?当然不是。只要准确地把握一个事物的特点, 对症下药, 问题总是容易解决的。笔者做了上百个BBS营销案例后发现, 对于BBS社区营销而言, 一点一面的把控应该是重中之重。点是指创意和策划, 面是覆盖。如果把传统营销领域比作一片已经耕种贫瘠了的土地, 那么BBS社区就是一块崭新的、肥沃的但是缺乏认识的土地。对于贫瘠的土地, 最重要的是良种, 一个高产、耐受性好的品种就意味着更高的产出。而对BBS而言, 不仅要有良种, 更要有正确的耕种方式和更大的耕种面积。对于肥沃的土地, 面积就意味产出。同时, 对于陌生的土地, 开发适合的、有针对性的耕种方式也是极其重要的, 不然很快沃土就会变成盐碱地了。对于BBS社区营销这样一块“沃土”, 策划加覆盖才是成功的关键。

一个新生事物, 除了难于把控之外, 最大的问题往往在于难于考量。付出已经做了, 那么收获要怎样计算呢?创新的概念加上传统的维度是个适中的法则。也就是说, BBS社区营销的评估体系应该是多纬度的, 其中包括浏览量、覆盖范围、引擎结果、广告当量等等。单一维度的评价体系显然是有失偏颇的, 甚至是形式主义的。比如说对于精华、置顶的过分追求, 会将营销变成汇报工作的程序。精华、置顶与浏览量属于重复考量, 精华和置顶的最终目的也是为了受到更多的关注, 获得更好的投入产出比。所以根本的东西是浏览量。但是, 用“简单粗暴”的手段追求浏览量同样是掩耳盗铃, 在一亩水田里种下500万株秧苗是大生产时期才会发生的, 现在看起来只有可笑。对于某些显然的“浏览量不正常”, 或者为了浏览量而忘记传播诉求, 我们应该质疑它的发生, 而覆盖范围是制衡浏览量不正常的重要手段。

篇3：bbs社区毕业设计

网络口碑营销的定义为:“由口碑营销与网络营销有机结合起来的网络口碑营销, 旨在应用互联网的信息传播技术与平台, 通过消费者以文字等表达方式为载体的口碑信息, 其中包括企业与消费者之间的互动信息, 为企业营销开辟新的通道, 获取新的效益。”

虚拟社区是聚集人气, 围绕共同的兴趣和需求集中进行交流的地方, 其拥有利于口碑的传播和发展的优势。但由于虚拟社区的形式多样, 口碑传播的内容不同, 传播方式各异, 对企业的价值则不尽相同。“BBS的产品讨论区是消费者交流意见的口碑集散地, 也是企业实施网络口碑营销的主要‘战场’”, 所以这里我们主要基于虚拟社区BBS的产品讨论区这种网络渠道来研究网络口碑营销, 让网络口碑营销变得可控, 并且能为组织的开展营销活动带来方便和价值。

2 网络口碑营销在虚拟社区BBS的运用

BBS是一个以发帖与回帖为主要形式的讨论系统, 在其中你可以浏览其他访问者留下的文章、经验、看法、建议, 倘若需要对某贴进行回复时, 必须先成为其会员, 获得属于自己的ID, 才有权对其进行评价。当注册其会员时, 一般使用自己的邮箱进行注册, 这为与特定的顾客进行联系提供了方式。根据参与者对话题的关心程度, 将参与者分为以下几类:

2.1 高度参与者

这类人是口碑产生的主导者, 他们可能会提出一个很好的话题, 让人们参与其中, 可能在口碑传播的过程中调动人们的积极性, 在某种程度上他们也是口碑发展走向的决定者。其可以分为两种人, 一种是积极传播大使, 另一种是专家型。在BBS中会有帖子、精华、积分、学识、威望、魅力等来对每个参与者进行标识, 积极传播大使一般是那种很活跃的, 其会积累很高数字, 而且经常会为别人解答问题为己任, 被该社区的所认识, 并能发展成意见领袖, 这种人的人际网络强, 通常包括版主。专家型的并不要求像意见领袖型一样, 具有很高的数字标识, 他们凭借自己的专业知识和技能赢得人们的信任, 他们发帖不需要很高的频率, 但是仅仅一次的言论将会在对消费者决策产生很大的影响。这群人大多是不断追求新信息, 发掘新信息的人。他们也并不会仅仅的停留在一个BBS或一种虚拟社区中。

2.2 低度参与者

这群人虽然经过注册参加, 但是在网上并不活跃, 或者在网上发一些无关的回复贴, 但是并不能说明他们不会在别的网站或者在通过传统的方式进行宣传。

2.3 旁观者

这群人并未参见注册, 大多是只关心自己所需要的信息, 一般通过搜索引擎或者是别人的推荐来到这些网站, 这些人中不乏有自己的潜在顾客。

3 数据库的构建

3.1 参与者

应该针对高度参与者信息建立数据库, 他们的存在将为口碑的传播起到很大的作用。这类人群的邮箱地址是建立数据库以及开展以后的营销、管理活动的关键, 应该动用企业所有可以利用的资源大范围收集相关信息。高度参与者活跃, 喜欢接受新事物, 也愿意传递新的信息, 这些特征使得其也愿意与企业保持联系。

数据库一旦建立 (表1是我们给出的粗糙的看法, 不同企业可以根据不同的需求建立不同的结构, 其中ID为主键。) 它所具有的数据将给企业的营销、管理活动带来便利:可以运用电子邮件的方式将新产品信息、公司文化等信息以第一时间发送给这些人。当产品需要开发或者处于测试阶段时, 可以向他们发出邀请, 如邀请他们到工厂来参观实习, 这样做的优点是:能够培养他们对产品的忠诚度, 减少到处去搜寻测试人和评价人的成本浪费, 如果产品足够优秀的话, 他们会主动地为企业宣传, 减轻了销售人员的任务。缺点是:一方面, 接受者不愿意接受未经允许的邮件和过于频繁的电子邮件时, 该邮件会被当成垃圾邮件或者被举报, 这样容易被第三方服务器屏蔽, 对企业网站的搜索引擎优化不利;另一方面, 倘若产品不够优秀, 出现的弊端也会很容易被所大肆宣传。

对于低度参与者, 这群参与者数量大, 而且不具有突出和鲜明的特点。在建立数据库时不予考虑, 应该遵循“二八原理”对20%的高度参与者投入相应的精力, 时间与金钱。

3.2 信息

信息方面, 网络营销者或高度参与者在BBS产品讨论区进行宣传时, 将特定的链接放在自己回帖中, 这种链接所符合的规则是:首先根据企业经营的范围分为几大类, 产品类, 服务类……, 再对每一大类细分, 如根据自己产品的类别进行分类, 分别给予每种类别以及锁定的虚拟社区一个数字标识, 两种数字标识构成唯一的跟踪代码, 从而形成特定的链接。并将每位高度参与者和网络营销者所宣传的跟踪代码与其ID相联系, 建立到相应的数据库中。比如给予产品一个数字标识200901 (可以直接运用货号) , 锁定的虚拟社区给予的数字标识2, 对应的链接URL是:http://www.domain.com/eztrack.php?go=200901&p=002 (即在虚拟社区002号中谈论了有关200901的信息) 这些点击链接在服务器端应该做一些转向处理。有的系统后台具有一定的点击统计功能, 如果系统不具有点击统计功能, 站长可以在服务器端人工设定URL转向, 然后通过网站流量统计系统计算。

数据库的建立方式是:以一种产品建立表, 表名用产品的数字标识, 针对一种产品会有很多的网络营销者或高度参与者进行口碑传递, 将这些人的信息放入到表中 (见表1) 。

3.3 效果

在数据库的帮助, 使得网络口碑营销的效果有了一定的可测性。首先前面的通过网络营销人留下的链接点击的流量进行统计具有一定的数量, 而整个参与回帖的人数大致可以知道, 可以通过这两个数值关系来大概的估计网络口碑营销的转化率。

网络口碑营销转换率=

其中通过链接点击进入的人数还有一种统计方法就是通过分析自己网站的原始日志文件。因为在日志文件中拥有用户的IP地址, 访客来路等等。其分析软件有:Google Analytics等。

4 结语

本文主要针对于网络口碑营销在虚拟社区的BBS产品讨论区, 提出了利用技术手段数据库来避免传统口碑营销无法控制, 不方便采取措施, 不好计量效果的缺点。企业可以建立论坛/BBS, 博客等网络社区平台, 这样获得的参与者的信息更多, 从而发现、培养品牌的忠诚者, 但是企业所能建立的平台只是有限的。本文主要以BBS产品讨论区给出一些建议, 对于blog等稳定虚拟社区还有像聊天室等一些非稳定的网络社区是否实用, 还有待研究。

摘要：口碑营销所具有的优点是人们所共同认可的, 但是由于口碑是以第三方的形式传播, 缺少了可控性。互联网的发展使得口碑的可控性有了很大的改观, 网络口碑营销这种营销模式开始被人们所重视。探讨在虚拟社区的BBS产品讨论区中, 如何有效运用数据库促使庞大的网民对企业的营销产生推动作用。

关键词：网络口碑营销,数据库,虚拟社区,BBS

参考文献

[1]童雯.Web2.0时代网络口碑营销传播研究[D].兰州大学, 2009.

[2]刘向阳.口碑传播的特点与价值分析[J].商业经济文荟, 2006, (6) .

[3][美]戴夫.巴尔特, 约翰.巴特曼, 三张嘴传天下[M].邹芳, 艾昕译.北京:人民大学出版社, 2007.

[4]高丽华.新媒体经营[M].北京:机械工业出版社, 2009.

[5]李昕阳.BBS口碑营销传播研究[D].吉林大学, 2007.

[6]Denis McQuail, Sven Windahl:Communication Models for theStudy of Mass Communication[M].New York:Longman, 1993, 13

篇4：bbs社区毕业设计

关键词：HTML Parser,正则匹配,爬虫,BBS,信息抽取

1 引言

随着Internet的普及以及网民素质的提高,BBS作为Internet上的一种电子信息服务,已经成为网民每日不可或缺的交流空间。用户通过网络B B S系统可以随时取得各种最新的信息,亦可以通过B B S系统发布信息,或者用户之间进行讨论、聊天等。B B S的开放性和虚拟性,使B B S成为了网络舆情的主要突发地之一。

网络舆情形成迅速,对社会影响巨大。B B S作为一个公共讨论区域,由于其直接性,网民可以通过B B S直接发表意见,互相讨论,转载正文等,成为了网络舆论的孕育基地。互联网影响力日益增大,社会各界都越来越重视互联网舆情的监测、研究和引导。作为网络舆情主要突发地之一的B B S自然成为关注的重点,而要掌握B B S舆情走向,B B S主贴正文的抽取成为必要。

本文实现的系统是利用开源HTML Parser进行BBS信息抽取。HTML Parser是一个对HTML进行分析的快速实时的解析器。本文主要利用HTML Parser实现对B B S信息的抽取,在信息抽取时进行了一些改进,例如,在提取正文链接时利用样本训练和正则匹配相结合的方式,使正文链接的提取更加准确;此外,在正文内容爬取时进行B B S模板格式匹配,爬取后进行分析,去除噪声,使正文内容更加精确。本文主要讨论如何基于HTML Parser的平台,更加精确的抓取BBS信息,使之用于舆情分析、搜索引擎等系统。

2 背景知识

2.1 Web信息抽取技术

信息提取(Information Extraction,简称IE)的目标是从自然语言文档中找到特定的信息,是自然语言处理领域特别有用的一个子领域。I E系统中的关键组成部分是一系列的抽取规则或模式,其作用是确定需要抽取的信息。

信息抽取技术对于从大量信息中抽取需要的特定信息是非常有用的。互联网上的信息分散杂乱,同一主题的信息通常在不同的网站上,表现形式各不相同。信息抽取技术提取网络信息中的特定信息,用结构化的形式存储。

Web信息抽取(Web Information Extraction,简称为Web IE)是将Web作为信息源的一类信息抽取,从半结构化的Web文档中提取数据,属于Web内容挖掘的范畴。Web信息抽取继承了传统信息抽取技术的研究成果,其核心是将半结构化的H T M L页面中的信息抽取出来,进一步以更结构化、语义更清晰的形式表示,便于用户在查询等应用程序中利用W e b中的数据提供便利[5]。

目前的W e b信息提取技术主要分为以下几类:

(1)基于视觉特征的信息抽取

基于视觉特征的信息抽取技术利用Web页面中的视觉特征对页面进行挖掘,实现页面分割和信息抽取。根据人的视觉特征进行信息抽取的基础是网页中的HTML标签。原因是web页面中的HTML标签不仅组织网页的内容,还能够表示w e b页面的外观,比如网页内容中显示的字体大小、字体颜色、段落长短以及主题数据所处区域等等。HTML页面展示的外观,包含了要展示的内容、字体颜色、段落长短、数据区域等视觉特征。找到页面中所有类似

等分隔符,把页面分成各个视觉信息块[5]。

(2)基于wrapper的信息抽取
将信息从网页中提取出来通常是由包装器(wrapper)完成的,所谓包装器就是一个能够将数据从HTML网页中提取出来并且还原为结构化的数据的软件程序。包装器由一系列的抽取规则以及应用这些规则的程序代码组成。通常一个包装器只能处理一种特定信息源。
(3)基于HTML结构的信息抽取
该类主题信息抽取技术的基本思想是:根据HTML网页本身的层次结构生成语法树,在语法树的基础上进行信息抽取。实施过程如下:在主题信息抽取之前,运用HTML解析器把HTML网页解析成语法树,然后通过自动或者半自动方式生成信息抽取规则,最后利用这些规则对解析生成的语法树实施信息抽取[2]。
2.2 HTML Parser简介
HTML Parser是一个纯Java编写的HTML解析的库,不依赖于其它的Java库文件,主要用于转换、改造或提取HTML。其基本功能如下:
1.信息提取功能
●文本信息抽取,例如对H T M L进行有效信息搜索;
●链接提取,用于提取页面链接;
●资源提取,可搜集到当前页面的图像、声音等资源;
●链接检查,用于检查HTML中的链接是否有效;●页面内容的监控。
2.信息转换功能
●链接重写,用于修改页面中的错误链接;
●网页内容拷贝,用于将网页内容保存到本地;
●内容检验,可以用来过滤网页上一些令人不愉快的字词;
●HTML信息清洗,清除网页中广告等网页噪声;
●将HTML页面转成XML页面。
HTML Parser中org.htmlparser包定义了HTML Parser的一些基础类,其中最为重要的是Parser。Parser是HTML Parser的最核心的类。org.htmlparser.beans包对Visitor和Filter的方法进行了封装,定义了针对一些常用HTML元素操作的Java Bean,简化对常用元素的提取操作。org.htmlparser.nodes包定义了基础的node,包括:Abstract Node、Remark Node、Tag Node、Text Node等。org.htmlparser.tags包定义了HTML Parser进行解析的网页中的各种标签[1]。
HTML Parser采用了经典的Composite模式,通过Remark Node、Text Node、Tag Node、Abstract Node和Tag来描述HTML页面中的各元素[3]。
3 系统设计
系统基于HTML Parser通过后台数据采集系统,定向采集各B B S上开放数据信息源,将数据经过分析、整理后得到作者信息、发帖信息、回复数、正文内容等信息,并存入数据库,以备后期查询等用户应用。
B B S信息抽取系统主要模块结构包括4个:信息抓取模块、信息解析模块、数据库存储模块、结果显示模块。
系统处理流程为:首先对B B S版块页面进行分析,根据正则匹配,过滤出帖子的概括信息、U R L清单,将URL清单提交给网页解析模块进行网页抓取,由网页解析模块对页面进行解析,存入数据库,最后由结果显示模块显示信息,如图2所示。
3.1 信息抓取模块
网络爬虫,是一种按照一定的规则,自动抓取万维网信息的程序或者脚本。但是通用的网络爬虫对于有特定目标的用户是不适用的。传统爬虫从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的U R L放入队列,评价爬取的网页和U R L,如满足系统的一定停止条件则结束,如若不满足停止条件,则将新的URL加入URL队列,继续爬虫[4]。
本系统的信息抓取模块主要以网络爬虫框架为主,以BBS站点URL为输入,在此过程中,加入正则匹配方法,得到各个网页信息,交给信息解析模块。信息抓取模块分为三部分:版块信息抓取部分、帖子基本信息抓取部分、正文信息抓取部分。
版块信息抓取部分根据输入的站点URL,通过HTML Parser爬取页面,抓取到的页面交给信息解析模块中进行版块信息解析,得到相应的版块信息。
帖子基本信息抓取部分根据信息解析模块得到的详细版块URL列表,对各个版块进行抓取,得到页面交给信息解析模块解析,得到帖子基本信息。
正文信息抓取部分根据信息解析模块得到的详细帖子URL列表,对各个正文页面进行抓取,得到页面交给信息解析模块解析,得到正文信息。
3.2 信息解析模块
信息解析模块是本信息抽取系统的核心模块,解析从信息抓取模块得到页面,最终得到具体信息并存入数据库。
3.2.1 版块信息解析
版块信息解析部分根据信息抓取模块得到的页面,配合配置的正则匹配表达式,得到版块页面URL列表,这里以铁血网为例说明主要关键技术。
系统需要的版块URL列表所在视图如图4所示。
通过分析下列版块URL:
……
军事
尖端
环球
军品
陆军
海军
空军
警察
……
配置铁血网正则表达式,编写铁血网XML种子文件:
(.*?)"board Regx2="(.*?)"button=""form=""frequent="1"host="http://www.tiexue.net/"id="86"login Flag=""next Time="2011-09-0116:23:32"passwd=""site Name="铁血网"status="1"url="http://www.tiexue.net/"user=""weight=""/>

在种子文件中配置网站Host、版块URL、URL正则匹配表达式、编码格式等信息,在此版块信息抓取部分,需要配置的正则为board Regx="(.*?)",得到各个版块的URL列表以及版块名称。
3.2.2 帖子基本信息解析
帖子基本信息解析部分根据信息抓取模块得到的版块第一页面,同得到的版块第二页面进行训练,去除噪声,得到具体帖子URL列表。以铁血网为例,版块页面如下。
对得到的版块页面,通过第二正则表达式匹配:board Regx2="(.*?)"得到版块第二页面(如图6所示),为去除噪声链接,对版块第一页面和第二页面进行比较训练,得到不同URL。进而将URL分类,区分出具体帖子URL,加入到具体帖子URL列表,进行正文信息抽取。此阶段,得到具体帖子U R L后,由HTML Parser找到该URL节点Tag所在行,寻找T a g父节点,得到帖子基本信息所在节点,得到帖子基本信息。
以下为铁血网的具体帖子信息节点,具体帖子URL为http://bbs.tiexue.net/post_5546330_1.html,得到该URL所在节点
,利用HTML Parser的node Tag.get Parent()找到该节点的父节点
。该父节点包含了帖子具体URL,帖子作者,帖子标题,发帖时间等信息。

其网页源代码如下:
3.2.3 正文信息解析
正文信息解析部分根据帖子基本信息抓取得到的具体帖子正文页面,配合帖子基本信息抓取到的帖子作者以及帖子标题等信息,进行解析。
B B S正文格式,根据分析得到,正文所在节点Tag为Table或者Div两种格式,由HTML Parser设置节点过滤:
Node Filter div Node Filter=new Tag Name Filter("DIV");
Node Filter table Node Filter=new Tag Name Filter("table");
Node Filter filter=new Or Filter(div Node Filter,table Node Filter);
parser.extract All Nodes That Match(filter);
得到所有Table或者Div格式的Tag节点,由于帖子正文信息和帖子标题以及帖子作者信息在同一父节点下,则可通过匹配帖子作者和帖子标题信息,得到正文信息。
3.3 数据存储模块
数据存储模块主要数据表有三个,版块信息表,帖子基本信息表以及正文信息表:
版块信息表中存储了版块名称,对应U R L信息;
帖子基本信息表中存储了如URL、作者、帖子回复数、帖子点击数、发帖时间、最后更新时间、所属版块、所属BBS等信息;
正文信息表中存储了正文信息、帖子URL、对应帖子基本信息表ID等数据。
4 实验结果展示
本节针对本系统进行检验,验证系统的准确度。实验使用Java语言、实验平台为普通PC机(Windows操作系统、4GBDDR内存),测试目标为铁血网(http://www.tiexue.net/),实验结果如下图所示:
由上图可以看出,使用本系统进行抽取之后得到的信息,对图5中的版块页面信息进行抽取之后得到帖子基本信息图1 0,对图1 9中某一正文页面进行正文抽取后得到图1 1的正文信息,可见去除了网页噪声,留下了用户想要的信息。
对其他类型的BBS站点,选取其他高校BBS站点、商业BBS站点进行测试,发现本系统能够基本准确的进行BBS信息的抽取、存储、展示。
以上BBS信息抓取完毕,但是,实际操作中存在一些问题,如有的BBS的URL规则经常变化,导致XML文件中设定的正则表达式无法匹配出正确的URL列表,BBS的结构千变万化,要掌握百分之百的结构十分困难。再如有的正文抽取之后依然存在噪声信息,这时可以对它进行后续文本分析等操作,分析出最精确的正文信息。
5 结束语
随着网络通讯的发展。社会各界对网络舆情的关注度越来越高,如何准确快速的抓取到敏感信息是各界关心的热点。使用HTML Parser对BBS信息进行了抽取,并进行了实验,讨论了B B S信息抽取的方法。
然而,千变万化的大量的BBS结构导致了信息抽取工作的困难性,因此,对于正文抽取来说,如何最大限度的模拟人的浏览抽取过程,是很有意义的访问方向。

参考文献

[1]HTML Parser API,http://htmlparser.sourceforge.net/javadoc/index.html.

[2]聂奔.基于网页相似度的Web信息抽取[J].情报学报,2011,(3):268-274.

[3]罗刚,王振东.自己动手写网络爬虫[M].清华大学出版社,2010,10.

[4]VALTER CRESCENAI,Giansalvator Mecca,PaoloMerialdo.An Automatic Data Grabber for Large Web Sites[C].Proceedings of the 30th VLDB Conference,2004,[32]-1324.

篇5：bbs社区毕业设计

1.1 系统分析

按照系统开发的基本观点对网站进行分解，对系统作如下划分：(1)留言;(2)管理;(3)论坛短信;(4)私人消息;(5)个人资料。

1.2 主页设计

系统主页采用静、动相结合的方式，即静态的主画面和动态的图片相结合，体现班级的勃勃生气，静态主页方式介绍优点特色、信息发布，登陆系统，管理功能，相册功能，就利用ASP语言与Access数据库相结合的技术建立数据库查询管理系统，采用交互式的动态的web画面来实现。

1.3 数据库设计

采用的数据库是Microsoft Access，拟建立Dvbb7.mdb库文件，包含如下几个表文件：

2 功能模块设计

2.1 发表留言

(1）功能。

利用SQL语法过滤特定的留言意见，让大家可针对某位特定同学所发表的意见做出独立回答，同时，大家在发表个人意见时，若认为意见内容涉及敏感的话题或是意见内容涉及私人隐私，都可用“悄悄话”的方式发言。

(2）组成构造

(1)意见留言结果网页guest.asp。(2)大家发言表单网页addmsg.asp。(3)大家发言数据处理ASP程序add.asp。(4)管理员回复表单网页teachans.asp。(5)管理员回复数据处理ASP程序anssave.asp。(6)数据表文件all message。

(3）数据库结构设计。

数据库文件tongxuelu.mdb中的数据表all message的栏目设置，班级留言数据表如表1。

(4）界面设计与重点、难点代码的设计。

大家发言内容的数据全部储存在数据库中，要在网页中显示目前的大家发言与回复的数据，必须先进行数据库的链接与打开，要链接数据库必须使用ADO对象群的Connection对象;而要打开数据库则必须使用ADO对象群的Record set对象，程序：

(5）发言表单网页制作

(1)表单的参数

表单的Action参数：Action参数是用来指定Server端处理此一表单数据内容的程序，此处表单处理ASP程序为“add.asp”。

表单的Mouthed参数：要将表单传送至Server端的方式有两种，设置值分别为GET及POST，若设置为POST，则浏览器会等Server端来读取数据，若设置为GET，则当按下送出按钮时，浏览器会立即将表单中的数据内传送出去。利用POST方法，在传送的数据上将不受限制，利用GET方法传送的数据量则大约只有2K左右。

(2)留言处理程序

要将大家发言数据作后续处理及将这些数据内容存入数据库，须利用添加数据记录的Insert Into指令，然后再写入数据库文件中。Inset into指令语句格式：

(6）回复表单程序网页。

必须让管理员可以针对某位特定同学所发表的意见做出独立的回答,使用Select…From…Where筛选语句。

然后将特定的大家发言数据放在表单，方法是将数据库中的数据取出来，然后放在表单栏位中：

“大家姓名”栏位网页语句标签

“留言主题”栏位网页语句标签

“留言内容”栏位网页语句标签

管理员在回复栏位中所填入的数据，必须送给处理管理员回复数据的ASP程序：“anssave.asp”来记录以及处理这些回复数据。当管理员填写好回复发言的数据后按下“送出回复”按钮后，表单中的数据内容就会以“POST”的方式由SEVER端读取，然后将数据内容交由处理管理员回复数据的ASP程序“anssave.asp”来将数据内容写入数据库。

2.2 留言管理

(1)BBS管理功能。

BBS管理系统可以进行人员的添加与删除，浏览整个班级同学的信息，该应用程序也为管理员提供了一些功能，如添加、编辑以及删除图片等。

(2）应用需求分析。

BBS管理系统需要满足来自三方面的需求，这三个方面分别是管理员、班级同学和外来人员。BBS管理员的需求是对BBS管理、个人信息的修改;对班级同学在系统上发布的信息进行操作，同时对班级同学的填写的注册申请信息查看确认;功能较复杂，包括对班级同学、外来人员进行管理和维护及系统状态的查看、维护。

BBS管理人员有修改其它同学信息的权限，所以需对同学登陆本模块进行更多的考虑。

3 论坛短信

(1)功能。为大家相互交流提供一个良好的平台，也为久不见面的同学一解相思之苦。

(2)组成构造。这个系统由3个部分组成—上传主页、处理脚本和显示照片页面。

(3)数据表的设计(如表2)

4 个人资料

此模块方便个人资料的查询、修改等。