P2P流量检测

2024-05-05

P2P流量检测(精选七篇)

P2P流量检测 篇1

P2P流量已经成为互联网流量的主要部分, 根据英国ISP网络服务公司CacheLogic调查报告, 60%的互联网流量是P2P流量。互联网大量的带宽被P2P应用占据, 对其他应用的服务质量形成了威胁, 也损坏了ISP的利益。所以, 如何限制和管理P2P流量成为了人们研究的热点。

开展高效、准确的P2P流量 (尤其是多媒体内容) 实时识别与过滤相关技术研究, 不仅有利于合理利用互联网基础设施、合理利用P2P技术、合理部署P2P应用, 还有利于制止非法内容在P2P网络中的传播, 也有助于维护中国互联网的健康环境和营造一个和谐的网络社会。

本文结构安排如下:第二部分介绍P2P技术以提供课题研究的相关背景, 第三部分阐述P2P流量检测的具体方案, 第四部分分析P2P流量检测方法各自的优缺点, 第五部分对P2P流量检测的方法进行总结和展望。

二、课题相关研究

(一) P2P技术概述

P2P最早由Steve Crocker于1969年提出, 是一种分布式网络, 网络的参与者共享他们所拥有的一部分硬件资源 (处理能力、存储能力、网络连接能力、打印机等) , 这些共享资源需要由网络提供服务和内容, 能被其他对等节点 (Peer) 直接访问而无需经过中间实体。在此网络中的参与者既是资源 (服务和内容) 提供者 (Server) , 又是资源 (服务和内容) 获取者 (Client) 。与传统C/S网络不同的是, 网络中的每个结点的地位都是对等的。每个结点既充当服务器, 为其他结点提供服务, 同时也享用其他结点提供的服务。P2P与C/S模式的对比如图1所示:

(二) P2P流量检测的难点

P2P应用的飞速发展, 虽然丰富了互联网的内容, 但其流量的爆发式增长和不加限制的带宽占用, 不仅给互联网基础设施带来了巨大冲击, 也给Internet服务提供商 (ISP) 和应用服务提供商 (ASP) 高级服务的部署带来了很多问题。

因此, 对等网络的快速识别与分类, 不仅为运营商提高服务质量 (QoS) 提供技术支持, 也可以为对等网络上的内容监管 (如恶意代码识别、病毒防御) 提供保障。但是, 由于对等网络的内在特性, 其流量识别存在以下特殊性:

1. 不确定性

大多数的P2P应用允许用户手动选择随意的端口号来设置默认的端口号。此外, 许多新出现的P2P应用倾向于使用随机的端口号, 这就使得端口号不可预测。还存在一种趋势, 那就是P2P应用开始使用其他熟知应用的默认端口号 (例如80端口) 来伪装自己的功能端口。所有这些都使得基于端口号的分析方法的效率变得很差。

2. 加密性

由于对等网络属于应用层, 因此为了躲避内容监管, 现有P2P系统均对其载荷进行了加密处理。加密特性使得常规的模式识别算法很难直接应用于对等网络中。因此, 必须寻求新的流量检测技术与检测方法才能解决P2P流量识别的准确性和可靠性问题。

上述特殊性使得对对等网络的流量进行正确、高效和实时识别带来了很多困难。从技术层面来看, 现有P2P流量检测技术大致可分为基于流量特征的识别方法 (TLI) 和基于深层数据包识别方法 (DPI) 。此外, 网络设备提供商和安全产品提供商也开展了P2P流量识别与监管的研发工作。

三、P2P流量的检测

(一) 深层数据包 (DPI) 检测原理

虽然大部分P2P流量传输使用TCP/UDP/IP协议, 但每种P2P应用在自己定义的协议中都定义了一些特征头文件信息。深层数据包检测技术通过对数据包应用层协议的检测发现P2P应用。这种技术使用一个payload特征库存储payload特征信息, 符合payload特征的数据包即视为P2P数据包。这种检测方法易于理解、升级方便、维护简单, 是目前运用最普遍的。表1是现在较流行的P2P应用软件的特征信息的总结。

第一行是P2P协议的名称, 第二行是对应协议具体的payload特征字符串, 第三、四行是数据传输时所使用的传输协议和端口号。深度包检测 (DPI) 是一种严格的检测方案, 通过深度分析IP包所携带的4~7层协议的特征进行检测, 各种P2P应用软件在设计时定义的一些固定字段在网络上呈现出来就是数据包特征字。这样即使改变4层的端口, 也无法躲避检测。这是一种命中率很高的检测方案。检测的关键在于, 它要不断地在格式不定的数据包中判断出各种特征字, 实现这一过程的基础技术就是模式匹配 (Pattern-Matching) 。通俗地讲, 就是字符串匹配, 即从数据中搜索是否存在目标字符串。

(二) 基于流量特征的P2P流量识别技术

DFI全称为“Deep Flow Inspection”, 是近年来新发展起来的一项技术。DFI检测主要是针对源地址、目的地址、源端口、目的端口以及协议类型等流量特征进行检测P2P流, 它主要采用的手段有:

1. 连接模式

不同的业务其建立连接的方式都有相应特征, 可通过IP地址和端口的相应关系识别P2P业务。主要是统计所连接到的各个IP、端口号、数据包大小和传送流量大小。如果连接到的IP地址个数和Port个数相近, 则认为是P2P流量。相反, 如果连接到的IP数和Port数相差大到10个以上, 则认为是非P2P流量。

2. 拓扑特性

不同的业务其拓扑也有各自特征, 可通过分析协助识别。

3. 应用协议分析识别引擎

对于非标准协议的应用, 但协议又是公开的, 比如emule等应用, 可以通过应用协议分析引擎对此类业务进行识别。

4.IP pair

根据观察和研究, 同时采用了TCP和UDP协议的应用绝大部分都是P2P流量, 除了特殊的几个应用, 如:DNS、NETBIOS、IRC、游戏和多媒体业务流量, 但这些应用都有特定的端口, 如135、137、139、445、53、3531等, 可以通过端口匹配识别这些流量, 其余的业务流量同时应用了TCP和UDP协议的流量, 即为P2P流量。

5. 流量统计特性

在IP层通过流量统计特征的方式识别P2P流。P2P流量具有长时固定连接等特点, 因此理论上基于流状态的统计识别方式可以识别一切大规模P2P流量。

6. 采用双向识别

当某个方向的流 (五元组定义的流) 被识别为P2P流, 则其反方向流必然也是P2P流。

四、P2P流量识别技术的优缺点及比较分析

因为深度数据包检测技术关注于数据包的净载荷并且只有在发生匹配时候才产生提醒, 任何客户端改变默认端口或者采用动态端口来躲避对P2P检测都是失败的。应用这种方法, 结果通常都是比较精确和可信的, 但是其仍存在一定的不足。这里指出使用深度数据包检测技术识别P2P应用的缺点:

P2P应用在不断地发展, 因此识别标志也在变化。当变化发生时基于匹配的静态识别标志需要新的识别标志。随着市场上出现越来越多的P2P识别和控制产品, P2P开发者们倾向找到通道穿过控制。通过加密流量即可简单地达到这个目的, 比如SSL, 使得数据包检测变得十分困难。

基于识别标志的识别方法意味着产品需要读取和处理所有的网络流。这会带来在大型网络中如何维护网络的稳定性的问题。产品会加重网络设备负担甚至会导致网络的崩溃。基于识别标志的识别方法是高资源消耗的。在带宽越高的网络, 检测时所需要的开销和资源就越多。检查IGbit甚至是10Gbit的网络链为了提供合适的产品, 所需要的投资不是所有的组织都能够承担的。

基于流量特征的检测技术是一种基于会话的流量识别技术。这类方法不需要任何关于应用层协议的信息。这类方法借用了统计学领域通用的一些概念。P2P应用作为一种充分利用客户端资源的新型应用, 它在传输层表现出来的流量特征相对于其他应用, 如HTTP、FTP、DNS等, 有许多不同的地方。基于流量特征的检测技术即是通过检测这些新的流量特征来发现P2P应用。其优点有:

一是由于P2P应用具有普遍适用的流量特征, 新的P2P应用也符合这一特征, 所以这种技术有发现新的P2P应用的能力。

二是有检测加密P2P应用的能力。

五、结语

基于流量特征和基于应用数据分析技术是目前主要的P2P流量识别方法。从P2P流量识别的技术现状来看, 基于应用数据分析技术的深层数据分析方法DPI由于具有准确性高、健壮性好、具有分类功能, 且过去的P2P系大都未加密, 因此是P2P流量识别的主要方法。但是, 基于DPI技术也面临诸如如何提供检测算法的性能、如何支持对加密数据的分析、如何更新P2P应用特征库等问题。同样, 基于流量特征的P2P流量识别方法虽然具有性能高、可扩展性好的优点, 但由于准确性差, 因此在实际应用中也面临诸多困难。此外, 现有方法都以离线数据分析为主, 缺乏P2P流量的实时识别能力。从本质来看, 基于流量特征的检测属于启发式方法, 而深层数据分析属于精确匹配方法。如果能够结合这两种方法的优点, 就有可能设计出一个准确、高效的P2P流量实时识别算法来。为此, 研究启发式深层数据分析实时识别算法将是进一步研究的主要内容。

参考文献

[1]CacheLogic[EB/OL].http://www.cachelogic.Com.

[2]BitTorrent[EB/OL].http://www.bittorrent.com/, 2007.

[3]T.Karagiannis, A.Broido, M.Faloutsos and K.Claffy, "Transport Layer Identification of P2P Traffic, "Proceedings of the4th ACM SIGCOMM conference on Internet measurement, pp.121-134, Oct.2004.

[4]S.Sen, O.Spatscheck and D.Wang, "Accurate, Scalable In-network Identification of P2P Traffic Applications Signature, "Proc.of13th International World Wide Web Conference, pp.512-521, May2004.

[5]Karagiann Is T, Bro Id Ia, Brownlee N, et al.Is P2P dying or just hiding[A].Globecom[C].Dallas, TX, USA, 2004.

基于模糊识别的P2P流量检测方法 篇2

近几年,随着P2P技术的迅速发展,P2P应用已经占据ISP业务总量的60%~80%,严重影响了正常的网络业务,甚至引起网络拥塞。另外由于P2P应用变化非常快,从最初的采用固定的端口号[1],发展到动态端口,再发展到伪装端口,甚至发展到现在的一些采用加密技术的具有反侦察意识的新型的P2P应用。面对这些应用,一些基于端口、基于协议[2]、基于流量特征[3]的识别方法就显得有些困难了。

模糊数学理论提供了一套比较完备的从小样本数据中寻找规律的系统方法,可找到描述正常模型的最小预测规则集,有利于提高检测效率[4]。P2P流量识别实质上是一个二分类和多分类的结合问题(模式识别问题),所以利用模糊模式来进行P2P流量识别是现实可行的。利用模糊模式识别对二类问题进行分类的本质,通过模糊模式识别模型将所有网络数据包分为P2P流和非P2P流。

文献[5]研究了使用机器学习算法分类P2P流量的方法,同时研究了利用流的前向N个报文的统计信息作为特征,分类P2P流量的方法。文献[6]提出一种新的基于神经网络集成的P2P流量识别方法,利用CFS特征选择算法提取P2P流量特征,使用动态加权集成方法将6个神经网络集成应用于P2P流量识别。文献[7]提出基于数据包络分析的模糊综合评价方法。但是以上研究在实现过程中难以达到理想的要求,识别的条件较为苛刻。

由给定的某个具体模型的特征识别它应属于何类的问题称为模式识别。模式识别问题广泛存在于实际应用中。在实际中,由于客观事物本身的模糊性加上人们对客观事物的反映过程也产生模糊性,使得经典的识别方法越来越不适应客观实际的要求。模糊模式识别正是为了满足这一要求而产生与发展起来的。

本文通过研究P2P的识别技术和模糊模式识别模型,提出了一种基于流统计特性和模糊模式识别相结合的P2P流量检测方法。本文的创新之处在于将智能系统中的模糊识别模型与网络数据流统计特性相结合应用到P2P流量检测中,具有一定的实用价值。

1 基于模糊识别的P2P流量检测模型

1.1 设计思想

本文提出的基于模糊识别的P2P流量检测方法包括:数据包获取、特征提取和模糊模式识别分类3部分,其结构框图如图1所示。

图1中描述了网络流量经过数据包抓取、特征提取和模糊识别分类3个步骤,将这些数据流分为P2P流和非P2P流的过程。

模糊识别的过程如下:

1)信息(数据)获取。这一步要求获取样本流量用来分析,为下一步的特征提取做准备。

2)特征提取。这是模式识别最关键的一步,它可以从获取的信息中提取一些能反映其网络流量特征的测量值以供识别时使用。

3)选择、匹配分类。根据所提取的流量特征,按照模糊识别中的最大隶属度原则分类方法对输入的模式进行判别,将其分类。

模糊模式识别的一般过程可以用图2来表述。[4]图2中通过学习传感数据样本进行特征提取以建立模式库,系统对网络数据流进行模式匹配做出决策,从而对数据流分类。

1.2 相关定义

模糊集合使得某特征可以以一定的程度属于某集合。某特征属于某集合的程度由“0”与“1”之间的一个数值———隶属度来描述。把一个具体的元素映射到一个合适的隶属度是由隶属函数来实现的。隶属函数可以是任意形式的曲线,取什么形状取决于是否让使分类器简单、快速、有效,惟一的约束条件是隶属函数的值域为[0,1]。如果A表示模糊集合,其论域为X,x是A的元素,x属于A的程度(隶属度)用μ(x)表示。常见的隶属度函数有高斯型和三角形隶属函数。

高斯型模糊集隶属函数的表达式为

式中,δ和c是两个特征参数。

三角形模糊集隶属函数的表达式为

式中,a,b,c为特征参数。

隶属函数的选择是设计模糊分类模型很关键的任务之一。如何确定隶属函数目前还无定法,但选择隶属函数要考虑在模糊规则的产生及调整较为简便,便于实现和提高分类识别率。

1.3 基于模糊的P2P流量识别模型

1.3.1 模型的评判规则

最大隶属原则Ⅰ设构成了一个标准模型库。若对任意x0∈U,有i∈{1,2,…,n},使得

则认为x0相对隶属于A~i。

最大隶属原则Ⅱ设论域U={x1,x2,…,xn},x1,x2,…,xn为待识别对象,A~∈F(U)是一个标准模型。如果有某个xk满足

则xk隶属于A~。

最大隶属原则Ⅲ设,为n个标准模型,其中为普通向量。若存在i∈{1,2,…,n},使得,则认为x°=(x°1,x°2,…,x°m)相对隶属于。

1.3.2 模型的设计与实现

(1)数据包获取:利用Windows下的WinPcap,采取被动监听的方式,在计算机终端安装Wireshark网络嗅探软件进行数据报文截获,对收集到的数据报文进行统计分析并提取特征。

(2)特征提取:基于模糊模式识别的P2P流量检测方法首先要解决的一个问题就是特征提取的问题。一般情况下,只有特征向量中包含足够的类别信息,才能通过模糊模式识别实现正确的分类。

特征选择能够为特定的应用在不失去数据原有价值的基础上选择最小的属性子集,去除不相关的和冗余的属性,从而提高了数据的质量,加快了学习的速度。特征选择是机器学习过程中的一环。

在网络应用中,一个流通常被定义为是用一个特定的协议即TCP,UDP,ICMP中的一个,有时还有一对特定的端口在两个计算机IP地址之间进行传送一个或多个IP数据包。这个5元组信息(源IP地址,目的IP地址,源端口,目的端口,协议类型)构成了区分一个流的标志。这些信息存在于每一个IP数据包中。

流量的特征通常被认为是识别和区分未来的未知网络流量的,特征通常是通过计算大量的数据包而得到的流量的属性。比如像在一个方向上的最大或最小的包长度、流的持续时间、中间包的到达时间等一系列值。

最原始的流在流量识别中是不可用的,可用的是描述流的一系列属性。这些属性包括流的源端和目标端的端口号和流量的行为特征等,这些属性可用于将不同的流量分类。文献[10]中列举了流量识别中可用的248个流量属性。但是使用全部的属性进行学习分类是非常不可取的,而是需要从众多的属性中挑选出有益于流量准确分类的属性,去除不相关的和冗余的属性,这个过程就称为属性选择。属性选择可以使用FCBF算法[10]。

(3)模糊模式识别分类

经过以上两个步骤,提取出网络流量的n个可提取的特征,对P2P流量而言,对应于这n个特征的n个隶属度为:μ1,μ2,…,μn。

对于具体识别,这n个特征在P2P流量识别中的作用是不同的,所以对这些隶属度分别附以适当的权系数:α1,α2,…,αn。

然后求得

给定一个阈值θ,当F≥θ时将所检测的网络流量划分到P2P流量中,认为它是P2P流,否则认为它是非P2P流,以此达到P2P流量分类的目的。当然,对于不同的P2P协议,它的阈值是不同的,可以通过设定不同的阈值,以此来识别出具体的P2P流量属于何种协议的流量。

在本文中,利用FCBF属性选择算法,选取了网络流量的4个属性特征,因此n的值取为4,即n=4。表1中列出了本文所提取的4个网络流量属性特征及它们各自的权系数。

2 模型的性能评估

本实验在实验室教育网环境下采用被动监听方法,在计算机终端上安装网络嗅探软件Wireshark截取网络流量数据包,对收集到的网络流量进行统计分析并提取特征。在本实验中,共收集了Ares,BitTorrent,PPLive,PPStream以及EMule等多种网络应用数据,抓取的网络流量统计如表2所示。

表2列出了4组数据集中P2P流数、总流数以及P2P流所占的百分比。

实验使用检测精度、误报率、漏报率和P2P流量识别率来定量描述模糊识别系统的检测性能,定义如下:

检测精度=分类正确的样本数/总样本数

误报率=非P2P样本被错认为P2P的样本数/非P2P样本总数

漏报率=P2P样本被错认为非P2P的样本数/P2P样本总数

P2P流量识别率=识别出的P2P流量/原始数据集中真实P2P流量

实验结果如表3所示。

从表3可以看出,通过对四组数据Set1、Set2、Set3和Set4的测试,结果显示模糊系统的检测精度达到99%以上,误报率低于0.11%,P2P漏报率低于0.15%,对于P2P流量的平均识别率达到99.92%。由此分析可知,将模糊模式识别模型应用到P2P流量检测中有很好的可行性和识别效果。

3 结束语

当今P2P的应用众多,网络环境日益复杂,传统的基于端口、协议的P2P流量识别方法已经不能适应网络需求,他们存在识别准确率低,对不同网络环境的P2P流量数据识别差异性大的问题。针对日益增多的P2P业务数据流问题,本文结合P2P流的特征,将模糊模式识别模型应用于P2P流量检测中,提出了一种基于流统计特性和模糊模式识别相结合的P2P流量检测方法。通过对模型的性能评估表明基于模糊识别的P2P流量检测方法具有较高的识别率和较好的可扩展性,实验证明具有较强的应用价值。

摘要:提出了一种应用模糊识别模型来对P2P流量进行检测的方法,将网络数据包分为P2P流和非P2P流,利用模糊理论中的最大隶属度原则将这些数据包进行二分类。实验证明,该方法具有较高的识别率,说明了采用模糊识别方法进行P2P流量检测的可行性和高效性。

关键词:对等网络,模糊识别,最大隶属度原则,网络流量检测

参考文献

[1]李江涛,姜永玲.P2P流量识别与管理技术[J].电信科学,2005,21(03):18-24.

[2]Dang T D,Perenyi M.On the Identification and analuysis ofP2P traffic Aggregation[M].Networ2 king,2006.

[3]孙海波.基于流量特征的P2P识别及管理[C]//第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册,2010.

[4]梁保松,曹殿立.模糊数学及其应用[M].北京:科学出版社,2007:103-126.

[5]刘永定,阳爱民,周序生,等.使用机器学习算法分类P2P流量的方法[J].计算机应用研究,2009,26(9):3468-3471.

[6]徐鹤,王锁萍,王汝传,等.基于神经网络集成的P2P流量识别研究[J].南京邮电大学学报,2010,30(3):79-83.

[7]柳顺,杜树新.基于数据包络分析的模糊综合评价方法[J].模糊系统与数学,2010(02).

[8]阳爱民.模糊分类模型及其集成方法[M].北京:科学出版社,2008.

[9]姚锡凡,李旻.人工智能技术及应用[M].北京:中国电力出版社,2008:13-20.

P2P流量识别技术分析 篇3

关键词:P2P,流量识别

1 P2P应用现状分析

P2P起源于最初的联网通信方式, 计算机之间可以互相直接通信而不需要中间结点。利用P2P技术用户不仅可以共享文件和存储空间, 还可以实现对等计算、协同工作和搜索引擎等众多应用。

P2P打破了传统的Client/Server (C/S) 模式, 每个结点既充当服务器, 为其他结点提供服务, 同时也享用其他结点提供的服务。除此以外, P2P体系结构还具有开放性、可扩展性强等特点。所有这些使得P2P应用在短短几年时间有了飞速的发展。P2P的飞速发展一方面丰富了网络中的应用形式, 但另一方面也带来了许多负面的问题。网络上流行的P2P业务, 包括文件共享, 即时通信, 协同计算, 联网游戏等带来的网络流量, 已经超过了HTTP和FTP, 成为互联网网络流量的主力军, 给网络带来很大的负担, 其影响在局域网环境下尤为明显。

相对于传统Internet业务而言, P2P业务存在以下诸多问题:

(1) 引起链路阻塞。

(2) 严重影响正常业务。

(3) 导致安全问题。

正是由于P2P业务存在以上诸多问题, 因此实现分类、标识和控制P2P流量越来越成为企业、网络运营商急需解决的问题。而只有从网络中有效的识别出P2P的数据流量, 才能够对其进行流量控制, 流量管理以及安全机制的研究。这使得对P2P流量识别的研究变得尤为重要。

2 P2P流量识别的特点

P2P流量的快速识别与分类, 不仅为运营商提高服务质量 (Qo S) 提供技术支持, 也可以为对等网络上的内容监管 (如恶意代码识别、病毒防御) 提供保障。但是, 由于对等网络的内在特性, 其流量识别存在以下特殊性。

2.1 不确定性

由于对等网络应用的多样性 (如文件共享、语言通信、视频通信) 等, 因此对等网络流量不仅在流量特征上, 而且在行为特征上也表现出不确定性。此外, 对等网络中节点的动态性也增加了对等网络流量的不确定性。这种流量的不确定性, 为实现对等网络的流量识别带来了诸多困难。

2.2 海量性

对等网络不仅应用多种多样, 而且规模极大 (如文件共享式P2P系统Bittortent总同时在线节点可高达100万) , 因此一般来说, 对等网络流量均较大。对等网络流量的海量性, 给流量的实时检测带来了性能问题。

2.3 加密性

由于对等网络属于应用层, 因此为了躲避内容监管, 现有P2P系统均对其载荷进行了加密处理。加密特性使得常规的模式识别算法很难直接应用于对等网络中。因此, 必须寻求新的流量检测技术与检测方法才能解决P2P流量识别的准确性和可靠性问题。

上述特殊性使得对P2P流量进行正确、高效和实时识别带来了很多困难。从技术层面来看, 现有P2P流量检测技术大致可分为基于流量特征的识别方法 (TLI) 和基于深层数据包识别方法 (DPI) 。

3 P2P流量识别技术的国内外研究现状

P2P流量检测的研究, 国内是国防科大的杨岳湘、王锐等, 国外有贝尔实验室的Sen和目前在微软剑桥研究院的Thomas Karagiannis。这几篇论文给出非常实用化的思路, 大致为当前的检测软件所用。电子科技大学的周世杰等做了非常好的总结:P2P流量检测技术可分为基于流量特征的识别方法 (T L I) 和基于深层数据包识别方法 (DPI) 。从P2P流量识别的技术现状来看, 基于应用数据分析技术的深层数据分析方法DPI由于具有准确性高、健壮性好、具有分类功能, 且过去的P2P系统大都未加密, 因此是P2P流量识别的主要方法。但是, 基于DPI技术也面临诸如如何提高检测算法的性能、如何支持对加密数据的分析、如何更新P2P应用特征库等问题。同样, 基于流量特征的P2P流量识别方法虽然具有性能高、可扩展性好的有点, 但由于准确性差, 因此在实际应用中也面临诸多困难。

4 几种典型的P2P流量识别方法分析

4.1 主动爬行器识别

主动爬行器识别是利用一个经过修改的P2P客户端 (称为crawler) 对P2P系统进行探测。爬行器使用正常方式加入到系统, 然后尽可能收集peer的信息, 这些信息包括IP地址、端口号以及其它可从P2P协议中得到的数据。爬行器需要能快速的反映出P2P系统的状况, 如果操作周期过长, 会由于大量节点的加入和离开使得反映失真。

这种方法的优点是可以获得大量P2P用户的IP地址, 缺点是爬行和探测必须足够快才能有效。P2P系统中的用户数量极大, 使用这种方法需要耗费很大的资源。同时使用这种方法也需要对P2P协议非常熟悉, 如果协议是非公开源码的或是加密的, 则无法构造出爬行器。另外基于爬行器探测的方法需要随着底层P2P协议的变化而不断更新。

爬行器方法可以提供有用的信息, 但还需要在干扰性和检测开销方面进行改善。当然也有其它的方法可以用于识别P2P用户, 不过爬行器方法仍可作为在其它方法无法识别的情况下的可行方案。

4.2 内容识别

用于检测和识别P2P流量的另一种方法, 就是通过检查数据分组的内容得到P2P协议的特征模式。这首先要从已知的P2P流量中找出模式或签名, 利用一个签名的列表对要识别的流量进行检测。对于每个分组都要与列表中的签名进行比对, 若相符则为P2P流量。签名检测在入侵检测中已经应用了一段时间。在某些IDS中这种方法已被配在防火墙上用于检测P2P流量, 这种方法较为有效和灵活。如果在一个较小的子集正常活动行为中是可知的, 而且特殊服务仅限于特定的主机时, 防火墙便可以有效的拒绝P2P的访问[1]。

内容检查对P2P的识别虽然有效, 但也存在以下几方面问题。

(1) 无法识别经过加密的数据流量。

(2) 签名经常变化, 需要不断的随着P2P协议的变化而更新。

(3) 对IDS的更新是比较困难的, 因为这涉及到许多设备和硬件, 需要花费不少的费用。

(4) 应用层的内容检查对资源的消耗和对硬件的要求较高。

(5) 需要对原有的网络设备进行升级改造。

4.3 端口识别

大多数P2P应用程序使用特定的端口号与其它peer交互, 其它的peer向这个端口发送请求, 而后在建立的连接上回复。相反的, 当向其它的peer发送请求时, 使用本机上的一个随机端口连接到对方peer的公开端口上, 这种特性在Internet上的C/S模型中常会见到。peer应用程序使用默认的端口号, 这一点可以区别不同的流量。但问题在于这一服务端口并不是固定的。用户为了通过防火墙或逃避检测可以随意改变监听端口 (这被称为端口跳跃) , peer可以选择任意的端口用于监听连接, 甚至可以在每次使用客户端软件时随机选择端口。

在早期, 利用已知传输层端口号可以精确、快速的区分流量。但是现在许多P2P程序为了躲避防火墙的限制, 开始使用端口跳跃 (甚至使用80, 8080, 443等端口) , 这使得基于端口的流量识别变得十分困难[2]。

4.4 基于客户端进程的流量识别

该方法通过对主机进程与网络流量相关性的研究, 提出了一个基于客户端特征进程的P2P流量识别方法。通过对接入网络的主机上运行的进程进行检查, 自动识别出P2P进程所产生的流量, 使每一台客户端主机具有了识别自身产生的P2P流量的能力。与之前流行的P2P识别系统相比, 该方法首先引入了基于主机进程的客户端流量识别技术, 可以有效地解决传统识别方法对于端口跳跃和数据加密造成的识别失效问题;单点识别与多点识别相结合, 多种识别方法相结合, 有效降低服务器负担, 提高识别效率;其次该方法引入识别引擎管理控制机制, 增强识别系统的扩展和更新能力;另外还引入了TLS安全通信机制, 以保证客户端识别模块与系统之间的通信安全。整个识别方案采用了多种识别方法相结合, 从不同的层面对P2P流量进行识别, 与传统的P2P流量识别方案相比, 能在一定程度上提高P2P流量识别的效率和准确率。

4.5 特征参数识别

利用P2P系统表现出的某些特征来完成识别[3], 这些参数可以分成四类。

(1) 拓扑参数:用于描述应用层上的拓扑关系等。例如跨网络的peer分布以及它们之间的连通性。

(2) 流量特征参数:衡量不同节点发送或接收到的流量以及流速。

(3) 动态行为特征参数:在实际P2P系统中观察到的各种行为。例如:主机加入或离开系统的频繁程度, peer在系统中的停留时间等。

(4) 社会行为特征参数:描述多少主机加入网络、内容的分布以及共享的程度等。

5 P2P流量识别技术的未来发展方向

P2P应用从最初的采用固定端口发展到使用可变端口甚至使用其他应用的端口进行数据传输, 在传输的具体内容方面也从使用明文传输发展到对传输数据进行加密处理, 因此对P2P流量进行识别的技术也需要不断创新与探索。

当前P2P流量识别的难点主要来自几个方面。

(1) 互联网带宽的不断增长。

(2) 数据加密、隐藏等技术在P2P中的应用。

(3) P2P应用技术的不断更新及快速普及

前者导致网络中单位时间内数据以及流数目增大, 给数据的采集增加了困难, 而后两者又使得传统的端口、应用层特征等识别方法不再适用, P2P流量识别技术及相关产品必须不断更新以适应需求。针对现在P2P应用发展的趋势, 我们提出下面几点作为P2P流量管理未来的发展方向。

(1) 自动抽取P2P流量的签名。

(2) 使用更有效的流量特征来识别P2P流量。

(3) 在线的P2P识别。

(4) 应用更高级的机器学习和数据挖掘的方法。

(5) 综合的P2P识别和流量管理优化服务模型。

随着P2P技术的不断发展, 本文所讨论的上述几种流量识别方法仍需要相应的改进, 包括挖掘P2P流量的深度特征, 在识别系统中引入智能学习功能等, 以便能够对网络中相关P2P流量进行精确、实时、高效的识别与监控, 从而为ISP以及企业的网络管理提供便利的管理平台。

参考文献

[1]A.ABIMBOLA, Q.SHI, ANDM.MERABTI, Using Intrusion Detection to Detect Malicious Peer-to-Peer Network Traffic[C], inPGNET2003, Manchester, UK, June.2003.

[2]CYRIL SOLDANI, Peer-to-Peer Behaviour Detection by TCP Flows Analysis[D].UNIVERSITY OF LIEGE, May.2004.

[3]T.Karagiannis, A.Broido, N.Brownlee, K.C.Claffy, and M.Faloutsos, Is P2P dying or just hiding[C].in Proc.of IEEEGlobal Telecommunications Conference (GLOBECOM2004) , Dallas, TX, USA, Nov.2004.

P2P流量适度的控与放 篇4

P2P是个人用户端之间直接交换数据和服务的技术, 他具有强大的分布数据交换能力, 资源服务器仅仅对用户在线和连接进行管理, 服务器只有于在线用户和连接管理, 不负责进行下载。目前网络上实际广泛使用的P2P应用大致可以分为以下三种:

1) P2P文件共享应用

P2P文件共享是目前P2P运用最为广泛的一种, 它通过不相同用户间相互交换文件达到文件共享的目的, 这种模式较之前C/S模式下公共服务器进行下载文件的方法具有速度快, 资源更为丰富的特点。P2P文件共享运用必然造成网络连接数量增大, 普通节点互相交换的流量增大, 尤其是距离较远的流量增大, 打破了传统模式流量较小的局限性。此外, P2P共享文件没有文件存储中心, 这样使得文件共享更加可控, 一些未经授权, 盗版的文件在永恒之间交叉传播, 这给知识产权保护带来一定的难度。P2P客户端之间大量的数据交换和相互连接也给各类病毒, 黑客软件, 恶意攻击等的存在创造有利的条件, 给网络安全带来巨大的安全隐患。

2) P2P网络电视应用

P2P网络电视主要靠插播广告, 提高流量等方式盈利, 此外, 它经常推出一些有奖活动来凝聚客户, 为培养稳定的客户群奠定基础。与P2P共享文件相同, P2P网络电视也容易造成流量急速增大, 网络连接迅速增多的情况。P2P网络电视目前还没有得到有效的控制和监管, 这就为一些非法份子传播色情, 暴力等视频音频内容提供了方便, 造成不良的影响。

3) P2P其它应用

此外, P2P技术还能提供网络相册, 网络游戏, 协同结算等各种网络服务, 其物理环境涉及各类有线和无线, 固定或者移动网络。从网络监测和官方统计数据得到:P2P已经超过HTTP等传统运用成为网上流量最大的一种运用, 占用网络宽带的比例达到40—80%, 在不同位置, 不同时间, 不同的网络层次, 宽带占用比例不相同。毫无疑问, P2P已经成为网络上占用资源最多的一类, 但从用户的角度考虑, HTTP仍然是第一位的运用, 几乎任何网络都会用到HTTP, HTTP使用最频繁。

2 现有流量情况

根据对现有一条电路的流量情况的分析, 有如下图表。

根据图表分析, 可以看出现网应用中P2P的占比达到50%以上, 成为了网络流量的主力军。

3 P2P流量的控制

对于网络链路的拥塞情况, 可通过上行链路带宽扩容的方式解决, 但此类解决办法需要有以下几个条件支持:

1) 光纤资源充裕;

2) 上、下层交换机仍有多余端口。

同时根据P2P应用的特点, P2P应用会无限的占用带宽资源, 带宽扩容的速度远远跟不上占用的速度。针对暂时无法进行带宽扩容的链路, 在充分考虑投资的情况下可以考虑适度采取P2P控制的方法, 达到有效控制带宽, 保证用户HTTP体验的目的。

以某受控区域为例:P2P总体带宽控制策略:采用P2P总体带宽限制的方式, 实行带宽限制时设置为上行带宽限制上限为300Mbit/s, 下行带宽限制上限为300Mbit/s;

从对P2P流量进行300Mbit/s的上行带宽限制后, 上行P2P的最大带宽稳定在300Mbit/s左右, 只占用了总带宽的30%, 节省了40%~70%的带宽, 效果比较明显。结合上述实践过程, 通过对P2P流量的控制, 可以在一定程度上解决局部区域带宽资源紧张的情况。

4 P2P流量的控与放

虽然对P2P流量的控制在一定程度上起到了很好的作用, 但对P2P流量的控制要把握好一个度的问题。如果流量控的过低将会导致用户的P2P体验的下降, 在一定程度上造成用户的投诉。要及时跟踪用户的体验情况, 根据网络用户量的变化和流量的变化适时调整控制的策略, 采用总体控制、分协议控制、分时控制相结合的方式总体考虑控制的力度。针对P2P流量的整体来看, 还应该采取疏堵相结合的方式。在堵的方面, 利用现有的P2P控制技术有效控制P2P流量占比从而降低整体流量;在疏的方面, 可以考虑结合P2P Cache技术, 该项技术通过Cache模式, 解决P2P占用过多上行中继带宽资源的问题。

结合整个网络架构来考虑, 堵的方式适用于较低的接入层面, 采取适度控制的方式解决局部地区带宽资源紧张的情况;而在较大的出口位置, 采用P2P Cache方式疏导大部分的P2P流量, 从而做到节省出口资源的目的。通过以上疏堵相结合、控放相结合的方式, 才能更好的达到即控制了流量又保证使用体验度的目的。

摘要:P2P是英文Peer-to-Peer (对等) 的简称, 是一个下载的术语, 意思是指在自己下载的同时自己的电脑要同时做上传。根据德国互联网调研机构ipoque称, P2P已经彻底统治了当今的互联网, 其中50%~90%的总流量都来自P2P程序。

关键词:P2P,控制,疏堵结合

参考文献

[1]Andrew S.Tanenbaum.Computer Network (Fourth Ed) 计算机网络[M].4版.清华大学出版社.

[2]张春红, 裘晓峰.P2P技术全面解析[M].人民邮电出版社.

[3]陈贵海, 李振华.对等网络:结构、应用与设计[M].清华大学出版社.

P2P流量检测 篇5

关键词:P2P,流量管理设备,流量控制技术,数据包分析

P2P以其独特的技术优势在近几年迅速发展,其应用范围不断增长。据不完全统计,P2P应用的数据流量特别是影视和游戏下载的数据量已占ISP业务总量的60%~80%,成为网络带宽最大的消费者。随着因特网重要性的日益提高和网络结构的日益复杂,网络的安全性、可管理性及传统应用的可用性均受到了挑战。人们意识到越来越有必要对P2P流量和网络行为进行深入的了解、分析,为监控与管理P2P提供技术支持。

1 P2P流量管理的基础理论

1)信息论。在P2P流量管理中经常用到信息论来分析流量。比如利用一些分布变化情况来衡量流量的某个特征的信息量。这种方法常用来描述流量的特征,比如利用熵理论来分析流量特征的变化。

2)数据挖掘。在数据采集阶段需要对采集的数据进行海量数据分析处理,便于离线分析,这时候就需要用数据挖掘方面的理论。对于流量识别来说输入就是输出流量的特征向量的熵、平均流量、延迟、端口、Payload等,而输出需要判断出是哪种类型的流量(如Web、FTP、P2P等)。

3)机器学习。机器学习是关于理解与研究学习的内在机制,建立能够通过学习自动提高自身水平的计算机程序的理论方法的学科。在P2P流量管理中,机器学习主要结合数据挖掘的理论用于基于观测数据(样本),发现规律,预测新数据,其中有三种机器学习框架:监督学习,所有训练样本都有标记;非监督学习,所有训练样本都没有标记;强化学习,延迟标记。

2 P2P流量管理设备

为了实现P2P流量的快速识别与管理,思科等业内主要网络设备生产厂商纷纷推出相关产品,从技术角度分析可以归纳为四类:

1)网络缓存设备:研究表明Internet中10%的热点文件消耗了90%的P2P流量,这就使得利用本地网络缓存设备缓存热点文件以减少网间流量成为可能。

2)应用层流量管理设备:应用层流量管理设备通过DPI扫描分类出流的应用层协议,标识出具体的P2P业务类型,并利用三层Shaping技术实施流量控制。

3)流统计状态路由器:流统计状态路由器可以在IP层通过统计流量特征的方式识别P2P流,从而可以提取出经过编译码的或者是未知的新型P2P流。

4)智能防火墙:智能防火墙可以为企业网P2P监管提供服务,它利用数字签名技术识别P2P数据,并阻断未经授权的P2P流。

3 P2P流量管理技术

1)思科SCE技术

该技术有两个功能,一是能够识别所有的P2P流量,并进行分类;二是提供对P2P流量的控制和管理策略,使P2P流量不会消耗过多的资源,比较接近用户的实际需要。

Cisco Service Control采用第七层Stateful Deep Packet Inspection技术,为了达到几个G比特的处理速度,采用了专门的硬件结构,可以维持每一个网络会话的状态,同时对每一个报文进行第七层深度检查。结果是:根据一次P2P会话的头几条报文检测出该P2P应用,并且能把后续的报文分类到所属的P2P会话。

Cisco Service Control支持P2P识别代码的扩展和更新,以便支持新的P2P应用,具有专门的编程语言Service Management Language(SML)。SML能迅速产生流量检测和控制的算法,然后编译并且下载到SCE中,立即更新。协议的改变、新协议的出现、新应用的出现以及会话识别信息都能很容易地更新。

流量管理和控制方案主要是提供一些灵活的管理策略,主要包括限制P2P总体流量、限制P2P上行流量、根据一天中其他应用的流量变化规律在不同的时间段内进行不同的流量控制、一段时间内的流量定额等。这里没有进行生硬地阻断,主要是考虑到不要疏远用户。SCE系列设备采用了专门的硬件加速技术,5-level ASIC芯片做报文处理,以及高速的RISC处理器。SCE 2000同时支持2M条应用连接,最大吞吐率4Gbps,并发用户达10000。

2)思科NBAR技术

NBAR可以检测识别各种应用协议,包括使用静态端口的、非TCP/UDP的IP层协议、使用动态端口的、伪装其他端口的(采用深度报文检查,检查某些位置的字段,不是全部载荷都检查,又称为Application Inspection)。NBAR还支持用户定义的应用,比如使用某个特定端口等。

NBAR能够检测识别多种P2P协议,并且支持细粒度的检测,比如识别检测某种P2P协议中包含某个文件后缀的流,某种P2P协议中包含特定字符串的流。NBAR还包含一个包描述语言模块(Packet Description Language Module,PDLM),它使NBAR可以动态调入新的协议描述,进而加强NBAR对新协议的检测能力。但思科公司只能在路由器上利用NBAR实现对P2P流的限制,而且是通过软件来实现的,在出口路由器使用NBAR功能,将会消耗大量的CPU资源,对路由器性能有严重的影响,并且只能在出口路由上进行限制,无法控制P2P流下载对内部网络带宽资源的恶意消耗。

3)华为3COM的处理技术

华为3COM公司8500交换机在收到数据包时就能够对更多的数据包头信息(不仅仅是二层MAC地址、IP地址、端口号信息)进行读取、分析和处理,从而对P2P流的特征码进行检查,一旦发现P2P特征码,就限制此数据流。(华为3Com称为深度业务感知)。

华为3COM在85系列交换机上实现对P2P流的限制。但在核心层上使用深层包检测会消耗交换机大量的资源,对于网络的核心设备来讲,启用复杂功能会直接影响网络的性能。

4)锐捷网络公司的第一种处理技术:路由器最大连接数控制技术

因为进行P2P流下载会持续占用大量的连接数会话数,因此可以在路由器上限制所有主机能够发起的最大连接数(例如50),这样对普通的网络访问不会有任何影响,但是只要使用P2P流应用,就会迅速消耗完设置的连接数目,并尝试进行新的P2P流连接。

由于使用了P2P流下载,就会迅速消耗完设置的连接数目,那么正常的网络访问(如WWW、FTP等)将无法建立起连接,导致所有使用了P2P流应用的用户的其它网络访问应用无法进行,另外由于连接数的限制,也使得P2P流的下载速度非常慢(100K以内)。由于这样的影响,用户将大大减少P2P流的应用,能够保证网络出口的带宽不会受到很大的影响。

这种方式比较人性化,它不会完全禁止用户的P2P流应用,但是使用了P2P流的用户的网络下载速度会比较慢,而且无法同时进行其它的网络访问,从而起到控制P2P流应用的作用。另外,这种方式虽然是在出口进行控制,但是它不需要对数据包进行分析,因此不会影响出口设备的网络处理性能。

5)锐捷网络公司的第二种处理技术:应用的深度识别和控制技术

锐捷公司S21系列交换机具有的“应用的深度识别和控制”能力,除了硬件识别报文中的二层字段如MAC地址、三层字段IP地址、四层字段TCP/UDP端口号以外,更能硬件识别和控制报文内容,达到可控制“泛滥使用或不法网络应用流”的目的。

S21系列交换机作为目前业界安全功能最强大的接入交换机,率先在接入层推出专门针对P2P流应用下载的控制措施。S21系列交换机通过识别P2P流协议报文中的内容,在接入层就可以遏制住P2P流,完全杜绝P2P流下载,安全到边缘。

如果不想完全杜绝P2P流下载,可利用S21系列交换机支持基于流的带宽限速,根据IP地址/MAC/、TCP/UDP端口对网络用户进行带宽限速,即该网络用户无论什么应用,最大带宽只能在此范围内。如果该用户想用P2P流下载,那么他的其它网络应用速度将受到限制。

在SMS的入侵检测中定义数据包中含关键字“BitTorrent Protocol”,将阻止此应用。并作为一个IDS事件发送到SMP。再由SMP来决定对用户实现什么样的操作。如警告用户、隔离用户等等。只要终端用户使用P2P流,安全客户端就会阻断并警告。

4 结束语

P2P流量的监控和管理是一个不断发展变化的过程。最初的P2P流可以通过固定端口号加以识别,但很快便出现了采用可变端口或是隐藏端口的分布式P2P应用软件。针对此类P2P流量,当前最有效的手段是DPI扫描,通过关键字段的辨认来识别P2P流,但这种方法无法对加密的报文进行识别,可见将来P2P软件必将走向加密通信的方向。

针对现在P2P应用发展的趋势,以下几点可作为P2P流量管理未来的发展方向:1)自动抽取P2P流量的签名。2)使用更有效的流量特征来识别P2P流量。3)在线的P2P识别。4)应用更高级的机器学习和数据挖掘的方法。5)综合的P2P识别和流量管理优化服务模型。

参考文献

[1]罗杰文.Peer to Peer(P2P)综述[G].中科院计算技术研究所,2005.

[2]Java P2P技术内幕[M].高岭,刘红,周兆确,译.北京:人民邮电出版社,2003.

[3]许峰,丁祥武.基于P2P的Web服务体系结构的研究[J].微计算机应用,2007(5).

[4]梁广民,王隆杰.思科网络实验室CCNA实验指南[M].北京:电子工业出版社,2009.

[5]王达,杨学明.Cisco/H3C交换机配置与管理完全手册[M].北京:中国水利水电出版社,2009(7).

互联网P2P流量优化技术发展综述 篇6

随着互联网应用日新月异, 新的技术不断出现, 特别是以P2P为代表技术的出现, 彻底改变了互联网应用模型, 使互联网的流量分布发生了巨大的变化, 对网络服务提供商的运营模型产生了非常深刻的影响。

P2P技术的特点和优势主要体现在以下几个方面:

(1) 非集中式:网络中信息的传输和服务的实现都直接在结点之间进行, 可以无需中间环节和服务器的介入, 避免了可能的瓶颈。

(2) 可扩展性:整个体系是全分布的, 不存在瓶颈。理论上其可扩展性几乎可以认为是无限的。

(3) 健壮性:服务分散在各个结点之间进行的, 部分结点或网络遭到破坏时能够自动调整整体拓扑, 对其它部分的影响很小。

(4) 高性能/价格比:采用P2P架构可以有效地利用互联网中散布的大量普通结点, 将计算任务或存储资料分布到所有结点上, 达到高性能计算和海量存储的目的。

P2P流量的逐年增加也给运营商的IP承载网络带来了冲击, 运营商主要采用增加出口带宽投资的方式。但此种方式, 却无法带来实际的经济收益, 且P2P协议吞噬带宽的特性很快就发挥的淋漓尽致。

2 主流优化方案及分析

国内外现有的P2P流量优化技术, 总体而言可以分为以下几类。

2.1 针对域内节点进行内容探知的节点选择技术

针对域内节点进行内容探知的节点选择算法认为:一个域内所有的节点所拥有的文件片段的补集称为下载内容的“融合度”。下载过程中, 本地应用程序统计下载信息, 包括:下载内容分片信息, 拥有分片信息的节点数和本域内的近邻节点列表, 并不断的统计该节点以及其近邻节点的内容融合度, 一旦发现融合度为100%, 则该域内的所有Peer针对该下载的内容形成了一个完整的Peer群。这些域内节点立刻停止连接外网节点, 通过域内的节点互传即可完成下载, 这样就避免了不必要的跨网流量。

2.2 Lite Load技术

Lite Load预先在ISP网络中安装, 拦截P2P协议的所有初始化连接消息, 并检查目标地址。

对具有超级节点的P2P网络, 将向外部超级节点的连接请求重定向到内部的超级节点, 如果没找到所想要的内容, 再向原来的超级节点请求。这种方法促使每个节点优先从内部的节点获得数据, 因此能够提高流量的本地化程度, 降低了网间流量。

2.3 基于CDN定位的节点选择技术

CDN与P2P技术相结合可以同时发挥两种技术的优点。P2P技术有效的减少了系统所需要的服务器的数量, 增大了系统的容量, 降低了总体成本;而CDN技术又将下载的内容转移到客户所在的网络域内部, 使得客户端访问外网的流量大大减少, 同时P2P网络的性能和服务质量也会有很大的提高。

2.4 Oracle技术

Oracle是由德国的Deutsche电信实验室提出的一种P2P流量优化方案, 目的是在ISP和P2P服务商之间建立合作关系, 由ISP向P2P应用提供网络信息服务。

在通信网络域内部署Oracle服务器, Oracle服务器需要收集ISP网络的拓扑信息, 如AS号, AS拓扑图、城市等级拓扑信息等, 然后根据这些信息向P2P应用提供节点匹配建议;P2P客户端在选择邻居或下载数据时, 向Oracle提交候选的一组节点, Oracle则根据网络拓扑信息对候选节点排序, 帮助P2P客户端选择较优的节点;而最终的实验数据也表明40.57%的数据下载被约束在了网络域内部。

2.5 P4P技术

P4P是由美国耶鲁大学网络系统实验室提出的一种P2P流量优化技术架构, 通过在ISP和P2P应用之间进行通信和协作来优化P2P的流量和性能。

P4P作为通用方案, 能够支持各种P2P应用形式和资源;P4P可以采用增进式部署, 从而使运营商网络平滑演进;P4P可以采用一些承载网的增加特性, 例如Qo S、缓存服务器等。

实验室内的测试结果表明:P4P技术不仅可以减少跨网流量, 而且可以将下载速度提升200, 在某些情况下甚至提升600, 是一个可以实现ISP和P2P双赢的技术方案。

3 P2P优化方案工程应用

P2P cache缓存应用平台部署在运营商IP城域网出口路由器或业务路由器, 通过DPI等设备对用户行为进行分析, 将热点内容存储在平台缓存池的服务器硬盘中。平台监控全网用户请求, 用户发送域名请求到DNS服务器, DNS服务器通过forward转发功能将请求转发给DNS Forword服务器, DNS Forword服务器根据一定策略规则将返回WEB以及APP服务器地址, 用户通过WEB或APP服务器访问相关域名的资源, 该资源如果已经缓存就从磁盘或内存中读取给用户, 如果该资源没有缓存就通过代理方式边下载边服务。

4 P2P技术发展的机遇

P2P技术高效的传输效率, 以及丰富的资源提高了用户上网体验, 上网用户飞速发展为运营商提供了更大的商机, 也给网络运营商带来了巨大的成本压力。

(1) P2P可以消除服务器瓶颈, 使得流量分布平衡, 同样的网络资源可以支持更多用户的文件下载业务;

(2) P2P推动着以博客、手机电视、无线点播、手机即时通信为代表的网络新媒体的发展, 这将促使运营商发展更多互联网的增值服务;

(3) 软交换和P2P是目前语音通信的两种模式, 在测试中, P2P具有更高的网络利用率和通话质量, 将会在未来有很大的发展空间。

5 结束语

综上所述, 本文通过对P2P优化技术发展的分析, 简要的描述了近来一些国内外对于P2P优化采用的技术, 并介绍了工程实例。因为P2P优化技术对未来网络建设具有复杂性和多样性, 笔者也只是列举了一些普通的优化方案, 在今后的网络发展中, 我们应该根据具体问题具体分析的宗旨, 稳步推进P2P技术的优化, 减少对IP网络冲击的同时带来更好的用户体验。

摘要:随着P2P技术的迅速发展, 对P2P技术优化的研究也成为了一个热点。文章首先简要介绍了P2P技术的概念和特点, 然后介绍了P2P技术在现网中存在的问题及相关的解决方案, 并介绍了当前国内外主流的P2P流量技术优化方案, 最后展望了P2P未来的发展趋势。

关键词:P2P,优化,流量

参考文献

P2P流量检测 篇7

1、P2P网络流量对校园网的影响

鉴于P2P技术自身“非中心化”、高速、海量、扩展性强、穿透性强、上下行流量对称等特性, P 2 P技术已应用到资源共享、文件下载、对等计算、即时通讯、流媒体、搜索引擎等方方面面。如能科学合理的运用P2P技术, 必将为广大师生的学习、生活和工作提供更丰富的信息化手段。如对P2P技术不能进行有效的监测与控制, 也正是由于P2P技术同样的特性, 必将对校园网有限的带宽造成巨大的消耗, 带来一系列负面的影响。

1.1 吞噬网络带宽

如图1所示为学院校园网在实施P2P网络流量控制前, 其中70%的校园网网络带宽被P2P下裁、NetTV、Stream等P2P应用所吐噬, 再加上网络蠕虫、病毒泛滥, Http、Emil以及有关工作流程的业务应用能正常使用的带宽就所剩无几了, 造成网络运行速度变慢或时断时续, 同时, 网络带宽不足反过来也会影响P2P应用。

1.2 阻碍网站访问

因为P2P应用具上下行流量对称的特性, 必将占用大量校园网上行流量, 从而影响校园网对外服务, 造成校外用户浏览学院网站变慢, 或根本打不开, 校内电子邮箱收不到校外邮件, 进而影响学校对外宣传和交流。

1.3 增加安全隐患

P2P网络各节点可直接访问, 资源共享, 并且P2P应用还可穿透防火墙。从而更容易造成蠕虫、病毒相互传染、快速传播。P2P应用给用户带来更多的安全隐患。

2、P2P网络流量监测技术

2.1 关键节点监测

基于关键节点的P2P监测是一种传统报文监测手段。P2P网络中的关键节点就是在维护P2P网络健壮性、扩展性和连通性等方面具有重要作用的节点[2]。

由于所有的P2P用户都存在与关键节点的交互, 因此监测关键节点, 就能对该P2P应用进行监测。早期P2P网络中的关键节点相对固定和集中, 但越来越多的P2P应用“泛化”关键节点, 使得基于关键节点的监测方法越来越难以实现。

2.2 端口监测

基于协议端口的P2P监测也是一种传统报文监测手段。早期的P2P应用大多采用缺省协议端口实现P2P节点之间的通信。基于缺省协议端口就可监测到P2P应用中所有用户和节点之间交互过程。这种监测方式利用现有网络条件就可实现, 不需要增加什么投资成本, 对早期P2P应用的监控较为有效。

但是, 越来越多的P2P应用采用随机生成端口号, 或手工设定端口号, 或自动改变端口号的方法, 基于协议端口的P2P监测就无法实现了。

2.3 DPI技术监测

深度报文检测 (Deep Packet Inspection, DPI) 技术是相对于传统报文检测技术而提出的一种典型应用检测技术。DPI技术目前并没有一个较明确的定义, 但普遍认为, DPI除了具备对报文头部信息、源/目的IP地址、源/目的协议端口和协议类型等进行监测分析等普通报文监测分析能力外, 还可结合报文净荷 (payload) 及报文之间的关联性等因素进行监测, 实现报文的“深度”识别[2]。

2.4 DFI技术监测

深度流行为检测 (Deep Flow Inspection, DFI) 技术也是一种典型应用检测技术。DFI主要是通过对网络流量状态、持续时间、流量速率、字节长度等参数分析统计来监测P2P应用类型和状态的。相对DPI技术, DFI可监测到未知的P2P流量, 但监测精度没DPI高, 容易出现误判。所以, DFI适合快速监测, DPI适合精确监测, 各有千秋, 在高端流量控制设备中一般都集成DFI和DPI两种监测技术, 取长补短。

3、P2P网络流量监测控制实现

3.1 实现方式

(1) 充分利用校园网已有设备和资源, 通过在防火墙、路由器、核心交换机、汇聚交换机等设备上划分V L A N和设置A C L, 对网络流量进行分流, 对P2P流量进行封堵。虽然此方法不需额外资金投入, 但不便集中管理, 工作量大, 且效果不理想, 尤其是对控制P2P流量无效, 因为ACL主要是基于协议端口进行控制, 对当前端口“泛化”的P2P技术无能为力。此方法主要适用于小型网络。

(2) 使用Panab it等免费、专业的流量管理软件进行P2P网络流量监测控制。Panab it是基于网络流量状态和特征进行监测控制, 具专业的网络流量协议特征库, 并能免费更新, 能监测出绝大多数P2P流量。Panab it默认的控制方式只有允许和阻断, 对P2P网络流量的控制不灵活, 不精确。并且, Panab it的处理能力受限于所安装的硬件, 不适合大型网络使用。

(3) 利用多业务安全网关中的流量监测控制模块进行P2P网络流量监测控制。安全网关是种多业务、全方位解决网络安全问题的产品, 提供全面的防火墙、病毒防护、入侵检测、入侵防护、DDOS恶意攻击防护、VPN和流量控制等功能。对网络流量监测控制只是其中一项业务, 并且是一项需消耗大量资源的功能, 在大型网络中不适合启用安全网关此项功能。

(4) 采用专业的网络流量控制设备进行P2P网络流量监测控制。这种方式虽然资金投入较高, 但对P2P网络流量监测控制效果好, 管理方便。我院即部署了一台集成DPI和DFI两种流量监测技术的专业流量控制设备, 采用串联方式部署在校园网出口, 如图2所示。

3.2 控制策略

根据校园网不同时间段网络流量的分布情况, 以及多数用户网络使用习惯, 结合学院校园网实际情况, 制定了校园网P2P网络流量控制策略。

(1) 时段限制:工作日8:00-21:00限制P2P应用, 其他时间及节假日全天开放P2P应用, 但每个用户最大并发流量限制4M。

(2) 区域限制:办公区、教工宿舍区全时段不限P2P应用, 但每个用户最大并发流量限制4M。学生宿舍区、实验实训区遵循时段限制策略。

(3) 流量计费:网络流量设备结合学院认证计费系统, 为每位用户设定一个月网络流量阈值, 一个月内用户使用的网络流量没有超过设定的网络流量阈值, 则不收费, 超出部分按不同流量档次收费。避免用户无节制使用网络流量, 树立网络流量即资源的概念。

(4) 为网页浏览、协同办公系统、教务管理系统、教学管理系统等网络基本应用和关键业务的流量设制高优先权, 保证基本业务、关键业务的平稳运行。

(5) 不断拓展校内网络应用, 架设视频点播系统, 建立海量数据中心, 吸引广大师生在校内下裁各类软件、视频、音频等资源, 从而减少校园网出口的带宽压力。

4、结语

我院这套专业流量控制设备使用两年多来, 不断完善P2P网络流量控制策略, 将P2P网络流量应用控制在一个合理范围, 既满足了用户对P2P应用的需求, 也保障校园网的基本应用和关键业务应用的平稳运行, 还加强了网络安全防范, 节约了校园网出口带宽。

参考文献

[1]张新刚, 孙飞显, 王保平.数字化校园网络流量控制与优化.实验室研究与探索, 2012.2.

[2]张春红, 裘晓峰等编著.P2P技术全面解析.北京:人民邮电出版社, 2010.5.

[3]蔡康等编著.P2P对等网络原理与应用.北京:科学出版社, 2011.

[4]孙皓月, 王建雄, 张梁.P2P技术在高校校园网中的应用及管理体制.河北建筑工程学院学报, 2007.12.

[5]郝平.高职校园网P2P流量监控及管理策略.济南职业学院学报, 2009.10.

上一篇:医院大型设备维修分析下一篇:土壤水分运动