专题研究日志

2024-05-02

专题研究日志(精选四篇)

专题研究日志 篇1

定义1:会话矩阵:用户会话集合的二维矩阵, 列为会话, 行为访问路径, 每行代表一个用户访问一次的记录, 一列代表用户对该站点访问的总量。

定义2:用户访问的遍历矩阵:行为访问路径, 列为当前访问路径结束或者跳转。添加支持度m, 构成路径:引用页面----访问页面----页面访问频度。同时在矩阵的第一个单元格设置一个null值, 表示用户直接进入该网站的url, 而没有通过其他的页面跳转, 如果网站有n个url, 该网站可以形成n+1矩阵。

定义3:页面的距离:会话矩阵任意两行x, y。如果x>0则x=1, 同理y>0则y=1, 构成向量x, y-à0, 1。我们就称x, y之间的页面距离为d。

定义4:兴趣支持度:假设所有访问路径S中, t是属于S的子集, 如果x属于t, 那么可以认为x和S中的路径前m位是相同的, 不同的t就得出多种相同m位, 归集相同的部分得出用户的兴趣支持度

定义5:支持----偏向度:设支持度是s, 兴趣支持度为P则支持----偏向度为Ps= (S×P) 。

二、基于用户访问的矩阵算法实现

算法步骤:数据清理、用户识别、会话识别、相似用户的相关页面聚类及频繁路径。

2.1数据清理

只保留get方式获取的数据, 过滤掉其他和算法不相关信息。

2.2用户识别

通过IP地址进行识别用户。

2.3会话识别

结合最大向前路径和时间窗口模式进行设计算法-----用户事务识别算法, 该算法由事务分割、事务合并两部分组成。事务分割:将web数据库通过最大向前路径和时间窗口模式进行分割为符合两者标准的短事务;分割原则:当相邻的访问路径超过了设定的时间窗口, 或者不同的IP事务集中已经存在该路径, 那么就进行分割。分割结果:一个页面只包含在一个事务中。例如表1-1中第1-3条记录, 由于IP地址不同相同的页面被分割为3个事务。

记录合并:将用户本来属于同一路径, 但是在分割阶段进行不同实务分割, 进行按照IP地合并, 即相同用户访问记录合并。

例如:表1-2显示的是进行合并后的结果。

按照定义4建立用户会话矩阵:以访问路径为行, 回话ID为列, 建立会话矩阵SM[][], SM[m][n]:用户访问页面m中第n次访问。SM[m][]:针对某具体页面m的访问记录。SM[][n]:访问记录n对所有浏览过的页面。用户会话矩阵无法显示用户访问先后次序问题, 因此我们设计了用户访问的遍历矩阵。根据定义5得出:以访问路径为行, 标识ID为列生成路径MT[][]矩阵, MT[m][n]:m页面链接访问n页面的会话集合。第一行表示用户直接访问该网页, 不经过其他跳转, 一般可视为用户首次进行会话。第一列表示用户结束本次会话, 跳转到其他页面或者结束访问。

2.4相似用户的相关页面聚类

本算法的设计中, 关键是利用访问页面频度st和页面访问距离dt对网页进行筛选, 根据预先设定的访问页面频度st, 将页面的访问次数归集到Fs中, 从而把Fs中的小于dt页面距离值的进行聚类。

2.5访问路径的挖掘

假设S_Set={pag-1, pag-2, …pag-n}, 通过用户访问的遍历矩阵MT[i][j]中pag-1, pag2…pagn相对应的i和j值, 生成新的矩阵MT[n+1][n+1], 然后在其中找出所有大于偏向----支持度的项, 最后构成我们需要的访问路径集合, 再将得到的频繁路径合并, 到无法合并停止, 即我们需要的频繁访问路径

三、验证性试验

平台:IOS平台利用Edv C++实现该挖掘算法和经典的Apriori算法, 在某学校的网站上对50M日志文件进行分析, 以1M, 2.7M, 3.2M, 5.9M, 6.7M, 7.2M, 8.7M7个测试点进行用例分析。在Intel (R) Celeron (R) CPU 2.8 GHz, 2GRAM平台进行数据测试, 试验结果如图1-1所示。

图1-1得出相同数据和平台上, 用户矩阵算法比Apriori算法用时明显降低, 并且随着数据的增大用户矩阵算法表现出良好的稳定性, 曲线变化平缓, 表现出算法的扩展性优点, 而Apriori算法随着数据的增大时间曲线波动变化明显, 因此在面对此类问题时本文的用户矩阵算法明显优于Apriori算法。

参考文献

[1]Bing Liu (美) .Web Data Mining[M].北京:清华大学出版社, 2009.

暑期远程研修日志专题 篇2

7月23日,刚过大暑。俗话说“小暑大暑,上蒸下煮。”天气虽然异常炎热,但是远程研修像一股清冽沁骨的泉水,潺潺流进每位参训教师的心田,悄无声息地驱走了酷暑;专家教授的精彩讲解,像阵阵凉风,吹拂着每位参训教师的身畔,为我们送来了阵阵清凉。

今天上午,我们采取分组学习的方式,集中观看了曾琦老师组织的关于“学习的特点及对教育的启示”座谈视频。

在座谈过程中,曾琦老师首先列举了日常教育教学过程中我们经常提到的一些观点或者说法。

然后,曾琦老师引导专家组的老师一起列举了一些关于学习错误或者片面的观点。这些错误的观点主要有:学习就是脑力劳动;学习是立竿见影的;学习就是学习者被动的接受;学习应该匀速前进;学习需要统一步调、齐头并进;学习使人进步;学习成效取决于学习者个人等。专家组并且通过一些通俗易懂的事例来具体解读了每个错误观点的错误实在,并提出了正确的做法或者观点。

接着又详细解读了学生学习活动的特点,主要有综合性、动态性、开放性、系统性、节律性、多样性等特点。在具体得解读过程中,以曾琦老师为首的团队不是简单地照本宣科,只讲大道理,而是联系教学工作的具体事例,深入浅出、生动形象地讲解了这些特点,让我们一听就懂,并且对教学工作有实际用途。

最后,专家组基于以上对学习看法的分析,以及对学习特点的解读,总结了对学习的启示。这些都是一些非常实用的知识,对我们一线教师来说,确实帮助很大。

今天虽然天热了点,但是我觉得没有白白浪费时间,自己不止一遍地认真观看了所有视频,详细研究了文本材料,觉得基本掌握住了今天的培训内容,所以感觉收获不少。

培训为我们提供了这次很好的学习的机会,让我们能静下心来和大师、名家进行思想的交流和碰撞。我们要通过不断的学习,不断进步,才能跟上时代教育的步伐,不断用先进的教育理念来充实自己。这是作为一个有理想的教师最起码应该具备的素质,为教师,我们要活到老,学到老,教到老。这一观点已不仅仅是对我们每个人的一种道德要求,更应成为我们生活的一种方式。从另一个角度来说,教师的善于学习,对学生的影响也是不可忽视的。只有善于学习,乐于学习的教师,才能不断更新教育理念,不断充实自己,不断超越自我。才能培养出会学习的、善于学习的学生。才能在教育与继续教育的链条上永不落伍;才能为教学提供更广阔的背景;才能在教学中真正做到游刃有余;才能向大师的境界靠拢。人生就是要不断地学习,不断地接受教育,从不成熟走向成熟。从生命的物质状态走向生命的精神状态的过程。我们要把自身的学习、提高看作是人生的一种享受,一种境界。

专题研究日志 篇3

关键词 Web日志挖掘研究 Apriori算法 访问路径

中图分类号:TP393.07 文献标识码:A

0 引言

在Web数据挖掘中,Web日志挖掘是一个尤为重要的研究课题,通过Web日志挖掘,可以充分利用Web服务器上大量的日志文件,从中发现用户访问网站页面的模型和访问习惯,为电子商务网站管理员优化网站页面结构提供依据,从而为用户访问网站时提供便捷服务。

1 Web日志数据分布

Web日志挖掘的数据来源主要包括:Web日志、站点拓扑结构、站点文件、与站点服务相关的数据库数据以及其他一些信息等。目前,Web日志挖掘的主要数据来源是Web服务器日志,它完整且详细地记录了网站访问者的浏览行为。

2 Web日志挖掘的处理过程

它是通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。

Web使用记录数据除了服务器的日志记录外,还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、等一切用户与站点之间可能的交互记录。

3 关联规则Apriori算法及改进

4 Web日志挖掘系统设计及应用

4.1 系统的设计思想

结合前文讨论的Web日志挖掘关键技术、方法,应用改进的Apriori算法,开发一个Web访问日志挖掘的测试系统:

(1)项:网站中的每个页面为一项;

(2)事务:每个客户端IP地址,在会话持续时间的阈值(设置为30分钟)范围内访问的页面为一条事务;

(3)事务数据库的定义:同一天所有客户端访问的页面的集合。

根据客户端IP地址对会话识别过的页面进行处理,将IP地址和该IP地址对应的页面的集合作为一条事务,根据用户输入的最小支持度和最小可信度,构造频繁项集和产生规则并将所有的规则显示在表格中。

4.2 开发环境的选择

系统的开发语言采用微软公司推出的开发Win32应用程序的、面向对象的可视化集成工具Visual C++6.0。

后台数据库使用微软公司推出的基于Windows的桌面关系数据库管理系统(RDBMS)的Access。

4.3 Web服务器日志处理

将Web日志挖掘系统应用于学院网络中心的“招生信息网”上,从访问日志中挖掘出用户的频繁访问路径。基于这一目的,结合实验条件和自身的技术水平,对日志文件数据的预处理主要做了如下工作:

数据清理阶段:将日志文件导入数据库后,通过使用SQL把数据库中无关的数据消除,是数据库保持干净,有利于程序的运作。

用户识别阶段:IP优先考虑,即IP不同代表不同的用户。

会话识别阶段:同一IP地址(该IP可能是用户的,也可能是代理服务器的)在一个时间段内可能会不只一次访问网站,需要把同一IP地址用户的所有访问序列分割成多个单独的用户一次访问的序列,本文采用通用的会话持续时间阈值(=30分钟)的启发式会话识别方法。对日志数据进行预处理后,生成对应的日志数据库文件Weblog.mdb。

4.4 Web日志挖掘

结果分析:Web日志挖掘实验结果表明,访问招生网主页的有六成访问者访问留言版信息,有五成多的人员访问专业设置页面和招生信息,依次类推。

参考文献

[1] 孔昊,周长胜.Web日志挖掘预处理研究[J].北京机械工业学院学报,2005(04).

系统日志文件安全保护技术的研究 篇4

所谓日志[1](Log)是指系统所指定对象的某些操作和其操作结果按时间有序的集合。每个日志文件由一条一条的日志记录组成,每条日志记录描述了一次单独的系统事件。通常情况下,系统日志是用户可以直接阅读的文本文件,其中包含了一个时间戳和一个信息或者子系统所特有的其他信息。日志文件为服务器、工作站、防火墙和应用软件等IT资源相关活动记录必要的、有价值的信息,这对系统监控、查询、报告和安全审计是十分重要的。日志文件中的记录可提供以下用途:监控系统资源;审计用户行为;对可疑行为进行告警;确定入侵行为的范围;为恢复崩溃的系统提供帮助;生成调查报告;为打击计算机犯罪提供证据来源。

日志对于系统安全来说如此重要,它记录了系统每天发生的各种各样的事情,为了维护系统自身资源的运行状况,计算机系统一般都会有相应的日志来记录系统有关日常事件或者误操作警报的相关信息。通过日志可以来检查系统错误发生的原因,受到攻击时追踪攻击者留下的痕迹,系统崩溃时可以用日志技术进行恢复文件。而计算机入侵者和计算机犯罪者通过删除、篡改等方式来销毁或破坏被攻击系统上的其操作所留下来的日志记录,最终躲避系统管理员和专业人员的追踪、审计和犯罪取证。因此,系统日志对于保护计算机系统软硬件资源具有不可替代的作用,系统日志的安全直接关系到计算机系统的安全。

2 日志的分类

日志的种类各式各样,日志数据存放所采用的格式并没有得到统一,要想对日志进行统一的安全保护,必须得先要解决日志的格式问题。下面先来看看日志的分类。

日志就是记录的事件或统计数据,这些事件或统计数据能提供关于系统使用及性能方面的信息。审计就是对日志记录的分析并以清晰的、能理解的方式表述系统信息[2]。利用日志对系统进行安全审计是日志被使用的一个重要方面,日志数据是安全审计系统的重要数据来源。而安全审计系统可以利用的日志大致分为以下四类[3][4]:操作系统日志、安全设备日志、网络设备日志、应用系统日志。

1)操作系统日志

操作系统日志可以分成两大类:Windows系统日志和Linux/Unix系统日志。Windows NT/2K/XP的系统日志文件有应用程序日志、安全日志和系统日志等。在Linux/Unix系统中,有三个主要的日志子系统:连接时间日志、进程统计日志和错误日志。

2)安全设备日志

安全设备日志是指网络安全设备产生的日志,网络安全设备有防火墙,入侵检测系统等,各设备产生的日志格式各不相同。

3)网络设备日志

网络设备日志是指网络中交换机、路由器等网络设备产生的日志。

4)应用系统日志

应用系统日志包含由各种应用程序记录的事件。有Apache日志、IIS日志等。

由上可见,要想进行安全审计,或是利用日志进行计算机犯罪取证,必须先对各种不同格式的日志进行整合,统一它们的格式,然后在统一格式的基础上,对这些日志进行统一的安全保护,才能确保安全审计和计算机犯罪取证的正确进行。

3 统一日志格式的方法

日志保护技术在对这些日志数据采取保护措施之前,必须先做好日志格式的整合工作,统一日志记录的格式,在统一格式的基础上,对日志文件进行统一的保护处理。对日志格式的统一往往使用以下方法:

1)对各种不同格式的日志,取用各种日志记录中共有的公共属性值,即取各种日志记录中属性的“交集”,把这些公共属性值作为统一格式的日志记录所包含的信息。但这种方法把原有的各种日志记录中的一些属性值忽略去掉了,使得审计的粒度变大变粗了。

2)使用某种语言(如XML语言),把各种不同格式的日志记录翻译成统一格式。这种方法主要是通过先定义一种结构体类型的数据结构,把各种日志记录中所包含的数据项映射成这种数据结构中对应的数据类型。用这种方法,构造出来的数据结构应能把各种日志记录中的属性项都考虑进来,使得任何日志记录的属性项都能转换成该数据结构中对应的数据类型,所以,使用这种方法,往往把通过格式转换后的日志记录都会变大,自然会给存储空间和存取时间带来大的开销。

4 现有的日志安全保护技术

所有的日志文件都有默认位置,如在Windows系统中,系统日志文件有应用程序日志、安全日志和系统日志、DNS日志等,日志文件的默认位置在%systemroot%system32config目录下。入侵者和计算机犯罪分子很容易对其中的日志文件进行浏览阅读和更改甚至删除。日志文件有默认的大小,如Windows系统中,默认的日志文件大小为512KB,当然,系统管理员可以改变这个默认大小,但是并不是所有日志所对应的系统的使用者特别是普通用户都会去更改这个大小,这使得入侵者和计算机犯罪分子有机可乘,他们可以进行很多无用的操作,而这些操作所对应的审计记录被大量的写入日志文件所对应的空间,当日志文件空间不够时,因系统或设置的不同,这时要么采取覆盖以前的日志记录、要么采取不记录后面的日志信息的方法来处理。用这样的方法,最终使得入侵和犯罪的痕迹无法保存在日志文件里面。不管是用哪种方式来破坏日志,最终都导致日志信息变得无效,使得依赖于日志进行的安全审计、入侵检测和计算机犯罪取证都无法正确得出结果,因此日志的安全保护势在必然。现有的日志安全保护技术和措施有[1]:

1)系统日志读写权限的安全设计

现在的操作系统,在root权限下可以进行任何操作。因此入侵者一旦拿到root权限,就可以对日志文件进行随意的操作,从而可以破坏日志。从这个角度出发,设计一种新的安全认证机制来提升系统日志的安全读写权限,确保日志信息即使在入侵者拿到root权限的情况下也无法对日志文件进行修改、删除操作。

因此,可以通过修改操作系统的内核来改变文件系统,增加文件系统的读写权限;或者使用一种特殊的系统进程对日志文件进行安全保护。

但修改操作系统内核在实现上具有较大难度不易推广,而使用特殊的日志守护进程来保护日志安全,又存在守护进程本身的安全问题,一旦守护进程被杀死,那么对日志的守护工作也就结束。

2)系统日志文件的实时备份

系统日志的实时备份,是出于即使在日志文件被破坏后,还有备份好的完整、有效的日志供使用。该方法与系统日志读写权限的安全设计的方法不同,系统日志读写权限的安全设计的方法是尽量保护日志不被破坏(该方法对现有的操作系统实现起来比较困难不太现实),而系统日志文件的实时备份的方法并不能保证日志不被破坏,而它往往是在日志被破坏的时候起作用(对已有的操作系统,日志保护使用这种方法比较普遍)。使用这个方法,必须确保备份的日志原始、完整、真实和有效,所以在备份时一定要实时,在日志记录一产生还没被破坏前,就进行了备份并且转移到别的地方进行安全存储。

根据备份后的日志转移存放的位置不同,系统日志文件的实时备份又可以分成本地备份存储和异地备份存储。

本地备份存储就是把产生的备份文件放到不同的目录下面,而且每次放的目录都不一样,在别人看来,这个目录的位置是随机不确定的。这种方法在恢复备份的时候就比较困难些,并且,如果是使用这种方法来保护日志的话,即使入侵者和计算机犯罪分子不知道备份文件具体放到哪个目录下,但却一定能确定备份文件就在本机器上,他可以使用其他的方法破坏系统使系统崩溃和格式化磁盘的方法,删除掉备份文件。

异地备份存储,都要使用网络技术,把备份好的日志文件要转移到其他机器或专门的存储设备上去。用这种方法存在的缺点有,一、会增加网络数据传输的负担;二、数据在传输过程中的安全性问题,备份数据在网络的传输的过程中,可能会遭到攻击,要么使得传输的数据无法正确的到达目的地,要么使得数据在途中可能遭到篡改而变得无效;三、备份数据在异地的安全存放同样是个不可忽视的安全问题;四、使用异地存储,自然会多开销:网络带宽的开销、存储备份文件的硬件开销和管理开销,之所以提到这一点,是因为普通的用户和一般的单位负担不起这样的开销,他们遭到攻击和计算机犯罪窃取资料的情况是很普遍的,这样的用户和公司大有存在,但因开销不起,从而导致异地存储实时备份日志文件的保护方案无法实施和推广。

5 新的解决方案

对日志的保护,只有两种:一种是保护其不受破坏;一种是保护其破坏后能恢复原样。而上面提到的两种方案就是对应着这两种情况来进行的。但其都存在着一定的局限性,针对现有保护技术的缺陷,在这里提出一种新的方法,有待探讨。

因现在的用户普遍使用windows和Linux/Unix类的操作系统,前面提到,对操作系统再做更改的工程量比较大,还可能对操作系统的稳定性和运行效率带来影响,所以系统日志读写权限的安全设计保护措施难以实现和推广,因此往往使用实时备份的方案来解决日志的保护问题,但是用异地转移存放备份日志的局限性也比较大,在本文提出的方案中,考虑用本地存储备份文件的方式来解决。

前面提到本地存储备份文件的缺点是:一、难以从“随机”选取的存放备份的目录中收集备份,二、入侵者和计算机犯罪分子可以对本地磁盘进行格式化操作从而把数据销毁掉,这是本地存储备份文件碰到的最大难题。针对着这一难题,我们可以在计算机主机上开发一个接口,类似于USB一样的存储接口。现在的存储磁盘(不管是固定的还是可移动的)存储容量越来越大而且也越来越便宜,普通用户哪怕是个人都能消费得起,并且对于需要大空间日志的存储是一个福音,这是考虑用本地存储备份文件的一个重要原因。在主机上把这个接口做成类似于USB一样的接口,但是在该存储体上要有两个接口,一个接口用于数据的写入,另一个接口用于数据的读出,存储体上的两个接口都共用主机上的同一个接口,在数据写入状态下,把写入接口端插到主机上,在读取查看或删除时,读出接口端插到主机上。与USB接口不同的是,该接口要有认证机制,只有通过认证才可以使用该接口来对数据进行写入、修改和删除操作,确保把无效数据写入对应的存储空间,也保证对该空间的数据进行非法的修改和删除。当然在备份数据写入之前,要先验证备份数据的原始性、完整性和有效性,并可对备份数据进行压缩,来提高存储空间的使用率,确保该空间里存放的数据是合法、可用和有效的。除此之外,在设计这个接口和存储体时,可以设计成附带锁和钥匙的功能,做到专门的设备有专门保管,防止公司内部人员使用计算机犯罪窃取资料或搞报复搞破坏的情况,在这种情况下,如果该存储体不带锁具和钥匙,内部人员在现场使用自己的计算机对本机进行了非法操作后,可以把存储体的读出接口端调过来插到主机上,自然能够容易通过认证,从而可以达到破坏主机日志和备份日志的目的,使得对其从法律角度上犯罪取证造成困难。

6 总结

日志的安全存放确实存在很大问题,特别是对已有的操作系统和产品因设计时在此方面考虑不周而更是突出。但现在却没有一个好的解决方案,如何确保日志安全是一个值得我们去好好深入研究的问题。

参考文献

[1]林辉,窦旻.系统日志的安全保护[J].计算机工程,2003(17).

[2]Matt Bishop.计算机安全学导论[M].王立斌,黄征,译.北京:电子工业出版社,2005,284-303.

[3]石彪,胡华平,刘利枚.网络环境下的日志监控与安全审计系统设计与实现[J].福建电脑,2004,(12).

上一篇:数码图片下一篇:退休管理