个性化推荐服务

2024-05-15

个性化推荐服务（精选十篇）

个性化推荐服务篇1

随着Web2.0的广泛应用,互联网已经深入到了人们的日常生活中,由以前简单的网络操作如发邮件、上网聊天、网上查看新闻等升级到了网上购物、网上业务处理、网上在线咨询等一系列更加高端的个性化服务,如何从海量的数据中提取对人们有用的、更加有针对性的数据成为亟需解决的问题。传统的网络搜索引擎已经解决了人们筛选信息的问题,但其存在一定的限制与不足,如搜索方式不能对搜索到的信息进行二次筛选推送,不能根据用户的特点进行个性化的信息筛选等,为了有效解决这些问题, 推荐系统应运而生。

本文基于协同过滤推荐算法,通过推荐与用户具有相同或者相似兴趣爱好的个性化服务,最大限度地满足用户需求。协同过滤是利用集体智慧的一个典型方法,基于协同过滤算法主要分为基于用户的协同过滤算法、基于物品的协同过滤算法和混合协同过滤算法。本文主要基于协同过滤算法的推荐系统进行研究,通过该算法基本原理实现延伸,为用户提供个性化服务。

1推荐算法介绍

推荐算法在推荐系统中的应用是对用户没有接触过的东西进行打分,通过一系列的计算最后将得分较高的物品推荐给用户。目前协同过滤算法广泛应用在各大电子商务网站如亚马逊、淘宝、Ebay等。计算用户喜好程度过程如公式(1)所示,其中P为用户的总体集合,p为需推送的用户,函数u为用户对该物品的喜好程度,n为用户推荐的商品,N为商品的总集合,通过计算用户喜好度,对获取喜好度值最大的物品进行推荐。

目前广泛应用的有3种推荐算法:1基于内容的推荐算法,该算法通过用户浏览的物品信息进行相应的对比, 找到类似的商品进行推荐;2基于协同过滤的推荐算法, 该算法通过对与被推荐用户具有相同兴趣爱好及浏览习惯的用户进行分析,得出最佳的物品对用户进行推荐。此外,基于模型的协同推荐算法,分析商品之间相似的关联关系,将关联程度最高的推荐给用户;3混合推荐算法,该算法将基于内容和基于协同过滤的两种算法结合,从而形成一种新的混合推荐算法。

2基于用户和物品的协同过滤算法

基于内容的推荐算法是根据用户原有的信息进行物品的评分从而推荐给用户,基于协同的过滤算法则是根据与用户或者商品具有相同属性、爱好、习惯等相似度极高的同类型个体,获取历史数据评分进行推荐,两者具有本质区别。协同过滤算法在数学上可以表示为:用户c对物品s的函数值u(c,s)是根据u(cｊ,s)预测出来的,其中cｊ∈ C,并且cｊ是与用户c比较相似的用户［１］,例如,新浪微博关注用户A很多,那么系统就会通过计算将用户A推荐给其他用户,这种一种基于用户的协同过滤算法,还有一种是当用户B购买了产品P,系统会计算与P相关的产品并推送给用户B,这是一种基于物品的协同推荐算法。图1展示的是协同过滤应用最广泛的架构,其中行表示用户,列表示物品,横轴与纵轴的相交处表示横轴用户对纵轴物品的打分情况,如果该用户对该用品打分,即为0。基于模型的协同推荐算法利用了现代机器学习技术,先建立相应的模型,通过对评价矩阵的计算得到相应的参数,最后对模型的结果进行推荐。

2.1协同过滤算法推荐过程

基于用户的协同推荐算法和基于用品的协同推荐算法过程基本相同,不同的是:一个是找到相似度最大的用户,另一个是找到相似度最大的用品。推荐过程分为3个步骤:构建评价矩阵、算出相应的相似度、进行用品推荐。构建评价矩阵的相似度是协同推荐算法的核心,计算其相似度即为计算向量间的距离,距离越近相似度越大。计算相似度的主要方法有:

(1)欧几里德距离法:默认构建的评价矩阵为二维矩阵,所以当维数为二维时,可以通过公式(2)进行计算,计算出的距离越小,表示两者的相似度越大。

采用欧几里德距离表示相似度时,常用公式(3)进行相应转换。

(2)余弦相似度:构建用户及其物品的评价矩阵,若该用户或物品未收到相应的评价,则将该评分项设为0,用户或物品间的相似度通过计算余弦夹角进行度量,设i,j分别为两个m维空间向量,对于m*n的评价矩阵,可以通过公式(4)进行相似度计算。

(3)Pearson’s r计算方法:设U为对i,j都分别评价的用户或者物品集,计算项i和j的相似性,可以通过公式(5)计算:

(4)相似邻居计算法:该方法又分为两种,一种是固定一个中心点,选取其离中心点最近的K作为其邻居进行推荐,另一种是选取一个点为中心点,以该中心点为圆心作半径为K的圆,落在该范围内的都认为是其邻居。

2.2推荐最优结果

设目标项m的相似邻居集合为U,用户或物品对项目m的评分可以通过公式(6)计算得出,其中sim(m,n) 代表m与相似邻居的相似性,Rｕ，ｎ表示u对n的评价,公式中表示对m和n的平均评价得分。

2.3两种推荐算法总结

两种推荐算法在使用步骤上大体相同,优点是简单易操作,当系统用户数量比较大时,使用基于用户的协同过滤算法能够对用户的兴趣相似度进行计算,从而有针对性地推荐。但是,当用户对该物品的评价数据较为稀疏时, 该算法则无法很好地进行物品推荐。基于物品的协同推荐算法转而根据物品的相似度得出最为相近的物品对用户进行推荐。虽然该方法能有效地解决基于用户协同过滤算法的稀疏问题,但其很难实现跨种类推荐。

3基于模型的协同推荐算法

基于模型的协同算法可以从数学的角度理解为:在一定的条件下,估算该特定条件下对该信息评价所占的概率比例大小。设用户评价是从0到n的整数,那么用户a对于物品i的评价可以表示为公式(7),其中公式中的条件概率指的是在一定条件A下,用户对物品i的评价为j的概率。

基于模型的推荐算法中,应用比较广泛的是基于聚类模型的协同算法,该算法先通过给定两个数据点,通过闵可夫斯基距离公式计算,n代表其维数。

4结语

在信息爆炸时代,如何从海量数据中提取到有用的数据尤为重要,传统的搜索引擎只能根据关键字进行相应的推荐,已经不能满足用户特定的搜索需求。协同推荐算法已经广泛应用到各主流网站系统中。协同算法种类较多, 各有优缺点,如何将各种协同算法综合运用使其效果达到最优,是下一步研究工作的重点。

摘要：随着互联网的不断发展,信息呈爆炸式增长,导致信息过载问题日趋严重。在海量数据中提取有用信息的方式主要有两种,一种是通过搜索引擎,利用检索技术进行信息提取,另一种是以推荐信息为主的信息过滤技术。对基于协同过滤的个性化服务推荐算法进行了研究。

礼宾部个性化服务案例（小编推荐）篇2

个性化服务(Concierge)

众所周知，饭店管理千头万绪，但可以用两个字概括：“新”和“情”，即硬件要新，给人以新的感觉，以新来取悦人；软件重情，给客人有情的体验，以情来打动人。随着中国加入WTO，国内外高星级饭店更注重软件服务与管理，突出个性化有“情”的服务。“情”的核心是有“情”的感受。让客人对酒店一见钟“情”，成为老客户。这除了宁静的环境和各种不同风情的布置外，还取决于服务人员的主动、热情、真情以及充满情感的服务，处处有宾至如归的那种温情和亲情。说到“情”，个性化服务占据了重要地位，下面是太平洋酒店礼宾部个性化服务的一个典型案例： 04年的某一天，礼宾部员工小仵在送行李的过程中与一对外地住店夫妇的交谈中得知，今天刚刚是她们的结婚记念日，希望小仵能够帮他们预订一个比较合适的用餐包厢。小仵接手此事后，立刻与礼宾部领班进行商量，以期做得更为完美。首先，他们帮客人在酒店君悦餐厅预订了一个安静的两人小包厢，并在客人不知情的情况下，对包厢进行了一番颇有情调的布置。并从侧面委婉地给作为丈夫的住客提了些是否需要买鲜花、蛋糕等物品的意见，客人听取后连连称好。礼宾部的成员们就开始纷纷筹划，各司其职，跑到西餐厅借蜡烛，跑到西饼屋订上新鲜蛋糕，跑到外面的花店预订好有相应意义的花束，一切准备妥当。等到晚上客人用餐时，才发现礼宾部的员工们做了许多他们事先所不知的努力和准备时，感动地连连道谢，给予了极高的评价，并且还留下电话号码，声称如果有机会去上海的话，务必要联系他们，希望能用他们的热情款待来感谢这回给他们的意外惊喜。两位客人回去后，曾与余姚的一对夫妇朋友联系时无意中聊到太平洋酒店里遇到的这件给他们极大感动的事情。所谓说者无心，听者有意。在余姚的两位朋友对太平洋的这种个性化服务抱了极大的好奇心理。于是在这对本地夫妇的结婚纪念日时，尽管之前从没有在酒店庆祝的先例，但依然选择了在太平洋大酒店纪念这个特殊的日子。礼宾的小姚在得知此事后，和同事们一起不仅仅认真、热情、周全地为他们安排好了他们朋友(上海夫妇)所有的一切，还悄悄地通过房务中心，在他们所住的酒店房间里布置了些非常温馨的小物件，让夫妇俩感动万分，并非常诚挚地表示了他们的谢意。第二天,当小姚看着那位女士手里握着鲜花提着礼物依偎在丈夫怀里时那种陶醉的样子及他的丈夫那种自豪的表情时,他也陶醉了,他庆幸自己是一位酒店人而感到非常的骄傲!从以上的例子中可以看出，礼宾部的全体员工，在认真做好本职工作的同时，还不断地通过他们的细心来给宾客提高个性化服务，这不仅体现了礼宾员工的良好素质，对自身的严格要求，更充分说明了金钥匙服务理念在他们当中得到了广泛的传播、传承和发扬。因为饭店金钥匙的服务哲学，是在不违反法律的前提下，使客人获得满意加惊喜的服务。饭店金钥匙对中外商务旅游者而言，他们是酒店内外综合服务的总代理，一个在旅途中可以信赖的人，一个充满友谊的忠实朋友，一个解决麻烦问题的人，一个个性化服务的专家。礼宾员工深深地记住了这一点，相信凭着他们对个性化服务的执着追求，凭着他们对金钥匙理念的不断深入理解和执行，太平洋酒店的前厅员工，更甚至于全体员工将用“情”来吸引更多的客人，使酒店美誉真正名扬四海。

个性化推荐服务篇3

关键词：知识产权；个性化推荐；保护

一、个性化推荐技术及其知识产权侵权

现今的个性化推荐技术服务包括了三种类型。第一，基于内容的推荐服务。它利用资源和用户兴趣的相似性来过滤信息，根据用户评价过的项目建立用户的兴趣模型，在根据用户描述的文件不同分为基于向量空间模型的推荐、基于关键词分类的推荐、基于领域分类的推荐和基于潜在语义索引的推荐，根据内容从庞大的数据库中读取用户需要的数据。第二，协同过滤推荐服务。协同过滤技术推荐是根据其他用户的偏好信息产生推荐，通过分析用户评价信息把有相似需求或者品味的用户联系起来，用户之间共享对项目的观点和评价，更好做出判断和选择。根据算法运行期间所用到的数据不同，协同过滤推荐可以分为基于内存的协同过滤和基于模型的协同过滤。第三，基于关联规则的推荐服务。基于关联规则的推荐技术是利用关联规则找出事物间的相关性，如果把每个兴趣组作为规则的前件，那么规则的后件就是这个兴趣组的推荐且必须是用户，主要是通过一些算法来实现关联规则的推荐。这种推荐系统简单、直接、具有通用性，它的缺点就是规则的发现需要耗一定的时间去发现运行，相对来说就会造成推荐内容的缓慢呈现。

个性化推荐技术服务中知识产权侵权现象时有发生。个性化信息组织与服务都是以数字化信息和计算机为基础的，有更多的机会和渠道收集用户的数据，同时也就有滥用数据的这种可能，不论是有意的还是无意的，同样，用户提出请求的内容也应当得到保护，不能够随意的处理，还极大多数涉及到版权著作权的问题。在个性化推荐服务提供信息的过程中，不可避免的使用到复制、分享、转载、或者超链接来指引用户访问原来有的数据信息，那在这一系列的操作中会涉及到复制权、发行权和网络传播权等方面的问题。网络服务提供者面临的知识产权问题是保护作品的完整权，保护作品完整权是指“保护作品不受歪曲、篡改的权利”，那用户自己改变了文字章节作为自己的文章时，那时候的知识产权保护受到了挑战。Cookie案件是个经典的个性化推荐侵权案件，在2015年6月12日，法院认为一匿名信息来进行个性化推荐服务，网络服务提供者仅仅需要做到明示告知就可以了，同时在网页列明相关规则的链接，用户任然使用该服务，视为用户选择模式同意。

二、个性化推荐技术的知识产权保护困境

在日常生活中，知识产权涉及到每件日用产品，每天浏览的网页乃至每天看到的书籍，更为重要的是知识产权在企业竞争中起到的关键作用，尤其是在专利和商标方面，几乎是哪个企业拥有的专利数量多哪个企业就具有巨大的竞争优势在同行业甚至是相邻相关企业之间都会有无限潜在的商业经济价值，但是每个硬币都有两面，在利益经济效益巨大的背面也暗藏着很多的知识产权保护漏洞。法律在保护公民财产和精神方面所表现出来的法律效力不可能做到面面俱到，因此总会有一些不法分子利用法律的空子，利用他们手里掌握的法律知识，专门被利益蒙蔽了双眼，为了一己私利往往将法律道德至于利益之下，这样也就给知识产权保护工作着带来极大的挑战，他们要随时准备着严厉打击不法分子，保护合法权利人的利益。

在个性化推荐服务中最主要面临的知识产权保护则是大多数是著作权的问题，当系统自动向用户推荐相关词条和文章的时候，这篇文章的作者是谁以及他授权给什么网站发表，允不允许别人私自转载等等问题的涉及，更主要比较难控制的是用户自己的选择，虽然网站公开申明禁止转载一系列公告，但是还是有部分用户会自己转载过来稍微编辑篡改作者的部分变为自己的，侵犯了作者的文章篡改权。在这方面又会牵扯到作者与网站管理者之间的相关利益问题，但是好在提前公告了相关的权限设置，用户有自己的选择，投稿者把发表权交给网站也就是相当于同意了这种方式，同时也就承担了他将要面临的风险。

三、个性化推荐技术的知识产权保护建议

（1）要特别重视信息服务体系的建设，提高网站管理者对信息的保障能力。知识经济社会是信息高速传播与充分利用的社会，信息服务体系的完善、工作水平与能力对技术创新将产生一定得影响，现在的科技信息服务体系的建设在初步阶段，有很多地方需要完善解决，加大数据库容量建设。

（2）對知识产权评估机构、产权市场、技术市场进一步完善，加大投入、鼓励、扶持企业进行技术创新成果的保护和转化。

（3）规范个性化推荐服务中的知识产权细分规则，制定详细的标准来衡量和加强对权利人的知识产权保护，同时也规范相关网站的个性化服务技术完整，使他们做到有法可依，有合法合理理由为用户做到更好的个性化服务。

（4）积极发展专利池，它由专利权人组成专利交易平台，专利权人在这个平台上可以横向纵向发展，形成一个庞大的专利池子，消除专利实施中的授权障碍，有利于专利技术的推广应用，也降低了专利许可中的交易成本。

（5）用户本身也需要具备一定得素养，成为道德和法律的合格用户，认真做到尊重权利人的智慧成果，不为自己的一己私利侵犯权利人的相关权利。加强对自身的知识产权知识培养，提高自己的文化水平，为共同维护和谐的网络环境贡献自己的一点力量。

参考文献：

[1]宋雅婷，徐天伟.《基于用户兴趣的个性化推荐技术综述》，云南大学学报（自然科学版），2012（07）.

[2]张玉敏.《知识产权法》，法律出版社，2005年.

[3]王迁，李雨峰，刘有东.《著作权法》，厦门大学出版社，2006年.

作者简介：

尹靓（1995～），女，汉族，江苏仪征人，华东交通大学人文学院法学系法学专业本科生，研究方向：知识产权法。

个性化推荐服务篇4

随着互联网的高速发展与Web2.0技术的广泛应用, 互联网用户的上网需求日益丰富与多元化。如何有效地管理用户浏览的网页、使用的网络应用程序成为一个重要的问题。

Web OS称为网络操作系统, 是一种基于浏览器的虚拟操作系统。它提供了一个访问运行在服务器端的网络应用程序的窗口。用户通过浏览器来使用网络应用程序。用户浏览器与服务器程序的通信通过HTTP协议实现。Web OS的界面类似于一般操作系统的桌面。目前的Web OS主要提供网络应用程序的服务。这种服务模式较为单一, 网络应用程序的普及度也不高, 导致了Web OS未得到广泛应用。用户使用浏览器的最基本需求是浏览网页, 必然需要网页书签来收藏和管理自己访问的网页。本文设计的Web OS系统主要基于网页书签服务, 提供高效美观的书签管理方式, 把握了用户的最基本需求。

面对庞大数目的网站, 用户如何快速地获得自己感兴趣的网站而不被海量的信息所淹没以至于花费大量时间搜索无用信息?本文采用了个性化推荐技术来解决该问题。个性化推荐是根据用户的兴趣特点, 针对性地为其提供信息和服务, 目前主要应用于电子商务中。本文设计的Web OS将该技术运用到网站推荐中, 根据用户的收藏记录反映出的兴趣信息, 运用协同过滤推荐算法, 将符合其兴趣的相关网站推荐给用户, 达到拓展性阅读的功效。

本文设计了一个Web OS系统。它基于Linux, Apache, Mysql, PHP, HTML5, Javascript以及Ajax的架构, 集成了书签服务、个性化推荐、文件管理与网络应用程序管理的功能, 提供流畅快捷的用户体验。

2 网站个性化推荐

2.1 功能描述

当今互联网中网站的数量是巨大的, 而大多数人常访问的网站数却很少。海量的网站信息很容易将用户淹没, 增大了用户找到自己真正感兴趣的信息的难度。用户获取网站信息的主要途径为搜索引擎和门户网站。这两种方式本质都是“人找信息”的模式, 均存在信息过载和无法根据用户兴趣进行个性化信息服务的缺点。本文设计的系统引用了个性化推荐技术, 采集用户的网页收藏和浏览记录, 依据一定的推荐算法, 为每个用户针对性地推荐符合其兴趣的网站。例如某用户经常在淘宝网上购物, 系统察觉他的网上购物的兴趣, 就会自动推荐给他亚马逊、京东商城、Ebay等一些优质的购物网站, 提供他更多元化的选择。

2.2 推荐算法概述

推荐算法是个性化推荐系统中最核心与关键的部分, 很大程度上决定了系统性能的优劣。目前应用较广的推荐算法主要有协同过滤推荐、基于内容推荐、基于用户信息推荐、基于知识和规则的推荐等。互联网中网站和用户的数量都是非常巨大的, 网站的类别与用户的需求也千差万别。本系统目标是同类网站推荐。对于某一类网站, 网站数量远小于用户数量。基于项目的协同过滤比传统的基于相似用户的协同过滤方法计算量更小、准确度更高。网站的信息几乎是全领域而不是面向某一特定领域 (如图书、电影) 的, 很难像基于相似用户的协同过滤算法那样找到完全“兴趣相近”的用户。基于这些特点, 经过一定量的实验, 本系统决定主要采用基于项目的协同过滤算法 (item-based collaborative filtering algorithms) 。算法基于用户的收藏和浏览频率给网站赋予评分值, 根据评分值计算已评分项目与待预测项目的相似度, 再以相似度作为权重, 加权各已评分项目的评分, 得到预测项目的预测评分值, 以预测评分值作为排序依据得出Top-N推荐项目表。

2.3 数据模型

该算法的核心数据模型是一个用户-项目评分矩阵A, 如表1。矩阵的行代表用户, 列代表网站, 矩阵单元的值为用户给网站的评分。评分可通过用户对网站的收藏和浏览频率来确定。

在矩阵R中, 假设用户数量为m, 网站数量为n。则A为m×n的矩阵。其中, 第m行代表用户m, 第n列代表网站n。第i行第j列的值Ri, j表示用户i对网站j的评分。

2.4 用户对网站评分的计算方法

在传统的推荐系统中, 用户对项目的评分由用户的打分行为显示确定。用户对项目的评分值在一定范围内浮动, 如0到10。分数越高表示用户对项目的喜好度越高。

而在本文设计的网站推荐系统中, 用户不会对网站做显示的打分行为。用户对网站的兴趣体现在收藏和浏览频率上。因此, 我们用这两个指标来计算用户对网站的评分。

设N为该用户收藏该网站子页面的个数。用户收藏一个网站的子页面越多, 这个网站对他就越重要。设F为近一段时期内用户访问某网站的频率, 频率等于从当前时刻向前推一段时间间隔中用户访问网站的次数/这段时间间隔的长度。用户访问一个网站的频率越高, 表示他对该网站的兴趣越浓。而用户的兴趣又是随时间变化的, 一段时间内可能对某类特定网站感兴趣, 过一段时间又可能聚焦于新的兴趣。固采用近期访问频率作为指标能够反映用户兴趣的变化。

用户对网站的评分值R为上述两个指标的函数:

函数F的规则有很多设定方法。本文采用两个指标的加权平均值确定:

式中权重α, β由系统设定。

2.5 未评分项目的处理方法

由于使用网站收藏与浏览量来确定用户给网站的评分, 使得评分的计算不同于一般的推荐算法。我们定义如果用户对某个网站没有评分, 则该用户对该网站的评分值为0。这样做的原因是:用户对网站的评分是隐式进行的, 并不会通过打分的方式进行评分。收藏是反映用户对网站的兴趣的最重要因素。一个用户对大部分收藏的网站的浏览量差别不会很大。如果仿照一般的推荐算法, 在计算两个网站相关度时仅考虑同时收藏两网站的用户, 则用户对网站的评分向量很可能差别甚微, 甚至相似度接近于1而失去比较意义。如果将未收藏其中一个网站的用户加入进来, 他们对未收藏的网站的评分设为0, 则相似度计算会有较大差别, 可较客观地反映用户兴趣的差异。

2.6 算法输入与输出

本文采用的推荐算法的输入部分为所有用户对网站的评分信息, 这些信息储存在数据库中, 用以构建数据模型。在实际系统中, 输入信息由用户的书签和他收藏网站的浏览量获得。

输出包含两部分。一是用户对于其没有评分的网站的预测评分, 二是由用户可能感兴趣的网站组成的Top-N推荐列表。

2.7 网站相似度计算

协同过滤算法中项目间的相似度计算方法主要有余弦相似性、相关相似性和修正的余弦相似性。后两种方法实际是对余弦相似性算法的两种修正。

在表1的矩阵R中, 我们把每个网站的评分信息看成是一个m维线性空间的向量。两个网站间的相似度用相应的两向量的余弦夹角表示。

计算网站i和网站j相似度之前先找出至少收藏其中一个网站的用户集U。设S为矩阵中用户的全集, 用户u对网站i的评分为Ru, i, 对网站j的评分为Ru, j。则

令两个不同网站i和j的评分向量为, 则它们的相似度可用以下公式算出:

由于不同用户的评分尺度是不一样的, 仅以用户评分为网站得分依据的余弦相似性算法忽略了这一点。因此, 我们对余弦算法进行了修正, 在计算时将用户给网站的评分减去网站所得的平均分, 以提高准确度。为此, 我们令表示集合U中的用户给网站i的评分的算数平均值。则相似度计算公式为:

修正余弦相似性是对余弦相似性算法的另一种修正方案。它在计算网站相似度时将用户给网站的评分减去该用户对所有网站的评分的平均值。由于网站推荐将未评分的网站设置为0分, 且每个用户参与评分的网站只占全体网站的极小部分, 所以在计算用户平均评分时不考虑评分为0的网站。我们令uR为用户u对他所评分的所有网站的评分值的算数平均值。则相似度计算公式为:

2.8 预测评分

对于某一目标用户u, 我们令集合I1表示他已评分的网站, I2表示他未评分的网站。

预测评分的目标是根据目标用户对已评分项目的评分与已评分项目和未评分项目的相似度, 计算出他对未评分项目的预测评分。本文使用的算法是:对于某一待评分网站, 它的预测评分为该目标用户已评分网站的分值的加权平均值, 权重为它们与该待评分网站的相似度。

求目标用户u对某个他未评分网站i的预测评分Pu, i的计算公式为:

2.9 推荐算法优化

上述算法是理论上的协同过滤算法。在实际应用中会遇到一些问题。为此, 我们需要对算法进行进一步优化以提高运行效率和推荐准确度。

如果将全体用户与全体网站构成的矩阵进行计算, 计算量将是十分庞大的。由于用户和网站都是海量的, 导致用户-网站评分矩阵稀疏性很高。本文设计的优化方法旨在降低稀疏性与计算量。

对于海量的网站, 系统先对其进行聚类分析。这么做是因为系统的目标是对相关网站的推荐。推荐相关网站才符合依据用户兴趣的要求。计算一个购物网站和一个社交网站的相似度是没有意义的。因此, 系统基于网站内容对网站进行聚类, 对用户的推荐目标网站必须是与他的已收藏网站处于一个类中的。这样就大幅度减少了计算矩阵的列数。

对于海量的用户, 我们也对其进行聚类分析。由于不同地区、年龄、职业、社交群体的用户群所关注的信息集是有很大差别的, 我们将不同用户群的推荐计算任务独立开来分别执行。这样就减少了用户-网站矩阵的行数。很多推荐系统中所反映的基于好友的推荐效果比单纯基于算法的推荐效果更好体现了将用户聚类与划分群体方法的优越性。

推荐系统的冷启动问题一直存在。冷启动问题是指推荐系统刚刚建立时, 由于用户数很少, 评分数也很少, 导致推荐系统性能不稳定, 用户就不能得到有价值的推荐。本文设计的解决方案是为刚注册的用户人工推荐一些热门的网站作为初始数据, 用户若不喜欢可以删除。这就使得初始的推荐由加法模型变成了减法模型。这种减法模型的依据是网站推荐与一般的商品推荐存在一个重要区别。那就是存在一些主流、热门的大网站是大部分用户都会访问的。这样就一定程度上解决了冷启动问题, 使得刚注册的用户也能很好地使用系统, 不会失去兴趣。

2.10 推荐系统性能的量化评估

推荐系统预测评分的质量一般采用预测分值和实际分值的平均绝对误差 (Mean Absolute Error, MAE) 来衡量。对于某一用户u, 令Ru, i表示用户u对网站i的实际评分, 该评分从用户-网站评分数据库中获取。令Pu, i表示用户u对网站i的预测评分, 它由上文所述算法计算得出。令集合I1表示该用户已评分的网站, 如公式2-7所示, N表示集合I1的元素数目。则对于用户u的MAEu由以下公式算出:

由于评分误差的大小受评分区间的影响。未排除这一因素, 我们引入了平均相对误差, 它是用平均绝对误差与评分区间宽度W的比值表示:

衡量整个推荐系统预测评分质量的指标为所有用户的的算术平均值。令S表示全体用户的集合, N表示全体用户的数目。

Top-N推荐质量的衡量采用信息检索领域的评分标准, 即准确率 (precision) 和召回率 (recall) 。对于某个目标用户, 表2给出了网站收藏与推荐的关系。

由此表可计算出系统的准确率P和召回率R:

最终整个系统的准确率和召回率分别是所有用户准确率与召回率的算数平均值。

3 实验结果与分析

3.1 网站相似度算法性能评估实验

本文设计了一个实验来比较三种计算网站相似度的方法得到的的值, 用以评估这三种方法的优劣。越小, 代表系统的预测评分性能越好。实验中采集的数据由本文设计的Web OS在实际应用中保存的数据库中得到。实验中用户给网站的评分值的取值范围是[0, 10]的整数。同时, 本实验还设置了不同的样本集的大小, 用来分析样本大小对算法性能的影响。由于在实际情况下, 一般同一类网站数不会很多, 而同一类用户数比较多。固实验中用户数分别设为500, 1000, 1500。网站数分别为200, 400。

(1) 将数据库中的用户-评分数据采集出来, 构建最初的用户-网站评分矩阵R。

(2) 选用一种计算网站相似度的算法, 计算出每两个网站间的相似度矩阵P。

(3) 对于矩阵R中不为0的每一项Ri, j, 由式2-9计算出它的预测评分值Pi, j。

(4) 对于每个用户, 由式2-10计算出他的。最后由所有用户的计算出该相似度算法的。

(5) 如三种相似度算法未全部求出, 则选取另一种相似度计算方法, 返回步骤3。否则执行下一步骤。

(6) 如基于六种不同矩阵大小的计算都已完成, 则进入下一步骤。否则选取另一矩阵大小, 返回步骤1。

(7) 将实验数据绘制成图标, 进行分析与研究 (图1) 。

实验结果分析如下:

(1) 前两种算法的全体用户平均相对MAE的值随矩阵规模增大而趋于稳定和收敛。说明样本容量越大, 预测值误差越稳定。

(2) 余弦相似性算法和相关相似性算法的MAE值差别甚微。并且余弦相似度算法MAE小于相关相似性算法MAE。修正余弦相似性算法的MAE较高且不稳定。所以, 在本文设计的网站推荐模型下, 余弦相似度算法是最优的计算网站相似度的算法。

(3) 余弦相似性算法和相关相似性算法的MAE值几乎不随矩阵规模的变化而变化, 并随着矩阵规模的增大而收敛于0.25。那么究竟是什么因素决定了MAE需要进一步实验来确定。

3.2 确定影响MAE的因素的实验

本实验我们选取余弦相似度算法。根据上述实验, 矩阵规模不决定MAE。那么我们就要考虑其他可变因素。由于用户评分向量是线性的, 因此评分取值区间不影响评分向量的夹角, 也就不会影响平均相对MAE。本实验采用控制变量法, 选取的可变因素有:矩阵稀疏度, 用户评分的分布。通过控制单一变量来确定这两个因素是否能决定MAE。矩阵规模为1000行1000列, 评分取值仍为0到10间的整数。

首先我们假设用户评分的分布是均匀的随机分布, 评分取值为[0, 10]之间的整数。矩阵稀疏度用评分为0的比例来决定。令离散随机变量X表示用户对网站的评分。则X的概率分布为: (表3)

其中, q为矩阵稀疏度, 也就是矩阵中值为0的单元的比率。q越大, 代表矩阵越稀疏。q的取值范围为[0, 1]。 (表4)

根据这一模型, 我们通过实验计算出矩阵稀疏度q与全体用户平均MAE的关系。

然后再控制矩阵系数度不变, 改变用户评分概率分布, 观察结果。由于现实生活中, 人们特别喜欢的网站与特别不喜欢的网站较少, 而感觉不明确的网站占大多数。因此我们可以假设用户评分分布为0到10之间的标准正太分布。本步骤中选用的矩阵系数度为0.5, 评分概率分布为近似的标准正太分布:

我们再计算出此情况下的MAE, 与前面的做比较。

由图2可看出, 矩阵稀疏度很高时, MAE变得不稳定。矩阵稀疏度很低时, MAE稳定并趋近与0.223。矩阵稀疏度在0.1至0.9时, MAE稳定并趋近于0.25。这表明当用户-网站评分矩阵稀疏度不是非常大 (超过0.95) 时, MAE都是比较稳定的。这时矩阵稀疏度不是影响MAE的因素。

从图3可看出, 矩阵稀疏度一定时, 用户评分为标准正太分布的MAE低于用户评分为均匀随机分布的MAE。这表明实际中如果用户的评分接近标准正太分布, 则平均预测误差较小, 系统性能较好。

综上所述, 用户评分的概率分布是唯一影响系统预测评分的平均相对误差的因素。

4 结语

本文设计了一种Web OS系统。它以云书签服务和网站个性化推荐为核心和亮点, 集成了传统的应用程序管理和文件管理功能, 旨在为用户提供方便快捷的上网窗口。本文将个性化推荐技术引用到网站推荐中, 结合实际情况修改和优化了传统的基于项目的系统过滤算法。本文用实际开发的系统进行了实验以评估推荐算法的性能。主要评估三种计算网站相似度算法的性能和样本集大小对算法性能的影响。

摘要：面对互联网中海量的信息, 需要解决以下两个重要问题:一是如何从海量信息中获取对自己真正有用的信息, 二是如何管理好已经获取的信息。本文设计了一种Web OS系统, 其核心思想是将个性化推荐技术应用于网站的推荐, 由传统的“人找信息”变为“信息找人”, 从而同时解决上述两个问题。

关键词：云书签,个性化推荐,WebOS,网站推荐系统,协同过滤

参考文献

[1]余力, 刘鲁.电子商务个性化推荐研究[A].计算机集成制造系统, 2004.

[2]章晋波.推荐系统中协同过滤算法的研究与实现.北京邮电大学硕士论文, 2009.

[3]Memcached:High-Performance, Distributed Memory Object Caching System, 2011, Available at:http://memcached.org/.

[4]PHP extension for interfacing with Memcached, 2012, Available at:http://pecl.php.net/package/Memcached.

[5]An open source C/C++client library for the Memcached server, 2010, Available at:http://lib Memcached.org/lib Memcached.html

[6]K.Vaidyanathan, S.Narravula, et al., Designing Efficient Systems Services and Primitives for Next-Generation Data Centers, in Workshop on NSF Next Generation Software (NGS) Program;held in conjunction with IPDPS, 2007.

[7]A.S.Tanenbaum, M.V.Steen, Distributed Systems:Principles and Paradigms, 2nd ed.Pearson Prentice-Hall, 2006.

[8]J.Petrovic, Using Memcached for data distribution in industrial environment, In:Proceedings of the Third International Conference on Systems (ICONS) , 2008, pp368-372.

[9]D.A.Menace, Scaling Web Sites Through Caching, IEEE Internet Computing, 2003, 7 (4) :86-89.

个性化推荐界面设计交互设计篇5

对于内容的喜欢是会随着时间和心情改变的，早期我会倾向于热门内容，在手机端听红心频道时会选择某些歌曲不再播放，最近红心频道听烦了，私人兆赫中推荐的歌曲比较相似，换个口味改听爵士或其他用户编辑的专辑。

电台在不断增加频道(也就是兆赫)、”专家用户“制作的专辑和风格，谨慎地为用户提供多维度的推荐，而风格中歌曲也是根据用户的选择生成。

电台以后台播放为主，没有歌曲的相关描述，需要用户浏览推荐的界面中需要增加可信赖的推荐理由，比如评分、基于某个好友的推荐或者简短的评语，视觉上的优先级甚至要高于内容本身的属性，

个人以为食神摇摇的推荐理由文案还够好，对于这样以推荐为核心的产品，文案的视觉不够突出。

在电台出现之前，豆瓣已经有了音乐评分等用户反馈，用户提交更多的反馈，系统才有可能算出用户的喜欢。反馈可以是喜欢，也可以是商品的购买或、页面停留时间和视频的观看时长。一方面界面需要分析用户行为，另一方面界面本身要有利于用户反馈。手机版大众点评的界面中提交反馈的操作成本很高，需要评分和写几十字的评语，很不利用系统的推荐，所以界面中信息量较大，不利于快速选择。

推荐系统需要内容品质一致，否则用户反馈和内容对应关系不一致。早些时间豆瓣电台中有演唱会版本的歌曲，声音非常噪杂，最近没有再出现过，可能淘汰了低质量内容或者内容获得推荐的概率已经大幅降低。内容质量、呈现方式、界面布局和交互都可能影响用户的选择。

食神摇摇：个性化餐厅推荐篇6

当年食神摇摇主要的内容生产形式是依靠达人推荐机制，发展美食达人，寻找微博上对餐厅和食品评价较多的用户，吸引他们进入社区。食神摇摇创始人吴世春在接受《创业家》记者采访时表示，食神摇摇做到后期，整个市场在资金方面的竞争已经白热化，在各个渠道上都要拼资本才能获取流量。吴世春坦言，如果当时对社区的本质认识更深刻些，可能食神摇摇的未来会与现在不同——毕竟卖给美丽说时，食神摇摇的用户已经达到2000万。

吴世春反思，过去自己对于食神摇摇的把握还停留在兴趣层面，没有真正让美食达人去赚到钱，也就没有凸显他们的作用。其实应该让达人成为社区里的“地主”或者“意见领袖”，达人能引领普通用户去哪里吃、点什么菜。这个社会真正对吃很有研究、对某个领域很有热情的人，如果能真正挖掘他们的主观能动性，产品做起来会非常有趣，比纯信息层面的挖掘要活跃得多。这些“达人”相当于“活字典”，而不是死的信息组合。

“做社区，基于兴趣没错，最重要的是不要只基于信息。信息要再提高到交易层面，最终上升到人的层面。”吴世春说，这一年，自己对于移动社区的认识发生了很大变化。

首先，社区已经从信息价值转向交易了。原来做社区，相当于做一个纯应用，只有交流价值；现在则需要把手机背后的人给调动起来，使用户的技能和可交易的东西实现标签化、商品化。中国大部分服务行业，都会慢慢被交易市场所替代，社区的形式也将向有交易性质的类型去转。比如现在出现的“叮咚小区”之类社区产品，把附近提供送水、外卖、开锁的各种服务，都在社区上面形成交易。

吴世春为《创业家》记者举了个例子。以摄影师为例，当一个摄影师的个人技能被标签化、商品化的时候，人们可以看到他的作品，对他进行评价、报价。摄影师的才能和时间被当作可衡量价格的商品进行出售，有需求的人就可以获取到他的服务，服务价格也会更加合理。吴世春认为，未来的社区形式会往这方面进行演变。

食神摇摇出售给美丽说后，吴世春组建了自己的基金“梅花天使”。从2013年底到2014年初，他投了很多类似的项目。“我想更多地把有技能的人联结起来，变成一个市场，让需求和供给能够对接起来。”吴世春说，自己的判断来自于消费升级的大背景。所有消费都会升级，与之对应的各种服务也会更高级。未来每一个有才能的人，他们的才能和时间都可以出售。因为能够交易，他们将更有动力和精力去参与活动，提供更高质量的服务。厨师、美甲师、美发师等手艺人可以赚取更加合理的服务费，他们不再需要交房租或是被店长“压榨”。

吴世春认为，移动互联网更像是粉丝经济，每个人都可以拥有很多粉丝。社会分工会越来越明确、专业化。依靠这种有机的粉丝和偶像的分成机制和付费机制，社区将为用户提供更好的服务。

个性化推荐服务篇7

该文以web日志中的用户浏览行为与服务使用记录为依据,利用OB-Mine算法[3]提取用户频繁访问路径;然后,利用改进的Prefix Span算法[4]筛选具有相似用户偏好的用户簇;最后,使用改进的CF算法,对目标用户做出推荐。该文以“××中小企业网”的相关数据,实证表明该推荐算法优于传统的CF算法。

1 服务推荐算法分析

1.1 提取用户频繁访问路径

利用OB-Mine算法对预处理数据集挖掘代表用户兴偏好的用户频繁访问路径。

1.2 筛选相似偏好的用户簇

利用改进的Prefix Span算法[5]寻找用户偏好,筛选出具有相似偏好的用户簇。

1.3 服务推荐

1.3.1 建立用户-服务类评分矩阵

设用户评分Rij,按照浏览或者使用某种服务的次数计算用户评分。

1.3.2 寻找最近相似邻居集

相似性的计算方法主要有余弦相似度、Pearson相似度和修正的余弦相似度。

1.3.3 生成推荐结果

常用的推荐计算公式如下:

计算目标用户对未评分服务项的预测评分,并且设定阈值r,推荐用户r值以上的服务类。

2 实证分析

以“××中小企业网”为研究对象,根据该网站web日志文件,计算推荐结果。

2.1 提取用户频繁访问路径

2.1.1 数据预处理

对web日志中的用户访问行为数据进行预处理,获取用户访问路径。

2.1.2 提取用户频繁访问路径

利用OB-Mine算法对用户的多条访问路径进行聚类,生成每个用户的频繁访问路径。

2.2 筛选具有相似用户偏好的用户簇

利用改进Prefix Span算法筛选具有相同或者相似用户偏好的用户簇,如表1所示。

2.3 用户个性化推荐

2.3.1 建立用户-服务评分矩阵

通过访问频次与使用服务频次计算用户对服务的评分。

2.3.2 确定最近相似邻居集

设定邻居集容量为N,选取与目标用户相似度最高的N个用户形成最近相似邻居集。

2.3.3 生成推荐结果

计算目标用户对未评价服务预计评分值,设定好阈值m,对目标用户推荐评分高于阈值的服务项目。对目标用户的推荐结果如表2。

3 实证结果分析

3.1 评价标准

平均绝对误差[6](Mean Absolute Error,MAE)是目前被广泛应用于评价推荐质量的指标之一。MAE计算简单方便,MAE值的定义是:

MAE的值越小,表明算法的评分预测越准确,推荐质量越高。

3.2 实证结果分析

实验中设步长间隔为5,邻居集容量大小分别取5,10,15,20,25,30,35,40,使用该文改进的CF算法与传统的CF算法作对比,其服务推荐质量比较如图1所示。

从图中可以看到:(1)在邻居集容量大小发生变化时,该算法下MAE值均小于传统的CF算法,说明该推荐算法具有较好的推荐质量;(2)与传统的CF算法相比,改进的CF算法下MAE值随着邻居集容量的增加迅速减小并趋于稳定,说明改进的CF算法性能优于传统的CF算法,计算效率更高,有效缓解了由冷启动引起的数据高维性和数据稀疏性等问题;(3)两种算法下,MAE值随着邻居集容量增加而减小,当邻居集容量增大到一定数值时,MAE值趋于稳定时,但是CF算法下的趋于稳定的MAE值要小于传统的CF算法,说明改进的CF算法计算精度优于传统的CF算法。

4 结语

该文通过提取用户频繁访问路径,筛选相似偏好的用户簇和个性化服务推荐,克服了单一推荐算法的不足,克服了数据高维性和稀疏性,提高了计算效率与计算精度。

摘要：该文在国内外推荐算法研究基础上,基于用户的访问web记录与服务使用记录,采用OB-Mine算法提取用户频繁访问路径,利用改进的Prefix Span算法筛选具有相似偏好的用户簇,利用改进的CF算法进行个性化服务推荐,有效克服了数据高维性和稀疏性,最后实例验证了该推荐算法性能优于传统的CF算法。

关键词：相似度计算,服务推荐,个性化推荐

参考文献

[1]Dell'Amico M,Capra L.Dependable filtering:Philosophy and realizations[J].ACM Transactions on Information Systems(TOIS),2010,29(1):364-371.

[2]Vallet D,Hopfgartner F,Jose J M,et al.Effects of usage-based feedback on video retrieval:a simulationbased study[J].ACM Transactions on Information Systems(TOIS),2011,29(2):219-230.

[3]曹忠升,唐曙光,杨良聪.Web-Logs中连续频繁访问路径的快速挖掘算法[J].计算机应用,2006(1):216-219.

[4]姬浩博,王俊红.一种改进的Prefix Span算法及其在Web用户行为模式挖掘中的应用[J].计算机科学,2016(1):25-29.

[5]业宁,李威,梁作鹏,等.一种Web用户行为聚类算法[J].小型微型计算机系统,2004,25(7):1364-1367.

个性化推荐服务篇8

企业网站不仅是企业的一个信息发布平台,同时也是一个企业向外展示的窗口。最近几年煤矿企业发展迅速,大型煤矿企业的业务早已不仅仅局限于煤炭行业。例如,神华集团、河南煤业化工集团的业务涉及煤炭、化工、有色金属、装备制造、物流贸易、建筑矿建、现代服务业等板块。公司的网站越来越复杂,提供信息越来越丰富。然而,网站在向户提供丰富的信息的同时,用户查找自己感兴趣的信息却越来越困难,产生了“信息迷航”问题。

为了解决“信息迷航”问题,研究者们提出了Web站点的个性化服务,即在用户浏览页面之前,事先为用户定制其感兴趣的内容,并且站点尽可能地自动调整自己,包括内容和链接结构,来迎合用户的浏览兴趣。

传统的企业网站为了给用户提供个性化服务,多采取问卷调查的方式。然而这种方式不仅触及到用户的隐私,使得部分用户不愿提交个人兴趣信息,而且影响了浏览速度和使用体验。

1995年,卡内基梅隆大学Robert Armstrong等人提出了个性化导航系统WebWatcher;麻省理工学院Henry Lieberman提出个性化导航智能体Letizia;斯坦福大学的Marko Balabanovic等推出了个性化推荐系统LIRA。这3个系统标志着个性化服务的开始[1]。最近几年,已有一些商业化的Web日志挖掘软件,如WebTrends、AWStats、逆火Web日志分析器等。但是这些系统的功能还很有限,性能有很大的局限性,离大规模的商业应用还有一定的距离。因此,基于Web日志的个性化服务研究还有很大的研究空间。

本文提出了一种应用于煤矿企业的基于Web日志的个性化推荐服务模型,并以河南煤业化工集团的服务器日志数据为实验数据进行了测试。

1 推荐服务模型

基于Web日志的个性化推荐服务模型由数据预处理、离线分析和在线推荐3个部分组成。为了准确地反应用户兴趣度,尽可能多地考虑多种衡量用户兴趣度的指标,本文提出了一种综合考虑点击网页的次数、网页的浏览时间、雅可系数与最长公共路径系数来度量用户兴趣度的方法。个性化推荐服务模型架构如图1所示。

模型首先对Web服务器日志进行预处理,利用启发规则进行用户识别。然后利用关联规则对网页资源进行分类生成相关页面集。对用户进行聚类,并生成每类用户的推荐页面集。当用户访问网站时,模型先判断用户是新用户还是老用户,如果是老用户则判断该用户是哪一类用户,然后将该类用户共同感兴趣的推荐页面集推荐给该用户;如果是新用户则将利用关联规则生成的相关页面集推荐给用户。

1.1 数据预处理

原始的Web日志具有冗余性、不完整性、杂乱性、模糊性的特点,不适合直接用于Web挖掘,因此,要对数据进行预处理。数据预处理的目的是把Web日志转化为适合进行数据挖掘的可靠的、精确的数据。数据预处理是个性化推荐的基础,数据预处理的结果影响着个性化推荐的准确性。

数据预处理过程主要包括数据清洗、用户识别、会话识别、路径补充4个步骤[2],如图2所示。

1.1.1 数据清洗

Web日志中有很多记录,每条记录有很多属性,并非所有的记录、所有的属性都对Web日志挖掘有用。数据清洗就是删除一些无用的记录和一些无用的属性。数据清洗包括以下几步[3]:删除错误请求项、删除由Spider(网络蜘蛛)或Agent(代理服务器)产生的请求项、删除网页附属资源及删除无关列。

(1) 删除错误请求项

错误请求项是带有“error”或“failure”状态的项,这些请求对挖掘过程是无用的。可通过检查状态码(sc-status)去除这种请求。当sc-status=200时,表示一切正常,对GET和POST请求的应答文档跟在后面。一般地说,只有以2开头的状态码表示成功,其它状态码都表示错误或失败。在Web日志清理时,应该删除状态码不是以2开头的请求项。

用户请求方法(cs-method)字段通常有 GET、POST、HEAD。其中只有GET 是指请求指定的页面信息,并返回实体页面。应该删除cs-method 字段不是‘GET’的记录。SQL查询语句如下:

(2) 删除由Spider或Agent产生的请求项

Spider是搜索引擎用来扫描网络上超链接的一种软件。例如用户在使用百度进行搜索时,就会调用Spider扫描网站。这种请求记录对日志分析没有用处,应该删除。由于Agent的同一个IP通常有多个用户,这样的请求难以进行用户识别,也应删除。SQL查询语句如下:

(3) 删除网页附属资源

页面中有时包含图形、声音、动画以及广告等文件,然而用户一般不会主动式地请求这些附属文件,当用户访问网页时,这些文件也会自动下载并记录在日志中。因此,应删除扩展名为.bmp、.js、.css等记录。另外,扩展名为.cgi的脚本文件的索引日志记录也应该被删除。SQL查询语句如下:

(4) 删除无关列

Web日志有很多数据属性,但只有date、time、cs-method、cs-uri-stem、cs-uri-query、c-ip、cs(Referer)、sc-bytes和time-taken与Web日志挖掘有关,其它列应该删除。

1.1.2 用户识别

识别出每个访问网站的用户,这一任务因为公司防火墙和代理服务器、网吧、机房的存在而变得复杂。可利用如下的启发式规则来识别用户:

规则1:不同的IP地址代表着不同的用户。

规则2:当IP地址相同时,不同的操作系统代表不同的用户。

规则3:当IP地址相同时,不同的浏览器代表不同的用户。

规则4:在IP地址相同,用户使用的操作系统和浏览器也相同的情况下,则可以根据网站的拓扑结构图对用户进行识别。如果用户请求的某个页面不能从已访问的任何页面到达,则判断这是一个新用户。

1.1.3 会话识别

会话识别[4]就是将用户的访问日志记录分为单个的会话。本文根据相邻请求的时间差和页面的信息量来识别会话,计算公式如下:

$\frac{Τ i m e_{i} - Τ i m e_{i - 1}}{B y t e s} < α (1)$

式中:Timei-Timei-1表示相邻请求时间间隔;Bytes代表页面信息量以字节为单位;α为一阈值。

1.1.4 路径补充

将日志文件中没有的,但又反映了用户行为的数据补充进来,这就是路径补充所做的工作,解决的方法类似于用户识别中的方法。如果当前请求的页与用户上一次请求的页之间没有超文本链接,那么用户很可能使用了浏览器上的“BACK”按钮调用缓存在本机中的页面。

原始数据来自于河南煤业化工集团公司服务器,时间段为2011-08-16—29共1 932 696行日志记录。经数据预处理:剩下81 488行记录,识别出15 448个用户,去除访问次数少于5次的用户,识别出1 635个页面。

1.2 离线分析

离线分析主要是分析用户浏览模式,是个性化推荐服务的核心。离线分析由2个部分组成:关联分析和用户聚类。关联分析是为了得到网页的相关页面集,用于新用户的页面推荐集[5];用户聚类是将用户按兴趣度聚为各类,然后在此基础上得到各类用户的推荐页面集。

1.2.1 关联分析

关联分析主要由于下几个部分组成:

(1) 网站角色设置。在进行Web 挖掘之前需要先对网站的角色进行划分,角色对应的是网站的具体资源,也就是那些URL 的信息。而网站的设计是一个树形结构,一个角色不止对应一个URL,可以多个URL对应一个角色,但是不允许一个URL对应多个角色。把URL资源存入表DBURL-Role中,如表1所示。

(2) 用户的频繁角色集合。在频繁模式挖掘中,需要挖掘用户进入网站以后扮演的角色,也就是用户进入网站访问的最终目的。最终的频繁项目的访问路径也可以通过角色树推断出来。例如在A→B→C→D(化工)这个访问过程中,用户的主要目的是访问D,即担任“化工”,这个角色。但是如果挖掘出来的频繁大项目集中发现用户还担任了访问“有色金属”这个角色,可将这些频繁角色都记入表DBUser-Role中,如表2所示。

(3) 角色之间关联的频繁模式集合。角色之间的关联挖掘,主要是利用对事务的日志文件进行挖掘,输出访问网站的角色之间的关联规则。通过发现用户在网站访问的行为,以发现页面之间的相关性。挖掘到的结果存入到表DBRole-Role中。例如,通过挖掘发现“煤炭”和“化工”是2个频繁角色。当用户访问煤炭相关页面时,可以将化工相关页面推荐给他。

1.2.2 用户聚类

该部分主要作用是将用户聚类,然后在用户聚类的基础上得到同类用户共同感兴趣的页面集。

为了对用户聚类,要考察用户对网页的兴趣度。本文认为,用户对网页的兴趣度主要由以下几方面构成:点击网页的次数、网页的浏览时间、雅可系数与最长公共路径系数。

首先,构建用户浏览兴趣多重模糊矩阵:

$Μ = (\begin{matrix} (h_{11}, t_{11}) & (h_{12}, t_{12}) & \dots & (h_{1 m}, t_{1 m}) \\ (h_{21}, t_{21}) & (h_{22}, t_{22}) & \dots & (h_{2 m}, t_{2 m}) \\ ⋮ & ⋮ & ⋮ & ⋮ \\ (h_{n 1}, t_{n 1}) & (h_{n 2}, t_{n 2}) & \dots & (h_{n m}, t_{n m}) \end{matrix}) (2)$

式中:hil表示用户ui点击页面 $Ρ_{l} (1 \leq l \leq m)$ 的频率;til表示用户ui访问页面Pl的时间比率。

计算hil、til的方法如下:

$\begin{array}{l} h_{i l} = \frac{Ν (u_{i}, Ρ_{l})}{\sum_{l = 1}^{m} Ν (u_{i}, Ρ_{l})} (3) \\ t_{i l} = \frac{Τ (u_{i}, Ρ_{l})}{\sum_{l = 1}^{m} Τ (u_{i}, Ρ_{l})} (4) \end{array}$

式中: $Ν (u_{i}, Ρ_{l})$ 表示用户ui点击页面Pl的次数; $\sum_{l = 1}^{m}$ $Ν (u_{i}, Ρ_{l})$ 表示日志记录中用户ui的总点击数; $Τ (u_{i}, Ρ_{l})$ 表示用户ui访问页面Pl的时间; $\sum_{l = 1}^{m}$ $Τ (u_{i}, Ρ_{l})$ 表示日志记录中用户ui访问页面Pl的总时间。

采用最大最小法计算出基于次数的相似度系数r $_{i j}^{h}$ 和基于时间的相似度系数r $_{i j}^{t}$ 。

然后,再考虑雅可系数与最长公共路径系数。

设m个用户访问路径集合 $U = {C_{1}, C_{2}, \dots, C_{m}}$ ,其中每一条访问路径 $C_{i} = {Ρ_{1}, Ρ_{2}, \dots, Ρ_{n}} ‚ Ρ_{i} (1 \leq i \leq n)$ 代表一个被访问过的页面。

定义: $| C |$ 表示路径的长度,即会话路径中的页面个数。

雅可比系数不考虑事务数据先后次序关系,一般用于描述事务数据的相似性,其公式[6]:

$S^{'}_{i j} = | \frac{C_{i} \cap C_{j}}{C_{i} \cup C_{j}} | (5)$

式中: $| C_{i} \cap C_{j} |$ 表示2条会话路径中相同页面的个数; $| C_{i} \cup C_{j} |$ 表示2条会话路径中页面的总个数。

最长公共路径系数CM是考虑页面顺序的,其公式:

$S^{″}_{i j} = \frac{| c o m m (C_{i}, C_{j}) |}{\max (| C_{i} |, | C_{j} |)} (6)$

式中: $| c o m m (C_{i}, C_{j}) |$ 表示最长的公共路径长度; $\max (| C_{i} |, | C_{j} |)$ 表示会话的最长路径长度。

定义2个不同用户ui和uj的兴趣相似度度量公式:

$S_{i j} = α S^{'}_{i j} + β S^{″}_{i j} + θ r_{i j}^{h} + ω r_{i j}^{t} (7)$

式中:α、β、θ、ω为调节系数,可根据实际情况,实验得到。

得到用户兴趣相似度后,使用Single Link算法[7]对用户事务模式聚类。聚类算法步骤:

步骤1:先将所有数据对象都各自算作一类;

步骤2:选择相似度最大的2个类并将其合并;

步骤3:按照2个类之间的相似度为2个类中元素之间相似度最大者的方法,计算合并后的类-当前类的相似度;

步骤4:循环执行步骤2和步骤3,直到类的个数为1或满足一个阈值η。

用户聚类后,分析各类用户访问次数最多的5个页面,从而得到个性化推荐页面集。

1.3 在线推荐

当用户访问网站时,系统首先判断该用户是新用户还是老用户。如果是新用户则在用户访问网站中一个页面的时候将根据离线分析模块中利用关联分析得到的相关页面集推荐给用户。如果是老用户,先判断他属于哪一类用户,然后将个性化推荐页面集中,将该类用户感兴趣的页面推荐给他。本文利用C语言和SQL Server数据库实现了一个个性化推荐服务模型,列出了每类用户的推荐页面集,效果如图3所示。

2 结语

提出了一个应用于煤矿企业的基于Web日志的个性化推荐服务模型,模型应用关联规则对新用户进行页面推荐,应用聚类算法对老用户进行页面推荐;为了准确反应用户兴趣度,提出了结合点击网页的次数、网页的浏览时间、雅可系数与最长公共路径系数来度量用户兴趣度的方法。最后利用河南煤业化工集团的服务器日志数据为实验数据进行了实验。实验结果表明,该模型能够有效对网页进行分类并能够根据客户信息及时进行个性化推荐。

在已完成的工作上,笔者认为还有以下工作需要完善:

(1) 用户识别的方法需要改进。本文采用的用户识别方法虽然操作简单,但是准确度较差。用户识别一直是一个研究难点,从目前的研究文献来看,对于非注册网站,还没有有效且不侵犯用户隐私的解决方法。

(2) 研究评价个性化推荐效果的指标。本文给出的个性化服务系统原型的推荐效果只能依靠问卷调查的方法获取,不能通过分析日志记录等方式自动获取。用户反馈不及时,而且给用户带来了额外的麻烦。

参考文献

[1]于亚秀.基于web日志挖掘的个性化服务研究[D].上海:华东师范大学,2009.

[2]MUNK M,JOZEF K,S∨VEC P.Data PreprocessingEvaluation for Web Log Mining:Reconstruction ofActivities of a Web Visitor[J].Procedia ComputerScience,2010(1):2273-2280.

[3]何臻.基于Web日志的个性化推荐服务研究[D].徐州:中国矿业大学,2011.

[4]LIU Haibin,VLADO K.Combined Mining of WebServer Logs and Web Contents for Classifying UserNavigation Patterns and Predicting Users'FutureRequests[J].Data&Knowledge Engineering,2007,61:304-330.

[5]琚生根,陈黎,骆学春,等.基于角色的个性化WEB日志挖掘模型研究[J].四川大学学报:自然科学版,2008,45(2):271-275.

[6]赵晶晶.Web日志挖掘在网站个性化服务中的应用研究[D].大连:大连海事大学,2009.

基于协同标记的个性化推荐篇9

关键词：协同标记,个性化推荐

0 前言

当今互联网上信息爆炸, 虽然有搜索引擎, 有数字图书馆对信息精心的组织管理, 人们要从浩瀚的信息之海中找到自己真正需要的内容还是相当困难。个性化服务应运而生。它根据用户的兴趣爱好, 将最相关的内容在搜索时有针对性地返回给用户, 或是主动推送给用户。前者是个性化搜索, 后者即个性化推荐。

个性化推荐主要有两种技术。一为基于内容的方法, 二为协同过滤的方式。这两种方法的重点都在于如何表示出信息的特征, 如何表示用户兴趣, 以及如何将用户兴趣和信息内容对应起来。数字图书馆通常通过专家精心创建的编目来管理信息, 但由于专家的人数和精力有限, 这种方式在面对数量巨大的信息时其扩展性和实用性受到了挑战。一种替代的方法是由作者来提供元数据。Dublin Core 元数据即可用于此, 但该方法有时候也会遭遇失败, 主要原因是要求作者掌握这些预先定义的元数据模式较为困难。在不同文化背景的环境中人们使用的词汇不同, 分类方式不一致, 导致由作者提供元数据的方法更不可行。

随着最近一两年来社会书签类站点的兴起, 一种新的组织管理信息的方式诞生了。它被称为协同标记或大众分类法[1]。用户可将自己浏览互联网时看到的感兴趣的内容收藏到社会书签站点如del.icio.us (http://del.icio.us) 上, 并且加以标签以便日后查找。由于添加标签的操作极其简便, 网页书签又非常有用, 这类社会书签站点在近年迅速流行。站点上积累了由大量用户提供的丰富的标签, 被称为协同标记。

尽管社会书签站点上的协同标记受到了越来越多的重视, 但离充分发挥其潜能还有很长的一段距离。一个主要的障碍即标签的多样性。为了表达同一个意思, 用户们可能用到的标签有同一单词的各种变形, 同义词, 用户自创的缩写或合成词, 甚至是拼写错误。因此, 如何清理这些标签, 如何挖掘出其中隐含的更深层次的语义信息, 就成为至关重要的问题。

本文通过考察社会书签站点上协同标记的特点, 提出了一种基于协同标记的个性化推荐算法。本文的主要贡献有: (1) 通过实验分析得到标签的若干特性; (2) 验证了潜在语义分析技术 (Latent Semantic Analysis, LSA) [2]在清理标签并挖掘其深层信息上的有效性; (3) 提出了一种向量空间模型用于表示数字信息实体及用户兴趣, 并提出了针对用户自己的词汇来产生推荐的算法。实验表明本文提出的推荐算法效果要优于两种传统的推荐算法。

1 相关工作

本文主要研究如何提取协同标记中隐含的知识, 并充分利用到个性化推荐上的问题。

推荐系统被广泛研究以期克服互联网上信息过载的问题[3]。尽管已获取了不少成就, 但还存在着很多困难。现在, 社会书签上的协同标记的出现为推荐提供了一条更好的路径。添加在各个数据实体 (以其URL来表示) 上的标签本身为基于内容的推荐提供了额外的信息, 社会书签站点的协作特性为协同过滤推荐提供了可能。由协同标记衍生的大众分类法已经显示出了其在解决多语言问题上的潜力[1,4]。

虽然社会书签站点目前非常流行, 但关于标签的清理及深层关系挖掘的尝试与研究都还在起步阶段。与前人的工作相比, 本文有两个自己的特色。首先是将社会书签站点上的协同标记作为用户提供的元数据加以利用。也有一些研究致力于将额外的元数据用于文本挖掘, 例如PANKOW[5] 和 C-PANKOW[6], 从按一定模式搜索google得到的结果中提取出基于本体的自动标注信息。该方法的效率和准确率尚较低, 且应用领域也有较大限制。与之相反, 本文提出的获取元数据的方法极为简便, 且不受领域限制。其次, 本文将LSA技术用于协同标记, 以提取出标签的潜在知识。LSA是被广泛运用于信息检索、文本分类上的有力工具, 其自动处理同义词的能力使之尤其适合于本文要解决的问题。

2 标签的特性

本节通过实验分析社会书签站点上的标签, 得到它的三个特性。这些特性有助于人们更好地了解标签, 进而更好地利用它设计推荐算法。

2.1 在一个URL上标签的分布是稳定的

尽管对单独的一个URL, 经常会被添加上百个标签, 但只有很少一部分标签是被频繁用到的, 并且这少量频繁使用的标签各自所占的使用比例也逐渐稳定 (图1.a) 。因此可用频繁使用的标签来表示URL, 随着收藏该URL的用户数量的增长, 表示将趋向稳定。

2.2 频繁使用的标签集是稳定的

社会书签站点上有数量巨大的标签是因为用户使用标签的习惯和风格各异。实验表明只有很小一部分标签被大多数用户共同认可并使用。

图1.b显示全部17914个标签中, 只有1560个使用的频度超过了0.005%。更进一步的分析表明频繁使用标签集合是非常稳定的, 并不随抽取URL的样本的变化而有较大波动。因此可以通过仅保留频繁使用标签集来构造全部的标签集。

2.3 LSA 可用与发现相关标签

经过很多用户一段时间的协同标记行为后, 他们向URL上添加的标签之间就显示出了某些联系。通过在标签—URL矩阵上运用LSA技术, 相关联标签的距离在LSA向量空间中的距离更靠近了。表1是在原始向量空间及LSA向量空间上标签的余弦相似性的比较。可见LSA有助于挖掘有相似含义的标签。“music”一例显示LSA甚至能找到不同语言中的相似标签。

3 基于协同标记的推荐

由如上标签的四个特性得到启发, 本文设计了一种全新的基于协同标记的推荐方式。为了提取协同标记中的潜在信息, 并运用到个性化推荐上, 有以下三个问题需要解决: (1) 如何提取潜在信息? (2) 如何表示用户多样化的兴趣? (3) 如何表示数据实体?将用户兴趣和数据实体在同一个向量空间中表示出后, 即可通过计算它们之间的相似性来进行个性化推荐。

3.1 用于提取潜在信息的LSA向量空间模型

每天有成千上万的记录被添加到社会书签站点上, 正如在2.2节中所说, 频繁使用的标签集合是相对很小并且非常稳定的。因此我们只利用频繁标签集合 (记作TopTag) 来构造向量空间模型。

收集N条URL作为训练集, 共有M个TopTag, 由此得到M×N的TopTag-URL矩阵A= (aij) MN, 此处aij=C (ti, uj) /∑t′C (t′, uj) , C (t, u) 是用TopTag t标记URL u的用户人数。对该矩阵施行LSA, 从而将原始的TopTag-URL空间映射到一个降维的向量空间, 即潜在语义空间[2]中。从技术上来讲, LSA即在矩阵经奇异值分解后仅保留最大的k个奇异值, 而将其余值都归零, 以求得原始矩阵的近似。Ak=Uk∑kVundefined, 此处∑k=diag (σ1, σ2, …, σk) , σki是矩阵的奇异值。由此得到一个向量空间模型, 仅包含了原空间中最重要的信息, 去除了噪音。矩阵Uk∑undefined的每一行即为对应的TopTag在该k维空间中的特征向量。

3.2 用户的多兴趣描述档案

个性化推荐通常是根据描述用户兴趣爱好的档案来进行的。用户总会有多样的兴趣, 因此好的档案需要能表示出全部的兴趣, 并且在不同的时候依据不同的兴趣分别进行推荐。

用户在社会书签站点上收藏的内容 (以下用URL来表示) 可以充分显示用户的兴趣所在, 所以可以由此来构建用户的兴趣档案。正如在2.1节中表明的, 用于标记一个URL的TopTag的分布是很稳定的, 因此可以用添加在某一URL上的TopTag的特征向量来表示该URL。即用3.1节中的Rj = AjTUk∑undefined来表示对应的URLj。一个用户的兴趣档案是一个三元组列表{, , …}, ti是他用到的标签, ci是他用该标签标记的URL集{Ri1, Ri2, …, Rici}的势, Pi=∑Rij是该用户的标签ti的特征向量。从而, 所有用户的标签都在k维向量空间中得到了表示, 无论它们是否是TopTag。多个用户使用同一个标签ti来标记不同的内容, 从而该标签对不同用户的特征向量Pi也会有差异甚至是完全不同, 因此这是属于用户的个性化表示。

3.3 新添URL的特征向量

每天都有大量新的URL被添加到社会书签站点, 也有大量的标签被添加到已有记录的URL上。每当一个标记行为发生后, 即用户用标签TS={t1, t2, …}来标记URL u。按如下方式计算URL的特征向量。

/*计算或更新URL u的特征向量*/

1. if 该用户以前使用过TS中的任何标签ti

2. Uuser=∑Pi

3. else

4. Uuser=∑Pj

5. if u是一个新添加到社会书签站点的URL

6. Uglobal=Uuser

7. else

8. Uglobal= (Uglobal*n+Uuser) / (n+1)

/* n为之前已经收藏过该URL的用户数*/

/*更新用户兴趣档案中的Ts中的标签的特征值*/

9. if n>α /*α为阈值*/

10. for each ti in TS

11. Pi=Pi+Uglobal

12. else /*暂时不修改特征*/

13. 将其加到待定列表中留待以后再重复9～13步骤

第1～4行通过TS中标签的用户特征向量来计算该URL的用户特征向量。如果TS中的所有标签该用户以前均未用过, 则以用户以前使用的所有标签的用户特征向量来表示URL u。若u以前已经被别的用户添加到社会书签站点上, 则通过第5～8行将u的新用户特征向量与原全局特征向量融合得到新的全局表示。

第9～13行更新TS中标签的该用户的特征向量。这是反馈步骤, 用以维持标签的特征向量与用户真实理解之间的一致性。但在仅有少量用户标记了URLu的情况下, u的全局特征值未必准确。因此定义一个阈值α, 只有当u被多于α的用户标记后才据此更新用户的标签特征向量, 否则将其添加到待定列表中直到满足条件后再更新。本方法只更新当前标记行为的用户的标签特征向量, 对之前添加了该URL的用户则不作更新。这是在计算复杂性和精确度之间做出的一个权衡。URL的全局特征向量随标签的分布逐渐变得非常稳定, 因此该方法是完全可行的。

3.4 在LSA向量空间上的推荐

经过前面的步骤, 所有的URL、用户兴趣都在同一个LSA空间上表示了出来, 因此可以依据它们特征向量的余弦相似性进行推荐。

有两种主要的推荐方法。一是用户当前浏览或选定某个URL u, 依据u的用户特征向量, 计算与其他URL的全局特征向量之间的相似性进行推荐。这种推荐方式表面上是基于内容的推荐, 但其推荐内容均为被用户收藏的, 也即至少被部分用户认为是优质的。同时, 该方法也可用于非文本内容的推荐, 因为标签可被添加到表示任何内容的URL上。

第二种方法是用户选定若干标签, 由这一组标签的用户特征向量计算出组合特征向量normalize (∑Pi) , 推荐具有与该组合特征向量相似的全局特征向量的URL。该方法的推荐只考虑用户当前关注的主题, 因而尤其能满足用户具有多兴趣的要求, 具灵活性, 可以依据用户的长期兴趣或当前兴趣产生不同推荐。

4 实验结果

本文的实验是在由社会书签站点del.icio.us上抓取的数据进行的。经过一周的收集, 共有21455个用户向6054个URL上添加了17914个不同的标签。其中398个用户非常活跃, 每人收藏至少10条URL;3740条URL每条至少被20个用户收藏;1969个标签至少被使用了10次。将398个活跃用户分为五组 (100*4+98) , 每次取四组作为训练集, 剩余一组作为测试集。对于测试集中的用户, 取其收藏的一半用于3.3节的更新算法, 用剩余一半测试推荐效果。

本文方法记作BTag (Based on Tags) , 两组对比方法分别为BTitle (Based on Titles) 和PCF (pure collaborative filtering) 。在BTag方法中, URLi表示为Ui=, , 即有tij个用户用标签j来标记URL i。在BTitle 方法中, URL i 表示为 Ui=, 即单词j在URL i的标题中出现了wij次。在PCF方法中, URL i表示为Ui=, 其中当用户j收藏了URL i 时vij为1, 反之为0。对每种方法, 都在原始向量空间及LSA后的潜在语义向量空间上进行实验。通过计算URL在原始空间或LSA空间上的特征向量与用户兴趣特征向量 (在BTag方法中即用户某一标签的特征向量) 的余弦相似性, 推荐Top-N个URL。使用击中率undefined来衡量推荐质量。此处R是推荐给用户或用户的某一标签的URL集合, C是用户真正收藏或用该标签标记的UR的集合。

表2的实验结果表明三种方法中本文提出的BTag取得了最好的效果。另外需要指出的是在实验中被认为是错误推荐的一些内容 (即在R中但不在C中) , 很可能是因为用户从没有看到过它们, 而并非用户不喜欢它们。因此在实际应用中, 三种方法的推荐效果都应该比实验的值要好。

由表2可见, LSA空间上的推荐效果要好于原始空间上的。我们在k=50～400的区间上进行了实验, 基本都在k=200时

取得最好效果。表中的Impr行显示击中率的平均提高百分点。推荐项越少提高的百分比就越高。一个合理的解释是LSA可以找到内容项之间的潜在语义联系。当内容项非常相关时, LSA空间上它们的距离就靠得很近, 从而推荐效果大大提升。但对于不是非常相关的内容项, LSA效果就不那么明显了。

BTitle方法的推荐效果非常差。或许有人会辩解说传统的基于内容推荐是根据全文的, 仅利用一个标题的方法不公平。但在我们的推荐中, 有很多内容项如图片、mp3等是只有URL及标题信息的。

PCF推荐算法在原始空间上的推荐效果比BTag要略好一些, 主要的原因是BTag的原始空间要比PCF的稀疏很多。但BTag中的标签之间存在着很强的关联, 例如同一个词的不同语言、不同单词变形等。LSA可以找出这些关联, 因此BTag在LSA空间上的效果比PCF要好。

5 结论与展望

社会书签站点上的协同标记为数据实体提供了大量额外的信息, 这些信息可被用作元数据。本文在对标签分析得到四条特性的基础上, 提出了一种提取标签中潜在知识的方法。进一步提出了针对用户自己的词汇进行个性化推荐的算法, 该方法适用于用户有多种不同兴趣的条件, 具有很强的灵活性和高于传统推荐算法的推荐效果。

社会书签目前仍是一个非常新的应用, 要充分发挥其协同标记的潜力, 将之用于数字信息的组织管理上, 还有很多的工作要做, 例如:

1) 矩阵A的更新算法 TopTag确实非常稳定, 但仍时而会有新的标签成为热门标签, 应该被加入到TopTag中。可以借鉴LSA中的fold-in算法来设计TopTag-URL矩阵的更新算法。

2) 更好的提取潜在知识算法 pLSA 在很多方面较LSA都显示出了优势。可尝试用pLSA或其他的方法来提取协同标记中的潜在语义信息。

3) 解释用户之间的相关性本文尚未对用户间的关系进行研究。若利用URL和标签对用户进行聚类, 进而构造拥有相似兴趣的用户的社区, 应该会有利于进行更好的协同过滤推荐。

参考文献

[1] Adam M.Folksonomies Cooperative Classification and Communication Through Shared Metadata.http://www.adammathes.com/academic/computer-mediated-communication /folksonomies.html, 2004.

[2]Deerwester S, Dumais S T, Furnas G W, et al.Indexing by latent se-mantic analysis.Journal of the American Society for Information Sci-ence, 1990.

[3]Joseph A K.Introduction To Recommender Systems, Algorithms and E-valuation.In, ACMTransactions on Information Systems, 2004, 22 (1) .

[4]Nicolaus M.The New School of Ontologies.http://www.isi.edu/~mote/papers/Folksonomy.html, 2004.

[5] Philipp C, Siegfried H, Steffen S.Towards the Self-Annotating Web.In:Proceedings of the 13th International World Wide Web Conference, WWW 2004.

个性化推荐系统关键算法探讨篇10

随着互联网的飞速发展和云计算的兴起，人们已然处于一个信息爆炸的大数据时代。每天面对海量的数据信息，搜索引擎在一定程度上为人们解决了信息筛选问题，但当用户无法用准确的关键词描述自己的需求时，搜索引擎的筛选效率将会打折扣。用户如何在一个网站上快速而有效地找到自己所需要的信息？网站如何将用户最关注最感兴趣的信息筛选出来实时呈现在用户面前？推荐系统的出现解决了这些问题。

推荐系统是根据用户的兴趣爱好向用户推荐符合其需求的对象，亦称为个性化推荐系统。个性化推荐系统通过一定的方式将用户和信息联系起来，不仅可以帮助用户找到感兴趣的信息，而且能够将信息分类呈现在不同的用户面前，从而实现用户与信息提供商的双赢。个性化推荐系统已经全面运用到各个互联网网站中。在电子商务领域，网站通过使用个性化推荐系统向用户推荐其可能感兴趣的商品，提高用户的购买率和用户的忠诚度。Netflix网站使用个性化推荐系统为用户推荐喜欢的电影，豆瓣电台通过个性化推荐系统向用户推荐符合其口味的好音乐，Goodreads网站利用推荐系统为用户推荐适合其阅读的书籍。

2 个性化推荐系统中关键算法分析

个性化推荐系统为用户提供个性化体验的同时，也日益受到越来越多的学者和互联网网站的关注。个性化推荐系统的工作原理是首先输入数据源（用户和项目的各种属性和特征，包括年龄、性别、地域、物品的类别、发布时间等），然后选择合适的推荐算法，最后将产生的推荐结果（按照用户喜好程度排序的项目列表）推荐给用户。不同的个性化推荐系统使用不同的推荐算法，因此个性化推荐系统最为核心之处在于根据不同的数据源选择不同的推荐算法。

目前，个性化推荐系统中主要使用的推荐算法有：协同过滤推荐算法、基于内容的推荐算法、基于人口统计学的推荐算法、组合推荐算法。下面对主要的推荐算法进行比较并分析它们的优缺点及适用场景。

2.1 协同过滤推荐算法

协同过滤推荐是使用最广泛的个性化推荐算法之一。协同过滤有两种主流算法：基于用户的协同过滤和基于项目的协同过滤。

2.1.1 基于用户的协同过滤

基于用户的协同过滤是根据不同的用户对项目的评分来测评各用户之间的相似性，基于用户间的相似性进行推荐。即通过用户的浏览记录、购买行为等信息分析各个用户对项目的评价，发现与当前用户最相似的“邻居”用户群（“K-邻居”的算法）；然后将K个邻居评价最高并且当前用户又没有浏览过的项目推荐给当前用户。基于用户的协同过滤推荐算法是以用户与用户之间的关系为着眼点，因为兴趣相近的用户可能会对同样的东西感兴趣。如：Facebook网站首先对用户个人资料、周围朋友感兴趣的广告等相关信息进行分析，计算出各用户之间的相似性，进而对用户提供广告推销。所以说，在当前流行的社交网站中，基于用户的协同过滤推荐是一个不错的选择，若将基于用户的协同过滤推荐算法与社会网络信息相融合，会增加用户对推荐解释的信服程度。

2.1.2 基于项目的协同过滤

基于项目的协同过滤是通过用户对不同项目的评分来测评各个项目之间的相似性，基于项目之间的相似性做出推荐。即利用所有用户对物品或者项目的偏好，计算不同物品或项目之间的相似度，然后根据用户的历史信息，将类似的物品或项目推荐给用户。基于项目的协同过滤是以项目与项目之间的关系为中心，因为用户可能偏爱与他已购买的商品类似的商品。如在购书网站上，当用户看一本书时，网站会给用户推荐相关的书籍。此时，基于项目的协同过滤推荐成为了引导用户浏览的重要手段。对于一个电子商务网站，用户的数量远远超过商品的数量，同时商品的数据相对稳定，因此计算商品的相似度计算量较小，不必频繁更新。所以基于项目的协同过滤推荐适应于提供商品的电子商务网站。

协同过滤推荐算法优势在于：不需要各领域的知识；能跨类型推荐（如推荐音乐、艺术品、电影等）；计算出来的推荐结果是开放的，可以共享他人的经验，能很好地发现用户潜在的兴趣爱好；自适应性好；随着时间推移预测精度会提高。

协同过滤的推荐算法不足之处在于对于历史信息依赖性较强；还有冷启动问题，当新用户或者新物品进入系统时，难以进行个性化推荐。同时在大规模网络中，数据极端稀疏，算法效率较低，难以处理大数据量下的即时结果。

2.2 基于内容的推荐算法

基于内容的推荐算法是根据历史信息(如评价、分享、收藏过的文档)学习用户的兴趣，建立用户偏好文档，计算待推荐项目与用户偏好文档的匹配程度,将最相似的项目推荐给用户。如：在音乐推荐中,基于内容的推荐系统首先分析用户欣赏过的音乐的共性(歌手、曲风等),再推荐与用户感兴趣的音乐内容相似度高的其他乐曲。

基于内容的推荐算法生成推荐的过程主要依靠三个部件：（1）内容分析器：用一种适当的方式表示从项目信息中提取的有用信息。（2）文件学习器：该模块收集用户偏好的数据，生成用户概要信息和偏好文档。（3）过滤部件：通过学习用户偏好文档，匹配用户概要信息和项目信息，将生成一个用户可能感兴趣的潜在项目评分列表。

基于内容的推荐算法生成的推荐结果直观明了，容易理解。不需要领域知识，不需要很大的用户社区，仅需要得到两类信息:项目特征的描述和用户过去的喜好信息。

基于内容的推荐算法有三个主要缺陷:(1)过度规范问题：推荐给用户的项目与其消费过的项目很相似，不能为用户发现潜在感兴趣的资源。(2)内容分析有限：只能预处理一些易提取的文本类内容(网页、博客等)，而在提取多媒体数据（图像、音频、视频等）时较困难。（3）冷启动问题：当一个新用户没有对任何项目进行评分或没有浏览过任何商品时，系统无法向该用户提供准确的推荐。

2.3 基于人口统计学的推荐算法

基于人口统计学的推荐算法是根据人口统计学数据(即系统用户的基本信息：年龄、性别、工作、兴趣、爱好等)，计算用户间相关程度，得到当前用户的最近邻集，然后将把“邻居”用户群喜爱的项目推荐给当前用户。

基于人口统计学的推荐算法优势在于：不需要用户的历史喜好信息,可以很好解决冷启动问题；不依赖于项目的属性，其他领域的问题都可以无缝接入；而且随着时间推移，预测精度也会逐渐提高。

但是在一些有较高要求的领域（如：音乐、艺术品、电影、书籍等）进行推荐时，此算法对用户基本信息进行分类过于粗糙。同时在收集人口统计信息时，不易获取比较敏感的信息，从而导致推荐系统在准确度方面不如其他算法，无法得到良好的推荐效果。

除了上述比较典型的推荐算法，还有其他一些推荐算法:基于知识的推荐算法、基于效用的推荐算法和基于关联规则的推荐算法。基于关联规则的推荐算法是将用户的购买历史记录、浏览痕迹、打分记录作为数据源，挖掘出的关联规则就是推荐对象。关联规则挖掘是用来发现不同商品在销售过程中的相关性，而且关联规则的发现是算法的关键，也是算法的瓶颈。

2.4 混合推荐算法

任何一个个性化推荐算法都有它独特的优势和不可避免的缺陷，因此现实应用中，直接用某种算法来做推荐系统的很少，往往是将各种推荐算法组合起来，这样可以扬长补短，提高推荐的准确度和效率。尤其是大数据环境下，各种混合推荐算法的推荐效果要优于单一推荐算法。基于内容的推荐算法和协同过滤算法都无法解决冷启动问题，因为这两种算法都需要历史信息。若将协同过滤推荐算法与基于知识的推荐算法组合起来，则能很好地解决冷启动问题。

文献[2]以电影为推荐对象,通过线性组合的方式将基于内容的推荐算法和基于协同过滤的推荐算法相融合,得到最终的推荐结果。两种算法的组合很好地避免了基于内容推荐算法不适合推荐多媒体数据的缺陷,解决了协同过滤算法中用户对电影评分少的数据稀疏的问题。

在一些大型的网站使用的就是融合了多种算法的推荐系统。比如淘宝网为顾客推荐商品时采用了基于内容和基于关联规则两种算法的组合。根据用户的浏览痕迹、收藏记录、购买行为以及反馈信息产生可推荐的关联规则,根据商品的相关属性（描述，评价，名称，收藏人气，累计销量等等）对优质商品进行评分,计算出用户带权重的标签，最后进行个性化推荐。

3 总结与展望

综上所述，个性化推荐系统将用户和项目有机地联系起来，是一个高效的信息服务系统。为增强个性化推荐系统的功能，未来的个性化推荐系统应该将企业的销售系统、客户关系管理系统等企业信息系统集成在一起，共同为企业发展提供决策支持。那么个性化推荐系统如何与这些系统集成，如何与社会网络相结合,改变用户购物模式，企业销售方式，都是未来的研究方向。

设计个性化推荐系统最终目的都是为了提高用户体验感和满意度。一个被用户接受和认可的推荐系统，在帮助用户发现潜在感兴趣的项目的同时还能够帮助项目提供商将项目投放给对它感兴趣的用户。一个好的推荐系统能够对公司或业务产生增值效应，会给用户带来更好的体验。但是如何将用户的体验感进行量化是一个具有挑战性的课题。

参考文献

[1]张亮,赵娜.改进的协同过滤推荐算法[J].计算机系统应用,2016,25(7)

[2]马瑞敏,卞艺杰,陈超,吴慧.基于Hadoop的电子商务个性化推荐算法——以电影推荐为例[J].计算机系统应用,2015,24(5).

[3]乔亚飞,张霞,张文博.智能图书系统中的个性化推荐[J].计算机系统应用,2016,25(9).

[4]朱郁筱,吕琳媛.推荐系统评价指标综述[J].电子科技大学学报,2012,41(2).

[5]朱扬勇,孙婧.推荐系统研究进展[J].计算机科学与探索,2015,9(5).

[6]刘鲁,任晓丽.推荐系统研究进展及展望[J].信息系统学报,2007(1).

[7]余力,刘鲁.电子商务个性化推荐研究[J].计算机集成制造系统,2004(10).

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处

【个性化推荐服务】相关文章：

个性化推荐04-24

个性化信息推荐05-26