项目开发初期数据冷启动问题

2022-09-11

一、相关工作

(一) 数据冷启动的定义

随着手机的普遍分布, APP开始逐渐流行, 给许多公司带来机遇的同时, 也带来了挑战.由于APP数量增加, 用户变得难以吸引与维持, 尤其是在项目初期运营时, 由于不知道哪种方式最适合吸引用户, 可能会浪费掉许多钱, 最不幸的可能是, 即使吸引了用户, 也可能因为不适合的营销方案, 导致用户量丧失.这种现象被称为项目开发初期数据冷启动现象.‘冷启动’是数据挖掘领域的一个专业术语, 是指数据挖掘需要数据的积累, 而产品初期数据为空或者数据量太少导致所需的数据量达不到需求.但是随着各种类型社交媒体的流行, 使得用户与互联网的交互成为可能, 网络信息共享方式由单一的下载方式转为主动发布方式[1], 带来了一些途径。

(二) 解决数据冷启动问题的方法

1. 寻找种子用户

(1) 数量

初期开发时, 没有给出具体的数量要求, 要根据产品的实际情况来定, 但由于新产品初期可能还存在未知BUG或者性能问题, 一般是在1000-5000人之间, 通过一定规模的种子用户试用可以有效的发现问题, 快速迭代, 及时解决问题。

(2) 质量

一般来说, 种子用户是以分布在互联网行业内的从业人员以及互联网爱好者为主。

2. 邀请机制

邀请机制的前提是产品并不是对任何人开发的, 而是采取封闭模式。

(1) 邀请卡邀请

将产品信息印制到实体卡上, 通过线下派发邀请用户注册。这一做法虽然起到了良好的效果, 但由于成本较高, 在推广预算较为紧张的时候需要酌情考虑。

(2) 链接邀请

生成链接发送给别人。

(3) 激活码邀请

通常是由数字和字母组合成的一段码, 长度在6位以上。

(4) 口头邀请

通过邀请者的个人关系网络使得被邀请者开通某项产品或者服务。

(5) 邮件邀请

利用邮件邀请, 但是通常用不好会被认为是垃圾邮件。

3. 用户导入

利用具有大量用户的APP, 将现有的用户导入到新产品中。

二、评分预测

定义1 (基于项目评分信息的评分预测)

pci (u) 表示用户u对项目i的预测评分值, 如果用户对项目做了评价, 则r=1, 反之r=0.表示用户j评价的项目个数, 表示共同评价项目i的用户个数。

定义2 (基于项目标签信息的评分预测)

表示标签j是否标注项目i, 1表示标注过, 0表示未标注过, 表示项目i被标注的标签的个数, UTCj表示标签j标注的项目个数。

三、实验结果与分析

(一) 数据集预处理与度量标准

本文采用的数据是国际推荐系统研讨会上公布的Movielens数据集[2], 预处理后使得该数据集包含了120个用户, 3210部电影以及对应的57792条评分数据, 每个对象的数据包含评价时间Time, 用户ID、电影ID、评分、推荐度等信息。总评分通过对三个服务属性评分加权求和获得, 属性权重的确定通过实验进行比较.用户对评分等方案进行1-5分的评价, 表1为该数据集部分样本数据, 将该数据集按Time顺序来排列。

(二) 召回率分析

本文通过对召回率的计算来分析针对于某一目标客户系统提供的所有电影推荐方案对于召回率的影响, 由于系统中的每个推荐方案能够提供不同的电影, 实验通过分别随机抽取推荐 (3, 10, 2 (实验结果) ) 类型电影服务方案的方式来模拟系统针对于单一用户提供的推荐列表。

(三) 实验结论

通过对论文提出的预测分析完善用户画像, 并进行实验分析发现可以将预测分析方法用来解决项目初期冷启动问题。

四、结论

本文首先提出多种解决项目初期数据冷启动问题, 通过寻找种子用户, 吸引种子用户来测试项目还未察觉到的问题以及BUG, 通过各种方式逐渐扩大用户范围, 增加用户量.还可以采取用户引入的方法, 借助用户量大的平台吸引用户, 增加用户量。同时, 提出多种评分预测方法, 在数据即使很少的情况下也能将用户的信息通过相似度预测补全, 完善用户画像, 将相似用户化为一个群体, 采取适合的营销方案。

摘要:项目在刚启动时, 往往会遇到数据过少的问题, 从而无法对用户进行分析, 完善用户画像, 做出更好的营销推送方案, 为了解决这个问题, 本文采用多种评分预测分析方法, 多种角度去分析预测用户信息, 完善用户信息, 达到更好的用户分群, 从而针对不同人群做出更好的营销推送方案。

关键词:数据冷启动,社交平台,评分预测

参考文献

[1] Marinho LB, Nanopoulos A, Thiemel S.Social tagging recommender systems.In:Ricci F, Rokach L, Shapira B, ed.Recommender Systems Handbook.New York:SpringerVerlag, 2011.615-644.[doi:10.1007/978-0-387-85820-3_19].

[2] Movie Lens data sets.2012.http://files.grouplens.org/datasets/hetrec2011/hetrec201.

上一篇:重庆市甘薯栽培技术实践集成下一篇:《读与写》杂志教育教学论文征稿