网络搜索数据与CPI的关系文献回顾

2022-09-12

一、引言

随着信息技术的快速发展,互联网用户呈逐年递增趋势,人们的多种活动从线下逐渐转移到线上,互联网用户的每一次点击、每一个操作都能够被记录下来,形成依托于互联网的大数据,它反映了人们的行为、态度,一定程度上是现实世界在网络的映射。搜索引擎是互联网早期就存在的且直到现在都必不可少的一种应用形式,用户在搜索引擎网站的搜索框里的每一次关键词或句子的输入行为都被网站所记录下来,形成了基于搜索引擎的网络搜索数据,这种类型的数据被越来越多的学者所重视,较早的有利用网络搜索数据研究失业率、流感的预测,之后的研究扩展到经济领域的诸多现象如汽车销量、游客人数、股票市场价格等。

居民消费价格指数(CPI)反映的是一个国家的物价水平,衡量的是一个国家的通货膨胀程度,学者已经在探索如何利用网络搜索数据构建模型,提前一段时间来预测CPI,有鉴于此,本文旨在梳理国内学者对网络搜索数据与CPI之间的关系,从二者关系的机理、研究领域、研究方法等方面深入分析,以期为数据统计部门能运用大数据的方式准确、提早预测CPI,改变传统的线下大量人工采集数据的方式提供一定的支持。

二、文献基本情况

本文以“网络搜索数据”、“搜索数据”加上“CPI”、“消费者价格指数”为关键词,在中国知网上共搜索到14篇中文论文,这些论文发表的年限主要集中在2012年到2018年,以2017年的论文数量最多,有5篇,占到了1/3,论文的形式有硕士、博士学位论文及期刊论文。这些文献的研究主题多是网络搜索数据对CPI的预测研究、二者的关系研究、关键词的筛选、方法研究等。

三、网络搜索数据对CPI的预测研究

去掉同一作者重复的研究内容或者是不相关的内容,以下对文献按照发表年代进行梳理。

张崇等(2012)应该是国内最早研究网络搜索数据与CPI关系的,他们认为网络搜索数据是研究宏观经济问题的微观数据基础,通过构建网络搜索数据与CPI的概念模型,运用Google Insight2004年1月至2009年8月的搜索数据及中国国家统计局的CPI数据,揭示了网络搜索数据与CPI之间存在的相关关系及先行滞后关系,构建的模型能够提前一个月预测CPI,并且对CPI转折点有一定的预测能力。

孙毅(2014)的研究并不是主要针对CPI的,而是寻求构建一种比较有效的网络搜索指数合成方法,它以消费者物价指数为例,比较逐步回归法和主成分分析法在构建搜索指数合成方面哪个更能预测CPI的走势,结果表明主成分分析法是一种比较好的方法。

王睿(2015)根据互联网用户关注的重点所对应的网络搜索行为,把经济形势指数、国家政策指数和居民消费指数三类百度搜索数据进行合成,建立搜索数据与总CPI、食品类CPI、服务类CPI的回归模型,实证结果表明居民的不同关注重点及行为与CPI的变化有不同时长的先行性,对不同类型的CPI的影响也是有差异的。该研究在搜索指数合成和CPI的类别上有自己的独特之处。

董倩(2016)以北京的雾霾经济为研究对象,利用网络搜索指数研究雾霾经济与CPI的相关性。文章选取与雾霾经济有关的关键词,经过多次筛选找出四个关键词,并选取25个月的四个关键词的百度搜索指数为自变量,把中国国家统计局网站上的CPI数据作为因变量构建预测模型,接着采用3折交叉验证技术,运用支持向量机和线性回归两种方法进行模型拟合,拟合结果表明,支持向量机的方法拟合结果与稳定性都较好。文章最后认为雾霾经济对CPI的影响是间接的。

董莉等(2017)找出93个关键词5年半的百度指数数据,运用Elastic Net惩罚因子的分布滞后模型,构建了CPI实时预测模型,验证了全国、城镇和农村的CPI的实时预测效果,结果表明模型的实时预测效果比较好。

刘宽斌、张涛(2018)认为商品价格变动的信息在不同的媒介平台上的传播,激发了人们对信息不确定性进行验证的心理,而搜索引擎是一个很好的验证工具,人们对信息越不确定,在搜索引擎上进行搜索的行为就越频繁,因此认为网络搜索数据与CPI是有关联的。文章基于价格决定理论,利用不同数据周期长度形成的不同频率的百度指数,运用混频抽样数据模型(MIDAS),分析比较日网络搜索指数对月度CPI的预测模型,实证结果表明尽管两种数据的频率不同,高频的网络搜索数据能够提前半个月预测CPI并且有较高的预测精度,同时对CPI趋势中“拐点”的捕捉有较高的成功率,该方法主要预测短期CPI趋势及拐点。

殷三杰(2018)的创新之处在于没有单独利用网络搜索数据来预测CPI,而是同时利用政府统计数据和网络搜索数据构建模型来预测CPI。文章首先利用文本挖掘方法及时差相关分析法筛选关键词,接着使用逐步回归分析、Adaptive-Lasso算法、主成分分析三种降维方法进行比较,用于选择变量,之后用训练集和测试集拟合神经网络模型,构建出含有网络搜索数据的经改造的CPI预测模型,该模型能够提升CPI的预测效果。

四、文献讨论

通过对国内的相关研究,本文发现利用网络搜索数据对CPI的研究已经形成了一定的成果,学者们普遍利用百度和谷歌的搜索数据作为数据来源,对网络搜索数据与CPI的关系从理论上进行了一定程度的论述,在关键词的筛选、搜索指数的合成及模型的方法上都有了各种各样的探讨,下面是本文对此类研究关键点的总结。

(一)合理选用关键词

要准确、提前预测CPI,关键词的筛选非常重要,关键词的筛选可以是利用CPI统计范围内的商品名称或者是宏观、微观等经济形势的词语,随后是对关键词的网络搜索指数与CPI的趋势数据进行相关性分析,以确定关键词和CPI的相关程度。

(二)构建网络搜索合成指数

关键词筛选完毕后,要考虑用什么样的方法构建网络搜索合成指数,它是构建CPI预测模型时需要明确自变量是什么的一个关键步骤,因为不可能把所有关键词的网络搜索数据不经过加工直接变成自变量,这样的自变量无法共同体现CPI的整体趋势,只能反映一个侧面,会导致模型结构不合理,拟合效果差,因此,有必要构建网络搜索合成指数。目前,主要有三种方法,一是简单加总法,不考虑权重,直接把不同关键词的搜索量进行简单加总构建网络搜索合成指数;二是分类合成法,用不同规则对关键词进行归类,比如按照宏观指标或者微观指标,或者按照关键词搜索数据的时滞性等进行归类合成;三是降维法,利用关键词搜索数据之间的相关性,运用主成分分析、因子分析等方法进行降维,把多个变量降维成几个因子,并根据因子在方差累积贡献率中所占比重计算权重,这种方法可以通过运行软件得到因子的数量和权重的大小,较为客观。