通过手机阅读、手机音乐上的用户行为,我们可以看到手机大数据在移动互联网应用上的威力,但同时,手机上的大数据也不是万能的,它的发展还面临着很多实际的问题和挑战。
数据的稀疏性
智能手机端的App应用数以十万计,但是每个应用中两个用户之间选择的重叠非常少,如果用用户和商品之间已有的选择关系占所有可能存在的选择关系的比例来衡量系统的稀疏性,在我们研究的几个App数据中,稀疏度均不超过4%,其实这些其实都是非常密的数据。想想一个具有千万级用户,百万级歌手的App,平均而言一个用户能听100首歌吗,估计不能,所以稀疏度应该在万分之一或以下的量级。
这个问题本质上是无法完全克服的,但是有很多办法,可以在相当程度上缓解这个问题。比如扩散方法、随机缺省值方法、随机选择等。
冷启动问题
在我们前面讨论的音乐APP中,我们发现歌曲的覆盖只有2%左右,这个是由于大量歌曲出于冷启动状态造成的。这是因为新商品由于被选择次数很少或没有,难以找到合适的办法推荐给用户结论。
最近一个有趣的研究显示,新用户更容易选择特别流行的商品—这无论如何是一个好消息,说明使用热歌榜也能获得不错的结果。
大数据处理与增量计算问题
尽管数据很稀疏,大部分数据都包含百千万计的用户,与此同时新用户不停进入系统。数据量不仅大,而且数据本身还时时动态变化,如何快速高效处理这些数据成为迫在眉睫的问题。在这个大前提下,算法时间和空间的复杂性,尤其是前者,获得了空前重视。一般而言,一个高效的算法,要么自身复杂性很低,要么能够很好并行化,要么两者兼具。
随着加入的信息量的增多,最终每过一段时间还是需要利用全局数据重新进行计算。更先进但也更苦难的办法,是设计出一种算法,能够保证其误差不会累积,也就是说其结果与利用全部数据重新计算的结果之间的差异不会单调上升。
用户行为模式的挖掘和利用
深入挖掘用户的行为模式能更准确的抓住用户喜好,从而有希望做出更好的用户体验。譬如说在音乐APP中,新用户和老用户具有很不一样的选择模式:一般而言,新用户倾向于选择热门的歌曲,而老用户对歌曲的多样性关注更多。
用户行为的时空统计特性也可以用于提高者设计针对特定场景的应用。举个例子,在进行手机个性化阅读推荐的时候,如果曾经的数据显示某个用户只在7点到8点之间有一个小时左右的手机阅读行为(可能是上班时在地铁或者公交车上),那么9点钟发送一个电子书阅读的短信广告就是很不明智的选择。从含时数据中还可以分析出影响用户选择的长期和短期的兴趣,通过将这两种效应分离出来,可以明显提高推荐的精确度。
多维数据的交叉利用
目前手机端的APP还出于孤立的状态,并没有真正的完成数据打通及数据共享的地步。想象如果能够把这些数据整合起来,特别是知道每个节点身份的对应关系(不需要知道你真实身份,只需要知道不同APP中存在的若干节点是同一个人),可以带来的巨大的社会经济价值。
举个例子,你可能已经在新浪微博上关注了很多数据挖掘达人的微博,并且分享了很多算法学习的心得和问题,当你第一次上当当网购书的时候,如果主页向你推荐数据挖掘的最新专著并附有折扣,你会心动吗?所以多维数据挖掘是真正有望解决系统内部冷启动问题的法宝——只要用户在系统外部的其他系统有过活动。
目前有很多技术方法可以实现这种多维数据挖掘,比如统计物理学的物质扩散、热传导方法,机器学习的迁移学习方法都有望解决这种多维数据挖掘。
结论与展望
由于移动互联网的迅速崛起,让互联网大数据变得更为多样、丰富。它不但可以作为互联网大数据的一个有益补充,而且还可以作为移动互联网新业务本身的行动指导。
在市场营销领域,数据可以用来洞察客户,例如衡量他们的生命周期价值或者预测可能的购买行为。对于整个企业而言,利用数据进行分析和应对的能力,对于进行正确的决策并最终取得更好的业绩是至关重要的。
真正实现“精准营销”需要底层海量的用户行为数据做支撑,网络营销追求的都不应是曝光率,而是用户转化率。而对用户转化过程进行有效的数据分析,可实现效果的优化。效果可从三个层面分解:目标是否清晰、向过程要效果,最终目标达成率就是效果。利用数据工具控制和优化营销过程,可不断提升ROI效率。
这需要具体了解客户的业务发展目标和推广需求,可以考虑借助专业的第三方服务公司作有关于网络营销策略的效果评估。以制定出或调整有关于网络营销策略。
一般来说,对于不同的营销平台会有不同的广告形式投放,从而产生的效果也多种多样,各家说各家的好。网络营销中,品牌认知、提升偏好、主动寻找、购买转化、分享/再购各阶段,分别对应广告管理、口碑、网站、电商、客户管理的营销策略。以“大数据”贯穿网络营销全过程,就可将有价值的数据转化为有意义的数据,让广告从效果监测变为效果预测、让传播更有效率、用户体验更佳,用户转化更清晰、可控。
让我们一起随着手机上的大数据一起“爆发”吧。
相关阅读: