《移动数据挖掘》—— 第1章 引言 1.1 移动数据及其价值
发布日期:2021-08-29 16:14:35 浏览次数:0 分类:技术文章

本节书摘来自华章出版社《移动数据挖掘》一 书中的第1章,第1.1节,作者潘晓、霍 峥、孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第1章 引言

第1章 引言移动数据挖掘研究的是基于移动数据的数据挖掘算法。这些数据挖掘算法需要更多地利用移动数据的特性,挖掘与这些特性有关系的模式。比如,研究发现,移动数据通常具有空间的聚集效应,即人们总是在少数的几个地点(家、工作场所等)附近活动,因而如何在数据挖掘的过程中考虑这一特性,便是移动数据挖掘需要重点考虑的一个问题。那么,移动数据具体是什么、有哪些特性、移动数据挖掘有什么任务、将要面对哪些挑战呢?

1.1 移动数据及其价值

移动数据是移动轨迹的集合,而移动轨迹可以简单地认为是移动记录的有序序列,既可以是人的移动数据,也可以是任何其他动物的移动数据。本书关注的是人类的移动历史。人类的移动历史具有更多的不确定性,他们并非总是愿意保持固定不变的生活规律,因而人类的移动数据中具有更加丰富的移动模式。人们可以通过携带GPS设备直接收集移动数据,也可以将诸如出租车、公交车、飞机、火车等移动对象作为载体来间接收集他们的移动数据。这种移动数据收集的普适性得力于移动通信和传感设备等位置感知技术的发展和智能移动设备的普及,使得移动对象无论身处室内还是室外都可以更加容易地获取他们自身的地理位置信息。目前最先进的定位系统不仅依赖于全球卫星定位系统的高精度定位,还依赖于Wi-Fi和基站的较为粗略但范围更广的定位。出于业务本身或未来业务扩展及研究的需要,移动对象的很多定位数据都会被保留下来。由于与业务的强相关性,用户群的大小及位置的采样频率也决定了这些存留的位置数据不仅数量巨大,而且数据产生的速率很高。比如,运营商出于高效通信的需求会记录每个移动用户的服务位置,由于用户的规模巨大,因此每天产生的位置数据量也是非常巨大的。据我国三大运营商的运营数据显示,截至2015年12月,中国电信、中国移动和中国联通的用户数分别高达1.979亿户、8.26亿户和2.866亿户。假如每人每天平均通信一次,那么每天就会有约13亿条的位置数据。‖移动数据挖掘第1章 引言‖然而,正如基站定位数据是存储在运营商手中的一样,位置数据一般不会保存在移动对象的手中,外加数据量巨大,使得移动数据的开放受到了很大的约束。不过,随着移动互联网和在线社交网络的发展,诸如街旁网、Foursquare、Facebook Place等位置社交网络应运而生。在位置社交网络中,人们可以便捷地跟踪和分享诸如他们在什么地方和什么时候做了什么事情的签到(check-in)记录等位置访问信息。同样,源于与在线社交网络的结合,位置社交网络中的用户群也是巨大的,使得用户的移动数据也得到了大量的积累。根据街旁网的官方数据,从2010年5月上线到2013年7月,街旁用户数已经突破了500万,累计签到次数超过8000万次。根据Foursquare的统计数据,从2009年3月上线到2013年12月,用户数已经达到了4500万,累计签到数高达50亿。这些大规模移动数据的积累,为基于位置的智能服务提供了重要的基础条件。目前,这些基于位置的智能服务开辟了一个正在快速增长的市场。一份来自MarketsandMarkets的研究报告预计,诸如导航、移动广告、移动社交网络等基于位置的智能服务的市场份额将从2016年的113亿美元增长到2020年的549亿美元。下面我们列举一些基于位置的智能服务的重要案例。①通过分析大量的历史活动轨迹数据或出行数据,为人们的日常出行和旅游给出合适的路线和兴趣点的推荐[62,140,155,157]。②基于位置社交网络数据,挖掘本地人和外地人涉猎区域上的差异性,从而帮助人们学习到本地化的相关知识,比如利用北京本地人的生活经验,给来北京旅游的外地人推荐性价比较高的餐馆和酒店[138]。③东京大学联合微软亚洲研究院利用一百多万人三年的GPS轨迹、日本的自然灾害资料及灾害的官方和新闻媒体报道,来分析建模灾后人们的移动行为规律,从而生成并模拟灾害发生后的最优移动线路[116]。④如AirSage公司一般每天通过处理来自上百万手机用户的150亿条位置信息,为美国的100多个城市提供实时交通信息[112]。⑤微软研究人员提出的T-Drive系统[143]可分析33000辆北京出租车的GPS轨迹,来帮助出行人员得出更优的驾车路线。测试证明,推荐的驾车路线和Bing Maps或Google Maps内置的路线搜索相比,有60%的路线更优,可节省16%的时间。⑥类似地,他们还设计了T-Finder系统[146],不仅可以为出租车司机推荐具有高密度客源的邻近区域,从而减少了出租车司机的空载时间,还可以为乘客推荐有更高上车概率的邻近上车地点,从而减少了乘客的等待时间。⑦无线数据科技公司(Jana)使用来自100多个国家的、超过200个通信运营商提供的、覆盖了大约35亿人口的基站连接数据,将其转换为用户移动轨迹之后,来研究疾病传播、城市发展、人类迁移等具有重大意义和价值的科学问题[40]。⑧传统的车险业一般是通过评估群体的平均风险来为车险定价,但是当保险公司分析了车辆出行时间、常见行驶地点和实际行驶过程等移动数据之后,便可以转变为对每个客户的个性化风险评估和车险定价,从而改变了车险业的运营方式[67]。⑨联合包裹运输公司(UPS公司)收集运输车辆的行驶轨迹信息,并为它们提供最佳行车路线,从而减少燃油消耗、降低故障成本,在商业模式上取得了巨大的成功。据统计,仅2011年,UPS公司旗下的车辆行驶路程就缩短了4828万公里,间接减少了1136万升的燃料和3万吨二氧化碳的排放[160]。从最后的两个案例可以看到,移动数据的挖掘与分析甚至可以改变公司业务的运作方式,暗含了巨大的商业价值。

上一篇:《数据分析实战 基于EXCEL和SPSS系列工具的实践》一第2章 数据分析的理论、工具、模型...
下一篇:《ActionScript 3.0基础教程》——1.4 对象参数