购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

大数据有多大

唐博

日常生活中常常有这种现象:对于一种习以为常的现象,每个人都谈论它,但没人知道它的由来。大数据(big data)显然就属于这种情况。目前,大数据这个概念已经走入社会的各个角落。一般人都能懵懵懂懂地讨论大数据。在一般人的认知中,大数据就是数量庞大而复杂的数据集合。应用传统的数据处理方法,不能轻易厘清这些数据集合的头绪以及挖掘其中的潜在价值。

但是,这就是大数据的全部吗?大数据的特点到底是什么?

大数据的概念并不是突然蹦出来的,它也经历了一个逐渐演化的过程。大数据的主要特征可以用4个“V”来表示(图2-3):第一个“V”是容量(volume),这就是一般人最能了解的特征,我们使用的手机容量一般以GB为单位,如64 GB、128 GB等,而大数据处理的数据可以高达十万甚至百万级别GB;第二个“V”是类型(variety),大数据所包括的数据不仅仅是单一的文本文件,同时还包括视频、音频、图片、定位信息,甚至是阿尔法狗下棋所产生的棋谱等其他类型的文件和信息;第三个“V”是速度(velocity),大数据产生和处理的速度都非常快,例如,微信1分钟内就可以产生千万条数据,只有通过大数据技术处理后,才能更好地让用户及时地收到信息;第四个“V”是真实性(veracity),我们写文章偶尔会有错别字,但是通过整体分析,这些错别字一般不会影响我们的理解,在大数据中也同样存在着不正确或者错误数据,大数据处理可去伪存真,提高准确性。

图2-3 大数据“4V”特征

可见,大数据并非只有数据量大这一层含义。面对如此复杂的大数据,我们如何使用?其中的关键就在于数据的有效收集、高效存储、简捷分析与直接应用。对于存储问题,在大数据时代,单台的计算机不可能完成存储任务。于是,人们就想到了把数据和任务先分解,然后用多台计算机平行处理,这种方法叫作分布式存储。分布式存储具有很多优点,包括高扩展、易运维、上线快、高容错等。

解决了数据存储问题,接着要对数据进行分析和计算。和存储方法类似,我们也用多台计算机同时计算。但是,我们需要精确地知道,数据到底在被哪一台计算机处理。目前,很多公司都在研究如何高效地利用集群资源,并提出了各种不同的分布式计算模式 [15]

大数据在生活中有哪些应用呢?

以城市出租车大数据为例,2019年深圳市有2万多辆电动出租车,1天客运量达到100多万人次。这个过程可产生大量数据,如出租车运行轨迹、上下客地点、车程、费用、单程运营时间等。通过对城市出租车的轨迹数据、交易数据进行收集和存储处理,可以深入挖掘数据背后代表的城市运行状态。例如,通过实时大数据可视化技术,交管部门可以分析深圳市的出租车运营状况,从而清晰地知道哪些区域的哪些路段比较拥挤,这能有效地帮助出租车公司作出相应调度和制定出租车司机的运营路线规划等 [17]

此外,通过实时分析城市出租车运行轨迹,能迅速帮助用户及时了解道路变化情况。例如,因水管抢修,深圳南山区的学苑大道塘朗村路段临时改道。在传统模式下,车辆行驶至改道指示牌时才能发现道路不通。然而有了大数据的协助,地图服务提供商可以通过实时分析出租车轨迹数据,及时通知其地图服务用户相关道路变化情况,调整导航路径从而优化用户的使用体验。

当然,大数据的应用远不止如此。大数据技术会根据你的行为习惯来给你进行个性化推荐,例如淘宝的货物推荐、今日头条的文章推荐和抖音的视频推荐等。在城市规划中的地图导航中,可根据现有的实时车辆数据给你推荐最快、最合适的路线,或者通过实时分析城市间人流、车流数据来预测拥堵、预警拥挤、避免踩踏事件发生等。

伴随着物联网(internet of things,IoT)时代和5G时代的到来,大数据成为技术发展的重中之重。随着数据的增长,大数据技术的使用和延伸势在必行。而大数据技术所做的,就是运用相关的技术对大量的、不同类型的数据进行处理和分析,从而发掘具有使用价值的信息。 N+OnFHHBeqV4hB+VBQKASMo4Fy+mArMNUHLCVZ7rq/OIgOVs6cfCIQooa/pbb+1+

点击中间区域
呼出菜单
上一章
目录
下一章
×