“未来数据的搜集,难点不在于制造新型硬件,而在于找到什么数据是有价值的。”
——李彦宏
2014年4月24日,百度技术开放日上,常年低调的李彦宏现身并推出了百度大数据引擎。此举被业界称为李彦宏为大数据引擎“站台”,他在百度内部也表明了对这款产品最高的重视。
李彦宏重视大数据,不奇怪。作为注重技术的工程师,李彦宏早就意识到一切皆可数据化。文字可以被量化成一个个字符,声音是数字音频,图片被量化成各种格式的数字图片,用户的每一次查询,每一笔购买都是数据。可以说,人和物的一切状态和行为都能量化,数据化,被操作。
而互联网公司本质上都是数据公司。BAT以及谷歌、亚马逊等都是“数据驱动型”的企业。根据各自的特性,BAT巨头们拥有不同的数据:百度作为搜索引擎,拥有用户搜索表征的需求数据、爬虫和阿拉丁获取的公共Web数据;阿里巴巴作为电商,拥有交易数据和信用数据,还有少量社交数据;腾讯作为社交掌握了用户关系数据和基于此产生的社交数据。因此,人们把百度、阿里巴巴和腾讯称作“大矿主”。
李彦宏早已意识到,数据不仅可以说明过去,驱动现在,还可以预测未来。2013年国庆节前一天,在大数据研究还未铺展开来时,李彦宏就在中关村给前来调研学习的国家七常委讲解了大数据。李彦宏当时提出大数据的两个价值:一个是促进信息消费,加快经济转型升级;一个是关注社会民生,带动社会管理创新。这说到了常委们的内心。
百度推出的“大数据引擎”,是百度的大数据思维的集中展现。百度大数据引擎指的是对大规模的数据进行收集、存储、计算、挖掘和管理的一套系统,包括开放云、数据工厂、百度大脑三层核心平台。三部分的分工是:百度开放云的基础设施和硬件能力,解决的是数据存储和计算瓶颈;数据工厂承载的是TB级甚至更大的数据的查询和扫描工作,“大数据挖掘机”;百度大脑则将百度在深度学习和大规模机器学习的能力开放出来,涉及语音、图像、文本识别,以及自然语言和语义理解等方面,据传它现在已经可以模拟三岁婴儿的智力水平,这一功能的主要作用是做出预测模型。
简单来说,百度先挖掘自己和各行业的数据,然后利用数据工厂和百度大脑分析它们,输出数据分析结果,为提问者提供解决方案。拥有数据的企业可以将数据接入到这个引擎中有针对性地处理;没有数据的企业,可以使用百度的数据和大数据计算。
在开放日当天,中国平安介绍了如何利用百度大数据能力加强消费者理解和预测,细分客户群订制个性化产品和营销方案。保险业对于大数据的使用是一个趋势,著名的三马合作卖保险,既有对腾讯、阿里巴巴用户群资源的使用,也体现出对数据的运用。
事实上百度还通过大数据帮手机、汽车等行业找到客户、竞争对手,提供高价值的商业决策。比如,百度通过对几亿网民搜索手机品牌的行为分析,可以知道哪些手机目前是网民最关注的品牌。更深入一步,百度能知道用户到底关注某一品牌哪些方面的指标,是手机的耗电量?屏幕大小?还是像素高低?搜集和舆情数据分析,能为相关品牌提供有价值的意见和建议,它就好像一个咨询师一样。百度甚至专门研发了一款产品——百度司南,这是百度大数据面向商业应用的一款分析决策产品,可以更好地帮助企业做市场分析,如定位企业的市场位置,洞察竞争对手,了解客户群等。
除了在商业上的价值,大数据对宏观调控、疾病预防、交通管理等多方面都有作用。百度现在能提前三个月预测宏观经济走势以及行业和地区的经济景气情况,且预测的准确率已经达到了95%。它还和中国疾病预防控制中心(CDC)合作通过大数据研究疫情的爆发和传播。一般来说,当某个地区爆发了某种疫情后,这个地区的人群会到网上搜索与这种疫情相关的症状、治疗手段等信息。因此,百度能通过互联网大数据分析的手段,第一时间得到并预测出疫情的传播路径,从而快速进行有效控制,大大改变了CDC的被动局面。
大数据如此厉害,人人都想插一脚,结果当下大数据呈火热状态。冷静得可怕的李彦宏再次给这股“热”进行“降温”,在2014年末的百度联盟峰会上,他提出了“慢数据概念”。受《大数据时代》的作者维克托·迈尔·舍恩伯格的影响,李彦宏认为大数据并不在大,而在于有用。我们应该找到什么数据有用,然而当下很多企业都认为只要积累了足够的数据,在未来它们将爆发出威力。这是错误的,仅仅是在追求“大”。李彦宏认为,事实上,现在每天产生的数据都是“没有价值”的,如果不能挖掘、分析,这些海量数据的收集是在浪费资源,且它们也不能转化为有效价值。因此,他希望企业家们思考:什么数据能够真正帮助人们解决问题。以此为出发点,再来看需要哪些数据。或者怎样搜集。
李彦宏所说的“慢”实则是让大数据由粗放到精细,提醒企业家们要沉下心来,耐心做好数据的挖掘、跟踪工作。这样长久地坚持下去,我们就能获得价值。
如果你的企业没有数据,或者需要数据分析,可以到百度的大数据引擎或者阿里巴巴、腾讯的大数据平台去寻求合作;如果你正在忙于积累数据,不妨体会一下李彦宏的慢道理。