陈国青 清华大学经济管理学院EMC讲席教授,学术委员会主任。2005年度受聘教育部长江学者特聘教授,担任教育部高等学校管理科学与工程类专业教学指导委员会主任委员,国家信息化专家咨询委员会成员,国际模糊系统学会(IFSA)副主席,中国信息经济学会副理事长,中国系统工程学会副理事长等职。同时担任国家自然科学基金委大数据重大研究计划指导专家组组长,主持国家自然科学基金委重大项目等多个国家级科研项目,以及多个国际合作、企业信息战略和管理项目。主要研究与教学领域为商务智能与电子商务、IT战略与管理、模糊逻辑与数据模型。曾获国际模糊系统协会2009年度“IFSA Fellow”;复旦管理学奖基金会2007年度“管理学杰出贡献奖”;1999年度国家杰出青年科学基金等荣誉。
7月9日,大学生们在安徽淮南市大数据展示中心参观。新华社发
参观者在位于济南市的山东省档案馆推出的山东省大数据科普主题展上体验基于5G网络传输的VR全息眼镜。新华社发
贵州铜仁市一家蔬菜公司的工作人员在管护蔬菜。通过大数据云平台,蔬菜公司可以根据订单来决定种植品种和规模。新华社发
大数据时代的两个阶段
我们现在处在一个数据的海洋当中。
2019年的春运被媒体戏称为“世界上最大的人口迁徙”,有30亿人次流动。2018年“双十一”网购达到了2135亿元的销售额度。现在,每天会产生450亿的微信条目。用手机的网民已经达到8.17亿。总体来说,我们国家的GDP数字经济占比已经达到了34.8%,超过了1/3,这方面实际能够体现出,我们这个社会已经开始越来越数字化了。
说起大数据、大数据时代,主要的时代背景是什么呢?我们现实世界有多大程度上可以被数据表示?用一个形象的话来讲,我们的社会像素正在急剧提升。这个“像素”来自到处可见的感测设备——探头、智能手机、可穿戴设备、车载设备,林林总总。这些使我们这个社会的数字化程度越来越高,数据的粒度因此也越来越细。也就是说,数字化生活的两个要素之一:像素、数据的粒度已经具备。像素够高的时候我们要干什么?形象地说就是“成像”,就像手机、相机,像素越高成像的质量可能越好,因此,成像是我们数字化生活中另外一个重要的要素,像素和成像对应起来,就把数据和算法联系起来了。这就是我们所说的大数据的时代背景。
我认为,大数据时代可以分成两个阶段。
第一阶段是数据商务阶段。不断地把现实生活中的要素,人财物,都进一步数据化,同时根据这些数据化的人财物进行算法的应用。
第二阶段是算法商务阶段。当像素足够高的时候,重点就变成了成像了,也就是说,重点变成算法应用。
数据商务阶段和算法商务阶段都围绕着数据和算法进行,但是重点有所不同。数据商务阶段就像做菜一样,数据化的过程就是不断准备材料的过程,不停地增加和丰富材料,然后根据已有的材料提供不同的菜品。但是在算法商务阶段,材料已经足够丰富了,这个时候要比的就是手艺了,你是不是能够做得更好、更多。这就是我们所说的算法进阶及应用创新,如“智能+”,我们可以用更加高尖的智能技术,包括人工智能的很多技术,在现有的大规模数据下进行应用。
大数据的数据特征
那么,什么是大数据?首先看它的数据特征,可以从4个维度来理解,即4V:volume(规模)、variety(多样)、value(价值)、velocity(速度)。大家对这四个维度没有什么大的争议,但是对它们的含义的理解还是有相当不同的认识的。
第一是规模,我们称之为超规模。大数据规模会很大,但是没有绝对的量纲标准,没有说一定要达到多少G多少P多少Z才是大数据,这个不一定,因为大数据的大规模和问题、领域有关。只要这个大的规模超出了这个领域和问题的传统边界,那就是大规模里的超规模。
第二是多样,即富媒体的意思。现在80%~90%的数据都是文本、语音、图像、视频,不再是特别传统的二维的整齐的结构化的数据了。
第三是价值。我们处在数据的海洋中,四周都是数据,但是跟我个人有关,跟我企业有关的那种有价值的信息相对少了,因为数据量的分母太大了,即密度在降低,这个后面直接的隐喻就是要深度挖掘才能发现我们希望的价值。
第四是速度。数据就像开着的水龙头一样,源源不断地出来,而不是我们上传下载图片要等很久。因此,大数据里的数据是一个流数据的概念。
大数据的问题特征
那么,什么样的问题才是大数据问题?这要看它的问题特征。
第一个特征,是粒度缩放。粒度缩放是指我们碰到的这个问题的要素一定是数据化的,即这个要素不管是宏观的还是微观的,一定能通过数据表示。同时,可以像地图一样,可以在特别大的范围和特别细的范围之间缩放,能够在宏观、微观之间进行映射。
第二个特征,是大数据外部性导致的特征,称之为跨界关联。考虑问题的时候要看视角,问题边界是在哪儿,如果考虑问题的时候这个边界到了传统边界之外,就是跨界了,而且你把这个外部的要素和内部要素联系起来了,所以你在关联。
第三个特征,全局视图。大数据实际是希望了解全貌的,它最后是要看画像,因为前面我的每一个点、每一个环节的数据叫作粒度缩放,同时和我相关的要素我又关联了,但是我最后要干什么,要了解全貌,要有个人画像、企业画像、政府画像、社会画像等,所以这个画像本身又是全景式的,从范围来讲是全景式的,从内涵来讲,我们希望既关联又因果。
这里,我举一个共享单车的例子,方便大家审视大数据问题的特点。有的人会认为共享单车其实就是我们的代步工具,但是这是传统的概念。现在一般每辆共享单车都有自己的感应器和定位装置,也就是说感测的数据粒度到了车和部件。这时候就不单是一个单车了,可能我走到什么地方,共享单车的App就告诉我附近有什么商圈、酒店、餐馆,我在什么地方买东西可能还可以用移动支付,当视角从单车走到了其他行业、要素时,就开始跨界关联了。可能在这个地区人特别多,共享单车不够,可能在另外的地方单车冗余了。因此,共享单车的平台应该清楚什么地方需要车,什么地方不需要车,怎样调动,这就是全局视图。当共享单车具备粒度缩放、跨界关联和全局视图时,共享单车的运营、优化,就是一个大数据问题。
这些年来,社会上比较流行一个论断,说“大数据只讲关联不讲因果”。这个论断虽然有一定道理,但是总体来讲是误导的。特别是在重要决策的时候,如果涉及的后果可能会有严重的人财物的损失,然后我告诉你“你就这么干吧,没有为什么”,谁敢作决策?所以,在大数据环境下作管理决策,既要看关联也要看因果。另外,因果是认识论的基本诉求,我们要知道原因。
大数据冲击各行各业
我们作为个人不仅是数据的接收者,也是数据的生产者。一方面我们下载、阅读、浏览,因此我们在消费数据;另一方面,我们又上传、撰写、参加各种活动,各种活动就可以留下我们的很多痕迹,因此我们也在留痕,我们实际又在产生数据。在这样一个既是消费又是生产的环境中,我们从方方面面已经和数据分不开了。