今天的中国,是一个人口大国、互联网大国、手机大国,但却恰恰还不是一个数据大国。2011年,麦肯锡公司以2010年度各国新增的存储器为基准,对全世界大数据的分布作了一个研究和统计,中国2010年新增的数据量约为250拍,不及日本的400拍、欧洲的2000拍,和美国的3500拍相比,更是连十分之一都不到。
美国的联邦政府,是一个数据帝国,它的数据主要有三个来源,一是业务管理的数据,二是民意社情的数据,三是物理环境的数据。这三种数据的积累,并不是一蹴而就的,在其漫长的发展过程中,有其重要的里程碑,例如1940年罗斯福引进的民意调查、1962年启动的海浪监测计划和1973年诞生的最小数据集。
中国人数据意识的淡薄,由来已久,甚至可以称之为国民性的一部分。1919年,胡适写下著名的《差不多先生传》,活灵活现地白描了中国人取道中庸、不肯认真、甘于糊涂、拒绝精准的庸碌形象:
……他姓差,名不多,是各省各县各村人氏……他的脑子也不小,但他的记性却不很精明,他的思想也不很细密。他常常说:“凡事只要差不多,就好了。何必太精明呢?”有一天,他为了一件要紧的事,要搭火车到上海去。他从从容容地走到火车站,迟了两分钟,火车已开走了。他白瞪着眼,望着远远的火车上的煤烟,摇摇头道:“只好明天再走了,今天走同明天走,也还差不多。可是火车公司未免太认真了。八点三十分开,同八点三十二分开,不是差不多吗?”……
著名历史学家黄仁宇说:“中国过去百多年来的动乱,并不是所谓道德不良,人心不古,也不全是军人专横,政客捣乱,人民流离”,而是因为中国未能像西方那样实行“数目字管理”的现代治国手段。他还认为:“一旦某个国家能在数目字上管理……大体上以技术上的要求作主,不必笼统的以意识形态为依归了。”
除了数据的收集和使用,中国在大数据时代需要面对的挑战,还有数据的开放。如果说收集数据是一种意识,使用数据是一种文化、一种习惯,那是否开放数据则是一种态度。
这种开放,是无法阻挡的。中国人,只要愿意,就可以登陆其他国家的开放网站,下载他们的公共数据,分析他们的财政开支细目,甚至参与他们对公共事务、社会事务的批评和监督。即使作为外国人,在这个全球化的时代,中国人也可以感受到数据开放给全人类带来的种种便利和实惠。而这些便利和实惠,正在成为信息时代世界各国一项基本的公民权利。