这个时代,互联网与大数据、云计算被频繁地搬上台面,越来越多人熟悉并且开始着手应用这些词汇背后的科技。

这让我想起了前些天探索的谷歌图书(Google Books)以及旗下的Google Ngram Viewer。

我想,这可能是一个与我们学生群体非常相关的大数据项目。谷歌图书是当下收录海量书籍、报刊等文字讯息最大型的全球虚拟电子图书馆了。通过Google Scholar,我们可以捕捉到各类数据库公开信息及谷歌录入的电子图书,而Ngram Viewer更提供了查询特定词汇,在某个年份区间的频率。这个功能其实看似无用,但背后却蕴含着不少的玄机。

下面,就用一些简单的例子来说明文本世界大数据的简单应用。

比如我们想要研究全球变暖在世界范围的关注度变化,我们可以运用以下方法。

运用Google Ngram Viewer对Sea levels、Atmospheric CO2、Global Temperature进行检索,可以找下如下截图:

 

从三个词的变化可以看到侧面印证全球气候变化在文字世界中(也就是互联网电子媒介及书本报纸媒介中)的关注度变化。

再以“Influenza”作为检索关键词进行测试,可以看到以下截图:

对比历史可以发现在1920年、1930年和1960年出现了峰值与“1918年大流感”、“亚洲流感”等时间相吻合。

虽然,Ngram Viewer开放给用户使用查询的年份是从1800年-2008年,时效性很差,无法通过它结合当下的时事去做一些预测。但这并不意味着,谷歌及与其合作的公司无法达到这种效果,毕竟,仅仅谷歌每天各个地区的热门搜索就为谷歌产生了几T以上的数据了。

舍恩伯格在《大数据时代》中提到了不是因果关系,而是相关性。其实就是上面这个例子所能够印证的。在大数据时代,由于数据收集量非常巨大,在分析问题,迅速做出决策的时候,可以仅仅使用海量数据的相关性分析,用数据说话,而不需要研究背后的因果。Google Translate不懂得英语语法,却能够按照一定基础语法将中文翻译成英文。机器人不懂得语言的本质,却懂得用适当的语言回复你。你可以不懂得1+1=2背后的逻辑,你只要知道绝大数人得出的答案等于2。只要大多数结果是这样,我们几乎就可以判定结果就是这样(数学上的不完全归纳推理的延伸,暂不考虑是否一定正确)。

相关性的分析可以让我们轻易得出“啤酒和尿布”放在一起的结论,也能够轻易得出用户购物倾向,从而推荐给用户合适的商品,但是,这并不是说我们能够抛弃背后的因果。就如译者周涛所说:“我本人对于大数据时代“相关关系比因果关系更重要”这个观点就不认同。相关重于因果,是某些有代表性的大数据分析手段(譬如机器学习)里面内禀的实用主义的魅影,绝非大数据自身的诉求。从小处讲,作者试图避免的“数据的独裁”和“错误的前提导致错误的结论”,其解决之道恰在于挖掘因果逻辑而非相关性;从大处讲,放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落。如果未来某一天机器和计算完全接管了这个世界,那么这种放弃就是末日之始。”

无论如何,做出决策的最终把关者都是人,具有理性和逻辑才能称之为人,我们看到现象,我们需要应用现象,更需要预测现象,对因果的分析才能够让我们看清在n个变量条件下,彼此之间相关性的强弱从而去击中最关键的x-y对应关系。在《大数据时代》中,作者还提到了混杂性这一说法,他认为,海量数据的导入会使得一些不精确的数据也导入其中,使得结果不精确。在大数据面前,混杂是不可避免的,且其在论述过程将其作为大数据的一个趋势,认为大数据未来就应当是这样。而我认为,恰恰是因为混杂性的存在,才使得考究因果尤为重要。在利用大数据的同时,更加需要使用大数据去考究因果,传统分析中会把精确作为考究分析结果好坏和分析方法是否有效的衡量标准,在大数据面前,也应当是如此。我们不能因为数据的庞大,因而存在太多不相关变量,便认为这是大数据必然的缺陷。

大数据给了我们更加全面的来自各方面的信息去分析。就以互联网搜索为例,无论是百度还是谷歌,作为PC网络的入口,掌握着每个用户的搜索习惯和上网时间、甚至是网页停留时长等信息,网站的后台每天都记录着每一位匿名用户(仍然存在cookie)搜索者iP、搜索时间,搜索关键词,浏览网页地址,甚至是网页跳转记录,而注册用户则更为全面,谷歌所涉及服务囊括了普通用户的音乐、视频、邮箱、新闻、安卓系统;专业人士的站长服务工具Webmaster、开发人员的AppEngine、广告投放商的Adword等等。数据来源之多和数据本身带有不确定性必然带来混杂性。就如同我们都明白一个常识:心理学研究针对的只能是一个群体,而不可能到某个个体,因为个体在思考和行动中存在着主观能动性,个体行为本身便不具有完全的理性。用户每天的上网行为带有某种喜好和规律,但同时也携带者太多的不确定因素。这些不确定性才真正是大数据的用武之地。大数据不是不需要算法,而是需要更多更加高效精确的算法。而算法的设计者便是人,大量重复和有序的工作可以交由计算机去计算,最终设计和主导挖掘数据价值的主体是人的智慧。未来,大数据的发展可能会分化出三类方向,一是数据收集方向,研究如何高效准确收集信息及储存;二是数据分析方向,海量数据如何使用有效方式分析其中的相关程度和因果关系,大数据分析方式已经慢慢颠覆传统概率论的核心,如何抽样;三是数据的应用,将各类数据通过某一方式结合起来,进行学术研究及商业应用。

大数据用量的变化开始改变了我们的思维方式,部分理性可以被归纳法所替代。数据的量变带来了我们传统未考虑到的混杂性问题,也带来了不究因果的经验判断方式。应该说,在某些领域我们需要也值得如此应用,但应该警醒,这并不是探索人类真理的未来。技术已经决定了生产力和生活水平,不能再让它决定了人性的发展。

若是,科技黑箱的存在令我们少了很多功夫去探索其中的运作过程,码农只需要知道调用某个库能够使用什么算法而不需要了解原理;大法官可以是个机器,因为大法官只需要根据历史案例和受审者的各类数据,便能够判定是否定罪;甚至于在出生前便收录DNA讯息便分析得出你的未来,活生生的个体不过是一堆存放在冷冰冰硬盘中的数据;那么,这将是人性面对技术的一次彻底的溃败。

大数据来临,我们已经在路上,晃晃悠悠。未来,自由意志是否异化,我们不得而知;当请记住,拥抱未来,拥抱大数据,我们别无选择。