发布
登录
注册
“数据科学”面临的若干问题
众说纷纭频道

图灵联邦

恒河沙
关注

图灵联邦

0

评论

0

点赞

一、“数据科学”研究的对象是什么?

        计算机科学是关于算法的科学,数据科学是关于数据的科学。从事数据科学研究的学者更关注数据的科学价值,试图把数据当成一个“自然体”来研究,提出所谓“数据界”的概念,颇有把计算机科学划归为自然科学的倾向。但脱离各个领域的“物理世界”,作为客观事物间接存在形式的“数据界”究竟有什么共性问题还不清楚。物理世界在网络空间中有其数据映像,目前一些学者认为,数据界的规律其本质可能是物理世界的规律(还需要在物理世界中测 试验证)。除去各个领域的规律,作为映像的“数据界”还有其独特的共同规律吗?这是一个值得深思的问题。

        任何领域的研究,若要成为一门科学,一定是研究共性的问题。针对非常狭窄领域的某个具体问题,主要依靠该问题涉及的特殊条件和专门知识做数据挖掘,不大可能使大数据成为一门科学。数据研究能成为一门科学的前提是,在一个领域发现的数据相互关系和规律具有可推广到其他领域的普适性。抽象出一个领域的共性科学问题往往需要较长的时间,提炼“数据界”的共性科学问题还需要一段时间的实践积累。至少未来 5—10年内计算机界的学者还需多花精力协助其他领域的学者解决大数据带来的技术挑战问题。通过分层次的不断抽象,大数据的共性科学问题才会逐步清晰明朗。

        当前数据科学的目标还不很明确,但与其他学科一样,科学研究的道路常常是先做“白盒研 究”,知识积累多了就有可能抽象出通用性较强的 “黑盒模型”和普适规律。数据库理论是一个很好的例子。在经历了层次数据库、网状数据库多年实践后,Codd发现了数据库应用的共性规律,建立了有坚实理论基础的关系模型。在这之前人们也一直在问数据库可不可能有共性的理论。现在大数据研究要做的事就是提出像关系数据库这样的理论来指导海量非结构化数据的处理。

二、数据背后的共性问题——关系网络

        观察各种复杂系统得到的大数据,直接反映的往往是一个个孤立的数据和分散的链接,但这些反映相互关系的链接整合起来就是一个网络。例如,基因数据构成基因网络,脑科学实验数据形成神经网络,Web 数据反映出社会网络。数据的共性、网络的整体特征隐藏在数据网络中,大数据往往以复杂关联的数据网络这样一种独特的形式存在,因此要理解大数据就要对大数据后面的网 络进行深入分析。网络有不少参数和性质,如平均路径长度、聚集系数、核数、介数等,这些性质和参数也许能刻画大数据背后网络的共性。因此,大数据面临的科学问题本质上可能就是网络科学问题,复杂网络分析应该是数据科学的重要基石。

        目前,研究Web数据的学者以复杂网络上的数据(信息)传播机理、搜索、聚类、同步和控制作为主要研究方向。研究成果表明,随机的Scale-free 网络不是一般的 “ 小 世 界 ”,而是“ 超小世界”,规模为N的网络的最短路径的平均长度不是一般小世界的 lnN 而是 lnlnN。网络数据研究应该发现网络数据产生、传播以及网络信息涌现的内在机制,还要研究隐藏在数据背后的社会学、心理学、经济学的机理,同时利用这些机理研究互联网对政治、 经济、文化、教育、科研的影响。基于大数据对复杂系统内在机理进行整体性的研究,也许将为研究复杂系统提供新的途径。从这种意义上看,数据科学是从整体上研究复杂系统的一门科学。

三、大数据研究中的关联关系与因果关系

        大数据研究不同于传统的逻辑推理研究,而是对数量巨大的数据做统计性的搜索、比较、聚类、分类等分析归纳,因此继承了统计科学的一些特点。统计学关注数据的相关性或称关联性,所谓“相关性”是指两个或两个以上变量的取值之间存在某种规律性。“相关分析”的目的是找出数据集里隐藏的相互关系网(关联网),一般用支持度、 可信度、兴趣度等参数反映相关性。

        两个数据A和B有相关性,只有反映A和B在取值时相互有影响,并不能告诉我们有A就一定有B,或者反过来有B就一定有A。严格来讲,统计学无法检验逻辑上的因果关系。根据统计结果:可以说“吸烟的人群肺癌 发病率会比不吸烟的人群高几倍”,但统计结果无法得出“吸烟致癌”的逻辑结论。统计学的相关性有时可能会产生把结果当成原因的错觉。如下图,车上的人和车下的人都推了车,但车动起来的原因是因为车下的人推了车。

相关性与因果性

                                                                                                                                                来源:计量经济学

        也许正是因为统计方法不能致力于寻找真正的原因,才促使数据挖掘和大数据技术在商业领域广泛流行。企业的目标是多赚钱,只要从数据挖掘中发现某种措施与增 加企业利润有较强的相关性,采取这种措施 就是了,不必深究为什么能增加利润,更不必发现其背后的内在规律和模型。一般而言,企业收集和处理大数据,不是按学者们经常描述的“从数据到信息再到知识和智 慧”的研究思路,而是走“从数据直接到价值 值”的捷径。Google广告获得巨额收入经常被引用作为大数据相关分析的成功案例,美国 Wired 杂志主编 Chris Anderson 在他的著名文章“The End of Theory”的结尾发问:“现在是时候问这一句了:科学能从谷歌那儿学到什么?”。

        因果关系的研究曾引发了科学体系的建立,近代科学体系获得的成就已经证明, 科学是研究因果关系最重要的手段。相关性研究是可以替代因果分析的科学新发展还只是因果分析的补充,不同的学者有完全不同的看法。我们都是从做平面几何证明题开始进入科学大花园的,脑子里固有的逻辑思维模式少不了因果分析,判断是否是真理也习惯看充分必要条件,对于大数据的关联分析蕴含的科学意义往往理解不深。

        对于简单封闭的系统,基于小数据的因果分析很容易做到。当年开普勒发现行星三大定律,牛顿发现力学三大定律都是基于小数据。但对于开放复杂的巨系统,传统的因果分析难以奏效,因为系统中各个组成部分之间相互有影响,可能互为因果,因果关系隐藏在整个系统之中。现在的“因” 可能是过去的“果”,此处的“果”也可能是别处的 “因”,因果关系本质上是一种相互纠缠的相关性。在物理学的基本粒子理论中,颇受重视的欧几里德量子引力学(霍金所倡导的理论)本身并不包括因果律。因此,对于大数据的关联分析是不是“知其然而不知其所以然”,其中可能包含深奥的哲理,不能贸然下结论。

四、数据处理的复杂性研究

        计算复杂性是计算机科学的基本问题,科学计算主要考虑时间复杂性和空间复杂性。对于大数据处理,除了时间和空间的复杂性外,可能还需要 652 院刊 考虑解决一个问题需要多大的数据量,暂且称为“数据量复杂性”。数据量复杂性和空间复杂性不是一个概念,空间复杂性要考虑计算过程中产生的空间需求。

        设想有人采集完全随机地抛掷硬币的正反面数据,得到极长的01数字序列,通过统计可计算出现正面的比例。可以肯定,收集的数据越多,其结果越好 0.5 的误差越小,这是一个无限渐进的过程。基于唯象假设的数据处理常出现这类增量式进步,数据多一点,结果就好一点。这类问题的数据科学 价值可能不大。反过来,可能有些问题的是数 据处理像个无底洞,无论多少数据都不可能 解决问题。这种问题有些类似NP问题。我 们需要建立一种理论,对求解一个问题达到某种满意程度(对判定问题是有多大把握说 “是”或“否”,优化问题是接近最优解的程度)需要多大规模的数据量给出理论上的判断。当然,目前还有很多问题没有定义清楚,比如,对于网络搜索之类的问题,如何定义问题规模和数据规模等。

        对从事大数据研究的学者而言,很有意思的问题应该是,解决一个问题的数据规模 有一个阈值。数据少于这个阈值,问题解决不了;达到这个阈值,就可以解决以前解决不了的大问题;而数据规模超过这个阈值, 对解决问题也没有更多的帮助。我们把这类问题称为“预言性数据分析问题”,即在做大数据处理之前,我们可以预言,当数据量到达多大规模时,该问题的解可以达到何种满意程度。

        与社会科学有关的大数据问题,例如舆情分析、情感分析等,许多理论问题过去没有考虑过,才刚刚开始研究。迫切需要计算机学者与社会科学领域的学者密切合作,共同开拓新的疆域。

文献:

李国杰 程学旗,大数据研究:未来科技 及经济社会发展的重大战略领域 ——大数据的研究现状与科学思考

本文内容来源于用户投稿,如有侵权请联系官方删除

发布

评论 0