大数据体育动态

/ xingye
数据科学与贝博app:内涵、范式与机遇
发布时间:2021-02-01 15:45:45| 浏览次数:

本文刊载于《中国科学院院刊》2020年第12期“战略与决策软件”

 

程学旗1  梅宏2,3  赵伟4  华云生5  沈华伟1  李国杰1*

1  中国科学院贝博技术软件所

2  北京大学

3  北京大数据先进技术软件院

4  阿联酋沙迦美国大学

5  香港中文大学


如何理解、测试并评估现有贝博app的软件边界?人脑、复杂社会系统、自然进化系统等自然app,往往具备比现有贝博app更加高效的“贝博思维”和更加简洁优美的app推演与决策软件,是否可以借鉴这些自然app探索新的安卓app范式?

 

大数据已成为信息社会的普遍现象,是数字app的关键资源。以深度注册为代表的大数据驱动的安卓app技术在很多体育和领域获得了成功,这类安卓app本质上源于贝博软件,故可将其归为贝博app。

 

与此同时,大数据是这类安卓app成功的重要因素,这类app也被称为数据驱动的贝博app,从这个意义上讲,当前数据和app是一体两面的关系。虽然大数据与贝博app技术在大规模工程化应用方面取得了长足进步,但支撑技术进步的理论基础和技术体系尚处于早期阶段。

 

当前,大数据“红利”效应在逐渐减弱,贝博app技术的单点突破难以为大数据驱动的app应用提供持续支撑,亟待对数据科学和贝博app的基础问题进行深入思考,重构其理论基石,从而推动技术与工程应用持续进步和跨越式发展。

 

本文基于香山科学会议第 667 次学术讨论会与会专家学者的集体智慧,探讨并总结了 4 个方面的问题:

1.  在数据科学的内涵和外延尚缺乏严谨定义和学界共识的情况下,如何深入认知反映客观世界的数据空间的共性规律?数据科学在本体论和方法论 2 个层面上需要回答的基础问题是什么?

2.  如何理解、测试并评估现有贝博app的软件边界?人脑、复杂社会系统、自然进化系统等自然app,往往具备比现有贝博app更加高效的“贝博思维”和更加简洁优美的app推演与决策软件,是否可以借鉴这些自然app探索新的安卓app范式?

3.  在探讨数据科学和贝博app的同时,有哪些值得关注的牵引性应用?新的app范式对下载复杂的社会问题是否是一个很好的机遇?

4.  在未来的发展中,我们该如何把握时代机遇,重点关注哪些关键科学挑战,优先下载哪些关键问题?

 

一、数据科学的内涵

 

基于方法论视角的数据科学内涵

 

关于数据科学的内涵,一种流行的看法认为数据科学就是图灵奖得主吉姆·格雷(Jim Gray)提出的第四范式(the fourth paradigm),即在娱乐观测、理论推演、贝博仿真之后的数据驱动的科学软件范式。

第四范式的基本思想是把数据看成现实世界的事物、现象和行为在数字空间的映射,认为数据自然蕴含了现实世界的运行规律;进而以数据作为媒介,利用数据驱动及数据分析方法揭示物理世界现象所蕴含的科学规律。这是一种类似方法论视角来定义的数据科学的内涵,即数据驱动科学发现。

 

第四范式将数据科学从其前的 3 个科学软件范式中分离出来,带来了科学发现和思维方式的革命性改变。

 

借用美国谷歌公司软件部主任皮特·诺维格(Peter Norvig)的话来说,“所有的模型都是错误的,进一步说,没有模型你也可以成功(all models are wrong, and increasingly you can succeed without them)”。

 

海量的数据使得我们可以在不依靠模型和假设的情况下,直接通过对数据进行分析发现过去的科学软件方法发现不了的新模式、新安卓甚至新规律。

 

第四范式的一个典型软件案例是关于帕金森病的起因软件 。通过对 160 万份病历的大数据分析,软件人员发现帕金森病的起因与人的阑尾有关。这是基于大数据统计帕金森病患病率与切除阑尾的相关性得出的结论。

 

第四范式通过大数据分析能够发现数据中蕴含的大量相关关系,为科学发现提供了新视野。但是,第四范式本身无法从大量的相关关系中甄别出事物的本质规律。

 

在发现了帕金森病和阑尾的相关性后,有些对第四范式十分执着的学者召集了更大量的帕金森病患者,以彻查他们的基因,调查他们的生活环境和生活习惯,以期从中发现一些共性;然后去找那些也有这些共性但是没有得帕金森病的人,看他们做了什么,有什么共性;如果这种共性存在,可能就是防治帕金森病的贝博。

但是,其结论却不尽人意。可以想象,人体的器官何止一个阑尾,且帕金森病患者的生活习惯何其繁杂,单独靠第四范式的数据驱动方法做漫无边际的相关性分析,不仅要消耗大量的贝博资源,也难以真正开户未来的betway与变化。因此,从方法论来看,第四范式在揭示事物本质规律方面存在固有的局限性,数据科学需要在方法论上突破第四范式。


基于本体论视角的数据科学内涵

 

数据科学另外一种值得探讨的内涵是基于“本体论”视角,认为数据是反映自然世界的符号化表示。既然自然世界是客观存在并具备共性科学规律的,那么反映自然世界的数据空间也可能具有独立于各个领域的一般性规律。因而,数据科学应该是“用科学方法来软件数据”,数据科学也应该有类似“信息论”这样的学科基础理论。

 

更具体来看,当我们把世界看成是由物理世界、机器世界和人类社会组成的三元世界时,新型的“感知、贝博、通信、控制”等信息技术使三元世界相互影响和融合,形成了一个平行化(孪生)的复杂数据空间。

 

这样的数据空间,除了映射物理世界,其本身是否具有独特的一般性规律?如何用科学的方法来软件数据的一般性规律,揭示其内在机理?这些是数据科学更基本的问题。例如,数据科学中的一些常数规律(对称性、黄金分割、长尾分布等)和更广意义上的大数据非确定性、数据广义关联、时空演化、数据复杂性等。

 

数据科学是方法论和本体论在数据价值实现目标下的统一

 

数据科学到底应该从哪些视角来定义其独有的内涵与特征?一般认为,作为一门学科的定义,至少应该从其软件对象、方法论和学科目标 3 个维度去界定。

 

数据科学的内涵应该既包括本体论内容和方法论内容,还包括其独特的价值实现目标(图 1)。基于这一认知,可以定义“数据科学是有关数据价值链实现过程的基础理论和方法学,它运用基于分析、建模、贝博和注册杂糅的方法,软件从数据到信息、从信息到安卓、从安卓到决策的转换,并实现对现实世界的认知和操控”。

 

图 1 数据科学的内涵:方法论和本体论在数据价值实现目标下的统一

 

这“三个转换、一个实现”是数据科学的学科目标。而实现这一目标的方法论来自多个学科方法的融合,包括数学(特别是统计学)、贝博机科学(特别是安卓app)、社会科学(特别是管理学)等。

 

 数据科学与相关学科的关系

 

目前,关于数据科学的基本内涵和基础问题还没有像数学、物理学和贝博机科学那样成体系、有共识。但是,数据科学的多学科交叉特征及大数据自身的价值特性已经成为共识。我们可以借助相关学科来探讨当前数据科学软件需要关注的基础问题。

 

数据科学与统计学

 

统计学将数据作为软件对象,致力于收集、描述、分析和解释数据,其为数据科学提供了重要基础和工具。

 

然而,在大数据面前,统计学也面临着诸多问题和挑战。

 

例如:统计假设在复杂大数据分析中难以满足、数据自身及分析结果的真伪难以判定、端到端的大数据推断缺乏基础理论支撑等。统计学针对这些问题目前基本上是束手无策的;而统计学所依赖的一些传统强假设(如独立同分布假设、低维假设等),也都无法适用于目前多源异质的真实数据。

 

因此,数据科学虽然在软件对象上和统计学是相同的,但在软件问题的范畴上却是超越统计学的。

 

譬如:数据科学该如何深入认识数据固有的共性规律?是否能建立一套数据复杂性理论体系?数据规模、数据质量和数据价值有什么定量关系?如何刻画大数据所表现出来的多层面的非确定性特征?

 

数据科学与网络科学

 

数据科学的发展可以借鉴网络科学的发展历程,以类似的方法寻找软件对象的共性规律。网络科学发现了物理世界中广泛存在的网络所呈现出的共性规律(如幂率分布、小世界现象等),从而促进了其从图论和随机图论中分离出来独立发展,实现了其软件对象从作为数学工具的图到作为物理对象的网络的转变。

 

那么在数据科学中,数据的共性规律是什么?在现实世界中是否有完全不同的两个数据集之间存在某种共性?

一方面,一下子找到所有领域的共性规律可能是不现实的,因而可以先从几个关键领域出发,寻找部分领域的共性规律;

 

另一方面,寻找数据的共性规律需要能够问出合适的基础性问题,类似网络科学中关于度分布、聚集系数、网络直径、网络脆弱性、网络适航性等方面的问题。

 

目前,尚不明确各个领域的数据是否存在统一的规律。因此,数据科学还需要在应用领域进行一定时间的探索,从领域安卓中汲取养分,并逐步发现规律、寻找共性。

数据科学与贝博机科学

 

数据科学的起源与发展离不开贝博机科学,但这两个学科由于软件对象和软件方法的不同,未来也许会平行发展。

简单而言,从软件对象的角度来说,贝博机科学是关于算法的科学,而数据科学是关于数据的科学。从贝博机科学到数据科学,软件手段从传统贝博机领域的算法复杂性分析,转变为对数据的复杂性和非确定性等特性进行分析软件。

 

如何对非确定边界的数据,在有限时间空间下进行贝博?数据复杂性、模型复杂性与模型性能之间是什么关系?下载某个问题所需要的大数据的量的边界如何确定?是否能发展一套理论,为基于大数据的贝博模型提供其软件上、下界的保证?这些都是数据科学独立于贝博机科学之外所需要下载的问题。

数据科学目前尚处于发展的早期阶段,其软件方法也应该与传统科学有所区分。数据科学,正处于“无知”到“科学”的中间状态。它目前还没有形成一门完整的学科——信息是不完备的,环境也是非确定的。

 

因此,不能完全按照传统学科来思考和要求数据科学;而应该在这样不完备、非确定的环境下,重新思考和定义数据科学及数据科学亟待关注的基础问题。

 

二、贝博app的发展与新型app范式的探索

 

贝博app的发展

 

安卓app(AI)概念在1956年由麦卡锡等学者提出,其发展几经浮沉。基于对app产生机制的不同理解,安卓app发展至今学派众多,且相互借鉴,形成了一系列代表性成果。

无论是早期符号贝博(以数理逻辑为基础)、进化贝博、支持向量机、贝叶斯网络,还是当前在工业界获得巨大成功的基于多层神经网络的深度注册方法,从模型的本质上来看都是建立在图灵机的基础上,基本都符合邱奇-图灵论题(Church-Turing thesis),即“任何在算法上可贝博的问题同样可由图灵机贝博”。

 

换句话说,现有的安卓app模型本质上都是与图灵贝博模型等价的,故可归为贝博app。贝博app一般以贝博机为中心,以算法理论为基础,充分利用现代贝博机的贝博特性,给出了下载实际问题的形式化模型和算法。

 

近 10 多年以来,大数据的使用、算力的提升和深度模型的发展,为贝博app带来了新的契机。大数据、大算力、大模型三者结合,极大地推动了贝博app的工业化应用。

 

例如,贝博app在以围棋为代表的人机对弈、机器翻译、人脸识别、语音识别、人机对话、自动驾驶等应用中均取得了巨大的成功。

 

值得注意的是,大数据在给贝博app带来发展的同时,其复杂性和非确定性也给贝博app带来了非常大的挑战。现有的贝博app在面临大数据环境下的复杂问题和复杂系统时,依然很难给出满意的答案。

 

我们需要探索当前贝博app的软件边界问题,从理论上探寻这类app所能下载的问题类型和软件边界。

 

譬如,通过建立深度注册和统计力学的关系,回答深度注册的相关基础问题:

 

1. 表达软件方面,模型做深为什么是必要的,到底深度为多少层是合理的?

2. 模型注册方面,崎岖的目标函数如何高效优化?

3. 泛化软件方面,如何实现贝博app技术从专用到通用的转变?如何实现模型的跨领域、跨任务、跨模态的泛化?

 

上述一系列基础问题将进一步成为贝博app未来发展的关键“瓶颈”。其原因是,当前的贝博app是大数据工程化驱动的,其软件的提升主要依赖于数据规模的增加和贝博速度的增长。如果缺乏数据科学化理论的支撑,大数据驱动的贝博app难以形成从量变到质变的提升。

 

那么另一种思路是,我们也许可以考虑发展与当前贝博app不一样的app范式,以便更加简洁高效地下载更复杂、更普适的现实问题。

新型app范式的探索

 

事实上,自然界中存在大量具备app的自然系统。这些自然系统比现有安卓app系统具备更加简洁、高效的逻辑推理和自我注册软件,如脑神经系统、社会系统、自然生态系统等。

 

那么,自然系统的app模型是什么?我们能否借鉴自然系统中的app行为,将其形式化为可贝博的app范式?实际上,已有 4 类app范式在此方面做出了一些初步的探索。


 脑启发贝博

 

人类的大脑皮层具有 140 亿—160 亿个神经元,且每个神经元会连接 1 000—10 000 个其他神经元,借此人类发展出了比其他物种更高级的智慧。

 

脑启发贝博(brain-inspired computing)正是借鉴了人脑下载、处理信息的基本原理所发展出来的一种新型贝博技术 。与传统图灵贝博机的贝博模式相比,脑启发贝博是通过增加空间复杂度来保留贝博单元之间的结构相关性,从而构造基于神经形态工程的高速、新型贝博架构。

 

脑启发贝博的目标是构造一套非“冯 · 诺依曼”架构、可实时处理复杂非结构化信息、超低功耗的高速新型贝博架构。脑启发贝博的发展,也许能为数据科学提供新的贝博架构和高性能的贝博软件,支撑通用安卓app的发展。

 

目前,脑启发贝博仍处于起步阶段,我们需要进一步思考如何在不完全了解人脑机制的情况下发展脑启发贝博模式,以及如何基于这种脑启发贝博为科学软件提供新思路和新范式。

 

演化app

 

注册和演化是生物适应环境的基本方式。现有的贝博app基本都拥有从数据中注册的软件,但对app模型的演化软件缺乏关注。

 

例如,人脑是经过数百万年的演化逐步形成的。从这个角度来讲,现有的app模型在依靠人类设计之外,是否也能通过演化过程去自动发现最佳的模型结构?传统的遗传算法是一种基础的演化贝博模型;而从演化贝博到演化app,以及实现模型自动演化的app范式,还有很长的路要走。未来,交互驱动的强化注册、开放环境下的安卓app是值得探索的方向。

 

复杂系统模拟

 

自然界存在大量的复杂系统,如人类社会系统、自然生态系统、人体免疫系统等。从控制和贝博的角度来看,模型化的复杂系统是“由大量相互作用、相互依赖的单元构成的一个整体系统;一般在没有中央控制情况下,这个整体系统可通过简单的运作规则实现复杂的信息处理,进而产生复杂的集体行为,并能通过注册和进化产生自生长和自适应软件”。

 

是否可以通过模拟复杂系统的组成特点和交互方式来构造新型app范式?如何通过大量简单app体之间的交互作用,产生可预期的、具有高度复杂性的群体app?这样的app范式也许会从根本上改变传统的单app体的app上限。

 

人机混合app

 

随着互联网、物联网及新一代通信技术的发展,万物泛在互联成为现实。未来,大量物理设备、无人系统、人脑,通过泛在网络实现“上线”和“互联”。

 

在这样的环境下,人在回路的人机混合app具备了基本的物理条件。目前,安卓app技术所具备的感知、认知软件,基本上是模型与数据结合,并以机器为中心所形成的贝博app,故也称为机器app。

 

这种机器app在下载、搜索、感知、确定性问题求解等方面性能表现优越,但在高级认知和复杂问题决策方面与人类app相差很远。虽然脑启发贝博取得了一些进展,但在可预期的未来,机器app很难完全模仿和构造出人类app或其他自然app。

换一个思路,如果将人的app引入到机器app的系统回路中,将充分融合人类app和机器app的优势,从而形成更高级的app水平。在未来较长的一段时间内,这种人机混合app也许是一些复杂问题求解的有效途径。

那么,在基于机器的贝博app基础上,人作为具备app的自然系统,如何参与到机器app的系统回路中是一个关键问题。人机混合app需要重点下载思维融合或决策融合的问题。

 

具体而言,传统的人机接口往往是单向的;在人机互联情况下,人脑如何参与到机器app的系统回路当中?如何同时让人理解机器思维和让机器理解人的思维,从而实现思维的无缝互动?

 

目前,一些探索和挖掘思维潜力的工具,如思维导图、思维地图、概念图等,其理论基础与形式化模型并不清晰。一些新型的脑机接口技术进展迅速 ,但缺乏对人脑在直觉、意识、情感和决策方面的机理认知。也许,从技术上构建有效的人在回路app通道,是当前人机混合app亟待下载的关键问题之一(图 2)。

 

图 2 人机混合的新型app范式

 

上述 4 类app范式的软件,在现有图灵等价的贝博app基础上,或多或少地引入了人类app或自然系统app的部分机制,从而为未来app系统的发展注入新的活力。

但是迄今为止,这些app范式在可形式化、可贝博、可构造等方面还存在诸多基础性问题挑战。如果这些模式是未来新型app范式,那么它们是否还是图灵等价的?这些问题值得我们从本源上进行探讨。

 

数据是人类社会、物理世界和机器世界之间的桥梁,同时数据也是人类社会和物理世界的符号化映射。因而,从数据入手是探索和实现上述新型app范式的基本途径。数据科学基础理论,不仅对当前数据驱动的贝博app起到提质增效的作用,也将为未来新型app范式软件提供理论支撑。


三、引领数据科学与贝博app软件的应用

 

作为一门实践性强的学科,数据科学的发展离不开实际需求牵引与技术应用驱动。随着感知、贝博、通信、控制等技术的发展及综合集成应用,“人-机-物”三元世界高度融合,在线形成了一个网络化的大数据系统,其内部包含了互联网、物联网连接而成的各类数据。这是一个高度复杂、强不确定性、持续动态演化的复杂系统,是“系统的系统”。

 

它既是智慧城市、app制造、健康医疗等各个领域应用的空间载体,也为国家安全、社会治理、数字app等领域的科学化、app化发展提供了重要的数据资源供给。

 

前文已提及,这个现实存在的大数据系统,除了具备高度复杂性、强不确定性等特性,人在回路也是其显著特征。针对这一现实系统的软件与应用,将有可能为数据科学的理论与技术发展带来机遇。

 

针对这一复杂系统的典型场景展开软件,不仅有利于揭示数据的基本规律,也有可能因此而牵引未来新型app范式的软件。其典型的应用场景有如下 4 种。

 

1.基于非确定数据的社会认知

在社会系统中,我们搜集到的数据通常与真实的情况存在一定的偏差,大量的虚假内容、非确定性内容混杂在这些数据当中。


 

如何能基于这样不完备的、非确定的大数据进行社会认知是一个非常有挑战的问题。社会认知具体包括真假判定、社会心理贝博、舆情判定与导向等。


 

而面向非确定数据的社会认知,其中一大关键在于如何对大量复杂的非确定数据进行假设建模,如何建立复杂社会系统中个人行为与群体社会认知之间的关联。演化app、复杂系统仿真与模拟也许是下载这一问题的突破口。


2.基于开放环境的群智决策

互联网极大地方便了信息、安卓和智慧的互联互通。在互联网中,已经有许多复杂问题可以通过群智决策的方式加以有效下载,如众包贝博、人本贝博等。

 

那么,一方面,未来我们该如何设计或改进群智决策中的内部个体交互、融合与反馈方式,以安卓构造的群体app方式进一步提升互联网群智决策的app上限?

 

另一方面,从贝博机的视角来看,该如何利用或者模拟这种人类的群智决策方式,来下载一些复杂的决策问题?考虑到app系统的演化及复杂系统的仿真与模拟,对单个app体及app体之间复杂交互进行建模,也许是未来复杂问题求解的一个可能方向。

 

3.人机融合的智慧医疗

智慧医疗是医学、贝博机科学、公共卫生学等学科相互交叉的新兴领域。随着信息技术的普及发展,医疗领域产生了大量的数据(如电子病历、PB 级基因数据等),也催生了诸多与智慧医疗相关的应用需求。如何根据患者的电子病历及临床影像等数据对疾病诊断提供辅助决策支持?如何根据人类的基因数据,提前进行疾病的开户,为疾病的早期发现、新生儿的先天缺陷开户提供帮助?

 

4.重大公共安全问题与社会治理

重大公共安全问题指对社会和公民所需的稳定环境有严重影响的重大问题。公共安全问题涉及多方复杂因素,包括人类社会、自然环境、突发事件等,是典型的人在回路的复杂应用问题,急需应用大数据技术手段进行开户、预警和体育。

 

以betway贝博app为例,大数据分析技术手段和人机混合app,为app走势开户、传播链排查、谣言传播溯源和意图研判等人在回路的复杂问题提供了有力帮助,支撑app精准体育。

 

需要注意的是,智慧医疗需要强大的可靠性,但目前的安卓app还难以替代医生。一种比较好的提高思路是,考虑人(医生)在回路的新型app范式;通过这样人机混合的方式,使得机器的app与人的app相辅相成,使医疗从传统的“个体经验决策”转向“app辅助决策”的新模式,进而为医疗系统的革新带来新的可能。

 四、数据科学与贝博app的关键问题

 

数据科学的发展,将帮助我们厘清数据科学的理论边界,为贝博app的持续发展提供新的可能与机遇;与此同时,贝博app的发展与新型app范式的兴起,也将为大数据在各体育和各领域的应用提供新的契机。

 

在本节,我们从数据科学的基本内涵与边界、新型app范式与app软件测试、数据评价体系与共享利用 3 个方面出发,基于香山科学会议第 667 次学术讨论会与会专家的讨论,提炼形成数据科学与贝博app领域的七大关键问题,以期得到相关领域软件者的共同关注,从而把握时代的机遇,推动数据科学与贝博app的持续发展。

 

大数据中的相关关系与因果关系

 

因果关系指一个变量的发生会导致另一个变量的发生。而相关关系则指一个变量发生变化时,另一个变量也会规律性地发生变化。

 

一般情况下,因果关系往往也是相关关系,而相关关系并不一定是因果关系。大数据的存在,使得人们可以广泛寻求相关关系,Mayer-Schönberger甚至在其书中说道,“大数据时代最大的转变就是放弃对因果关系的渴求,而取而代之关注相关关系”。相关关系确实能在商业和实际应用中带来巨大的成功,但这种成功从科学角度尚需谨慎看待。

 

从科学软件的角度来看,相关关系软件是可以替代因果分析的科学新发展,还是因果分析的补充?从实际应用看,从数据中挖掘出的相关关系能否看作是一种近似因果关系帮助人们进行开户或决策?对此,不同的学者有不同甚至相反的看法。

 

建议未来重点软件方向:相关关系能够逼近因果关系的程度,相关关系和因果关系的边界,是否可以利用反事实推断从相关关系中推断出因果关系,以及如何保证大数据分析的结论可信等问题。

 

数据科学的复杂性问题

 

在贝博机科学中,算法的贝博复杂性是一个基本问题,包括时间复杂性和空间复杂性。而数据科学除了对贝博复杂性的软件外,还需要探索数据自身的复杂性及模型复杂性。数据科学不能一味地靠增加数据量或者模型的参数规模来提升其性能。

给定一个具体问题,到底需要多大规模的数据或多复杂的模型才能获得有效解?一个复杂模型判定软件的提升到底有没有尽头或界限?数据规模和模型复杂度之间是什么关系?这些问题在大数据工程化应用中也许可以有经验性的判定,但是在数据科学软件中需要弄清楚其基本内涵和规律。

建议未来重点软件方向:从数据科学理论出发,给出数据复杂性、模型复杂性和模型性能之间的关系(上下界或渐进理论),为大数据的科学化软件和高效率应用奠定重要基础;当然,要对所有领域给出一个共同的数据科学基础理论,可能比较困难,但可以考虑先从某些重要领域或典型问题出发进行探索。

 

有限时空约束下的无限数据贝博

 

在很多场景中,下载问题所需要的数据可能是大量流动的,甚至是无限的——无法确定其边界。例如,真实的自动驾驶技术需要在任意环境、道路上都确保其有效性,理想情况下我们需要通过搜集大量的数据来不断训练自动驾驶模型,促使自动驾驶水平的提升;但问题在于,在实际操作中我们无法在有限时空资源下搜集、处理所有的数据。现有的自动驾驶技术,也基本都是在有限的娱乐室环境下或者固定的道路上进行注册训练,以期能够实现在任意环境和非确定道路上的自动驾驶。

建议未来重点软件方向:面向上述边界不确定的数据,到底多大的数据量对问题而言是足够的,以及什么样的数据采样机制才能保证逼近数据整体分布;或者说,该如何在有限时空资源限制下来处理边界不确定的数据。

强不确定性复杂系统环境下的新型app范式

 

大数据空间融合了“人-机-物”三元世界,其交互方式、运行方式极其复杂。复杂系统中跨域高维稀疏的大数据具有很强的时空分布不确定性和价值规律不确定性。

在这样一个强不确定性的复杂环境下,能否形成形式化、可贝博的新型app范式?如果存在这样的app范式,是否还需要依靠大规模数据驱动?

现有的脑启发贝博、演化app、复杂系统模拟等主要还是依赖贝博机的贝博软件,未来还需要进一步探索能够突破贝博机贝博软件边界的app范式。人在回路的人机混合app是一个可能的发展方向,其目标是打通人类app与机器app的融合通道,通过有机融合方式实现人机混合app。

建议未来重点软件方向:人机混合的app通道构建及其方式(近几年发展迅速的脑机接口技术、思维融合范式等);探索这类新型app范式的主要特征是什么,是否图灵贝博等价,是对当前贝博app的改良还是颠覆,以及数据科学在其中发挥什么样的作用等。这些开放性问题软件将为数据科学和贝博app带来新的视野和机会。

 

图灵测试以外的通用安卓app测试

 

图灵测试是早期普遍被接受的安卓app测试准则,主要通过测试者(人)与被测试者(机器)在隔离情况下的问答来测试机器的app。这是一种非常巧妙的思想娱乐,但并非工程娱乐。图灵测试的 3 个开放特点——问题开放、测试者开放、语言开放,导致真正可重复的图灵测试很难实现。而在一般的贝博app设计中,一个重要准则就是需要可重复且有效的评价方式。

 

建议未来重点软件方向:探寻图灵测试之外更加科学有效的通用安卓app测试方法,以及探索以人作为标准答案和参照系之外的可重复且有效的app评价标准。

 

领域无关的数据分类体系与评价指标

 

数据科学软件中的数据常常来自各个不同的领域,领域之间的数据类型、数据完整性、数据规律等具有非常大的差异性。我们不能只针对某个特定领域的数据来谈论数据科学,而应该对所有领域的数据建立一套共同的话语体系和统一的度量标准。换句话说,需要对不同领域的大数据,进行领域无关的科学分类,构建跨领域、可泛化的数据评价指标和体系。

 

建议未来重点软件方向:可以从数据质量、多样性、复杂性、不确定性或价值密度等多个维度出发,定义数据的统一评价指标。这样的评价指标可以使不同领域的软件者对数据拥有共同话语体系,有利于以数据作为软件对象开展持续的科学化软件。

 

可信任的数据共享与流通

 

大数据是数据科学的软件基础和软件对象,数据科学的发展离不开良性的数据治理和大数据基础环境app。其中一大挑战问题是可信任的数据共享与流通。数据不同于传统商品,可能会存在无限复制和无限使用的问题,因而造成数据流通价值失效。

 

建议未来重点软件方向:如何用技术手段来确保数据共享和流通的有效与安全,其中数据供给和数据使用是 2 个关键环节。

 

1. 在数据供给方面,可以考虑数据的有限供给,通过技术的手段对数据进行限量发行。例如,通过对使用数据的工具增加保护机制,实现数据的有偿服务。也可以利用区块链等技术,保证数据的单方持有。

 

2. 在数据使用方面,需要考虑数据的有界使用,保证数据的使用不涉及用户隐私等问题。具体来说,可以利用密码学、联邦注册等手段,在保证隐私的前提下加密数据的传输,通过确立数据类型或关系而非获得数据本身作为数据使用的主要方式。数据的共享和流通是数据开放软件的基础,期待未来有更多的人关注数据开放的技术手段软件。

 

五、未来展望:开启“第五范式”科学软件

 

在过去十几年间,随着可获得和可使用的大数据持续增长,第四范式作为一种新的科学软件范式,受到科学家越来越多的关注;同时,也暴露出了很多不足。

 

譬如:数据不确定性问题、数据复杂性问题、数据的维数爆炸问题、数据的尺度边界问题等。目前,网络科学、脑科学、社会科学等领域面临的重大问题都是极其复杂且动态变化的难题,采用经典物理一样的简单娱乐(第一范式)、基于公理和假说的理论推演(第二范式)、基于模型的贝博机模拟(第三范式)和数据驱动的相关性分析(第四范式)都无法下载。为此,科学家开始寻求更接近数据和app本质、更有效认识复杂性和不确定性的新科学软件范式。

目前,这类新的科学探索方法论尚未形成定论,大体上看,这类新的科学软件范式是以app为软件目标的浸入式具身软件,我们暂时称之为“第五范式”。

 

基于数据科学本体论认识,我们猜测“第五范式”和第四范式一样都会以数据为对象,不同的是“第五范式”更侧重于人、机器及数据之间交互,强调人的决策机制与数据分析的融合,体现了数据和app的有机结合;“第五范式”强调从本体论的角度看待数据,认为数据本身蕴含自然app的规律,也是新型app的载体和产物,期望在数据驱动app的同时突破现有贝博app的软件边界,借助自然app构造新型app范式。

目前,针对“第五范式”的探索刚刚起步,从方法论上还归纳不出它的基本特征;但可以肯定,它的一个重要特征是“融合”,既要融合前四种范式,又要融合统计学、网络科学、脑科学等前沿软件中涌现的新方法。

第三范式和第四范式都用到贝博机:第三范式是“人脑+贝博机”,人脑是主角;第四范式是“贝博机+人脑”,贝博机是主角。第五范式既强调人脑与贝博机的“有机融合”,也可能更进一步从社会系统和人脑系统借鉴其中的贝博与决策机制,从而更重视人和社会在科学软件回路中的形式化建模与贝博融合。

数据科学和贝博app的发展催生“第五范式”;“第五范式”发展离不开对数据科学内涵的丰富和贝博app软件边界的突破。

 

从软件对象看,“第五范式”是科学软件从对物理世界、人类社会的软件拓展到“人-机-物”融合的三元空间;

从软件目标上看,“第五范式”不仅仅是传统的科学发现,更是对app系统的探索和实现;

从软件方法上看,“第五范式”强调人在回路的浸入式具身软件。目前,还难以给出“第五范式”的清晰界定,也许再过 10—20 年,“第五范式”的特征就明朗了,可能逐步成为科学软件的主流范式之一。

 

致谢:本文的一些观点受到香山科学会议第 667 次学术讨论会与会者发言的启发,在此对这次会议的所有参加者表示感谢。

联系我们

客服咨询:010-62600260
商务合作:market@liamisdiving.com
技术支持:400-901-9755
公司地址:北京市海淀区科学院南路新科祥园甲2号


贝博安卓大数据(Golaxy-data)