研究方向  

       实验室将以数据科学基础理论、数据界探索和数据技术及其应用作为主要研究方向。

       1)数据科学基础理论

       (a)研究数据相似性理论
       数据相似性是衡量数据对象之间的关系、研究数据和分析数据的基础。数据相似性理论研究包括:相似性的定义、相似性计算、相似性函数的性质及分类、相似性函数评估准则等。相似性理论的建立将解决数据挖掘和大数据分析技术中的核心问题,使得数据挖掘的适应性和可伸缩性大幅提高,并将影响数据领域的技术发展。

       (b)研究数据测度和数据代数
       数据度量和计算是数据科学中的另一个基础问题。一个正确完备的数据计算理论是数据科学的基础之一,这需要研究和建立针对不同类型数据的代数体系。关于数据代数,目前已经有“关系代数”为关系型数据的计算提供理论依据。对于非关系型数据,需要定义“由数据集构成的集合上的度量方法和运算”,形成一定论域上的数据代数,包括:研究和定义数据集;定义数据集上的测度;定义“单位元”(“零元”、“幺元”)、数据运算(“加法”、“乘法”等),分析数据集的代数结构特性。如同关系代数为关系型数据的计算提供理论依据一样,所建立的数据代数将为非关系型数据的计算提供理论依据,在复杂数据对象处理的技术上取得突破。

       (c)探索数据科学的研究方法
       数据勘探、数据实验、数据感知化是目前数据科学所需要研究的一些基本方法。数据勘探是勘探数据集的总体特性和结构,数据勘探方法研究包括数据集价值判断、数据集分析方法选择和数据集可访问性分析。数据实验用于验证自然界和数据界(Datanature)的假说和规律,用于模拟人文与社会行为,也可以用于数据规律的发现,需要研究数据观测的方法和工具、研究数据实验的方法和工具、研究实验评价和可重复性等问题。数据感知化是将数据转化为通过视觉、听觉、触觉、嗅觉、味觉等方式可直接感知的形式。

       2)数据界探索

       (a)数据基本规律研究
       当人们将自然界和人类社会的科学研究成果以数据的形式存储在网络空间时,对数据界的探索则是更高级的科学发现。数据界的大小、数据的增长方式、数据真实性、数据增长对人类社会的影响等等,是探索数据界的基本研究内容。

       (b)数据分类
       数据分类是数据界探索的基础之一,包括:研究分类标准,以达成在数据认识概念上的共识;建立数据本体,对整个数据界定义数据本体,在各元数据之间建立联系,即建立多种关于数据的本体(称为数据百科全书),并建立这些本体概念的相似关系和联系,为数据的访问和理解提供权威解释;对已有的数据集根据分类标准和数据本体进行分类,形成人类认识数据界的基本类别。

       (c)数据界安全
       研究网络空间的数据安全、数据主权问题;将数据科学的理论和方法应用于军队信息化建设,建立军事数据学(基于数据的战争模拟、军事训练、情报分析、军事理论、战场态势感知、网络舆情分析等);将密码研究方法等用于数据科学的研究,以丰富和发展数据科学的研究内容。

       3)数据技术及其应用

       (a)科学研究的数据方法
       目前,几乎所有的科学研究都使用了计算机,在计算机系统中都存放有巨量的数据,科学研究面临方法的变革和创新,需要研究基于数据和数据技术的科学研究方法,称为科学研究的数据方法。科学研究方法从之前的“科学假设”-->“科学实验”-->“实验结果分析”-->“证伪假设”-->“科学假设”,转变为“科学假设”-->“数据获取与整合形成数据资源”-->“数据挖掘与分析”-->“数据结果分析”-->“科学实验”-->“实验结果分析”-->“证伪假设”-->“科学假设”,从而利用数据提高科学研究的效果和效率。

       (b)领域数据学
       现代科学研究需要多种研究方法的融合,例如,生物实验方法和生物计算方法的融合,产生了生物信息学。如何将数据方法融合到具体领域的科学研究中是一个重要课题,需要探索数据密集型科学研究的共性问题,并在基础较好的学科中开展实践。除一般的理论和方法,对数据内容的很多研究将由各领域的科学家来进行,发展专门的理论、技术和方法,从而形成专门领域的数据学,例如:脑数据学、行为数据学、生物数据学、气象数据学、金融数据学、地理数据学等等。

       (c)大数据复杂性
       大数据的复杂性是制约大数据处理效率和效果的关键要素之一,也是大数据处理成为一个技术问题的重要因素。大数据复杂性分析需要从系统层面,运用系统科学的基础理论与方法探索其机理、寻找基本方法体系(包括:研究数据集复杂性的建模理论、处理过程复杂性的约简方法、知识体系复杂性的表示理论等),建立大数据处理、分析的过程模型。

       (d)大数据挖掘技术
       通过分析大数据的复杂性以及大数据环境下产生的新数据挖掘需求,归纳、抽象和定义新型数据挖掘任务(例如数据网络挖掘、特异群组挖掘、图挖掘等),提出相应的数据挖掘度量(例如特异度度量、兴趣度度量等),建立针对复杂数据的新型挖掘模型,优化数据挖掘算法等,在形式化定义的基础上形成新型数据挖掘理论体系和方法框架。

       (e)大数据应用
       面向上海经济建设和社会发展重大需求,开展科技成果转化和产学研结合工作,研究数据技术在上海智慧城市建设中的应用,包括智慧交通、智慧医疗、智慧金融等各领域的应用,例如个性化线路推荐、数字医院、移动医疗、区域医疗建设、舆情与市场行情异常波动分析等。