大数据治理与元数据管理规范研究
Big Data Governance and Metadata Management (BDGMM)
分析全球互联网、物联网中的大数据经济机遇、智能城市以及其他新兴技术和市场趋势,具有可伸缩并能够实现可查找性的大数据治理和元数据管理的标准参考体系结构至关重要,这个标准可以保证来自不同域的异构数据集之间的可访问性、互操作性和可重用性,而不用担心数据源和结构。大数据治理和元数据管理也对大数据范式转变提出了独特的挑战。不管大数据是静态的、变化的还是事务性的,因为数据数量、速度和变化的多样性,并且可以累积,治理生命周期需要从创建、维护、折旧、归档和删除开始,保持可持续性。
本研究涉及大数据及其元数据的治理手段、方法以及规范化实施策略,研究目标是使数据集成或者混搭在来自不同领域存储库的异构数据集之间,并通过建立PaaS平台构建标准数据基础设施,使数据可发现、可访问和可用。同时,在数据的元数据管理方面,也需要深入考虑安全性和隐私问题。
机器学习自动化
Automated machine learning (AutoML)
在典型的机器学习应用中,实践者必须应用适当的数据预处理、特征工程、特征提取和特征选择方法,以使数据集适合机器学习。遵循这些预处理步骤,从业人员必须执行算法选择和超参数优化,以最大限度地提高他们最终机器学习模型的预测性能。由于这些步骤中的许多常常超出了非专家的能力,研究者提出了基于人工智能的机器学习自动化方案,以应对应用机器学习的不断增长的挑战。
机器学习自动化是将机器学习应用于现实问题的端到端过程自动化的过程。本研究旨在综合考虑同领域研究与商业化产品中已有的方案,针对数据清洗、特征提取、特征选择与降维以及模型选择与训练这四个方面做系统化研究与实施。
城市计算
Urban Computing
针对城市面临的主要问题,例如空气污染、能源消耗增加,城市计算是获取、集成和分析由城市空间中的各种源(如传感器、设备、车辆、建筑物和人)生成的大而异构的数据的过程,以数据视角解决城市问题。
城市计算连接泛在的传感技术、先进的数据管理和分析模型、以及新颖的可视化方法,以创建双赢的解决方案,改善城市环境、人类生活质量和城市操作系统。城市计算也帮助我们了解城市现象的本质,甚至预测城市的未来。城市计算是在城市空间背景下将计算科学与传统领域如交通、土木工程、经济、生态和社会学融合起来的一个跨学科领域。
本研究主要集中在能源利用、交通运输、健康医疗、环境保护这四个领域中。
成本效益和绿色感知的数据处理框架
Cost-Effective and Green-Aware Data Processing Frameworks
为了有效降低能源消耗和电力成本,集群能源管理的需求日益增长。然而,当前的数据处理框架并没有考虑到,在这两个主要趋势的背景下,数据中心工作负载消耗的效率在数据中心的差异是巨大的,忽略了这个事实,会导致显著的能源浪费。在本研究中,力图寻找一个具有成本效益和绿色意识的数据处理框架的最优配置。具体而言,特别关注数据中心焦耳效率的影响因素,包括MapReduce工作负载的能量效率、可再生能源供应、动态定价和电池使用等等方面。
大数据可视化分析与交互可视化
Visual Analytics and Interactive Visualization on Big Data
原始数据的快速积累为学术界和工业界在科学研究和商业发展中提供了许多新的机会,物联网(IoT)、电子健康记录系统、社会媒体、数据管理系统以及其他设备和系统使得各种数据能够快速累积。然而,大多数数据已经变得太大,几乎所有的研究和实践领域最终都将面对这个大数据问题。
数据科学使用不同的方法、算法和系统从这些大数据中提取信息、知识和洞察力。数据分析是通过广泛和系统地使用数据、统计/定量分析以及各种模型,来检测、理解和交流数据中的有用/有价值的模式,从而实施智能决策和行动。当传统的数据分析技术应用于大数据时,由于数据量、种类和速度的快速增长,存在许多挑战。为了处理和提取来自大数据的知识和洞察力,可视化分析(VA,Visual
Analytics)作为解决这类挑战的方法最近受到了相当大的关注。VA利用交互式可视化来增强人类分析推理,利用人的感知来直观地发现模式、趋势、集群、异常值和频率,从而提供对大数据的知识和洞察力。VA可以为网络安全、医疗保健、社会媒体、商业智能、物联网、教育、管理等领域的同质/异构、矛盾、缺失和/或多模式大数据的分析提供解决方案。
本研究旨在建立大数据可视化的综合分析框架,针对多源异构数据,结合交互式的探索性分析方法,实现可伸缩可视化,并进一步研究以低精度计算和迭代方法,实现可视化大数据的实时分析。