随着互联网技术和数据存储能力的迅猛发展,我们进入了数据繁荣的时代。如何从海量数据中获取有用信息、分析数据背后的规律是个越来越重要的问题。数据挖掘和分析技术的发展为我们提供了可行的思路。
为了解决这个问题,刘泽军教授带领团队开发出了一种基于图像和文字数据的联合学习模型。该模型利用多种不同数据源的信息,实现了大规模异构(heterogeneous)数据的深度学习。其中,包括任务驱动的训练方法,以及对训练模型结果的可解释性研究。
据悉,该模型的创新在于它解决了数据源异构问题,同时可以处理半监督的分布式训练。在解决数据关联问题方面,刘泽军教授表示:数据中存在着各种各样的关系,研究如何从这些关系中提取信息及使之形成有意义的结果是一个有趣却复杂的问题,挑战在于找到可以刻画数据之间多种关联的联合表示。
刘泽军教授在探讨中国数据挖掘领域现状时认为,中国传统核心数据技术相对欠缺,而建设核心的数据技术成为目前的发展重点。此外,目前全球大数据企业的竞争越来越激烈,而中国作为挑战者,也需要在数据处理、数据分析、数据挖掘等方面持续进行技术创新。
跨数据源联合学习是中国数据挖掘发展的一大热门。刘泽军教授指出,数据挖掘技术的民用化是一个必然趋势,未来针对各个领域的实际需求,数据挖掘领域将继续取得重大突破。