大数据应把握核心技术话语权

  • 来源:计算机世界
  • 关键字:大数据,IT,话语权
  • 发布时间:2012-02-10 17:11
  大数据是当下继云计算之后最热门的话题之一。在2011年,有关大数据的讨论充斥着各种研讨会,各大主流IT厂商纷纷推出与其相关的产品和服务。然而,在众多关于大数据的讨论中,中国研究机构和企业在数据管理的新一轮变革中很少有自己的声音。

  2012年1月6日,在北京举行的“中国非结构化数据管理高峰论坛暨‘核高基’科技重大专项课题成果发布会”上,记者了解到,大数据时代中国研究机构已把握了先机。本次会上发布了“核高基”项目——非结构化数据管理系统的最新研究成果,并就如何推动中国非结构化数据管理技术的研究和创新、加速国产非结构化数据管理系统的产业化进程进行了探讨。

  提前为大数据准备

  大数据问题的核心是非结构化数据的处理。根据“核高基”非结构化数据管理系统课题组的定义,非结构化数据是指那些显示数据结构的数据,典型的例子像文本、网页、邮件、格式文档、图型图像、视音频等。

  非结构化数据处理非常困难,因为其种类繁多且不断推陈出新,不同种类数据需要不同的操作方式进行处理。

  相关数据显示,大数据已成为当下诸多公司,尤其是互联网公司的必需品,一些公司待处理的非结构化数据已达ZB(10万亿亿字节)级别,如互联网公司的网络访问日志等。

  “迄今为止,软件行业经历了三次大的浪潮:第一次始于上世纪70年代操作系统、数据库的出现;第二次始于上个世纪90年代中期,半自动化数据文本处理软件的出现;现在已经进入大数据时代,表现为非结构化数据的大量涌现。”北京航空航天大学李未院士在演讲中表示,“中国企业在第一次浪潮中是跟踪学习,第二次则是主动参与,在第三次浪潮中要有自己的一席之地,所以我们要早做准备。”

  记者了解到,为了把握新型数据管理领域发展的先机,特别是在大数据时代中国能拥有话语权,国家“核高基”科技重大专项中提前部署,于“十一五”期间设立了“非结构化数据管理系统”课题。

  “‘十一五’期间,中国部署了两个相关课题,一个是关系数据库管理系统,另一个是非结构化数据管理系统。其中,关系数据库管理系统面向传统市场,而非结构化数据管理系统是作为下一代技术储备,瞄准未来的新型数据管理应用市场。”课题组成员清华大学王建民教授介绍说。

  据悉,围绕“核高基”的非结构化数据管理系统研究课题形成了三个主要的研究团队,分别由北京航天大学、清华大学、浙江大学组成。“应该说,在非结构化数据管理领域形成的这三个集产、学、研、用为一体的核心科研创新团队,为未来的中国非结构化数据管理的创新发展积累了宝贵的人才资源。”王建民如是评价。

  致力于掌握核心技术

  非结构化数据管理系统研究课题组经过两年多的科研攻关,取得了丰硕的成果。在大会上,课题组发布了三项重点研究成果,包括四面体数据模型、分布式柔性事物管理模型、跨媒体计算理论与方法。这些都是非结构化数据处理方面非常核心的技术。

  “非结构化数据管理有四个核心问题需要解决,即模型问题、系统问题、管理问题以及应用问题。”清华大学孙家广院士解释说。

  所谓模型问题是数据的建模,也就是如何统一表达结构化数据和非结构化数据;系统问题是指如何弹性地应对数据和负载的动态变化来构造一个系统,以支撑不同的操作行为;管理问题就是如何有效地存储和操作海量数据;应用问题就是如何在大型数据之上支持这个分析型和事物型的应用。比如,由北京航空航天大学牵头的研究团队推出的四面体模型解决的就是数据的建模问题,也是非结构化数据管理中最核心的问题之一。该四面体模型合理地表达了非结构化数据的基本属性、语义特征、底层特征以及原始数据等组成部分,以及各组成部分之间的内在联系。

  值得一提的是,非结构化数据管理系统研究课题的部分研究成果已形成应用成果——3款自主的非结构化管理系统产品,并成功地应用于盘古搜索、新华微博、天宇舆情分析等典型海量数据管理领域,不仅彰显了中国非结构化数据管理技术的核心竞争力与广阔市场前景,而且推动了非结构化数据产业发展。

  “未来,课题组还会致力于形成非结构化数据管理自主规范和国家标准,并建立非结构化数据管理公共测试平台,以促进非结构化数据管理软件产品的市场推广以及非结构化数据管理技术转移与产业化,最终促进新型数据管理产业链的形成。”王建民表示。

  本报记者 邹大斌

  链接

  三款自主的非结构化管理系统产品

  由北京航空航天大学为主研发的AUDR系统。AUDR提出了四面体数据模型和智能化查询语言,在多维数据模型、可伸缩体系结构、分布式存储机制、高效索引与检索等方面取得了突破。

  由浙江大学牵头研制的D-Ocean系统。D-Ocean面向开放互联环境中非结构化数据管理和网络化应用的需求,提供对非结构化数据的存储、分析、索引、查询等典型管理功能。

  由清华大学牵头研制的LaUD系统。LaUD是一款基于云平台、支持互联网级的非结构化数据管理,通过自主定义的LaSQL语言实现文本、网页、图像、音频的增加、查询、删除、获取操作。
关注读览天下微信, 100万篇深度好文, 等你来看……