搜索
您的当前位置:首页正文

信息机房管理模式浅析

来源:二三四教育网
鼗塑、蹩凰.

基于关系型数据库的管理信息系统中内容管理的实现

武晓冰

(煤炭科学研究总院,北京市100013)

瞒要】本文以国家科教计划经费管理信息系统的应用实践为背景,提出多棒眭电子数据的采集及储存管理等技术,结合XML应用、文

挡处理、PDF合成等结构化数据与非结构化数据的转换研究,提高了数据采集效率,改善了电子数据的处理方式,从而满足电子政务对多样数据内容管理的处理要求。

良;建阖】管理信息系统;关系型数据库;非结构化数据;XML;电子政务;内容管理

随着计算机技术、网络技术和通信技术的发展和应用,全球正逐渐由工业化时代步八信息化时代。为提高信息资源的管理和利用水平,人们往往通过信息化的手段来将信息资源电子化,并实现系统的管理和使用,如何使管理信息系统更好的处理大容囊的多样性的电子数据成为信皂化成功的基础。电子政务是当代信息化的最重要的领域之一。其数据

内容同样多样,仅依靠结构化数据及管理很难满足复杂业务要求,本文

以国家科技计划经费管理信息系统的应用实践为背景,提出了多种数据

转换与管理方式,以实瑚刘结构化数据与非结构化数据的整合内容{!理。

~、内容管理的数据对象

电子数据分为两类:一类信息能够用数据或统一的结构加以表示,

如数字、符号,称之为结构化数据;另一类信息则无法用数字或者统一

的结构表示,如图像,文档、表格等,称之为非结构化数据。结构化数据与非结构化数据各有优劣:结构化数据结构清晰,数据整齐,现行的

关系型数据库可以提供良好的存储和管理支持,检索方便快速。但其数

据的迁移、呈觋等往往需要通过某种特定规则进行解释,否则只能是被

分割的没有太多意义的元数据,而这种规则的解释依赖特定的信息管理

系统或者数据库环境:非结构化数据内容丰富,迁移、呈现依赖的环境

简单,但其数量大、格式复杂多样,只能通过文件系统或流媒体数据库进行存储及管理,而内容难以检索。

“内容”一词,源于出版媒体业,书报杂志、唱片影带里的刨作,叫做内容,所以早期的内容管理CM(ContentManagement),偏向出版产品的管理。随着网络的普遍使用,

“内容”扩大成全部资料信息

的内容了。因此以往只注重刘结构化数据的处理的数据管理l型管理信息

系统已经不能满足电子政务不断上升的业务应用要求,需要向更为全面的内容管理转变。

二、内容管理实现方案

内容管理面临的最主要的问题就是如何避免结构化数据与非机构化

数据各自的劣势,让结构化数据易于呈现,而非结构化数据易于检索。解决的方法就是利用数据库、存储管理及数据转换技术,将结构化与非结构化数据进行优势互补。这需要解决以下问题:

(.一)结构化数据转换为非结构化数据

由于.NET平台对OFFICE文档处理有良好的支持接口,同时存在

大量基于该平台的第三方插件,将结构化数据转换为非结构化数据的方式相对简单,可以通过控件在采集结构化数据的同时将数据保存为

EXCEL或合成为WORD、PDF等格式的电子文件存储于文件系统,之后为数据库中的结构化数据扩充内容,增加一项元数据指向其非结构化呈现的副本,作为两者的关联。

(二)非结构化数据转换为结构化数据

非结构化数据不具备严格的结构,因此,较之结构化信息更难以标准化,管理起来较为困难。针对这些特点,以往大容嚣的非结构化数据还是采用文件方式单独存放,数据库中只是存放类似指针的索引及极少的简单的描述数据,如标题、来源、日期、内容摘要等。由于非机构

化数据格式复杂多样,对其结构化的处理不尽相同,本文仅介绍政务信

息化中最为普遍的文本文档、扫描件、电子表格三种数据内容的处理方式。对于文字文档,如Word、WPS等,在采集

时采用NTKO等

文本编辑控件,在编辑时在界面上装载整体文件的模板,而在该模板中对应的内容区域是指窗体域等模式。通过系统的处理,在用户编辑保存

2010年8月(上)

的同时,将这些内容区域中的文本内容同时提出与整体文件一并提交,

一方面将整体的电子文档作为非结构化呈现保存至文件系统:另一方面将提取的纯文本内容以结构化的形式保存于数据库中,并将两者建立联

系。相似的,在采集扫描件时,通过图像识别技术进行文字抽取,将非

结构化的扫描件与结构化的抽取内容分别保存并建立联系;采集电子表

格时,通过VBA接口,将电子表格内容读取并全文保存至数据库。通

过这些并行的存储方式,使得数据同时存在结构化与非结构化两种形式,从而在检索和呈现两方面取长补短。

㈤数据库与XML作为衔接

同一数据存在结构化与非结构化两份副本,如何保持其完整性和一致性是内容管理必须考虑的问题。由于XML语言具有自描述性和高度灵活性,XML是一种半结构化的数据,因此在数据交互过程中,在XML中分基本索引信息和非结构化文件的指向两部分内容描述非结构化数据,利用它作为结构化数据和非机构化数据的统一载体。另外,通

过对管理信息系统逻辑的改进,将文件系统的事务性操作与数据库建立

关联,操作处理中参照数据库中建立的标志信息为指导,依赖数据库强

大的存储管理和事务处理能力来实现事务陛和完整性的约束。

C四)分层次的检索和呈现

当数据同时存在结构化和非机构化两种形式后,对于数据的检索

等内容管理应用就相对轻松。在制定基于这些数据的应用时,按照需求不同进行分层次的检索,一部分是类j以以往信息管理系统的最基本的结构化数据或者非结构化数据的索引信息,如标题、类型等,而另—部分

就是对数据内容的全文搜索。在呈现时首先是类似列表、摘要等形式的

第一级呈现,内容是数据库中存储的结构化数据,而如果用户需要可以

进—步的查看类1以物理文件的非机构化形式的完整呈现

三、不足与发展方向

目前的数据转换在转换效率和精确度方面仍存在不足,更遗憾的

是每一种非结构化数据的转换都是特定的方式,没有一个统一的解决方

案。究其根本,在于各个非结构化数据本身就没有能够统一解释的方

式。XML是Internet环境中跨平台的,依赖于内容的技术,由于其

“半结构化”的特性,使其兼具结构化与非结构化的优势,在内容管理

应用中不可或缺。但就目前来说,XML在数据描述方面还缺少统一的标准,使得各个系统之间的数据交互仍然存在隔阂。另外,依靠文件系统实现对非结构化数据的存储和管理也存在缺陷,随着应用系统管理的数据量不断增大和对数据操作的复杂化,文件系统提供的数据存储功能

已经不能满足当前不断增长的存储需求,将来类似GSL将非结构化数据集中存储,同时支持事务的存储方案也许会是更好的替代。

四、总结

将XML以及其他内容管理技术与关系数据库的结合,通过将结构

化数据与非结构化数据相互转换,能够实现非结构化的数据“结构化”

管理,也能使结构化数据有用“非结构化”呈现,较好的满足了管理信

息系统对多样性数据的内容管理要求。同时,管理信息系统的内容管理

不是孤立的,它还需要与其他软件技术紧密结合,也需要更为合理、符

合信息化要求的业务流程支持。

作者简介:武晓冰,1981年生,男,北京人,煤炭科学研究总院工程师,研究向为电子政务信息化、

库应用。国家科柱计划经费

管理平台系统、国家科教计划经费申报中心等多个项目的主要研发人员。

因篇幅问题不能全部显示,请点此查看更多更全内容

Top