国家档案局2001年6月5日发布的 《档案管理软件功能要求暂行规定》第十四条,对档案数据文件的通用文件格式进行了推荐,其推荐格式为JPEG和TIFF。
据统计,现有的数据格式已经达到180种。绝大多数格式只能由创建它的特定应用程序来打开和运行。我们不可能在每台计算机上安装180种应用程序来对付它们的出现。国家对档案管理软件的数据进行通用格式的规定是绝对必要的。但是,在日新月异的计算机技术发展大潮中,JPEG、TIFF已经显现出了它落后的尾巴,比JPEG、TIFF更为科学的格式已经呈现。
一 注意JPEG数据在压缩中的“自杀”
JPEG是开发它的组织联合图片专家组(Joint Photographic Exerts Group)的英文缩写。JPEG具有两大明显的优点:一它是计算机和万维网图像处理时使用的主要图像文件格式,因而具有“通用”性;二它是一种具有很高压缩比的静态图象压缩格式,可以压缩图像数据,使文件体积较小。而图像文件体积越小越节省磁盘空间,导致设备和资金投入的下降以及传递主检索和利用的速度加快。
但是,JPEG的压缩功能有一个致命的缺点,即有损压缩。它每打开、编辑和再保存一次,图像就重复被压缩一次,数据也会被重复损害一次。在开始阶段我们也许会看不到数据的明显损坏,但作为被推荐的通用格式,其应用范围最大,频率最高,时间最长,最终的结果必将导致我们原本要永久保存的数据“自杀”——被完全损坏而无法运行使用。为对历史负责,我们不能把“卵”置于危“巢”之上。
二 小心Tiff数据“泛滥”成灾
TIFF是带标记的图像文件格式(Tagged Image File Format)TIFF的英文缩写。与JPEG相似,它也是计算机和万维网图像处理主要图像文件格式,因此而具有“通用”性;与JPEG相反,是它执行的是对文件的无损伤压缩,它可以使档案数据处于安全的运行状态。但是,它在无损压缩时,又产生出了另一个负面的严重问题,即它的照片等图像格式占用存储空间极大,一个6寸普通照片竟然达到4M,是JPEG图像的35倍。这对于有限存储空间来说,简直是天文数字。假定一个单位的档案目前用JPEG格式只需要1000G容量(10个100G硬盘)可以装下,那么,用TIFF就需要用35000G(350个100G硬盘)才能装下。而随档案的数量逐年增加,其存储器也就要以大于JPEG的35倍以上的速度不断增加。如果称JPEG状态下的档案数据是“海量”,那么TIFF状态下就成为“海+海+海……”,导致设备和资金投入的恶性上升,数据在系统和网络上传递速度越来越慢,造成档案数据保存和利用上的灾难性后果。TIFF在文字扫描上虽然比JPEG小,但仍然显得过大,也不是理想的格式。
因此,TIFF格式只宜针对个别需要高倍率保真的图像文件应用,而不宜作为“通用格式”。
三 MDI,一个最近呈现出来的新秀
从2004年微软公司Office2003上市后,数据格式中新添了一位优秀的成员——MDI。由于它刚面世,至今还在计算机技术和应用程序的“牛毛”中没有被人认识,也就理所当然没有为2001年出台的《档案管理软件功能要求暂行规定》所关注和提及。它是Office2003工具软件中扫描管理软件“Microsoft Office Document Image”所产生的数据格式,是一种高分辨率的基于标记的图形格式,微软公司借其缩写把它命名为“MDI”。作为MDI格式在档案数字化中的突出作用的发现者,我在思考、摸索和运用中惊喜地发现,它在把JPEG的有损压缩和TIFF体积庞大的缺点排除在外的同时,将JPEG体积小和TIFF高质量保真、图片页面不能被人破坏和更改的优点集于了一身。而它所具有的JPEG和TIFF等其他格式所没有的以下优秀品质:
1 LPEG和TIFF格式文件中的文字信息不能计算机所识别,必须经过人工著录以及档案目录录入的方法,为计算机和系统建立起检索语言和索引系统(当然,目前的数据库技术也必须手工录入建立检索系统),才能为管理系统识别和检索。而海量的录入工程,正是档案数字化进程的瓶颈。而Microsoft Office Document Image经OCR自动识别MDI图片文字信息内容,可以为Windows和Google等搜索引擎自动索引和以任意关键词进行全文搜索,而正是这一伟大功能,使档案可以“现扫现用”,即扫描所得到的档案数据不用进行手工著录就可以投入检索利用。作为能够面对世界互联网的海量信息进行搜索的第一巨头Google,面对小小的桌面信息更是游刃有余,速度奇快无比。这将引发档案数字化的一场新的革命,催生出以自动索引和检索为标志的第二代档案管理软件。
2 它的体积更小。它的图像数据文件质量比TIFF还好,但体积只是TIFF的1/35。比JPEG也小一倍。黑白文字数据文件只是JPEG的1/6.5,是TIFF的1/4.4。因此,它可以比JPEG更少设备和资金投入,具有更快传输和检索查阅速度。
3 MDI目前虽然不为其他应用程序所运行,但其为通用性最大的文档平台 Office2003内含程序,它也可以产生出TIFF格式,可以将MDI转换为JPEG、TIFF和XML、DOC等通用文件格式,可以将所有可以打印的其他格式文件,转换为MDI格式文件,而其为通用平台 Office2003所自带,从而简化了操作节省了费用。因而它更具“通用”性,完全符合《档案管理软件功能要求暂行规定》第十一条“能够以DBF文件格式或通过XML文档进行数据交换,并具备安全、合理、灵活等特性”要求。
4 MDI的应用程序“Microsoft Office Document Image”是一个可以与图书界广泛利用的PDF 格式软件Adobe Acrobat 相媲美的优秀浏览阅读器,它可以对图片整体和个别内容进行打印、复制和格式转换,因此比Adobe Acrobat更优秀,我们可以将其打造为档案界的专用和通用浏览器。
所幸的是,《档案管理软件功能要求暂行规定》本身也只是一个“暂行规定”,国家档案局已经英明地留有给实践中的我们发现和提出它的问题不足。当然也就有“MDI”们充分发挥其作用的机会,我们恳切地希望国家局科研部门能够关注它,并在以后的正式文件中给予它应有的地位,让它能为档案的数字化发展作出杰出的贡献。
文章出处:湖南省怀化市档案局
文章作者:阎朝科