省档案馆现保存档案资料54万卷(册),已基本实现案卷级计算机检索,并在利用中发挥了较好的作用。随着科学技术的进步和档案信息化建设进程的不断深入,以信息化带动各项业务工作,促进管理水平和服务能力的提高,更好地为社会利用档案提供服务,已成为省档案馆可持续发展的新目标。为此,“十五”期间,省档案馆将档案文件级目录数据库建设列为河北省档案馆档案信息化建设的首要任务,自2002年6月启动现行档案文件级目录数据库工程,现探索建立起一整套科学流畅的工作规程和管理体制,取得了初步经验。
一、制定理性、科学符合实际的数据库建设规划
档案数据库建设是一项重大工程,科学的建设规划是搞好数据化建设的基础,因此搞好调查研究工作和科学规划显得尤为重要。省馆存54万卷档案,时间从公元1658年(顺治十五年)至2003年,跨度346年,数量庞大,玉石俱存。如何、尽快开发迅速建立起初具规模的数据库,规划的制定当属根本。经过深入调研论证,集思广益,制定了《河北省档案馆档案文件级目录数据建设规划》,确定数据库建设的指导思想是:以全面、深入开发档案信息为中心,以方便检索满足社会各方面的利用及科学化管理为目的,以提问式模糊检索要求为主要著录手段,突出重点,区别对待,分块实施,分步进行。
——突出重点即根据全宗立档单位职能性质、档案内容、重要程度、档案载体形态所具有的特殊性差别,将馆藏档案划分为重要档案、比较重要档案、一般档案、财会档案四部分。
——区别对待即对馆藏档案按重要程度采用相应的著录方式,以最有效的投入获得最满意的检出,达到数量与质量的统一,全面系统揭示档案信息。对重要档案采用文件级和文件组合级著录;比较重要档案采用文件级、文件组合级、案卷级著录;一般档案采用案卷级著录。
——分块实施即将馆藏档案按历史时期划分为清代档案、民国档案、革命历史档案、河北省撤销机关档案、河北省现行档案、资料六块,在每一块内按照全宗重要程度并结合考虑档案的利用频率,将档案归类排队,突出重要全宗和利用频率较高的全宗档案优先著录。
——分步进行即根据我省馆藏现状与实际,确定提问式模糊检索为主要检索手段,将数据库的建设分为二期工程。一期先对文件的外部特征进行著录,包括数据采集与录入两步骤,制定《数据采集方案》、《数据录入方案》和《数据审核方案》细化执行,以形成初具规模的数据库;二期再对其内部特征进行分类号、关键词标引,满足族性检索。
——通过著录过程中有针对性地积累数据并予以统计,掌握馆藏档案基本状况,实现规范化、科学化管理。
二、设置科学的工作流程和工作方案,找准对头对路的方式方法
工作流程设置,采取数据采集、数据录入、数据审核三步递进方法,设置四道质检关口,每一步对上一环节进行质量把关,环环相扣。在此基础上,制定可操作性强的工作方案。《省档案馆数据采集工作方案》、《省档案馆数据录入工作方案》及《省档案馆数据审核工作方案》,根据《档案著录规则》及省馆档案实体状况、模糊检索要求,确定具体著录项目。
同时,汲取先进省市成功经验,改变传统的填写工作单、录入、人工若干次校对模式,采用双人双机自动校对系统录入档案信息,由相关工作人员依据档案卷内文件目录与文件逐一核实,在原卷内文件目录上直接修改无误后,由两名专业录入人员分别依次录入,由计算机核实一致者进入临时数据库,记入工作量;不一致者,显示不一致内容,修改一致后进入临时数据库,如此循环,不断积累数据量。这种方法,不仅减少了人工工作量,提高了工作速度,更主要的是,减少了人为的误差,提高了数据质量,大大提高了工作效率。
三、确定合理适用的检索体系
开发档案信息的工作,档案馆多年来从未停止。只是历次不乏经验与教训。最突出的就是关于检索方式的立意。从管理者的角度出发,档案馆总是千方百计尽最大可能揭示档案信息,凡著录必是以主题标引与分类标引为主的智能检索。然而受认识程度的制约以及速度与质量矛盾的制衡,无论主题标引还是分类标引,结果都不尽人意。检索途径也往往从档案管理者的角度要求利用者,以主题词、分类号切入检索,使利用者感到困惑。省馆建立文件级目录数据库过程中同样遭遇此“瓶颈”问题,以致工作几乎无法进行下去。针对这种情况,由主管局长带队到先进省市学习取经,由业务骨干、技术人员组成攻关小组反复研究论证,最终形成现阶段档案检索理念——即采用模糊检索体系,以文件的外部特征档号、题名(关键词)、责任者、时间为主要检索项,揭示档案的主要信息,满足利用需求,实现第一层利用目标;今后再进一步补充主题词与分类号,满足深层次族性检索,实现第二层利用目标。经过一段时间的运作,工作效率大幅度上升,突破瓶颈,数据积累大有一日千里之势。可见检索体系于数据库的影响之重。
四、确保数据库建设的质量
抓住质量,就是要在总体规划指导思想的框架内,根据国家著录标准及本馆馆藏实际,制定具有本馆特色的著录方案并持之以恒严格执行,不随工作时间的变化而更改,不随任务要求的变化而更改,更不能随领导者的变化而更改。
对此,在每一步工序均设置质检岗,及数据审核共四道关口,层层把关,质量不合格,不能进入下步程序。第一步数据采集完成后,由采集质检员对各著录项进行抽查,抽查率在20%,允许误差率不得超过4%;录入员双机录入一致进入临时库后,由录入质检员抽查,抽查率在20%,允许误差率不得超过4%;然后由专职审核员依全宗目录顺序及录入顺序在计算机上进行逐条逐项审核。为充分贯彻数据库建设指导思想及速度与质量的关系,区分两种情况:对馆藏重要档案无论从哪个环节均严格标准,特别是审核阶段力求精益求精,由高级专业技术人员负责,凡有著录疑点记录在案,查档核实,力争重要档案数据误差率不超过4%;对比较重要档案允许适当放宽标准,由高、中级专业人员负责,误差率控制在1%左右。如此审核完成进入正式库之前,还需由计算机专业技术人员对应导入数据运用计算机进行复检,消除人工无法查出及人工漏检错误,确无误后,方能导入正式库提供利用。
特别需要提出的是,双机录入在提高工作速度上具有优势,但并不是录入即万事大吉。双机录入程序解决的是录入双方是否一致的问题而非正误,特别是由于缺乏人的思维与判断,虽然词语正确但语句、语义不通。比如“张家口”录为“长家口”,“宣读”录为“宣谈”,或题名与责任者不符等等。虽然有误,但如果两者录入一致,计算机同样通过,因此就需要档案工作者依据多年的工作经验对立档单位组织沿革、机构演变,对档案产生的历史背景、文书用语等综合判断进行最后把关。实践证明审核工作对保证数据质量至关重要,不可或缺。数据库数据积累过程中,还要不断进行总结与反思,及时调整策略,使采集与录入搭
配更为合理,使工作进度平稳推进,使数据质量切实得到保证。
文章出处:河北省档案局
文章作者:耿树伟