建设水利档案管理大数据平台的思考

发布时间:2011-10-09 09:24:56
  伴随着海河水利委员会(以下简称“海委”)水利信息化建设的发展,海委档案管理工作基于水利电子政务网,已将成熟的软硬件技术应用到了档案管理体系中,实现了档案的收集、管理、开发和利用。2017年水利部印发了《关于推进水利大数据发展的指导意见》,旨在推进水利行业数据资源共享开放,促进水利大数据发展与创新应用。那么,档案是大数据吗?云计算、大数据在档案管理中有什么作用呢?
  
   云计算、大数据与档案
  
  (1)云计算。云计算是分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡、热备份冗余等传统计算机和网络技术发展融合的产物。私有云和公有云是其重要的两种应用模式,私有云是单位自己使用的云,它所有的服务不是供别人使用,而是供自己内部人员或分支机构使用。公有云是云运营商提供给用户能够使用的云,一般通过 Internet付费使用。海委档案管理适合建立在海委私有云上。
  
  (2)大数据。大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据具有大量、高速、多样、低价值密度、真实性等五大特点。海委档案数据具备这五大特点。
  
  (3)档案。海委档案主要包括文书档案、科技档案、会计档案、涉密档案、机要档案、音像档案、实物档案、电子档案、地图等多种类型,已实现档案资源数字化,可为搭建新一代海委智慧档案系统提供基础数据资源。云计算能为海委档案管理提供基础计算和存储资源,加强基础设施的扩展和服务能力;大数据能为海委档案管理提供档案分析、挖掘能力,整体提升档案的业务服务水平。总之,档案管理负责生产数据,云计算负责数据存储和计算,大数据负责数据分析和提供服务。
  
   搭建海委云计算平台
  
  经过多年信息化建设,海委已建设包括电子政务系统、防汛抗旱指挥系统、水资源监控能力系统、水文监测系统、水土保持系统等政务及业务系统,各系统统一部署在信息中心机房,基于项目配置的软硬件环境独立运行,部分系统运行在虚拟机上。硬件计算和存储资源分散管理利用,在当前软硬件技术架构上无法共享及统一管理分配,需要利用云技术统一管理各项目的软硬件资源。
  
  (1)梳理已建软硬件资源列表。搭建云平台不是为了追逐技术,而是为了怎么为应用服务。应该认真梳理已建的应用有哪些,涉及哪些服务器、哪些软件,以及相关软硬件的型号、版本,为逐步向云平台迁移做好准备。
  
  (2)规划云平台核心应用功能。根据海委软硬件资源的现状,充分利用已有资源,实现异构资源和存量资源混合环境的按需分配、统一管理、统一调度和资源的合理规划。分层次按资源池/域/集群/节点对异构计算环境进行统一管理,构建海委云平台。云平台通过服务化的方式形成统一的基础资源服务目录,通过用户自助门户,实现基础资源的快速申请、审批和使用,支撑政务、业务对软硬件资源的需要。
  
  (3)定制档案管理的个性服务。海委档案电子原文信息几乎涉及所有电子文件类型,主要包括文本文件、数据文件、图像文件、声像文件、影像文件、多媒体文件、图形文件、超文本文件等。为了方便借阅用户使用档案文件,云平台应结合用户借阅权限自动提供文件使用虚拟化终端,借阅期满虚拟终端自动回收。
  
   建设档案管理大数据平台
  
  当前,海委的档案数据基本存储在关系型数据库中,客户端功能以查询、检索为主,由于数据量、服务器处理能力等原因,在此软硬件架构上很难对功能、性能进行大提升。因此,需要应用云平台、大数据技术按照实际内容应用流程实现,即建立数据的采集、智能处理、数据挖掘与智能搜索应用平台。通过多类型数据采集平台进行数据采集,在智能数据处理平台上对这些非结构化信息、多媒体信息和用户信息进行分析,最后在应用平台上提供数据挖掘结果的搜索功能和多媒体自动编研功能。
  
  (1)档案数据采集。档案数据采集离不开档案鉴定,通过业务专家、档案专业人员、大数据技术专家的档案鉴定工作,形成档案大数据采集的基础标准和规范。在新的采集体系中,可以扩大档案数据的采集范围,除了归档之前认定的档案文件外,还应将相关的文件及在线运行的历史数据进行自动的采集归档,为大数据应用分析、挖掘提供更丰富的数据支撑。
  
  (2)档案数据处理。根据档案数据采集的内容及数据间的关联关系,档案数据处理环节应充分利用大数据平台提供的元数据管理和数据标签能力,保留、定义、提取数据逻辑关系。例如,自动定义单页扫描文件与自动识别后的文本文件的关系,智能提取自动识别后的文本文件的关键字等。
  
  (3)档案数据分析。从海量的大数据库中找到用户可能最关心的档案,是大数据平台的重要任务,通过分类、回归分析、聚类、关联规则、神经网络方法、决策树等算法,能够根据用户的需要从不同的角度对档案数据进行挖掘、分类、提取、排名,快速定位相关档案。例如,用户根据当前工作的需要输入一段文字,查找相关档案,大数据平台将自动进行关键字提取,利用关键字快速检索相关档案,对搜集到的档案进行聚类分析,利用聚类结果对不同的档案赋以不同的类标记,然后利用分类功能组织档案。
  
   建立档案微应用、移动应用
  
  (1)档案微应用。传统档案系统的建设模式是通过设计、开发、测试、部署、试运行等阶段之后投入系统运行,用户才能正常使用,这种建设模式不仅投入大而且建设周期较长。架构在云平台、大数据技术基础上的档案应用开发模式是将核心、复杂的档案业务模块以组件形式封装到平台中,档案系统开发者可在平台的基础上自定义、组装业务流程,开发出更多碎片化、个性化的微应用。微应用比传统的应用量级轻,搭建起来简洁、灵活,同时对其进行改造的时候也更为便捷。每一个微应用之间都是松耦合的,开发者可以根据用户的需求去开发各种微应用,更直接地面向用户提供服务,档案系统的复杂度也会大幅降低,灵活度大幅提高。
  
  (2)档案移动应用。当前,随时随地可能对档案都会有需求,传统基于PC机的应用模式已无法满足用户的需求,需要开发基于智能移动终端的档案应用,结合微应用的建设方式根据用户的需求不断推出新的应用功能,充分发挥档案数据的业务支撑、决策支撑等作用。
如果您有论文代写需求,可以通过下面的方式联系我们
点击联系客服

提交代写需求

如果您有论文代写需求,可以通过下面的方式联系我们。