非结构化资源建设主要是针对保存在各油田档案中心,资料中心勘探开发历程中产生的绝大部分信息资产,包括实物资料和电子资料两大类;
- 将地质资料馆现有的科技成果文档资料进行电子化整理入库,包括所有的文档、图形。电子化方式为数字扫描仪扫描,以清晰的、可检索的双层PDF格式存档。最终目的是实现在线查询,浏览,下载使用;
- 通过对馆藏纸介质资料的电子化,实现馆藏资料的有效保护,为档案管理系统充实可用的数据资料的同时,也挽救了那些已经破旧不堪的珍贵资料。充分保护和发掘了馆藏信息的应有的使用价值。
非结构化资源建建设的服务方案:
非结构化资源建设是成都博兰科技公司地质档案馆资料管理系统解决方案的基础,是针对档案馆现有的档案资料进行数字化,经过修缮(档案原件的修裱、字迹复原等)、校对、整理、著录等,使之成为符合一定标准和规范的、可检索、可发布和利用的信息化资源。这些资源以大型关系数据库(Oracle或者SQL
Server)数据记录的形式被保存在专门的数据库服务器中,从而在检索和安全方面都能够适应更多的技术手段,为将来的数据使用打下坚实基础。

采用各种技术手段,让原始资料完整化、统一化、有序化、元数据化、结构化等,从而形成可检索、可利用的信息资源。这其中完整化是指通过扫描、翻拍、OCR识别、人工校对和修复等手段尽量精确清晰的恢复档案原始资料的本来面目,形成可识别的版本;统一化是指对基于文本、图形的档按,通过扫描和OCR识别制作成为双层PDF格式的电子文件,对光盘资料制作成为统一的目录和索引,这样在使用这些文档时可以采用统一的工具进行处理;有序化是指针对文档的分类设计一系列编目,让这些电子文档能够有序的存放,对于原始文件,设置合理的物理存储位置,通过标签和条码等方式使其有序化;元数据化是指采用著录等手段用更多的信息尽可能丰富的描述文档资料,这样使用者不需要查看文档内容就能准确的了解文档本身,同时在检索方面也有很大的便利。
非结构化资源建设的产品特色:
成都博兰科技公司的档案电子化整理服务包括了数据资源整理、软件平台搭建、工作流程咨询和建立、配套制度这样一个四位一体的解决方案,满足了一个成熟的服务所需要的方方面面的要求,因此在整体性和全面性上具有不可比拟的优势。
成都博兰科技公司的专业服务不但能够满足通行的标准,同时在细分行业上也进行了深入的研究和实践,对中石油系统和中石化系统的最新标准都能充分支持。档案库、编目、著录项等内容的全面可定制、可预制性确保了灵活性和标准化;在档案管理方面,对纸介质(或其他实体)档案采用了快速分段著录、可视化实物存址管理、条码管理、借阅单等业务过程,对电子文档采用了文档脱机控制、水印等管理手段,满足了专业性的要求。
成都博兰科技公司的地质档案资料管理系统具有很高的安全程度。首先在开发工具和架构的建立上就采用了高安全度的设计;其次在权限模型的设计上也进行了优化,能够实现“案卷/档案”到“角色/用户”粒度的控制能力;第三开发了多项用于文档安全的专项技术,最大程度的保证了档案的安全;第四是安全和规范的作业流程,确保在系统建设期间不会出现任何文档安全问题。
成都博兰科技公司的地质档案资料管理系统基于开放的XML信息交换形式,在架构设计上采用了基于接口的组件化设计,确保了系统具有非常强的适应能力、服务能力和扩展能力,因此也就具有了很强的生命力。通过扩展,升级为分布式的数字档案管理系统,多个数字档案馆系统可以连接成为一个大型的分布式网络数字档案馆,文档处理能力和应用范围会进一步扩大。因此,成都博兰科技公司的数字档案馆系统具有长期性和持续发展的能力,对于用户的投资来说,无疑将带来巨大的回报。
非结构化资源建设的关键应用技术:
由于所有的档案资料都是油田公司的宝贵资源,所以数字化工作不能对原始文档实行拆订扫描整理,只能采用全息无损清晰扫描。
纸质文档资料无损扫描最关键的问题是一些页数较厚的资料,扫描过程中会出现书页的装订线一侧无法扫描清晰或出现弧度的问题。为保证扫描图像的平整,确保页数较厚的资料装订线一侧能够扫描清楚、平整,必须使用具有专利技术的全息书刊扫描仪,可以实现零边距扫描,即使较厚资料的装订线零“出血”,也能将整页文字完整、平整的扫描下来。经实际检验,99%的较厚资料都可以完美的扫描出来,其余部分可以使用手持扫描仪完成。

有些历史资料,因为幅面过大(超过A0幅面)或者印刷幅面限制的原因,在印刷的时候,都采取的是分幅印刷,对于这些资料,在电子化整理的时候,就必须按照资料内容进行重新修复拼接,使之可以完整显示,方便浏览使用。
扫描的图片歪斜,不清晰以及污点、折痕、噪点等,对以后OCR识别的影响很大,因此在扫描后要对图片进行纠偏和清晰度调整,确保形成PDF文件后进行OCR识别的识别率。同时还要对图像去黑边、去噪声、灰阶调整等影像增强操作。

将标准资料通过扫描处理后,生成可以检索的双层PDF文件,在显示的是原始页面的扫描图像,其下方含有不可见的OCR识别文本,这样既能100%保留原始资料效果,页面的外观不会改变,又可使文本变得可选择和可检索。
图像必须进行压缩后存储,以减小图文对象的存储空间,提高在线阅览和下载的速度。

油田相关的很多资料,凝聚着广大研究人员的劳动和心血,都有其特殊的安全保密性。
为了方便资料的安全,方便管理,对于资料的加密授权主要分为三个方面,水印标示;打开PDF文件天数,次数限制;条形码技术使用。