申报单位:湖南文盾信息技术有限公司
一、方案概括
基于数据挖掘和运用的智慧城市建设是城市发展的必然趋势,而数据的统一管理和安全协作是支撑智慧城市建设的基础条件。作为政府办公、企业调度、科研协作的主要数据样式,非结构化数据的安全协作需求随着跨地区跨应用协作的常态化与日俱增。针对上述需求,本方案旨在提供一个支持安全协作的数据管理平台,实现以下几个主要功能:
(1)建立标准的数据内容基础服务平台,实现对非结化数据的统一管理,灵活采集,建立标准化、可扩展的数据存储接口标准;
(2)围绕文档数据的自动采集、流转审批、协同编辑、权限控制、高效检索等需求,实现一系列文档安全协作工具;
(3)文档数据的内容挖掘和分析技术,支撑基于数据分析的政府决策和治理。
二、需求背景
作为智慧城市建设的主要责任主体,政府拥有日常办公、城市运行中产生的大量数据,对这些数据的开放共享与利用是充分融合和调动城市各构成要素的关键一环。因此,政府数据的有效共享与开放,能够让其在不同主体之间进行科学流转,进而有效提取并整合相关领域的关联数据,使之产生新的价值数据,以此提高政府数据利用率与增值空间,促进以数据为驱动的规范化、科学化城市治理决策体系的形成。然而,当前政务数据缺乏一个行之有效的、安全可信的管理手段,数据安全存储、高效协作、挖掘分析等都比较困难。如何在《数据安全法》的规范约束下,切实保障国家数据安全,有效提升政府精细化治理水平,是当前智慧城市建设中亟需解决的问题。
三、技术架构
本方案以私有云平台为基础,以大数据和人工智能技术为支撑,实现海量电子文档的汇聚存储、协同共享、挖掘分析和安全防护。方案采取标准化格式对电子文档进行组织和管理,具有自动标签,自动归类、内容挖掘、文档水印、加密保护、权限管控、格式转换、协同编辑等核心功能;方案提供统一文档管理接口,支持OA、ERP等第三方应用集成访问;方案基于PDF技术,实现电子文档主动安全防护能力。
本方案针对政府、高校和企业文档数据安全管理中的痛点难点问题,结合大数据管理、人工智能、区块链等热点技术,研究实用性强的非结构化数据安全协作中台,形成具有自身创新特色的技术体系。
(1)高性能的模糊关键字信息检索技术
本方案中检索的数据是经过加密的,检索具有模糊化、隐蔽性和可控性等特点。模糊化是指系统能够对用户输入的关键字进行模糊化处理,达到加密数据的模糊关键字检索效果,这样的数据检索方式具有更高的实用性和便捷性。隐蔽性指关键字以密文的方式进行检索,检索过程无需向云端透露任何关键字以及检索数据的明文信息。可控性是指检索的整个过程在用户的控制下进行,用户可以根据自己的需要进行适当的检索设置。加密数据模糊关键字检索技术的提出,达到了安全性和高效性的双赢。
(2)存储空间小、安全性高的索引建立方法
为了增强机密性,本方案对索引文件进行了加密,并运用前缀后缀压缩技术及差值压缩技术对索引文件进行压缩从而减少索引的存储空间。经实验测试表明,加密和压缩后的索引文件对检索的全面性和速度都没有造成很大的影响,极大地降低了服务器的存储压力。
(3)支持按需服务的文档数据多视图技术
视图原本是数据库中的一个虚拟表,不仅可以使复杂的查询易于理解和使用,而且更加安全。本方案采用了按需服务的数据多视图技术,根据政府工作人员部门、职能、行政级别、需求等的不同授予不同权限,这种灵活的权限设置方式成功解决了困扰公司的“加密”与“共享”、“安全”与“便捷”的冲突难题。
(4)基于主动防护的文档协作控制技术
针对电子文档在使用和传递过程中容易被篡改、复制、内容拷贝或以打印输出等形式泄漏的问题,本方案借鉴可信计算平台的数据封装技术和主动存储技术的思想,通过增加具有自主保护能力的安全容器实现主动防护。
(5) 基于机器学习的文档智能标签技术
针对海量文档数据的分类、查找的痛点,本方案采用采用机器学习进行文本主题分析。通过该方法,可以实现对文档数据的智能标签,即自动分析,自动分类、自动标签,进而实现海量文档数据的快捷分类、智能提取。
四、应用效果
文档资料是科研机构日常工作内容的一个重要载体,无论是科研项目申报、管理,还是研究成果发表推广,都是以文档的形式生成、流转、存储。一方面,由于科研文档往往涉及到知识产权、国家机密等信息,因此其安全性至关重要,那么上述任何一个环节出现数据泄露都会造成不可挽回的损失;另一方面,由于科研工作具有团队协作性,需要多个团队成员共同合作完成,这也包括文档的协同编辑。因此在科研机构中,文档管理存在以下痛点堵点:
(1)文档难以管控。因为没有集中管控平台来自动收集并规范管理团队内的科研文档,导致这些文档都散落在各个成员自己的电脑上,一旦该电脑中的文档丢失或者被窃取,就会造成失泄密事故;
(2)无法高效协作。为了管理好科研文档,部分科研机构实施了严格的电脑使用制度,限制用于科研的电脑连接网络、连接外部存储设备等,从而有效封堵失泄密的漏洞。然后,这样的保护措施会造成不同成员之间无法高效协作来完成对文档的共同编辑修改,极大降低了工作效率。
本方案正是针对上述两个方面的问题,研究实现了一个安全的非结构化数据协作平台。基于该平台用户既能够安全的管控文档数据,防止失泄密的发生,同时又能够支持同一机构不同用户间协作。此外,本方案还瞄准目标用户对于自主可控的需求,设计提出的产品能够兼容多种国产自主可控操作系统,包括基于国产飞腾CPU的麒麟操作系统和其他各种开源Linux操作系统。
本方案成果先期在国防科技大学研究生院、智能学院等单位进行应用,收到良好的应用效果。国防科技大学作为我国著名高等军事院校,承担了许多高水平科研项课题,也承担了培养高水平军事科研人才的重任,很多课题需要联合多家单位协同完成,学校内部也需要实现跨部门协作,人才培养和科研资料既有安全保密的需要、更有智慧协作的需要。通过在单位内部搭建本方案所述平台,对科研工作中的各类文档统一纳管,即便于使用查找,还不会造成失泄密。同时,基于平台提供的协作机制,该单位不同机构以及与外部合作单位间都可以进行高效的文档协同编辑处理,有效解决了协作不便的难题,该技术在疫情期间效果更为明显。
五、特色亮点
本方案的创新点主要包括:
(1)采用了具有隐蔽性、可控性和模糊化的高效数据检索方法,在保证安全性的前提下提高了文档管理中检索的效率;
(2)基于加密的双重压缩技术实现了存储空间小、安全性强的索引建立方法;
(3)提出的按需服务的数据多视图技术,实现了细粒度访问授权,有效保证了文档的可控访问;
(4)提出基于可信计算平台的数据封装技术和主动存储技术的主动防护,保证了文档在协作流转过程中的安全性;
(5)在文档集中管控的基础上实现文本内容的知识挖掘、知识分类、知识导航和知识利用能力,解决了文档管理中知识闲置的问题,提升企业的知识管理和利用能力提供了实用工具。
六、企业简介
湖南文盾信息技术有限公司成立于2009年。多年来公司深入研究了数据安全存储、文档可信使用、资料跨域协作等系列关键技术,取得了具有国际领先水平的“面向可信管理的文档主动安全防护技术”等一批高水平科研成果,建立了一个完备的、具有丰富经验和专业技能的高科技人才技术团队,并与中国工程院方滨兴院士联合建立湖南省级院士工作站。近年来,公司着重突破数据安全协作关键技术,研发产品获评工信部2020年“网络安全技术应用试点示范项目”。