【所属领域】
软件服务
【痛点问题】
暗数据是指机构在常规业务活动中采集、处理和存储的信息资产,但通常不能用于其他目的(例如分析、业务关系和直接货币化)。对于暗数据,用户不知道其存在,或不知道其如何获取,亦或不知道如何释放其价值。
IDC的调研报告显示:暗数据占数据总量的68%以上,且占比在逐年攀升。根据行业的不同,企业的暗数据在其数据总量中的占比从40%到90%不等。充分利用暗数据将为企业带来巨大的利润,但现阶段,暗数据如同不能丢弃的垃圾,会加剧数据ROT(冗余,过时和琐碎),降低数据发挥价值的效率与能力,不仅会给企业带来巨大的维护开销,同时会对企业造成潜在的风险和损失。根据Veritas公司的数据显示,平均每家公司每年要花费4650万美元来存储从未使用过或使用频率极低的数据,但却无法按需使用这些数据。目前,国内的大部分相关部门和企业并未意识到暗数据的存在,也不了解处理暗数据的意义和价值。想要做好暗数据处理,面临三个行业痛点:
·检索难 缺乏针对暗数据的检索技术;
·评估难 缺乏一套针对暗数据的价值量化标准和价值评估技术;
·挖掘难 缺乏针对暗数据的存储技术。
【解决方案】
针对暗数据处理,提出了如下方案:
(1) 基于内容哈希的暗数据点亮技术
本系统通过解析暗数据的内容语义生成哈希码,再通过汉明距离计算哈希码之间的距离度量,利用哈希码作为元数据,利用距离度量作为组织标准,对所有数据进行图结构化组织,实现暗数据的点亮。首先训练自学习哈希模型DDCH,其中包括对比学习和无监督哈希函数学习阶段。利用预训练好的模型对暗数据集中的文件进行重构编码,每一个文件都生成一个哈希码与之对应。哈希模型的输入在语义上越相近,生成的哈希码的汉明距离也越相近。暗数据点亮时,通过DDCH模型将所有的暗数据生成为哈希码,然后使用图结构对所有的哈希码进行倒排索引管理。
图1 基于内容的自学习哈希模型框架示意图
(2) 基于语义汉明图的暗数据价值评估技术
管理哈希码的图组织,即汉明图。语义越接近的数据在图中的距离也越接近。在汉明图中,可以看到一些分布比较集中的子图,即一组语义相似的元素。在实际应用中,数据集的数目和密度无法统一,例如,部分数据集的图像总量大,而有些数据集中与检索需求相关的图像数量多,为了精确评估各数据集的价值,提出综合考量密度和数量的暗数据价值评估技术。通过计算各个数据在数据集中的重要性分数,再将需求转换为数据对数据集中的数据进行检索,检索出的数据分数即可代表数据集对需求的重要性依赖,即价值。对于重要性分数,子图越密集,即元素越多,汉明距离越短,该子图的重要性越高,越具备挖掘价值。为了评估每个子图的重要性,首先给每个子图打一个“重要性分数”,然后根据重要性分数给子图排序,排序后得到排名表(Score list)。
图2 基于语义汉明图的按数据价值评估技术示意图
(3) 基于元数据图谱的暗数据存储技术
暗数据存储系统利用哈希技术与语义汉明图技术生成并组织元数据,在不影响传统元数据组织的基础上,提供使语义相似的文件在逻辑结构上更接近的查找目标。该设计能够以外挂索引的方式单独管理生成的内容元数据。当需要查找某一类型的数据时,暗数据存储系统能够通过聚类来召回语义相似区域的数据,辅以双IO路径的设计,让系统既保留了现有存储系统的读写路径,又能够通过内容语义来查询并召回相应的文件,使得暗数据查询和检索更加高效和方便。
图3 基于元数据图谱的暗数据存储技术示意图
【性能指标】
在QQ相册真实数据上的测试表明,核心技术均取得了较大的性能突破:
【竞争优势】
目前,市场上已经出现利用暗数据的公司及产品。部分公司利用暗数据进行数据风险预测,降低数据泄露造成的损失以及抵抗网络攻击,包括但不限于Splunk的SIEM工具、BigID的云平台、Imperva的风险检测工具。另一部分公司能够对单模态暗数据价值进行初步的内容提取和开发,包括IBM用于处理文档暗数据的Datacap和专门处理视频暗数据的Dark vision。
本项目与国外产品比较,能够从内容角度管理暗数据,并根据价值评估技术有的放矢的推荐暗数据进行价值挖掘并释放价值,具有国外同等类型产品尚不能企及的科技水平。本项目不仅能够通过暗数据的价值评估来判断并降低暗数据的数据风险,并且哈希技术和暗数据存储系统具备处理多模态数据的通用性。本项目具有独立的知识产权,有着显著的技术优势,也具有持续研发的可能性,能充分满足潜在市场需求。
【技术熟化度】
试验阶段
【资质荣誉】
·国家技术发明二等奖1项
·湖北省技术发明一等奖1项
·湖北省技术进步1等奖1项
·SC‘06存储挑战赛finalist award1项
·中国电子学会科学技术奖科技进步一等奖1项
·中国电子学会科学技术奖科技进步二等奖1项
·相关论文《A Framework for Image Dark Data Assessment》在APWeB-WAIM 2019会议上荣获best paper runner up
【产业化应用】
在EB级多模态数据集中,利用暗数据的点亮、价值评估和存储技术,解决当前“检索难”、“评估难”、“挖掘难”等难题,实现暗数据的高效检索、精准评估和便捷挖掘。
市场前景
主要面向信息技术服务行业,通过释放暗数据的潜在价值,助推各行各业激发数字要素潜能。应用群体分为个人用户及企业用户,对于个人用户,提供暗数据处理解决方案,提高日常工作效率;对于企业用户,通过对企业内部暗数据进行分析处理,提升存储性价比,推动信创产业发展及信息化建设。麦肯锡公司在2015年的报告中指出:暗数据的潜在价值高达11.1万亿美元。2022年我国大数据产业规模达1.57万亿,暗数据占据了数据总量的68%以上,因此,暗数据处理具备相当大的经济潜力,是数据治理环节的重要一环。
应用案例
案例一:达梦数据库——“启智”文本暗数据管理系统
用户向服务器上传的文本数据达PB级,这些数据长期堆积、缺乏管理成为暗数据,影响数据库的维护成本及性能。Data Torch哈希模型可以为数据生成二进制索引,成为暗数据处理环节的关键技术,并在达梦的向量数据库进行工程化落地,检索速度提高了6倍,准确率提高了3倍,以数据安全为解决方案守护信创产业发展。
案例二:航天海鹰——遥感气象暗数据管理平台
气象卫星单日收集数百GB数据,这些数据长期存储、使用不及时成为暗数据。Data Torch相似匹配模型提取暗数据内容,对比出过去气象数据与当前气象数据之间的相似性,从而辅助洪水预警过程,使得洪水预警计算时间由过去的小时级缩短到现在的分钟级,利用暗数据推动公共安全治理。
案例三:航天网信——军事多模态暗数据分析系统
军事数据包括视频、音频、图片、文本等多模态数据,不同模态之间难以交互形成暗数据。Data Torch多模态分析模型实现了军事多模态暗数据的交互,从而利用军事暗数据辅助战场决策,并将百万级数据集查询延时由分钟级缩短到秒级,利用暗数据推动军队信息化建设。
发展规划
2024年:深入对接腾讯,部署暗数据服务接口。预计为航天科工集团、达梦数据库等企业交付10余台服务器一体机设备,满足订单需求
2025年:拓展市场份额,将暗数据服务授权至华为、阿里等,积极推动与政府部门的合作。
2026年:进一步提高市场占有率,改进业务流程,优化资源管理,承担社会责任。
知识产权
该成果已申请/授权多项中国发明专利。
合作方式
专利许可、专利转让、作价入股、技术开发、面谈等。
【联系方式】
CG24008