以智能文档处理技术为核心,竹间帮助企业实现“查重自由”

竹间智能 | 2022-11-09

  现在的企业都积聚了大量的文档、文本、报表、音视频等非结构化数据,其中“封存”了难以估算的业务及产品知识,若不能充分利用,这些知识的价值就无法被释放,甚至会对企业后续的发展造成阻碍。在这种情况下,能够处理大量信息和非结构化数据的智能文档处理 技术就显得愈发重要,那么,智能文档处理技术包含什么内容?对企业信息的智能化管理有什么帮助呢?

  作为国内领先的AI企业,竹间智能对智能文档处理方面有着深入的研究,旗下的Gemini认知智能平台,可以通过强大的自然语言理解和知识挖掘能力并依靠长期的行业积累,实现对文档的自动解析、智能定位和知识抽取。并可针对文档进行智能回答、知识推理、文本审核、文本比对、文本查重等多种知识应用,实现将杂乱的文档信息转变为可维护的知识,为企业业务高效发展赋能。

  下面以竹间智能为国内某大型石油国有企业合作为例加以说明。竹间基于旗下的Gemini认知智能平台将该公司历史的2000多份文档整理入“库”进行标注和抽取,进行统一管理。对于新上传的项目书通过文档抽取工具完成文本转换及抽取,将文档抽取的转换的文本入查重库,对待查文档及历史文档进行语义分析、词句分析,计算相似结果,最后将查重结果汇总,供用户浏览或下载。系统上线后,据统计现在该企业进行新文档查重平均仅需12s,效率至少提高上千倍。对于员工来说只需进行一步操作——上传文档,即可查看详细查重结果,结果可精细至比对到哪些段落语义上有重复,相似率具体为多少。

  总的来说,竹间通过智能文档处理技术,不仅可对长文本进行自动实体识别抽取,实体发现,实体识别和比对,还支持PDF、Word中字词句段章表格等各种非结构化文档的关键信息提取。同时对待提取的文档类型、关键信息点可根据用户实际业务场景进行自定义配置,区别于直接将文档通过算法进行对比,平台操作化简单,结果可视拓展性也更强。

  ​