[发明专利]一种基于NLP算法的关系分析方法在审
| 申请号: | 202111026629.X | 申请日: | 2021-09-02 |
| 公开(公告)号: | CN113722489A | 公开(公告)日: | 2021-11-30 |
| 发明(设计)人: | 龚波;苏学武;水军;杨刚;苏文辉;赖冠;丁克利 | 申请(专利权)人: | 珠海市新德汇信息技术有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06F16/31 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 519085 广东省珠*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 nlp 算法 关系 分析 方法 | ||
本发明公开了一种基于NLP算法的关系分析方法,包括以下步骤:S1、建立标准库;S2、建立人员库、事件库,分配唯一标识;S3、通过NLP算法从半结构化数据中提取对应的要素;S4、通过NLP算法从半结构化数据的上下文中提取要素关联关系;S5、对标准要素进行清洗转换,将清洗转换后的标准要素与标准库进行匹配;S6、对关联标准要素的人员情况及多人共事件情况进行聚类,对相似的人员要素进行合并;S7、基于已分配唯一标识的人员库,对要素关联关系中的人员实体更新为唯一标识。本发明通过NLP算法对半结构化数据进行结构化,针对NLP算法提取的结构化数据的特点,对数据进行清洗、聚类分析,让数据分析人员可以全面、快速、量化地对半结构化数据进行分析挖掘。
技术领域
本发明涉及数据分析技术领域,更具体涉及一种基于NLP算法的关系分析方法。
背景技术
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总、理解、消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析是大数据应用的重要场景,在数据分析时既有大量的结构化数据,也有大量的半结构化数据,其中半结构化数据存在描述模糊的问题。现有的半结构化数据的特点是半结构化、数据和模式信息混合在一起,没有独立于数据之外的模式信息,传统的数据库技术很难应用到这类数据中;且半结构化数据还存在多表存储以及多个数据值对应一个数据库字段的情况。
当前对数据进行分析的方法存在如下的不足:
1)数据无法准确匹配。
2)无法充分利用成熟的基于结构化数据的分析算法对所有数据进行分析。
发明内容
本发明需要解决的技术问题是提供一种基于NLP算法的关系分析方法,以解决背景技术的问题,以实现对半结构化数据的结构化提取,实现数据的准确匹配,在半结构化数据转换为结构化后,能够充分利用已有的结构化分析方法。
为解决上述技术问题,本发明所采取的技术方案如下。
一种基于NLP算法的关系分析方法,包括以下步骤:
S1、建立标准库;
S2、建立人员库、事件库,分配唯一标识;
S3、通过NLP算法从半结构化数据中提取对应的要素;
S4、通过NLP算法从半结构化数据的上下文中提取要素关联关系;
S5、对标准要素进行清洗转换,将清洗转换后的标准要素与步骤S1中的标准库进行匹配;
S6、对关联标准要素的人员情况及多人共事件情况进行聚类,对相似的人员要素进行合并;
S7、基于步骤S2中已分配唯一标识的人员库,对要素关联关系中的人员实体更新为唯一标识,实现人员关系库的更新。
进一步优化技术方案,所述步骤S3包括以下步骤:
S31、将半结构化数据中的文本数据推送给NLP算法程序;
S32、通过NLP算法程序对半结构化数据中的文本数据进行要素提取,NLP算法程序返回文本中包含有要素信息;
S33、将返回文本中包含的要素信息保存到要素库;
S34、重复步骤S31-S33,直至遍历所有新增的半结构化数据。
进一步优化技术方案,所述步骤S5中,在将清洗转换后的标准要素与步骤S1中的标准库进行匹配时,查询同名的要素,将同名的要素根据历史关系匹配到标准要素;对未查询到同名要素的情况,根据名称的相似度,匹配最接近的要素。
进一步优化技术方案,所述步骤S6包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海市新德汇信息技术有限公司,未经珠海市新德汇信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111026629.X/2.html,转载请声明来源钻瓜专利网。





