[发明专利]文本实体分析方法、装置、终端设备及存储介质有效
| 申请号: | 202110810841.9 | 申请日: | 2021-07-19 |
| 公开(公告)号: | CN113268988B | 公开(公告)日: | 2021-10-29 |
| 发明(设计)人: | 陈乐清;刘东煜;曾增烽 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33 |
| 代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 李艳丽 |
| 地址: | 518000 广东省深圳市福田区福田街道益田路5033号平安*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 实体 分析 方法 装置 终端设备 存储 介质 | ||
1.一种文本实体分析方法,其特征在于,包括:
响应于接收到的待分析文本,确定所述待分析文本中的文本实体,并在所述待分析文本中的各文本实体中插入预设字符;
在插入所述预设字符后的各文本实体中,将所述文本实体的各相邻字符进行组合,将组合得到的组合字符存入组合字符集,并确定各组合字符在所述组合字符集中的出现次数;
分别确定各组合字符对应的字符路径,字符路径用于表征各组合字符之间的组合关系,将所述字符路径中相邻节点之间的字符分别进行连接,得到子路径,并分别确定各子路径对应所述组合字符的出现次数,根据获取到的所述出现次数对所述子路径进行标记,并获取同一所述字符路径中各子路径上被标记的所述出现次数之间的和作为各组合字符分别对应的字符路径的出现总次数,所述出现总次数为各字符路径中相邻字符之间出现次数的和;
根据各字符路径的出现总次数,确定所述待分析文本中的真实实体。
2.根据权利要求1所述的文本实体分析方法,其特征在于,所述在所述待分析文本中的各文本实体中插入预设字符,包括:
分别在各文本实体的第一个字符的前端插入开始字符,并在各文本实体的最后一个字符的后端插入结束字符。
3.根据权利要求2所述的文本实体分析方法,其特征在于,所述分别确定各组合字符对应的字符路径,包括:
以所述开始字符为起始节点,对所述组合字符进行字符查询,并将查询到的字符设置为所述起始节点的下节点;
若查询到的所述字符是所述结束字符,得到所述字符路径;
若查询到的所述字符不是所述结束字符,则以查询到的所述字符为起始节点,返回执行所述对所述组合字符进行字符查询,并将查询到的字符设置为所述起始节点的下节点的步骤,直至查询到的所述字符是所述结束字符,得到所述字符路径。
4.根据权利要求1所述的文本实体分析方法,其特征在于,所述确定所述待分析文本中的文本实体之后,还包括:
根据所述文本实体对所述待分析文本进行文本过滤,得到过滤文本,所述文本过滤用于删除所述待分析文本中的文本实体;
对所述过滤文本进行分词,得到分词词汇,并根据所述文本实体确定所述待分析文本的文本类型;
根据所述文本类型确定所述待分析文本的词汇数据库,并分别确定各分词词汇在所述词汇数据库中的词汇频率;
若任一所述分词词汇在所述词汇数据库中的词汇频率小于预设频率,则在所述待分析文本中删除所述分词词汇。
5.根据权利要求1所述的文本实体分析方法,其特征在于,所述根据各字符路径的出现总次数,确定所述待分析文本中的真实实体,包括:
将最大所述出现总次数对应的所述字符路径确定为真实路径,并根据所述真实路径对所述待分析文本进行实体提取,得到所述待分析文本中的真实实体。
6.根据权利要求1所述的文本实体分析方法,其特征在于,所述确定所述待分析文本中的文本实体,包括:
将所述待分析文本输入预训练后的命名实体识别模型进行实体分析,得到所述待分析文本中的文本实体。
7.一种文本实体分析装置,其特征在于,包括:
文本实体确定单元,用于响应于接收到的待分析文本,确定所述待分析文本中的文本实体,并在所述待分析文本中的各文本实体中插入预设字符;
出现次数确定单元,用于在插入所述预设字符后的各文本实体中,将所述文本实体的各相邻字符进行组合,将组合得到的组合字符存入组合字符集,并确定各组合字符在所述组合字符集中的出现次数;
字符路径确定单元,用于分别确定各组合字符对应的字符路径,字符路径用于表征各组合字符之间的组合关系,将所述字符路径中相邻节点之间的字符分别进行连接,得到子路径,并分别确定各子路径对应所述组合字符的出现次数,根据获取到的所述出现次数对所述子路径进行标记,并获取同一所述字符路径中各子路径上被标记的所述出现次数之间的和作为各组合字符分别对应的字符路径的出现总次数,所述出现总次数为各字符路径中相邻字符之间出现次数的和;
真实实体确定单元,用于根据各字符路径的出现总次数,确定所述待分析文本中的真实实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110810841.9/1.html,转载请声明来源钻瓜专利网。





