[发明专利]一种确定新词的方法、装置,计算机设备和介质有效
| 申请号: | 202011211560.3 | 申请日: | 2020-11-03 |
| 公开(公告)号: | CN112329443B | 公开(公告)日: | 2023-07-21 |
| 发明(设计)人: | 张涛;黄少波;曾增烽 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
| 主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284 |
| 代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 确定 新词 方法 装置 计算机 设备 介质 | ||
1.一种确定新词的方法,其特征在于,所述方法包括:
获取目标文本数据;
利用N-gram算法对所述目标文本数据进行切分处理,得到多个词片段;
统计字符长度大于1的每个词片段在所述目标文本数据中出现的次数,确定所述每个词片段在所述多个词片段中出现的第一概率;
利用EM算法对所述第一概率进行更新,确定所述每个词片段对应的第二概率;
根据所述第二概率和预设的互信息计算公式,计算所述每个词片段的互信息;
根据所述第二概率、预设的左邻接熵计算公式和预设的右邻接熵计算公式,分别计算所述每个词片段的左邻接熵和右邻接熵;
将所述互信息、所述左邻接熵和所述右邻接熵输入预设的新词评价算法,根据输出结果确定所述每个词片段是否为新词,所述预设的新词评价算法包括公式E(W)=L(W)*H(W),H(W)为代入词片段W的左邻接熵和右邻接熵中的较小者,L(W)为所述词片段W的互信息;
其中,所述利用EM算法对所述第一概率进行更新,确定所述每个词片段对应的第二概率,包括:
步骤A:计算所述目标文本数据中的每个断句采用不同切分方式时,每种切分方式下所述每个断句所包括的各个词片段分别对应的第一概率的乘积,确定最大乘积值为所述每个断句对应的第一最短路径概率,其中所述每个断句为通过所述目标文本数据中的标点符号对所述目标文本数据进行划分后的一段字符连续的文本;
步骤B:根据所述每个断句对应的所述第一最短路径概率、所述每个断句中所述每个词片段左侧部分文本对应的第二最短路径概率、和所述每个词片段右侧部分文本对应的第三最短概率,确定所述每个断句中所述每个词片段对应的片段分数;
步骤C:将所述每个词片段对应的片段分数与所述每个词片段对应的第一概率进行相加,并进行归一化处理,得到所述每个词片段对应的所述第二概率。
2.根据权利要求1所述的方法,其特征在于,所述将所述每个词片段对应的片段分数与所述每个词片段对应的第一概率进行相加,并进行归一化处理,得到所述每个词片段对应的所述第二概率之后,所述方法还包括:
将所述步骤C中所述每个词片段对应的所述第二概率的值赋值为所述步骤A中所述每个词片段对应的所述第一概率;
循环执行所述步骤A至所述步骤C,直至达到预设的循环截至条件时,确定最后一次循环时,所述步骤C中计算的所述第二概率为所述每个词片段最终对应的所述第二概率。
3.根据权利要求1或2所述的方法,其特征在于,所述预设的互信息计算公式如下:;
其中,为词片段W的互信息,的所述第二概率;W采用不同切分方式时,确定不同切分方式对应的各个组成部分中每个组成部分对应的第一概率的乘积,取最大乘积值为。
4.根据权利要求1或2所述的方法,其特征在于,
所述预设的左邻接熵计算公式如下:;
其中,为词片段W的左邻接熵,表示W左边出现的所有词片段的集合,为W的一个左邻词,为在W的所有左邻词当中出现的频率;
所述预设的右邻接熵计算公式如下:;
其中,为词片段W的右邻接熵,表示W右边出现的所有词片段的集合,为W的一个右邻词,为在W的所有右邻词当中出现的频率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011211560.3/1.html,转载请声明来源钻瓜专利网。





