[发明专利]新词识别方法和装置在审
| 申请号: | 202011203082.1 | 申请日: | 2020-11-02 |
| 公开(公告)号: | CN114444491A | 公开(公告)日: | 2022-05-06 |
| 发明(设计)人: | 张家豪 | 申请(专利权)人: | 慧科讯业有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284 |
| 代理公司: | 北京市君合律师事务所 11517 | 代理人: | 王再芊;毕长生 |
| 地址: | 中国香港湾仔告士打道*** | 国省代码: | 香港;81 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 新词 识别 方法 装置 | ||
1.一种新词识别方法,包括:
获取候选词;
计算所述候选词的内部凝固度;
根据计算出的内部凝固度和预设的凝固度阈值,判断所述候选词是否为新词。
2.根据权利要求1所述的新词识别方法,其特征在于,所述候选词是从文章中获取的n-gram候选词。
3.根据权利要求1所述的新词识别方法,其特征在于,计算所述候选词的内部凝固度包括:
计算所述候选词的点互信息;
根据所述点互信息计算所述内部凝固度。
4.根据权利要求3所述的新词识别方法,其特征在于,根据所述点互信息计算所述内部凝固度包括,将所述点互信息与词长惩罚系数相乘。
5.根据权利要求3所述的新词识别方法,其特征在于,所述惩罚系数为1/log2(n),其中n为候选词的长度。
6.根据权利要求3所述的新词识别方法,其特征在于,当所述候选词的词长为3以上时,将所述点互信息与词惩罚系数相乘,得到内部凝固度包括:
将所述点互信息中的最小值与所述惩罚系数相乘,得到内部凝固度。
7.根据权利要求1至6中任一项所述的新词识别方法,其特征在于,所述新词识别方法还包括,对所述候选词进行词性分析,若能够得出候选词的词性,则将候选词判断为非新词;若不能得出候选词的词性,则对候选词进行切词,若经切词得到的词具有特定词性,则将候选词判断为非新词。
8.根据权利要求1至6中任一项所述的新词识别方法,其特征在于,所述新词识别方法还包括,将所述候选词与现有词库进行对比,若所述候选词未包括在现有词库中,则将所述候选词判断为新词。
9.一种新词识别装置,包括:
获取单元,用于获取候选词;
计算单元,用于计算所述候选词的内部凝固度;
判断单元,用于根据计算出的内部凝固度和预设的凝固度阈值,判断所述候选词是否为新词。
10.根据权利要求1所述的新词识别装置,其特征在于,所述候选词是从文章中获取的n-gram候选词。
11.根据权利你要求1所述的新词识别装置,其特征在于,所述计算单元包括:
点互信息计算单元,用于计算所述候选词的点互信息;
凝固度计算单元,用于根据所述点互信息计算所述内部凝固度。
12.根据权利要求3所述的新词识别装置,其特征在于,所述凝固度计算单元被配置为将所述点互信息与词长惩罚系数相乘。
13.根据权利要求3所述的新词识别装置,其特征在于,所述惩罚系数为1/log2(n),其中n为候选词的长度。
14.根据权利你要求3所述的新词识别装置,其特征在于,所述凝固度计算单元被配置为当所述候选词的词长为3以上时,将所述点互信息中的最小值与所述惩罚系数相乘,得到内部凝固度。
15.根据权利要求1至6中任一项所述的新词识别装置,其特征在于,新词识别装置还包括词性分析单元,所述词性分析单元被配置为对所述候选词进行词性分析,若能够得出候选词的词性,则将候选词判断为非新词;若不能得出候选词的词性,则对候选词进行切词,若经切词得到的词具有特定词性,则将候选词判断为非新词。
16.根据权利要求1至6中任一项所述的新词识别装置,其特征在于,所述新词识别装置还包括词库对比单元,用于将所述候选词与现有词库进行对比,若所述候选词未包括在现有词库中,则将所述候选词判断为新词。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时执行权利要求1至8中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧科讯业有限公司,未经慧科讯业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011203082.1/1.html,转载请声明来源钻瓜专利网。





