[发明专利]新词发现的方法及装置有效
申请号: | 201610023772.6 | 申请日: | 2016-01-14 |
公开(公告)号: | CN106970904B | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 史立华 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F16/9535 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新词 发现 方法 装置 | ||
1.一种新词发现的方法,其特征在于,所述方法包括:
获取候选新词以及所述候选新词的子字符串,所述候选新词是在用于发现新词的语料中出现的满足预设频次阈值的字符串;
根据所述候选新词的左右词缀的统计信息和所述子字符串的左右词缀的统计信息的关系,计算所述候选新词的词内统计信息值,所述左词缀为字符串左侧相邻的字符,所述右词缀为字符串右侧相邻的字符,所述词内统计信息值用于表征所述候选新词内部字符之间的聚合程度;
根据所述候选新词的左右词缀的统计信息和所述候选新词在所述语料中出现的频次,计算所述候选新词的词间统计信息值,所述词间统计信息值用于表征所述候选新词与所述候选新词相邻的字符搭配的固定程度;
根据所述词内统计信息值和所述词间统计信息值计算得到所述候选新词的成词得分;
根据所述成词得分确定所述候选新词是否为新词;
所述获取候选新词以及所述候选新词的子字符串,包括:
对所述语料进行过滤得到有效语料;
从所述有效语料中挖掘符合预设字符长度和所述预设频次阈值的字符串作为所述候选新词;
在所述获取候选新词以及所述候选新词的子字符串之后,所述方法进一步包括:
统计所述候选新词的左词缀个数,所述左词缀个数为在所述有效语料中所述候选新词左侧出现的不同的字符的个数;
统计所述候选新词的右词缀个数,所述右词缀个数为在所述有效语料中所述候选新词右侧出现的不同的字符的个数;
通过下述公式计算所述候选新词的词间统计信息值:
F2=(PL(S)+PR(S))/(2*P(S));
其中,所述F2为所述候选新词的词间统计信息值、所述PL(S)和所述PR(S)分别为所述候选新词的左词缀个数和右词缀个数、所述P(S)为所述候选新词在所述语料或所述有效语料中出现的频次。
2.根据权利要求1所述的方法,其特征在于,所述获取候选新词以及所述候选新词的子字符串,还包括:
将除所述候选新词本身以外的字符长度大于等于2的字符串确定为所述子字符串。
3.根据权利要求2所述的方法,其特征在于,在所述获取候选新词以及所述候选新词的子字符串之后,所述方法还进一步包括:
分别统计所述候选新词的各子字符串的左词缀个数和右词缀个数。
4.根据权利要求3所述的方法,其特征在于,所述根据所述候选新词的左右词缀的统计信息和所述子字符串的左右词缀的统计信息的关系,计算所述候选新词的词内统计信息值,包括:
根据所述候选新词的左词缀个数和右词缀个数以及所述各子字符串的左词缀个数和右词缀个数计算所述词内统计信息值。
5.根据权利要求4所述的方法,其特征在于,通过下述公式计算所述词内统计信息值:
其中,所述F1为词内统计信息值、所述F(Si)为与所述各子字符串对应的子字符串统计信息值、所述L(S)为所述候选新词的字符长度,且所述L(S)为大于2的正整数;
当所述候选新词的左词缀个数和右词缀个数中的较小值大于所述子字符串的左词缀个数和右词缀个数中的较小值时,所述F(Si)为1;
当所述候选新词的左词缀个数和右词缀个数中的较小值不大于所述子字符串的左词缀个数和右词缀个数中的较小值时,所述F(Si)为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610023772.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:物流系统中地址信息的处理方法及装置
- 下一篇:一种语义分析方法