首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]新词发现的方法及装置有效

申请号：	201610023772.6	申请日：	2016-01-14
公开（公告）号：	CN106970904B	公开（公告）日：	2020-06-05
发明（设计）人：	史立华	申请（专利权）人：	北京国双科技有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/216;G06F16/9535
代理公司：	北京鼎佳达知识产权代理事务所(普通合伙) 11348	代理人：	王伟锋;刘铁生
地址：	100083 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	新词发现方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种新词发现的方法，其特征在于，所述方法包括：

获取候选新词以及所述候选新词的子字符串，所述候选新词是在用于发现新词的语料中出现的满足预设频次阈值的字符串；

根据所述候选新词的左右词缀的统计信息和所述子字符串的左右词缀的统计信息的关系，计算所述候选新词的词内统计信息值，所述左词缀为字符串左侧相邻的字符，所述右词缀为字符串右侧相邻的字符，所述词内统计信息值用于表征所述候选新词内部字符之间的聚合程度；

根据所述候选新词的左右词缀的统计信息和所述候选新词在所述语料中出现的频次，计算所述候选新词的词间统计信息值，所述词间统计信息值用于表征所述候选新词与所述候选新词相邻的字符搭配的固定程度；

根据所述词内统计信息值和所述词间统计信息值计算得到所述候选新词的成词得分；

根据所述成词得分确定所述候选新词是否为新词；

所述获取候选新词以及所述候选新词的子字符串，包括：

对所述语料进行过滤得到有效语料；

从所述有效语料中挖掘符合预设字符长度和所述预设频次阈值的字符串作为所述候选新词；

在所述获取候选新词以及所述候选新词的子字符串之后，所述方法进一步包括：

统计所述候选新词的左词缀个数，所述左词缀个数为在所述有效语料中所述候选新词左侧出现的不同的字符的个数；

统计所述候选新词的右词缀个数，所述右词缀个数为在所述有效语料中所述候选新词右侧出现的不同的字符的个数；

通过下述公式计算所述候选新词的词间统计信息值：

F2＝(PL(S)+PR(S))/(2*P(S))；

其中，所述F2为所述候选新词的词间统计信息值、所述PL(S)和所述PR(S)分别为所述候选新词的左词缀个数和右词缀个数、所述P(S)为所述候选新词在所述语料或所述有效语料中出现的频次。

2.根据权利要求1所述的方法，其特征在于，所述获取候选新词以及所述候选新词的子字符串，还包括：

将除所述候选新词本身以外的字符长度大于等于2的字符串确定为所述子字符串。

3.根据权利要求2所述的方法，其特征在于，在所述获取候选新词以及所述候选新词的子字符串之后，所述方法还进一步包括：

分别统计所述候选新词的各子字符串的左词缀个数和右词缀个数。

4.根据权利要求3所述的方法，其特征在于，所述根据所述候选新词的左右词缀的统计信息和所述子字符串的左右词缀的统计信息的关系，计算所述候选新词的词内统计信息值，包括：

根据所述候选新词的左词缀个数和右词缀个数以及所述各子字符串的左词缀个数和右词缀个数计算所述词内统计信息值。

5.根据权利要求4所述的方法，其特征在于，通过下述公式计算所述词内统计信息值：

其中，所述F1为词内统计信息值、所述F(S_i)为与所述各子字符串对应的子字符串统计信息值、所述L(S)为所述候选新词的字符长度，且所述L(S)为大于2的正整数；

当所述候选新词的左词缀个数和右词缀个数中的较小值大于所述子字符串的左词缀个数和右词缀个数中的较小值时，所述F(S_i)为1；

当所述候选新词的左词缀个数和右词缀个数中的较小值不大于所述子字符串的左词缀个数和右词缀个数中的较小值时，所述F(S_i)为0。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司，未经北京国双科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610023772.6/1.html，转载请声明来源钻瓜专利网。

上一篇：物流系统中地址信息的处理方法及装置
下一篇：一种语义分析方法

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top