[发明专利]中文单字串模式和词缀模式的新词自动识别技术及系统无效

专利信息
申请号: 201110236723.8 申请日: 2011-08-18
公开(公告)号: CN102955771A 公开(公告)日: 2013-03-06
发明(设计)人: 吕钊;蒋鑫;曹艳娇 申请(专利权)人: 华东师范大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 隆天国际知识产权代理有限公司 72003 代理人: 吴世华;冯志云
地址: 200241 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 中文 字串 模式 词缀 新词 自动识别 技术 系统
【权利要求书】:

1. 一种中文单字串模式和词缀模式的新词自动识别技术及系统,通过分析短文本中出现新词的规律,基于大规模短文本语料库,自动识别短文本中的新词,其包括如下步骤:

a. 对大规模短文本进行中文分词,并将每一条短文本的分词碎片相适应地存储;

b. 对于每一条短文本的分词碎片进行分析,查找碎片中的单字串潜在新词以及词缀模式潜在新词;

c. 对于单字串潜在新词,首先提取单字串潜在新词对应的最长潜在新词,统计每个最长潜在新词出现的频次,存入单字串潜在新词集;然后根据最长潜在新词及其频次,提取最长潜在新词的每个子串,统计每个子串的频次,存入单字串潜在新词集;

d. 对于词缀模式的潜在新词,提取每个词缀模式潜在新词,统计每个词缀模式的频次,存入词缀模式潜新词集中;

e. 对于所述的单字串潜在新词集和词缀模式潜在新词集中的对象分别进行过滤操作;

f. 对于每个潜在新词,若其频次大于第一阀值,则将该潜在新词作为所述中文新词。

2. 根据权利要求1所述的控制方法,其特征在于,所述步骤b中所述的单字串潜在新词,其由单个的汉字组成的,至少包括如下形式中的任一种或任多种:

- NW11形式,其为由单个汉字与单个汉字组成的新词,表现为1+1形式;

- NW111形式,其为由三个连续的单个汉字组成的新词,表现为1+1+1形式;或者

- NW1111形式,其为由四个连续的单字组成的新词,表现为1+1+1+1形式。

3. 根据权利要求1或2所述的控制方法,其特征在于,对于所述步骤b中的词缀模式的新词,其由单个汉字和前/后缀词语组成,至少包括如下形式中的任一种或任多种:

- NW12形式,其由一个单字紧跟着一个二元词语组成,表现为1+2形式;

- NW13形式,其由一个单字紧跟着一个三元词语组成,表现为1+3形式;

- NW21形式,其由一个二元词紧跟着一个单字组成,表现为2+1形式;或者

- NW31形式,其由一个三元词紧跟着一个单字组成,表现为3+1形式。

4. 根据权利要求1至3中任一项所述的控制方法,其特征在于,在所述步骤c中所述最长潜在新词包括NW(i,j)= {XiXi+1…Xj},其中X为单个字,其中,i=0或者Xi-1是非单字汉字,并且j=n或Xj+l是非单字汉字,其中,NW(i,j)为集合T={X1X2…Xi…Xn}(1=<i<=n)的子集,T中任意的Xi都为中文单个汉字。

5. 根据权利要求1至4中任一项所述的控制方法,其特征在于,在所述步骤c中所述针对所述最长潜在新词提取所有子串的步骤包括如下步骤:采用滑动窗口收集和统计所述最长潜在对象中的所有子串。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110236723.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top