[发明专利]一种新词发现方法和系统有效
| 申请号: | 200710175229.9 | 申请日: | 2007-09-27 |
| 公开(公告)号: | CN101131705A | 公开(公告)日: | 2008-02-27 |
| 发明(设计)人: | 龚才春;黄玉兰 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京律诚同业知识产权代理有限公司 | 代理人: | 梁挥;陈振 |
| 地址: | 100080北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种发现新词的方法,包括以下步骤:查找语料中所有出现频次大于一定阈值的字符串;统计每一个字符串在语料中所有出现位置的左侧和右侧各有多少个不同的字符或词语;若字符串左右侧不同字符或词语数量均大于某个预先设定的阈值,则将该字符串作为新词输出;否则在搜索引擎网站对字符串进行精确搜索和模糊搜索,若精确搜索返回结果数量大于一定阈值,和/或精确搜索和模糊搜索返回的结果数量之比大于一定阈值,和/或精确搜索返回结果网页中字符串的左右侧字符或词语种类数大于一定阈值,则将该字符串作为新词输出。本发明既能够发现在语料中出现频次较高的新词,也能够发现在语料中出现频次较低的新词,同时新词发现的准确率较高。 | ||
| 搜索关键词: | 一种 新词 发现 方法 系统 | ||
【主权项】:
1.一种新词发现方法,其特征在于,包括以下步骤:步骤A,获取语料中出现频次大于第一预设阈值的所有字符串;步骤B,确定符合预先设定规则的字符串;步骤C,对剩余的字符串,计算每个字符串在语料中所有位置的左右侧不同字符或词语的数量;步骤D,将所述剩余的字符串中左右侧不同字符或词语数大于第二预设阈值的字符串,作为新词输出;步骤E,将剩下的字符串作为查询关键词,在搜索引擎中进行搜索,统计返回的搜索结果数量、以及搜索结果记录;步骤F,根据返回的搜索结果数量和搜索结果记录与预设阈值的比较结果,判断并确定最终新词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200710175229.9/,转载请声明来源钻瓜专利网。





