[发明专利]新词发现方法在审
申请号: | 201910519979.6 | 申请日: | 2019-06-17 |
公开(公告)号: | CN110334345A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 李慧;王慧慧 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/335 |
代理公司: | 北京荟英捷创知识产权代理事务所(普通合伙) 11726 | 代理人: | 段志慧 |
地址: | 100048 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 过滤 重复模式 邻接 词频 新词发现 词性 语料 邻接信息 内部耦合 判断标准 信息熵 准确率 构建 标注 删除 清洗 集合 筛选 保存 | ||
一种新词发现方法,包括以下步骤:语料清洗并保存;切分语料并标注词性;词频过滤和词性过滤;构建重复模式集合;重复模式过滤删除;剩余重复模式即为新词。本发明的过滤筛选包含了词频、内部耦合度、左(右)邻接信息熵、左邻右邻接熵、右邻左邻接熵、左邻右平均邻接熵及右邻左平均信息熵等判断标准,大大提高了新词的准确率。
技术领域
本发明涉及智能交互领域,尤其涉及一种基于社会化媒体的新词发现方法及装置。
背景技术
在中文信息处理的众多领域,均需要基于词典完成对应的功能。例如,在智能检索系统或智能对话系统中,通过分词、问题检索、相似度匹配、确定检索结果或智能对话的答案等,其中每个过程都是通过词语为最小单位进行计算,计算的基础为词语词典,所以词语词典对于智能系统的性能有着很大的影响。
随着互联网的蓬勃发展,微博、微信等社会化媒体平台的出现改变了人们以往的传统交流互动方式,网民在多种网络平台发表自己的观点,网友倾向于使用网络新词,多数内容及评论往往是偏口语化的表达,因此有很多新词被网友们创造出来并能以很快的速度在网络上传播。而是否能在新词出现后及时更新词语词典,对词语词典所在的智能对话系统的系统效率有着决定性的影响。
目前新词发现的方法可以分为两类:基于分类的方法和基于标注的方法。基于分类的方法是先从语料中抽取候选字符串,然后依据规则或统计信息再判断候选字符串是不是新词。基于标注的方法则是新词发现与中文分词相结合,在分词的基础上发现新词。但目前的新词发现方法,如专利201510706254.X、201810409087.6、201810409083.8等,存在以下缺点:分词单元中限制字长会导致一部分新词不能被召回;计算单元中特征参数不够全面会导致新词准确率降低。
为提高新词的召回率及准确率,本发明提出一种新词发现方法,糅合以上两种方法,在中文分词的基础上,依据规则与统计信息进行新词发现。
发明内容
本发明解决的技术问题是如何提升新词发现的准确度。
为解决上述技术问题,本发明提供一种新词发现方法,包括以下步骤:
S1:语料清洗并保存;
S2:切分语料并标注词性;
S3:词频过滤和词性过滤;
S4:构建重复模式集合;
S5:重复模式过滤删除;
S6:剩余重复模式即为新词。
进一步地,所述语料清洗并保存包括:按照语料清洗规则对实验语料进行清洗,并把语料库中的语料以条为单位按行进行保存。
进一步地,所述切分语料并标注词性包括:使用NLPIR工具及用户词典对微博语料进行分词并标注词性,获取词性标注后的语料。进一步地,所述词频过滤和词性过滤包括以下步骤:
S31:统计词性标注后的语料中每个词出现的频率,根据预先设置的词频阈值,把低频词放入过滤词表中,高频词加入到初始候选列表中;
S32:构建过滤词性集合,判断词性标注后的语料中词语词性是否存在于过滤词性集合中,若存在,将其加入到过滤词表中,否则将其加入初始候选列表中。
进一步地,所述构建重复模式集合包括:循环遍历初始候选列表L0,取到某个初始候选词,在初始候选词上叠加其右侧词语,如果右侧词语不存在于过滤词表中则叠加,得到重复串1后将其加入重复模式列表R中,继续在重复串1的基础上叠加其右侧的词语,如果右侧词语不存在于过滤词表中则叠加,得到重复串2后将其加入重复模式列表R中;上述叠加过程直到右侧词语遇到标点符号或过滤词表中的词时即停止,进而得到重复模式列表。
进一步地,所述重复模式过滤删除包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910519979.6/2.html,转载请声明来源钻瓜专利网。