[发明专利]一种增量式行业词典更新方法和系统有效

专利信息
申请号: 202011463306.2 申请日: 2020-12-13
公开(公告)号: CN112632969B 公开(公告)日: 2022-06-21
发明(设计)人: 周超逸;周雅倩;马琦珉;陈诚;刘丙哲 申请(专利权)人: 复旦大学;中国大地财产保险股份有限公司
主分类号: G06F40/242 分类号: G06F40/242;G06F40/289;G06F40/30;G06F40/216;G06F40/253;G06F40/268;G06F16/335;G06F16/35
代理公司: 上海正旦专利代理有限公司 31200 代理人: 陆飞;陆尤
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 增量 行业 词典 更新 方法 系统
【权利要求书】:

1.一种增量式行业词典更新方法,其特征在于,具体步骤如下:

(一)基于浅层词汇统计分析的增量式候选词选取,从语料中获得候选词;具体包括:

基于分词词典,将语料进行分词;针对分词后的语料,使用候选词模板来生成候选字串;

采用词频过滤、停用词过滤、垃圾串过滤、前后缀过滤、左右熵过滤、耦合度过滤和独立词概率过滤多种过滤方法,从候选字串中选取候选词;其中,左右熵过滤、基于递推的耦合度过滤和独立词概率过滤的计算与语料的分布相关,语料规模越大,参数的计算越可靠,但是语料规模越大,计算量就越大,为了提高计算效率,对于这几个过滤步骤,采用增量式计算的方法;

(二)基于深度语义计算的增量式行业词汇选取,具体包括:采用词语的深度语义计算的过滤和词语上下文分布的过滤,从步骤(一)的候选词中获取行业词汇;

(三)多策略人工验证,从步骤(二)的候选行业词汇中,选取行业词汇,收集边界错误字串和非行业词汇;具体包括:

使用不同的人工标注策略对步骤(2)中得到的候选行业词汇进行排序,再选取部分词进行人工查看;人工查看进行三类标注:行业词汇、非行业词汇和边界错误字串;

根据行业词典、非行业词列表和边界错误字串列表,能进一步对基于浅层词汇统计分析和基于词语上下文分布过滤的参数进行微调;若非行业词汇占比较大,则调整基于词语上下文分布过滤的参数;若边界错误的词汇占比较大,则调整浅层词汇统计部分的参数;

这些人工标注结果不仅用于更新行业词典,还用于训练步骤(二)中深度语义计算模型,优化行业词汇选取,以及用于对步骤(一)中的浅层词汇统计分析的参数进行微调,进一步优化候选词选取的性能;

步骤(一)中所述采用词频过滤、停用词过滤、垃圾串过滤、前后缀过滤、左右熵过滤、耦合度过滤和独立词概率过滤多种过滤方法,从候选字串中选取候选词;具体如下;

(1)词频过滤

使用阈值βf来控制候选词的选择,即将所有频率小于该阈值的候选字串过滤掉;

(2)停用词过滤

语料中包含许多英文字符、数字、数字字符、标点符号和使用频率很高的单字汉字这些停用词,为了节省存储空间和提高处理效率,使用常用停用词词表进行过滤;

(3)垃圾串过滤

给不同长度的模式串设定模式串规则,根据该规则获取到不同的模式串,用以进行后续的过滤,得到下一步的候选词表;

汉语中单字垃圾串多由介词、副词、连词和一些单字实词产生,且由于行业词汇是名词性的,所以数量词、时间词和介词短语这些词性组合无法构成行业词汇;根据语法规则和词性信息,建立非行业词词性词典和垃圾串词典,利用这两个词典进行过滤,消除分词产生的垃圾串;

(4)前后缀过滤

n+1模式的新词有比较显著的特征:尾字常为组合性强的单字,能生成大量的词语;1+n模式的新词有比较显著的特征:首字常为组合性强的单字,能生成大量的词语;在汉语中具有这类功能的字是很有限的,能通过前后缀词典对首字和尾字的识别来进行过滤;

根据初始平行语料提取,从所有2+1模式和3+1模式的串中提取前缀构成前缀词典,从所有1+2模式和1+3模式的串中提取后缀构成的后缀词典;对于1+n,n3模式的串,如果前缀单字出现在前缀词典中,则把该词加入候选新词集合;对于1+n,n3模式的串,如果后缀单字出现在后缀词典中,则把该词加入候选词集合;

(5)左右熵过滤

信息熵的方法在术语抽取领域用来判别术语的边界,根据词语w与邻接的字搭配的不确定性来判断w是否是词边界,从而得到候选术语;边界信息熵越大,表明一个词越能和更多词搭配,进而表明一个词是一个独立词;使用左右熵过滤,能判断词语的左右边界,从而得到候选词;

假设词语w属于候选集,L={l1,l2,l3,…lm}和R={r1,r2,r3,…rn}分别为该词语的左单字集合和右单字集合;则w的左右熵为:

其中,C(w,li)和C(w,ri)分别为词语w的左单字li和右单字ri出现的次数,

对于一个实际的词语而言,如果其出现频率高且左右字集的频率也高,则能根据其左右熵进行过滤;但对于有些词,独立成词只有很少或者不存在左单字或右单字,用信息熵不能反映其成词的概率,所以采用如下策略,其中,L、R为标志位,α为阈值:

(a)如果则L=1;否则,L=0;同理,如果则R=1;否则,R=0;其中N为该词出现的频率,n为该词左/右单字出现的频率;

(b)如果L=R=1,则认为该词应该加入候选集中进行下一步过滤;否则,通过判断其左信息熵或者其右信息熵的方法进行过滤;

(c)信息熵过滤策略:

抽取出候选集后,首先对L和R进行判断,如果L=0或R=0,再判断LE(w)和LE(w);如果一侧的信息熵不存在,将其定义为无穷小;若LE(w)阈值βe或RE(w)βe,则将该词加入候选集中进行下一步过滤,否则去掉该词;

左右熵过滤能有效抽取出文本中出现的高频词汇;设定阈值βe用于控制所筛选的左右熵大小;

(6)耦合度过滤

经过左右熵过滤后,由于左右熵不存在或太大而导致过滤后依旧存在一些边界判断错误的词,为了解决该问题,采用基于递推的耦合度过滤策略进行进一步地过滤,使得候选词的可读性更高;

基于递推的耦合度过滤策略:

对于字长为3的候选词w,若存在w1∈T2,T2为长度为2的候选词集合,w可分解为pw1,p为单字;计算p和w1的耦合度公式为:

若存在w1∈T2,T2为长度为2的候选词集合,w可分解为w1p,p为单字;计算p和w1的耦合度公式为:

以此类推,得到长度更长的词;

公式中的λCo和βCo为两个阈值,通过调节这两个阈值来控制耦合度过滤程度;如果耦合度的值等于1,则认为w不应该为候选词;

(7)独立词概率(IWP)过滤

独立词概率是度量一个词在句子中独立成词的可能性的指标;这里仅对1+1模式的串进行IWP过滤,进一步过滤掉垃圾串;具体做法为:

给定语料C,对于词语w,假设w=c1c2,其中,ci为字,i=1,2,IWP(w)表示词语w的独立词概率;则:

IWP(w)=IWP(c1)IWP(c2), (5)

对于字ci,IWP(ci)表示字ci的独立词概率,N(ci)表示字ci出现的次数,N(word(ci))表示字ci独立成词的次数,即字ci作为一个单字出现的次数,则:

词语w的IWP越大,说明该词不成词的概率越大;

同时采用初始平行语料和所用语料来建立IWP词典,以便进行IWP过滤;通过阈值对过滤程度进行调节。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学;中国大地财产保险股份有限公司,未经复旦大学;中国大地财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011463306.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top