[发明专利]一种非标准词类判别方法及计算机可读存储介质在审
| 申请号: | 202111567719.X | 申请日: | 2021-12-21 |
| 公开(公告)号: | CN114444492A | 公开(公告)日: | 2022-05-06 |
| 发明(设计)人: | 吴志勇;戴文琳;宋长河 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/242;G06F40/166;G06N3/02 |
| 代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 孟学英 |
| 地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 非标准 词类 判别 方法 计算机 可读 存储 介质 | ||
1.一种非标准词类判别方法,其特征在于,包括如下步骤:
S1:输入的包含非标准词的完整中文句子的字符序列并将所述中文句子与非标准词的匹配规则以及中文词典进行匹配得到所有可能的候选的非标准词和潜在的中文词语;
S2:将所述中文句子的字符序列、潜在的的所述中文词语以及所有可能的候选非标准词组织成一个序列,获取所述字符序列中每个字符的字符嵌入;获取每个潜在的所述中文词语和每个候选的所述非标准词的词嵌入;
S3:从所述字符序列中每个字符、潜在的所述中文词语和候选的所述非标准词的头和尾位置得到的相对位置编码,基于所述字符嵌入、所述词嵌入以及所述相对位置编码获取包括所述字符序列中的每个字符、每个潜在的所述中文词语和候选的所述非标准词所构成的序列的上下文特征表示;
S4:基于所述上下文特征表示预测每一个候选的所述非标准词的类别。
2.如权利要求1所述的非标准词类判别方法,其特征在于,得到候选的所述非标准词和潜在的所述中文词语包括:
从前往后扫描所述中文句子的字符序列,在正则表达式集合中匹配到非标准词则返回其起止位置,在中文词典中匹配到一个中文词语也返回其起止位置;
匹配时基于贪婪算法匹配出所有可能的潜在的所述中文词语和候选的所述非标准词,并返回其相应的起止位置。
3.如权利要求2所述的非标准词类判别方法,其特征在于,使用基于注意力机制和全连接网络的词嵌入层获得所述中文句子的字符序列的字符嵌入;
基于字符级的嵌入表示,采用一个池化层来获取每个潜在的所述中文词语和每个候选的所述非标准词的词嵌入。
4.如权利要求3所述的非标准词类判别方法,其特征在于,采用Transformer模型编码器的单元作为神经网络结构获取包括所述字符序列中的每个字符、每个潜在的所述中文词语和候选的所述非标准词所构成的序列的上下文特征表示。
5.如权利要求4所述的非标准词类判别方法,其特征在于,所述相对位置嵌入的计算为:
每个输入的所述字符序列中每个字符、潜在的所述中文词语和候选的所述非标准词在句子的绝对位置由输入句子中的开始和结束位置表示,命名为头和尾;
利用所有输入的头和尾来计算任意两个所述字符序列中每个字符、潜在的所述中文词语和候选的所述非标准词之间的四个相对距离。
6.如权利要求5所述的非标准词类判别方法,其特征在于,通过解码层获取每个输入的所述上下文特征表示生成中文句子的字符序列对应的类别标签的序列;所述解码层包括一个线性层和一个条件随机场层。
7.如权利要求6所述的非标准词类判别方法,其特征在于,条件随机场通过相邻的所述类别标签之间的关系得到一个最优的预测序列。
8.如权利要求1-7任一所述的非标准词类判别方法,其特征在于,规则库正则表达式能匹配的整个非标准词的形态上的类别包括:日期、时间、分数、比率、标点、金钱、英文词、基数词、十进制小数、网址、电话号码、英文缩写。
9.如权利要求1-7任一所述的非标准词类判别方法,其特征在于,得到所有可能的候选的所述非标准词时增加属性特征,所述属性特征是词性。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9任一所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111567719.X/1.html,转载请声明来源钻瓜专利网。





