[发明专利]一种目标词确定方法、装置及存储介质有效
申请号: | 201810968091.6 | 申请日: | 2018-08-23 |
公开(公告)号: | CN109271624B | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 林佳涛;吕远方;陈琳 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/295 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 于天琳;王琦 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 目标 确定 方法 装置 存储 介质 | ||
1.一种目标词的确定方法,其特征在于,包括:
选择任一备选词,提取所述备选词在待预测文章中的第一特征信息,所述第一特征信息表征所述备选词的属性特征和/或上下文特征;
利用所述备选词的先验信息对提取的所述第一特征信息进行处理,得到所述备选词在所述待预测文章中的第二特征信息,所述第二特征信息表征所述先验信息与所述第一特征信息的关联关系;
将所述备选词的所述第一特征信息以及所述第二特征信息输入至经训练好的分类模型进行分类处理,根据所述第一特征信息和所述第二特征信息与目标特征信息的匹配度,确定所述备选词是否为所述待预测文章的目标词,其中,所述目标词用于指示与所述待预测文章相关的应用程序,所述目标特征信息为指示所述备选词是否为目标词的特征信息,包括:所述经训练的分类模型所学习得到的所述备选词是目标词时的特征序列的特征信息和所述备选词不是目标词时的特征序列的特征信息。
2.根据权利要求1所述的方法,其中,所述选择任一备选词,提取所述备选词在待预测文章中的第一特征信息包括:
从词库中选择所述备选词,当待预测文章中存在与所述备选词相同的词语时,提取所述备选词在所述待预测文章中的第一特征信息。
3.根据权利要求1所述的方法,其中,所述备选词的属性特征包括该备选词在所述待预测文章中的位置信息;
所述上下文特征包括所述备选词所在句子的语义向量;
所述先验信息包括所述备选词的语义向量和所述备选词对应的至少一个关键词;
其中,所述利用所述备选词的先验信息对提取的所述第一特征信息进行处理,得到所述备选词在所述待预测文章中的第二特征信息,包括:
根据所述备选词在所述待预测文章中的位置信息,确定所述备选词的临近词中存在的所述备选词对应的至少一个关键词,以及每个所述关键词与最接近的所述备选词之间的距离;
计算所述备选词的语义向量和所述备选词所在句子的语义向量的相似度;
将每个所述关键词与最接近的所述备选词之间的距离以及所述备选词的语义向量和所述备选词所在句子的语义向量的相似度,作为所述第二特征信息。
4.根据权利要求1所述的方法,其中,所述对所述备选词的所述第一特征信息以及所述第二特征信息进行分类处理,包括:
将所述第一特征信息和第二特征信息输入至所述分类模型,计算出所述第一特征信息和第二特征信息与所述目标特征信息的所述匹配度。
5.根据权利要求4所述的方法,其中,进一步包括:
获取用于训练所述分类模型的标注文章,并对获取的所述标注文章进行划分领域处理,所述标注文章包括至少一个指示所述备选词是否为目标词的标签,其中,所述标签为指示所述备选词在所述标注文章所属领域中是否为目标词的标签;
从所述标注文章中提取携带所述标签的备选词以及该备选词的第三特征信息;
利用所述携带所述标签的备选词的先验信息对该备选词的第三特征信息进行处理,得到所述备选词的第四特征信息;
对所述携带所述标签的备选词的第三特征信息和第四特征信息进行分类处理,分别记录所述标签表征肯定结果的备选词对应的第一分类处理结果,以及记录所述标签表征否定结果的备选词对应的第二分类处理结果,将所述第一分类处理结果和所述第二分类处理结果作为所述目标特征信息。
6.根据权利要求5所述的方法,其中,所述根据所述第一特征信息和所述第二特征信息与目标特征信息的匹配度,确定所述备选词是否为所述待预测文章的目标词,包括:
当所述第一特征信息和所述第二特征信息与所述第一分类处理结果的匹配度大于或等于所述第一特征信息和所述第二特征信息与所述第二分类处理结果的匹配度时,确定所述备选词为所述待预测文章的目标词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810968091.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:文本情感去噪方法及系统
- 下一篇:一种汉语地名的拼音拼写规范化方法