[发明专利]一种目标词确定方法、装置及存储介质有效
申请号: | 201810968091.6 | 申请日: | 2018-08-23 |
公开(公告)号: | CN109271624B | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 林佳涛;吕远方;陈琳 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/295 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 于天琳;王琦 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 目标 确定 方法 装置 存储 介质 | ||
本申请提供了一种目标词确定方法、装置以及存储介质,其中选择任一备选词,提取所述备选词在待预测文章中的第一特征信息,所述第一特征信息表征所述备选词的属性特征和/或上下文特征;利用所述备选词的先验信息对提取的所述第一特征信息进行处理,得到所述备选词在所述待预测文章中的第二特征信息,所述第二特征信息表征所述先验信息与所述第一特征信息的关联关系;对所述备选词的所述第一特征信息以及所述第二特征信息进行分类处理,根据所述第一特征信息和所述第二特征信息与目标特征信息的匹配度,确定所述备选词是否为待预测文章的目标词,其中,所述目标词用于指示与所述待预测文章相关的应用程序,所述目标特征信息为指示所述备选词是否为目标词的特征信息。
技术领域
本申请涉及自然语言处理领域,尤其涉及一种目标词确定方法、装置及存储介质。
背景技术
目前,随着移动互联网的快速发展,人们的生活越来越离不开应用程序。根据用户在应用商店对内容的搜索,应用商店不仅可以向用户提供与搜索内容相关的文章,还能够向用户推荐与搜索内容相关度较高的应用程序。在此背景下,基于文本内容的目标词确定方法成为自然语言处理领域中一项越来越受关注的课题。
当前确定文章中目标词的方式主要有基于TextRank的关键词提取方法以及基于命名实体识别的提取方法。通过对TextRank算法了解可知,算法主要考虑的是词窗口的连接关系以及词频,忽略了词的先验信息及上下文信息。该算法无法挖掘低频目标词,也无法处理目标词的歧义性,比如“得到”是一个应用程序的名称,同时在大部分场景时候以动词形式出现,在分析过程中容易被收集为应用程序的名称。这种方法的准确率和召回率都不高。
使用深度学习进行命名实体识别的方法,对文章预测的耗时随着文章的长度增加而不断增加,性能低下,不能满足在线预测要求。对训练集规模要求高(百万级别的句子),由于包含目标词的文章规模比较小,收集成本很高。
发明内容
本申请实施例提供了一种目标词确定方法、装置及存储介质,能够准确、高效的识别出文章中目标词。
本申请实施例提供了一种目标词的确定方法,包括:
选择任一备选词,提取所述备选词在待预测文章中的第一特征信息,所述第一特征信息表征所述备选词的属性特征和/或上下文特征;
利用所述备选词的先验信息对提取的所述第一特征信息进行处理,得到所述备选词在所述待预测文章中的第二特征信息,所述第二特征信息表征所述先验信息与所述第一特征信息的关联关系;
对所述备选词的所述第一特征信息以及所述第二特征信息进行分类处理,根据所述第一特征信息和所述第二特征信息与目标特征信息的匹配度,确定所述备选词是否为所述待预测文章的目标词,其中,所述目标词用于指示与所述待预测文章相关的应用程序,所述目标特征信息为指示所述备选词是否为目标词的特征信息。
本申请实施例提供了一种目标词的确定装置,包括:
提取模块,选择任一备选词,提取所述备选词在待预测文章中的第一特征信息,所述第一特征信息表征所述备选词的属性特征和/或上下文特征;
处理模块,利用所述备选词的先验信息对提取的所述第一特征信息进行处理,得到所述备选词在所述待预测文章中的第二特征信息,所述第二特征信息表征所述先验信息与所述第一特征信息的关联关系;
分类模块,对所述备选词的所述第一特征信息以及所述第二特征信息进行分类处理,根据所述第一特征信息和所述第二特征信息与目标特征信息的匹配度,确定所述备选词是否为所述待预测文章的目标词,其中,所述目标词用于指示与所述待预测文章相关的应用程序,所述目标特征信息为指示所述备选词是否为目标词的特征信息。
本申请实施例还提供了一种存储介质,存储有可读指令,可以使至少一个处理器执行上述目标词的确定方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810968091.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文本情感去噪方法及系统
- 下一篇:一种汉语地名的拼音拼写规范化方法