[发明专利]词权重的生成方法、装置、电子设备及存储介质在审

专利信息
申请号: 202110881442.1 申请日: 2021-08-02
公开(公告)号: CN113590755A 公开(公告)日: 2021-11-02
发明(设计)人: 罗涛;彭力;陈帅 申请(专利权)人: 北京小米移动软件有限公司;北京小米松果电子有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F40/211;G06F40/289;G06F40/216
代理公司: 北京英创嘉友知识产权代理事务所(普通合伙) 11447 代理人: 张岩龙
地址: 100085 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 权重 生成 方法 装置 电子设备 存储 介质
【说明书】:

本公开涉及一种词权重的生成方法、装置、电子设备及存储介质,该方法通过对查询语句进行分词处理,以得到分词后的目标语句本文;按照一个或者多个预设片段划分方式,对目标语句文本进行切分,得到多个文本片段;根据多个文本片段,从预设语料库中获取至少一个目标文本片段,以及至少一个目标文本片段中每个词对应的中间词权重;根据目标文本片段中每个词对应的中间词权重确定目标语句文本中每个词对应的目标词权重。这样,由于无需进行人工标注,因此能够避免出现人工成本较高的问题,由于无需进行多次迭代计算,因此能够有效减少生成词权重过程中需要的计算量,有利于提升词权重的生成效率,并且能够有效保证生成的词权重的准确率。

技术领域

本公开涉及自然语言处理领域,尤其涉及词权重的生成方法、装置、电子设备及存储介质。

背景技术

词权重是NLP(Neuro-Linguistic Programming,神经语言程序学)中的一项重要的解析任务,词权重的大小用于表征词在文章或者query中的重要程度,有利于反映文章和query所要表达的语义主题。通过词权重过滤出来的关键词,能够帮助浏览的用户迅速了解文章所要表达的内容,并且根据分析出来的关键词给文章或者query建立倒排索引,还能够提高文章或者query检索的准确率。此外,词权重作为语义解析的内容,对NLP其他的任务,例如文本分类,文本聚类和文本摘要提取等,也有显著提升效果的作用。

然而,目前的词权重生成方法,通常包括有监督和无监督两类,其中,有监督类的词权重生成方法需要通过大量的带有标签的关键词作为训练数据训练模型,而该关键词的标注通常比较困难,经常需要领域专家去标注文本的关键词,需要耗费的人工标注成本较高;无监督类的词权重生成方法,通常存在生成词权重的效率较低,得到词权重的准确率较差的问题。

发明内容

为克服相关技术中存在的问题,本公开提供一种词权重的生成方法、装置、电子设备及存储介质。

根据本公开实施例的第一方面,提供一种词权重的生成方法,包括:

获取用户输入的查询语句,并对所述查询语句进行分词处理,以得到分词后的目标语句本文;

按照一个或者多个预设片段划分方式,对所述目标语句文本进行切分,得到多个文本片段;

根据多个所述文本片段,从预设语料库中获取至少一个目标文本片段,以及至少一个所述目标文本片段中每个词对应的中间词权重,其中,所述至少一个目标文本片段为所述预设语料库中用于以最少的文本片段数量组成所述目标语句文本的文本片段;

根据所述目标文本片段中每个词对应的中间词权重确定所述目标语句文本中每个词对应的目标词权重。

可选地,所述预设语料库包括多个搜索文本片段以及每个所述搜索文本片段中每个搜索词的中间词权重,所述根据多个所述文本片段,从预设语料库中获取至少一个目标文本片段,以及至少一个所述目标文本片段中每个词对应的中间词权重,包括:

从预设语料库中的多个搜索文本片段中获取与多个所述文本片段匹配的至少一个待定文本片段;

从至少一个所述待定文本片段中,确定用于以最少的文本片段数量组成所述目标语句文本的目标文本片段;

从所述预设语料库中获取所述目标文本片段中每个搜索词对应的中间词权重,以得到所述目标文本片段中每个词对应的中间词权重。

可选地,所述根据所述目标文本片段中每个词对应的中间词权重确定所述目标语句文本中每个词对应的目标词权重,包括:

对所述目标文本片段中每个词对应的中间词权重进行归一化处理,以得到所述目标语句文本中每个词对应的目标词权重。

可选地,所述预设语料库通过以下方式生成:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米移动软件有限公司;北京小米松果电子有限公司,未经北京小米移动软件有限公司;北京小米松果电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110881442.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top