[发明专利]一种文本改写的方法以及相关设备有效
申请号: | 201810709347.1 | 申请日: | 2018-07-02 |
公开(公告)号: | CN109117475B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 王璐;张文明;陈少杰 | 申请(专利权)人: | 武汉斗鱼网络科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/216;G06F40/289 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 刘杰 |
地址: | 430000 湖北省武汉市东湖开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 改写 方法 以及 相关 设备 | ||
本发明实施例提供了一种文本改写的方法及相关设备,用于提高文本改写的合理性。本发明实施例方法包括:将用户输入的目标文本进行分词,以得到第一分词集合,所述第一分词集合中至少包括一个分词;对所述第一分词集合中的每个分词分别进行改写,以得到第二分词集合,所述第二分词集合中的各个分词与所述第一分词集合中的各个分词具有关联关系,且所述第一分词集合中的每个分词至少对应所述第二分词集合中的一个分词;计算所述第二分词集合中的每个分词的语义损失,所述语义损失为所述第一分词集合中的分词与所述第二分词集合中对应的分词的差异度;确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词。
技术领域
本发明涉及搜索领域,尤其涉及一种文本改写的方法以及相关设备。
背景技术
在直播平台上,搜索是非常重要的一个入口,用户输入的搜索文本代表用户的某种意图。一个具有良好体验的搜索功能希望在用户输入的文本基础上进行一些模糊改写,改写的目的是扩充用户的意图表达,这样当用户看到改写的搜索文本时可能会认为改写的文本更加符合其意图或者丰富了用户的意图。
然而,现有的改写通常是将相近或者相似得词作为候选,但是,这种改写没有考虑到改写的合理性,也即没有考虑改写后的意思不能违背用户的初衷,例如某些相近或者相似的候选词意思并不相同,也不相近,给用户造成误导,影响用户体验。
发明内容
本发明实施例提供了一种文本改写的方法以及相关设备,用于提高文本改写的合理性,提高用户体验。
本发明实施例的第一方面提供了一种文本改写的方法,包括:
将用户输入的目标文本进行分词,以得到第一分词集合,所述第一分词集合中至少包括一个分词;
对所述第一分词集合中的每个分词分别进行改写,以得到第二分词集合,所述第二分词集合中的各个分词与所述第一分词集合中的各个分词具有关联关系,且所述第一分词集合中的每个分词至少对应所述第二分词集合中的一个分词;
计算所述第二分词集合中的每个分词的语义损失,所述语义损失为所述第一分词集合中的分词与所述第二分词集合中对应的分词的差异度;
确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词。
可选地,所述计算所述第二分词集合中的每个分词的语义损失包括:
通过如下公式计算所述第二分词集合中的每个分词的语义损失:
其中,所述α和所述β是权重因子,且α+β=1,所述ε是平滑因子,所述q是所述第一分词集合中的各个分词,所述q0是所述第二分词集合中的各个分词,所述S(q)是所述q的历史行为得分,所述S(q0)是改写搜索文本q0的历史行为得分,所述t是所述q中的任一分词,所述t0是所述q0中的任一分词,所述wt是所述t对应的权重,所述f(t|t0)为将所述t替换为所述t0的收益。
可选地,所述方法还包括:
通过如下公式计算所述S(q):
其中,norm_pv(q)是标准化后的所述q在预设时长被搜索的总次数, norm_click(q)是标准化后的所述q在所述预设时长内搜索点击的次数, norm_clickratio(q)是标准化后的所述q在所述预设时长内的点击率。
可选地,所述方法还包括:
通过如下公式计算所述q在所述预设时长内的点击率:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司,未经武汉斗鱼网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810709347.1/2.html,转载请声明来源钻瓜专利网。