[发明专利]一种词处理的方法及相关装置在审
申请号: | 201911330907.3 | 申请日: | 2019-12-20 |
公开(公告)号: | CN113010665A | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 王丹;崔欣 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/338;G06F3/023 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 柳欣 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 处理 方法 相关 装置 | ||
本申请公开了一种词处理的方法及相关装置,该方法包括:获得目标用户安装的目标应用程序;预先挖掘目标应用程序对应的用户语料和/或自定义语料获得目标应用程序的特征词,基于目标应用程序的特征词更新目标用户的输入法词库。由此可见,当目标用户安装目标应用程序,将预先挖掘得到的目标应用程序的特征词推荐给目标用户,以便在用户希望通过输入表达该目标应用程序的特征词时,该目标应用程序的特征词能够对应用户的输入数据直接匹配展示。即,该方式在后续用户输入时明显降低用户的输入代价,较大程度上节省输入时间,大大提升用户的输入体验。
技术领域
本申请涉及输入法技术领域,尤其涉及一种词处理的方法及相关装置。
背景技术
随着信息技术的快速发展,各个输入场景所涉及的词条存在较大的差异性,且新词条不断涌现。一般地,若用户希望输入某个输入场景下相对高频的词条,或者最近时间段内相对高频的新词条,在用户输入后需要将用户的输入数据与用户的输入法词库中词条进行匹配展示相关匹配词条。
但是,发明人经过研究发现,由于用户的输入法词库仅仅包括在全体用户范围上相对高频的词条,即,一些局部用户范围上相对高频的词条和新词条往往不包括在用户的输入法词库中;因此,用户的输入法词库无法提供某个输入场景下相对高频的词条或最近时间段内相对高频的新词条,直接匹配上述用户的输入数据,进而无法直接展示用户所需词条。此情况下,只能在用户的输入数据对应的已有候选词条基础上,用户主动对已有候选词条进行多次分段筛选,以得到用户所需词条,该方式使得用户付出较大的输入代价、耗费较多的输入时间,从而大大降低用户的输入体验。
发明内容
本申请所要解决的技术问题是,提供一种词处理的方法及相关装置,以便在后续用户输入时明显降低用户的输入代价,较大程度上节省输入时间,大大提升用户的输入体验。
第一方面,本申请实施例提供了一种词处理的方法,该方法包括:
获得目标用户安装的目标应用程序;
基于所述目标应用程序的特征词更新所述目标用户的输入法词库;所述目标应用程序的特征词是基于所述目标应用程序对应的用户语料和/或自定义语料预先挖掘获得的。
可选的,所述目标应用程序的特征词的获得步骤包括:
针对所述目标应用程序,收集所述用户语料和/或所述自定义语料;
基于预设挖掘策略挖掘所述用户语料和/或所述自定义语料,获得所述目标应用程序的特征词。
可选的,所述基于预设挖掘策略挖掘所述用户语料和/或所述自定义语料,获得所述目标应用程序的特征词,包括:
统计所述用户语料和/或所述自定义语料中各个分词的词频-逆文件频率;
基于各个所述分词的词频-逆文件频率和预设词频-逆文件频率,筛选获得所述目标应用程序的特征词。
可选的,所述基于各个所述分词的词频-逆文件频率和预设词频-逆文件频率,筛选获得所述目标应用程序的特征词,包括:
选取所述词频-逆文件频率大于等于所述预设词频-逆文件频率的分词形成目标分词集合;
基于预设标记词表过滤所述目标分词集合,获得所述目标应用程序的特征词。
可选的,在所述获得目标用户安装的目标应用程序之后,所述基于所述目标应用程序的特征词更新所述目标用户的输入法词库之前,还包括:
获得所述目标应用程序的使用情况;
对应地,所述基于所述目标应用程序的特征词更新所述目标用户的输入法词库,具体为:
若所述目标应用程序的使用情况满足预设条件,基于所述目标应用程序的特征词更新所述目标用户的输入法词库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911330907.3/2.html,转载请声明来源钻瓜专利网。