[发明专利]一种智能组词方法和装置、一种用于智能组词的装置有效
| 申请号: | 201611004532.8 | 申请日: | 2016-11-11 |
| 公开(公告)号: | CN108073294B | 公开(公告)日: | 2021-11-02 |
| 发明(设计)人: | 费腾 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
| 主分类号: | G06F3/023 | 分类号: | G06F3/023 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 刘祥景 |
| 地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 智能 方法 装置 用于 | ||
本发明实施例提供了一种智能组词方法和装置、一种用于智能组词的装置,其中的方法具体包括:接收用户的输入内容;基于词性模板,解析所述输入内容,得到与所述词性模板相匹配的待组词模板字符串以及待组词汇;利用多元关系数据对所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇进行组词,以得到对应的组词结果;其中,所述多元关系数据用于记录模板字符串之间、或者模板字符串与词汇之间的多元关系;将所述组词结果中的待组词模板字符串替换为对应的待组词汇。本发明实施例可以在节省存储空间的情况下,提高多元关系的覆盖率、以及组词的成功率。
技术领域
本发明涉及计算机信息输入技术领域,特别是涉及一种智能组词方法和装置、一种用于智能组词的装置。
背景技术
目前,涉及交互的设备,通常需要用户通过输入法系统将自己的操作意图与设备交互识别。例如,用户可以输入输入串或语音,然后由输入法系统依据其预置的标准映射规则将该输入串或识别语音,将输入内容转换为相应语言的候选项并展示,进而将用户选择的候选项上屏。
当词库中不存在直接命中输入串的词条时,输入法系统可以触发智能组词功能。现有的智能组词方案为查找二元库中的二元关系,依据二元关系的命中情况计算每个组词方案中词汇串的路径概率,并将具有最大路径概率的组词方案作为首选项返回给用户。其中,二元关系是指词汇与词汇之间的搭配关系,如“天气-好热”、“我-知道”、“喜欢-你”、“十万-八千”等可以具有二元关系。智能组词功能非常重要,智能组词结果的好坏将直接决定输入法系统的质量,也将直接影响到用户的体验。
然而,发明人在实施本发明实施例的过程中发现,对于包含数词、量词或者副词的智能组词,其往往需要非常多的二元关系,这对于二元库的尺寸和存储空间存在较高的要求。以数词的智能组词为例,需要存储“一万-一千”、“两万-一千”、“三万-一千”、…、“九万-一千”、“两万-两千”、…“九万-九千”、“一千-一百”、…、“九千-九百”等大量的二元关系,这将使二元库占用较大的存储空间。
另外,在实际应用中,二元库中存储的二元关系往往是通过统计学习的方式得到,通常存储的二元关系很难保证能够覆盖所有的情况,这样将导致智能组词失败的问题。例如,若二元库中未存储“九万-八千”,则输入串“jiuwanbaqian”对应的词汇“九万”和“八千”将无法命中二元库中的二元关系,进而导致智能组词失败。
发明内容
鉴于上述问题,本发明实施例提出了一种克服上述问题或者至少部分地解决上述问题的智能组词方法、智能组词装置及用于智能组词的装置,本发明实施例可以在节省存储空间的情况下,提高多元关系的覆盖率、以及组词的成功率。
为了解决上述问题,本发明公开了一种智能组词方法,包括:
接收用户的输入内容;
基于词性模板,解析所述输入内容,得到与所述词性模板相匹配的待组词模板字符串以及待组词汇;
利用多元关系数据对所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇进行组词,以得到对应的组词结果;其中,所述多元关系数据用于记录模板字符串之间、或者模板字符串与词汇之间的多元关系;
将所述组词结果中的待组词模板字符串替换为对应的待组词汇。
可选地,所述利用多元关系数据对所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇进行组词的步骤,包括:
依据所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇,在多元关系数据中进行查找;
若查找命中,则依据所述多元关系数据中记录的多元关系,得到对应的组词结果。
可选地,所述输入内容包括:输入串,则所述方法还包括:
对所述输入串进行切分,以得到对应的切分结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611004532.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种目标词组的确定方法和装置
- 下一篇:10键30个字母键元的形音输入法





