[发明专利]一种智能组词方法和装置、一种用于智能组词的装置有效
| 申请号: | 201611004532.8 | 申请日: | 2016-11-11 |
| 公开(公告)号: | CN108073294B | 公开(公告)日: | 2021-11-02 |
| 发明(设计)人: | 费腾 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
| 主分类号: | G06F3/023 | 分类号: | G06F3/023 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 刘祥景 |
| 地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 智能 方法 装置 用于 | ||
1.一种智能组词方法,其特征在于,包括:
接收用户的输入内容;
基于词性模板,解析所述输入内容,得到与所述词性模板相匹配的待组词模板字符串以及待组词汇;
利用多元关系数据对所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇进行组词,以得到对应的组词结果;其中,所述多元关系数据用于记录模板字符串之间、或者模板字符串与词汇之间的多元关系;
将所述组词结果中的待组词模板字符串替换为对应的待组词汇;
其中,所述基于词性模板,解析所述输入内容,包括:
从所述输入内容对应的待组词汇中提取预设词性词;
按照所述预设词性词对应的词性模板,将所述预设词性词解析成与其词性相应的待组词模板字符串。
2.根据权利要求1所述的方法,其特征在于,所述利用多元关系数据对所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇进行组词的步骤,包括:
依据所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇,在多元关系数据中进行查找;
若查找命中,则依据所述多元关系数据中记录的多元关系,得到对应的组词结果。
3.根据权利要求1或2所述的方法,其特征在于,所述输入内容包括:输入串,则所述方法还包括:
对所述输入串进行切分,以得到对应的切分结果;
在词库中进行查找,以得到与所述切分结果相匹配的词汇,作为所述输入串对应的待组词汇。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
依据所述切分结果对应的待组词汇与所述词性模板的匹配信息,针对所述切分结果设置对应的优先级。
5.根据权利要求3所述的方法,其特征在于,所述输入内容还包括:所述输入串对应的上下文,则所述输入内容对应的待组词汇包括:所述输入串对应的待组词汇和所述上下文。
6.根据权利要求1或2所述的方法,其特征在于,通过如下步骤获取所述多元关系数据:
获取符合词性模板的多元关系,将符合所述词性模板的多元关系作为多元关系数据进行保存。
7.根据权利要求1或2所述的方法,其特征在于,通过如下步骤获取所述多元关系数据:
从预置语料中获取相邻出现的多个词汇,所述多个词汇中包括:预设词性词;
按照词性模板,将所述多个词汇包含的预设词性词解析为相应的模板字符串;
针对所述多个词汇,将对应的模板字符串之间、或者模板字符串与词汇之间的多元关系作为多元关系数据进行保存。
8.根据权利要求1所述的方法,其特征在于,所述预设词性词包括:第一预设词性词和/或第二预设词性词。
9.根据权利要求1或2所述的方法,其特征在于,通过如下步骤构建所述词性模板:
将预设词性词与其他词汇之间的修饰关系、或者预设词性词与预设词性词之间的修饰关系作为词性模板。
10.一种智能组词装置,其特征在于,包括:
内容接收模块,用于接收用户的输入内容;
解析模块,用于基于词性模板,解析所述输入内容,得到与所述词性模板相匹配的待组词模板字符串以及待组词汇;
组词模块,用于利用多元关系数据对所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇进行组词,以得到对应的组词结果;其中,所述多元关系数据用于记录模板字符串之间、或者模板字符串与词汇之间的多元关系;以及
替换模块,用于将所述组词结果中的待组词模板字符串替换为对应的待组词汇;
其中,所述解析模块包括:
提取子模块,用于从所述输入内容对应的待组词汇中提取预设词性词;
解析子模块,用于按照所述预设词性词对应的词性模板,将所述预设词性词解析成与其词性相应的待组词模板字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611004532.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种目标词组的确定方法和装置
- 下一篇:10键30个字母键元的形音输入法





