[发明专利]叠字错误检测方法及装置在审
| 申请号: | 202010842426.7 | 申请日: | 2020-08-20 |
| 公开(公告)号: | CN111783458A | 公开(公告)日: | 2020-10-16 |
| 发明(设计)人: | 余红 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/279;G06F40/211;G06F40/242;G06F40/30;G06F16/35 |
| 代理公司: | 北京永新同创知识产权代理有限公司 11376 | 代理人: | 林锦辉;刘景峰 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 叠字 错误 检测 方法 装置 | ||
1.一种用于检测语句中的叠字错误的方法,包括:
对包含叠字的语句进行分词处理;
在叠字分别位于相邻分词时,获取叠字所在分词的分词信息,所述分词信息包括分词词性和分词拼音;以及
使用所述分词信息来检测所述语句中的叠字错误。
2.如权利要求1所述的方法,其中,所述分词信息还包括分词的组成字数。
3.如权利要求1或2所述的方法,其中,使用所述分词信息来检测所述语句中的叠字错误包括:
根据所述分词信息确定叠字判别模型的模型特征向量;以及
将所述模型特征向量提供给所述叠字判别模型来检测所述语句中的叠字错误。
4.如权利要求3所述的方法,其中,根据所述分词信息确定叠字判别模型的模型特征向量包括:
根据所述分词信息确定叠字在所述相邻分词中的词性一致性、拼音一致性和/或组成字数;以及
根据叠字在所述相邻分词中的词性一致性、拼音一致性和/或组成字数,生成所述叠字判别模型的模型特征向量。
5.如权利要求1所述的方法,其中,对包含叠字的语句进行分词处理包括:
使用文本分词算法来对包含叠字的语句进行分词处理。
6.如权利要求5所述的方法,其中,所述文本分词算法包括:
基于分词词典的文本分词算法;
基于统计的文本分词算法;
基于规则的文本分词算法;
基于模型的文本分词算法;或者
基于字标注的文本分词算法。
7.如权利要求1所述的方法,还包括:
确定所述语句在去除所述叠字前后的困惑度得分变化值,
使用所述分词信息来检测所述语句中的叠字错误包括:
使用所述分词信息和所述困惑度得分变化值来检测所述语句中的叠字错误。
8.如权利要求3所述的方法,其中,所述叠字判别模型包括下述模型中的一种:
随机森林模型;
决策树模型;
梯度提升树模型;
神经网络模型;
支持向量机;
感知机。
9.如权利要求1所述的方法,还包括:
对输入语句进行语句划分;以及
从划分出的语句中确定出包含叠字的语句。
10.一种用于检测语句中的叠字错误的装置,包括:
分词处理单元,对包含叠字的语句进行分词处理;
分词信息获取单元,在叠字分别位于相邻分词时,获取叠字所在分词的分词信息,所述分词信息包括分词词性和分词拼音;以及
叠字错误检测单元,使用所述分词信息来检测所述语句中的叠字错误。
11.如权利要求10所述的装置,其中,所述叠字错误检测单元包括:
模型输入确定模块,根据所述分词信息确定叠字判别模型的模型特征向量;以及
叠字错误检测模块,将所述模型特征向量提供给所述叠字判别模型来检测所述语句中的叠字错误。
12.如权利要求11所述的装置,其中,所述分词信息还包括分词的组成字数,所述模型输入确定模块:
根据所述分词信息确定叠字在所述相邻分词中的词性一致性、拼音一致性和/或组成字数;以及
根据叠字在所述相邻分词中的词性一致性、拼音一致性和/或组成字数,生成所述叠字判别模型的模型特征向量。
13.如权利要求10所述的装置,其中,所述分词处理单元使用文本分词算法来对包含叠字的语句进行分词处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010842426.7/1.html,转载请声明来源钻瓜专利网。





