[发明专利]叠字错误检测方法及装置在审
| 申请号: | 202010842426.7 | 申请日: | 2020-08-20 |
| 公开(公告)号: | CN111783458A | 公开(公告)日: | 2020-10-16 |
| 发明(设计)人: | 余红 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/279;G06F40/211;G06F40/242;G06F40/30;G06F16/35 |
| 代理公司: | 北京永新同创知识产权代理有限公司 11376 | 代理人: | 林锦辉;刘景峰 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 叠字 错误 检测 方法 装置 | ||
本说明书的实施例提供用于检测语句中的叠字错误的方法及装置。在该方法中,对包含叠字的语句进行分词处理。此外,针对叠字分别位于相邻分词的语句,获取叠字所在分词的分词信息,所述分词信息包括分词词性和分词拼音。然后,使用所获取的分词信息来检测语句中的叠字错误。
技术领域
本说明书实施例通常涉及语言处理领域,尤其涉及用于检测语句中的叠字错误的方法及装置。
背景技术
在进行语句分析时,会发现所分析的语句中存在叠字现象。所述叠字现象是指同一语句中相邻位置上的字完全相同。语句中的这些叠字可能是错误的重复输入而导致,例如:“按照有效核查数量量计费”中的“量量”这个叠字是错误的,但有些叠字也可能是正确的,例如,“阿里巴巴网络技术有限公司”中的“巴巴”。在一些正式的文件之中,叠字的错误输入会给合作方留下不好印象,甚至还可能会产生法律风险或法律纠纷,比如,在合同签署时,“甲方支付肆万万元整(含税价)给乙方”中的叠字“万万”会导致合同条款错误,造成后续产生法律纠纷的风险。
发明内容
鉴于上述,本说明书实施例提供用于检测语句中的叠字错误的方法及装置。利用该方法和装置,通过使用叠字所在不同分词的分词词性和分词拼音来进行叠字错误检测,可以提升叠字错误检测的效率和准确率。
根据本说明书实施例的一个方面,提供一种用于检测语句中的叠字错误的方法,包括:对包含叠字的语句进行分词处理;在叠字分别位于相邻分词时,获取叠字所在分词的分词信息,所述分词信息包括分词词性和分词拼音;以及使用所述分词信息来检测所述语句中的叠字错误。
可选地,在上述方面的一个示例中,所述分词信息还包括分词的组成字数。
可选地,在上述方面的一个示例中,使用所述分词信息来检测所述语句中的叠字错误包括:根据所述分词信息确定叠字判别模型的模型特征向量;以及将所述模型特征向量提供给所述叠字判别模型来检测所述语句中的叠字错误。
可选地,在上述方面的一个示例中,根据所述分词信息确定叠字判别模型的模型特征向量包括:根据所述分词信息确定叠字在所述相邻分词中的词性一致性、拼音一致性和/或组成字数;以及根据叠字在所述相邻分词中的词性一致性、拼音一致性和/或组成字数,生成所述叠字判别模型的模型特征向量。
可选地,在上述方面的一个示例中,对包含叠字的语句进行分词处理包括:使用文本分词算法来对包含叠字的语句进行分词处理。
可选地,在上述方面的一个示例中,所述文本分词算法包括:基于分词词典的文本分词算法;基于统计的文本分词算法;基于规则的文本分词算法;基于模型的文本分词算法;或者基于字标注的文本分词算法。
可选地,在上述方面的一个示例中,所述方法还包括:确定所述语句在去除所述叠字前后的困惑度得分变化值,使用所述分词信息来检测所述语句中的叠字错误包括:使用所述分词信息和所述困惑度得分变化值来检测所述语句中的叠字错误。
可选地,在上述方面的一个示例中,所述叠字判别模型包括下述模型中的一种:随机森林模型;决策树模型;梯度提升树模型;神经网络模型;支持向量机;感知机。
可选地,在上述方面的一个示例中,所述方法还包括:对输入语句进行语句划分;以及从划分出的语句中确定出包含叠字的语句。
根据本说明书的实施例的另一方面,提供一种用于检测语句中的叠字错误的装置,包括:分词处理单元,对包含叠字的语句进行分词处理;分词信息获取单元,在叠字分别位于相邻分词时,获取叠字所在分词的分词信息,所述分词信息包括分词词性和分词拼音;以及叠字错误检测单元,使用所述分词信息来检测所述语句中的叠字错误。
可选地,在上述方面的一个示例中,所述叠字错误检测单元包括:模型输入确定模块,根据所述分词信息确定叠字判别模型的模型特征向量;以及叠字错误检测模块,将所述模型特征向量提供给所述叠字判别模型来检测所述语句中的叠字错误。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010842426.7/2.html,转载请声明来源钻瓜专利网。





