[发明专利]一种应用于垂直领域的专业词汇纠错方法及系统在审
| 申请号: | 201810651482.5 | 申请日: | 2018-06-22 |
| 公开(公告)号: | CN110633463A | 公开(公告)日: | 2019-12-31 |
| 发明(设计)人: | 赵鹏;吴雪军 | 申请(专利权)人: | 鼎复数据科技(北京)有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 11426 北京康思博达知识产权代理事务所(普通合伙) | 代理人: | 孙建玲;刘冬梅 |
| 地址: | 100020 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 专业词汇 混淆 纠错 分词处理 会话 拼写 机器人 意图识别 遍历 单轮 多轮 构建 加载 客服 句子 替换 词语 耗时 垂直 智能 对话 应用 | ||
1.一种应用于垂直领域的专业词汇纠错方法,其特征在于,该方法包括以下步骤:
步骤100),构建混淆集,所述混淆集中包括有拼写正确的专业词汇和与专业词汇对应的易混淆词;
步骤200),对用户拼写输入的句子进行分词处理;
步骤300),加载混淆集,对分词处理后的每个词语进行混淆集遍历,识别存在的易混淆词,并替换为正确的专业词汇,完成纠错。
2.根据权利要求1所述的方法,其特征在于,步骤100)包括以下子步骤:
子步骤110),根据垂直领域中的专业词汇构建专业词汇词典;
子步骤120),构建易混淆字典,其中包括基准汉字、以及与该基准汉字对应的多个易混淆字;
子步骤130),利用易混淆字典中的易混淆字,对专业词汇词典中的专业词汇进行单字替换和双字替换,形成初步混淆集;该初步混淆集中包括拼写正确的专业词汇、以及经易混淆字替换专业词汇中基准汉字后形成的易混淆词。
3.根据权利要求2所述的方法,其特征在于,在子步骤110)中,专业词汇词典的构建可以是对该垂直领域中所有专业词汇进行整理、汇总得到;
优选地,专业词汇词典的构建是针对设定类别的专业词汇进行整理、汇总得到,该设定类别中的专业词汇的人为拼写错误率较高。
4.根据权利要求2所述的方法,其特征在于,在子步骤120)中,易混淆字典的数据集格式是key-value格式,key为基准汉字,value为该基准汉字可能的错误拼写形式,即多个易混淆字;
该错误拼写形式包括基准汉字的同音同调错误拼写形式、同音异调错误拼写形式、近音同调错误拼写形式、以及近音异调错误拼写形式。
5.根据权利要求1所述的方法,其特征在于,在步骤100)中还包括子步骤140),对专业词汇词典和易混淆字典进行优化,利用优化后的易混淆字典,对优化后的专业词汇词典中的专业词汇进行单字替换和双字替换,形成优化后的混淆集;
优选地,该优化后的混淆集包括单字替换混淆集和双字替换混淆集,即专业词汇和经单字替换后形成的易混淆词构成易混淆词对包含在单字替换混淆集中,专业词汇和经双字替换后形成的易混淆词构成易混淆词对包含在双字替换混淆集中。
6.根据权利要求5所述的方法,其特征在于,在子步骤140)中,对专业词汇词典进行优化包括:利用初步混淆集对专业词汇词典进行过滤,得到存在于专业词汇词典中的易混淆词对,并对易混淆词对中拼写错误的专业词汇进行修改;和/或
对易混淆字典进行优化包括:根据基准汉字的字频确定其要保留的错误拼写形式汉字即易混淆字的数量;字频越高的基准汉字,其要保留的错误拼写形式汉字即易混淆字的数量越少;
优选地,对易混淆字典中错误拼写形式的汉字进行字频排序,优先保留字频高的错误拼写形式的汉字。
7.根据权利要求5所述的方法,其特征在于,在子步骤140)中,对优化后的混淆集进行进一步优化,包括:根据混淆集中易混淆词的词频,去除词频高于设定阈值的易混淆词;
进一步地,对去除的易混淆词进行筛查,确定普遍在用户输入语句中出现并用于表示其他有效含义的易混淆词,将该易混淆词重新加入优化后的混淆集中。
8.根据权利要求5所述的方法,其特征在于,在子步骤140)中,对优化后的混淆集进行进一步优化,还包括:增加语序错误的情况,即将优化后的专业词汇中的汉字打乱顺序形成易混淆词对补充到混淆集中;
优选地,选择优化后的专业词汇词典中字数为3~4个字的专业词汇,将字数为3个字的专业词汇、与专业词汇中的字以所有可能的排布方式组成的易混淆词形成易混淆词对后,补充到混淆集中;将字数为4个字的专业词汇、与专业词汇中位于中间的两个字交换后组成的易混淆词形成易混淆词对后,补充到混淆集中。
9.根据权利要求2所述的方法,其特征在于,在步骤200)中,结合分词词典进行分词处理,其中,
将优化后的混淆集中的专业词汇录入分词词典中。
10.一种用于实施上述权利要求1至9之一所述方法的系统,该系统包括:
混淆集构建模块:用于构建混淆集,所述混淆集中包括有拼写正确的专业词汇和与专业词汇对应的易混淆词;
分词模块:用于对用户拼写输入的句子进行分词处理;
纠错模块,用于加载混淆集,对分词处理后的每个词语进行混淆集遍历,识别存在的易混淆词,并替换为正确的专业词汇,完成纠错。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎复数据科技(北京)有限公司,未经鼎复数据科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810651482.5/1.html,转载请声明来源钻瓜专利网。





