[发明专利]一种面向问答系统的输入文本自动纠错方法有效
| 申请号: | 201710507529.6 | 申请日: | 2017-06-28 |
| 公开(公告)号: | CN107220381B | 公开(公告)日: | 2019-11-15 |
| 发明(设计)人: | 江艳 | 申请(专利权)人: | 南京云问网络技术有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 211100江苏省南*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 拼音 名词词典 拼音音节 问答系统 构建 汉字 文本 模糊匹配算法 接收用户 匹配步骤 输入文本 用户体验 自动机构 自动纠错 自动纠正 最大匹配 单音节 正确率 准确率 匹配 合法 切割 输出 | ||
1.一种面向问答系统的输入文本自动纠错方法,其特征在于,包括以下步骤:
1)定义常见错误拼音音节表;
2)构建领域名词词典,所述领域名词包括名词和名词短语;
3)使用确定的有限自动机构建步骤2)的领域名词词典,
所述确定的有限自动机定义为:R=(Q,A,δ,q0,F),其中,Q表示状态集,A表示输入拼音集,δ:Q×A→Q,δ是Q与A的直积Q×A到Q的映射,q0∈Q为起始状态,为终止状态具体包括如下步骤:
301)逐一读取步骤2)中的领域名词;
302)判断领域名词首字拼音库中是否包含当前领域名词的首字拼音,即判断是否已经包含当前首字拼音的树;若是,则执行步骤303),若否,则执行步骤304);
303)如果领域名词首字拼音库中包含当前领域名词的首字拼音,即判断已经包含当前首字拼音的树,则找出已经存在的首字拼音树并得到首节点;
304)将当前领域名词的首字拼音加入到领域名词首字拼音库中,构建一棵领域名词拼音树并将当前拼音放入节点中;
305)判断当前拼音是否为终节点,即判断当前拼音是否为领域名词最后一个字的拼音;若是,则执行步骤311),若否,则执行步骤306;
306)如果步骤305中当前拼音不是终节点,即当前拼音不是领域名词的最后一个字的拼音,则判断当前标志位是否已经被设置为1;若是,则执行步骤308),若否,则执行步骤307);
307)若步骤306中拼音标志位之前未被设置为1,则将此处拼音标志位设置为0,然后执行步骤308);
308)读取当前领域名词下一个字的拼音;
309)判断步骤303)或步骤304)当前节点的子节点是否包含步骤308)的拼音;若是,则跳转到步骤305),若否,则执行步骤310);
310)将步骤308)的拼音添加为当前节点的子节点,然后再跳转到步骤305);
311)如果步骤305)中当前拼音是终节点,即是领域名词最后一个字的拼音,则将拼音节点的标志位设置为1;
312)判断领域名词是否读完;若是,则结束进程,若否,则返回到步骤301)继续读取下一个领域名词; 4)接收用户输入的文本,所述用户输入的文本包括汉字或拼音,使用汉字转拼音工具转为拼音,然后使用逆向最大匹配法切分除了单音节拼音之外的所有合法或不合法的拼音;
5)将步骤4)中切割的拼音采用模糊匹配算法逐一匹配步骤3)中构建的领域名词词典,并记录匹配过程中拼音的编辑距离,然后根据步骤1)中常见错误拼音音节表对常见错误下拼音的编辑距离进行调整,在拼音的编辑距离或调整后的拼音的编辑距离小于设定的阈值β时继续匹配,匹配出最长的领域名词,最终取路径所有的汉字组合;
6)对步骤5)中所有汉字组合形成的一个或多个的领域名词进行打分;
7)输出步骤6)中打分最高的领域名词。
2.根据权利要求1所述的一种面向问答系统的输入文本自动纠错方法,其特征在于,所述步骤1)中常见错误拼音音节表包括拼音开头出错的拼音和拼音结尾出错的拼音,所述拼音开头出错的拼音包括:n和l错误、h和f错误,翘舌音z、c、s和平舌音zh、ch、sh错误;所述拼音结尾出错的拼音包括:前鼻音an、en、in和后鼻音ang、eng、ing错误。
3.根据权利要求1所述的一种面向问答系统的输入文本自动纠错方法,其特征在于,所述步骤2)具体包括:
201)根据词频对领域名词进行排序;
202)将词频小于预定词频阈值α的领域名词剔除,将词频大于设定词频阈值α的领域名词提取出来加入领域名词词典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京云问网络技术有限公司,未经南京云问网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710507529.6/1.html,转载请声明来源钻瓜专利网。





