[发明专利]中文错别字自动订正方法及装置无效
| 申请号: | 94109394.8 | 申请日: | 1994-08-05 |
| 公开(公告)号: | CN1056933C | 公开(公告)日: | 2000-09-27 |
| 发明(设计)人: | 张照煌 | 申请(专利权)人: | 财团法人工业技术研究院 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 张志醒,王岳 |
| 地址: | 中国*** | 国省代码: | 台湾;71 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 中文 错别字 自动 订正 方法 装置 | ||
1.一种中文错别字自动检测订正方法,该方法是供电脑自动检测并订正中文文档中错别字的方法,其特征在于包括下列步骤:
综合近似字集代换步骤,将该文档中的文字以字形、字音、字义或与输入码相近字的综合近似字集的各文字予以代换,组合成多个候选字串;
语言模型评分步骤,利用一统计式语言模型对各候选字串给予评分,并找出评分最高的候选字串;及
错误字判断步骤,将上述评分最高的候选字串与所述文档中的文字逐字比对,并标示出其中相异的文字为错别字。
2.如权利要求1所述的方法,其特征在于,所述综合近似字集代换步骤中的综合近似字集由各文字包含原字的一个或多个字形、字音、字义或与输入码相近的文字组成。
3.如权利要求2所述的方法,其特征在于,所述综合近似字集中各文字的近似字分为多个等级。
4.如权利要求1所述的方法,其特征在于,所述综合近似字集代换步骤中,代换前先将所述文档中的文字根据标点符号分成多个处理单元。
5.如权利要求1所述的方法,其特征在于,所述语言模型评分步骤对非原文档的文字评分予以扣分。
6.如权利要求1所述的方法,其特征在于,所述错别字判断步骤在标示错别字时,判断所述评分最高的候选字串中的对应文字为该错别字的正确字。
7.一种中文错别字自动检测订正装置,该装置供电脑自动检测并订正中文文档中的错别字,其特征在于它包括:
综合近似字集代换装置,用以将该文档中的文字代换成字形、字音、字义或与输入码相近字的文字,供组合成多个候选字串;
语言模型评分装置,用以对各候选字串给予评分,并找出评分最高的候选字串;及
错别字判断装置,用以逐字比对上述评分最高的候选字串与所述文档中的文字,并标示其中相异的文字为错别字。
8.如权利要求7所述的装置,其特征在于,所述综合近似字集代换装置之前的输入装置包含一分割装置,用以在代换前将所述文档中的文字根据标点符号分成多个处理单元。
9.如权利要求7所述的装置,其特征在于,所述综合近似字集代换装置包含:
综合近似字集数据库装置,内含中文字集中各文字包含原字的一个或多个字形、字音、字义或与输入码相近的文字;及
代换装置,将文字代换为综合近似字集装置内的近似字。
10.如权利要求9所述的装置,其特征在于,所述综合近似字集装置中的综合近似字集数据库装置各文字的近似字分为多个等级。
11.如权利要求7所述的装置,其特征在于,所述语言模型评分装置包含:
语言模型统计数据库,记录各语言单元的出现频率及语言单元之间的接续出现频率;
评分装置,根据一字串中所含的语言单元及语言模型统计数据库,评定该字串的分数;及
最高评分候选字串搜寻装置,决定最高评分的候选字串。
12.如权利要求11所述的装置,其特征在于,所述评分装置对非原文档的文字评分予以扣分。
13.如权利要求11所述的装置,其特征在于,所述语言模型评分装置的语言模型统计数据库包含一记录各词词类的中文词库。
14.如权利要求11所述的装置,其特征在于,所述语言模型评分装置的最高评分候选字串搜寻装置以动态规划方式搜寻最高评分候选字串。
15.如权利要求7所述的装置,其特征在于,所述错别字判断装置包含:
比对装置,逐字比对所述评分最高的候选字串与所述文档中的文字;及
标示装置,标示比对结果相异的文字为错别字。
16.如权利要求7所述的装置,其特征在于,所述错别字判断装置在标示错别字时,判断所述评分最高的候选字串中的对应文字为该错别字的正确字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于财团法人工业技术研究院,未经财团法人工业技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/94109394.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种治疗骨刺的药物组合物
- 下一篇:类环状流双相变换热器





