[发明专利]多语言文本中的语言识别有效
| 申请号: | 201110311472.5 | 申请日: | 2011-10-14 |
| 公开(公告)号: | CN102402584A | 公开(公告)日: | 2012-04-04 |
| 发明(设计)人: | 李康;S.A.克罗德;I.G.约翰森;S.阿罗尼乔 | 申请(专利权)人: | 微软公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 刘鹏;丁永凡 |
| 地址: | 美国华*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语言 文本 中的 识别 | ||
1.一种使用计算机处理器、存储器和数据存储子系统来识别文档中多语言文本的计算机实现的系统,该计算机实现的系统包括:
代码页转换部件(210),识别文档所使用的字符编码并且通过处理器将所述编码译码成通用表示编码;
部分断开和分类部件(220),将文档的纯文本内容划分成一个或多个加权部分;
语言评分部件(230),获得一个或多个加权部分中每一词、短语、或字符n元语法模型的语言似然性评分,并且按照语言来组合所获得的语言似然性评分;以及
输出语言选择部件(240),基于最高组合语言似然性评分选择文档的主要语言。
2.权利要求1的计算机实现的系统,其中通用表示代码(210)包括统一代码。
3.权利要求1的计算机实现的系统,其中一个或多个加权部分包括与文档相关的部分的重要性评级(830)。
4.权利要求1的计算机实现的系统,其中基于文档的HTML标记、可视布局、结构、以及语义内容将纯文本内容解析成各部分(820)。
5.权利要求1的计算机实现的系统,其中语言似然性评分(840)是语言流行性、文档起源的国家、文档中使用的编码以及文档URL中的一个或多个的函数。
6.权利要求1的计算机实现的系统,其中语言似然性评分(920)包括属于一种或多种语言的每一词、短语、或字符n元语法模型的似然性。
7.权利要求1的计算机实现的系统,其中输出语言选择部件对每一种语言的组合的语言似然性评分的结果进行排序(950)。
8.一种使用具有处理器、存储器和数据存储子系统的计算系统来识别文档中多语言文本的计算机实现的方法,该计算机实现的方法包括:
对文档中的纯文本内容的一个或多个区域进行隔离(810);
根据语义和语法类别将纯文本内容拆分成各部分(820);
分配权重给每一部分(830);
计算每一部分中每一词、短语、或字符n元语法模型的语言似然性评分(840);
计算每一种语言的每一部分的组合的语言似然性评分(850);以及
根据所述计算输出最高排序语言(860)以作为文档的主要语言。
9.权利要求8的计算机实现的方法,进一步包括:
识别用于文档的编码(210);以及
译码(210)成通用表示代码。
10.权利要求8的计算机实现的方法,其中所述计算包括:
计算部分内每一词、短语或字符n元语法模型的语言似然性评分(840)乘以相关联部分的权重。
11.权利要求10的计算机实现的方法,其中所述计算进一步包括:
为每一种语言计算文档的语言似然性评分的和(850)。
12.权利要求8的计算机实现的方法,进一步包括:根据所使用的书写脚本将纯文本内容的每一部分划分成片段(820)。
13.权利要求12的计算机实现的方法,其中分配包括:分配权重给每一片段(830)。
14.一种选择多语言文档的主要语言的计算机实现的方法,该方法包括:
将文档的纯文本内容划分成一个或多个加权脚本部分(910);
为每一加权脚本部分确定属于一种或多种语言的每一词、短语、或字符n元语法模型的似然性评分(920);
为每一单独的语言对部分中每一词、短语、或字符n元语法模型的所有似然性评分一起进行求和(930)以获得一个或多个部分语言总和;
为每一单独的语言组合所有的部分语言总和(940)以获得每一单独的语言的文档评分;
对所有的文档评分进行排序(950);以及
从最高的文档评分中选择主要的文档语言(960)。
15.权利要求14的方法,进一步包括:将文档的编码转换(210)成通用表示编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110311472.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:抗雷击及过短路型的熔断电阻器
- 下一篇:一种谐振腔





