[发明专利]为搜索词分配指标权重无效
| 申请号: | 200980150289.2 | 申请日: | 2009-12-14 |
| 公开(公告)号: | CN102246169A | 公开(公告)日: | 2011-11-16 |
| 发明(设计)人: | 刘宸 | 申请(专利权)人: | 摩托罗拉移动公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/00 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 刘光明;穆德骏 |
| 地址: | 美国伊*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 搜索词 分配 指标 权重 | ||
1.一种用于为文档(300)中搜索词分配指标权重(320)的方法,所述文档(300)在文档(300)集合中,该方法包括:
计算(200)文档(300)中搜索词的基于文本的指标权重(302,304)
计算(202)搜索词的发音重音(318);以及
将指标权重(320)分配给文档(300)中的搜索词,所述指标权重(320)至少部分地基于所计算的基于文本的指标权重(302,304)和所计算的发音重音(318)的算术组合(204)。
2.根据权利要求1的方法,其中,计算文档中搜索词的基于文本的指标权重包括:
计算文档中搜索词的词频率;
计算文档集合中所述搜索词的逆文档频率;以及
通过算术地组合所计算的词频率和所计算的逆向文档频率来计算文档中搜索词的基于文本的指标权重。
3.根据权利要求1的方法,其中,计算文档中搜索词的基于文本的指标权重包括:
计算文档中搜索词的词频率;
计算文档集合中所述搜索词的辨别值;以及
通过算术地组合所计算的词频率和所计算的辨别值来计算文档中搜索词的基于文本的指标权重。
4.根据权利要求1的方法,其中,计算搜索词的发音重音包括:
将文档集合中的文档中的词翻译成语音学发音;
计算翻译的词的对之间的词间发音距离,所述计算至少部分地基于音位间距离;以及
计算搜索词发音重音,所述计算至少部分地基于词间发音距离。
5.根据权利要求4的方法,进一步包括:
计算音位间距离,所述计算至少部分地基于从由数据驱动技术和基于语音学技术组成的组中选择的技术。
6.根据权利要求5的方法,其中,所述数据驱动技术包括:
推导音位混淆矩阵,所述推导至少部分地基于利用开放式音位语法的音位识别。
7.根据权利要求5的方法,其中,所述基于语音学技术包括:
将第一和第二音位中的每一个表示为向量,每个向量元素对应于各音位的区别语音学特征;
对向量元素加权重,所述加权重至少部分地基于语言中的每个特征的相对频率,所述语言包括所述第一和第二音位;以及
估算所述第一和第二音位间的音位间距离,所述估算至少部分地基于所述第一和第二音位的向量。
8.根据权利要求4的方法,其中,计算翻译的词的对之间的词间发音距离包括计算翻译的词的对之间的词间发音混淆度。
9.根据权利要求4的方法,其中,计算搜索词发音重音包括对所述搜索词和另一词之间的词间发音距离的听觉上最接近所述搜索词的一组词取平均值。
10.一种语音至文本搜索指标服务器(106),包括:
存储器,被构造为存储分配给文档(300)中搜索词的指标权重(320),所述文档(300)在文档(300)集合中;以及
处理器,其可操作地耦接到所述存储器并且被构造为:计算(200)文档(300)中搜索词的基于文本的指标权重(302,304),计算(202)搜索词的发音重音(318),以及为文档(300)中搜索词分配(206)指标权重(320),所述指标权重(320)至少部分地基于所计算的基于文本的指标权重(302,304)和所计算的发音重音(318)的算术组合(204)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于摩托罗拉移动公司,未经摩托罗拉移动公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200980150289.2/1.html,转载请声明来源钻瓜专利网。





