[发明专利]字符串匹配系统及方法在审
| 申请号: | 201410011078.3 | 申请日: | 2014-01-10 |
| 公开(公告)号: | CN104778171A | 公开(公告)日: | 2015-07-15 |
| 发明(设计)人: | 叶亚明;王威振 | 申请(专利权)人: | 携程计算机技术(上海)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;王婧荷 |
| 地址: | 200335 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 字符串 匹配 系统 方法 | ||
1.一种字符串匹配系统,其特征在于,其存储有若干关键维度和若干非关键维度,每一关键维度和非关键维度均对应有权重值,该字符串匹配系统包括一输入模块、一分词模块、一标注模块、一比较模块、一计算模块和一输出模块;
该输入模块用于接收两个字符串的输入;
该分词模块用于将该两个字符串分词为词组;
该标注模块用于标注每一词组对应的关键维度或非关键维度;
该比较模块用于比较该两个字符串中的词组,若任一关键维度上的两个词组不相同则调用该输出模块输出一字符串不匹配信息,否则调用该计算模块;
该计算模块用于通过公式计算该两个字符串之间的匹配度,并调用该输出模块输出该匹配度;其中n表示该两个字符串中词组相同的个数,ai为该两个字符串中第i个相同的词组对应的权重值的两倍,B为该两个字符串中每一词组对应的权重值的累加和。
2.如权利要求1所述的字符串匹配系统,其特征在于,该字符串匹配系统还包括一处理模块,该处理模块用于去除该两个字符串中的停止词、纠正该两个字符串中的错别字以及将该两个字符串中的拼音更换为汉字。
3.如权利要求1所述的字符串匹配系统,其特征在于,该字符串匹配系统存储一包含多个词语的词库,该分词模块包括一划分模块和一匹配模块;
该划分模块用于对该两个字符串进行划分;
该匹配模块用于将划分出的词语与该词库中的所有词语进行匹配,若匹配成功则将该划分出的词语作为该词组。
4.如权利要求1-3中任意一项所述的字符串匹配系统,其特征在于,该些关键维度和非关键维度按照领域自定义设置。
5.一种字符串匹配方法,其特征在于,其存储有若干关键维度和若干非关键维度,每一关键维度和非关键维度均对应有权重值,该字符串匹配方法包括以下步骤:
S1、接收两个字符串的输入;
S2、将该两个字符串分词为词组;
S3、标注每一词组对应的关键维度或非关键维度;
S4、比较该两个字符串中的词组,若任一关键维度上的两个词组不相同则进入步骤S5,否则进入步骤S6;
S5、输出一字符串不匹配信息,结束流程;
S6、通过公式计算该两个字符串之间的匹配度,并输出该匹配度,结束流程;其中n表示该两个字符串中词组相同的个数,ai为该两个字符串中第i个相同的词组对应的权重值的两倍,B为该两个字符串中每一词组对应的权重值的累加和。
6.如权利要求5所述的字符串匹配方法,其特征在于,步骤S1和步骤S2之间包括以下步骤:
去除该两个字符串中的停止词、纠正该两个字符串中的错别字以及将该两个字符串中的拼音更换为汉字。
7.如权利要求5所述的字符串匹配方法,其特征在于,该字符串匹配方法存储一包含多个词语的词库,步骤S2包括以下步骤:
S21、对该两个字符串进行划分;
S22、将划分出的词语与该词库中的所有词语进行匹配,若匹配成功则将该划分出的词语作为该词组。
8.如权利要求5-7中任意一项所述的字符串匹配方法,其特征在于,该些关键维度和非关键维度按照领域自定义设置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程计算机技术(上海)有限公司,未经携程计算机技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410011078.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于航拍云台的相机固定装置
- 下一篇:一种多功能电子产品支架





