[发明专利]一种文本检索方法和装置有效
| 申请号: | 201410101286.2 | 申请日: | 2014-03-18 |
| 公开(公告)号: | CN103886063B | 公开(公告)日: | 2017-03-08 |
| 发明(设计)人: | 杨芳;盛兴;李蔚君;彭珍;赵鹏;贾辉辉;张同乔 | 申请(专利权)人: | 国家电网公司;国家电网公司信息通信分公司;保定市大为计算机软件开发有限公司;国网山东省电力公司济南供电公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王宝筠 |
| 地址: | 100031 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 检索 方法 装置 | ||
1.一种文本检索方法,其特征在于,包括:
获取用户输入的原始文本;
从所述原始文本中获取检索词,所述检索词用于检索文本数据库中的其他文本,以从文本数据库中获取符合用户的检索需求的文本;
依据用户的检索需求,对所述检索词进行过滤,得到关键词;
对所述关键词进行组合,并依据组合后的关键词对所述文本数据库中的文本进行检索,得到至少一个检索文本;
对所述检索文本以相关性倒序显示,并在所述检索文本中突显所述关键词,所述相关性用于所述原始文本和所述检索文本具有关联关系的程度。
2.根据权利要求1所述的方法,其特征在于,从所述原始文本中获取检索词,包括:
使用中文分词方法对所述原始文本进行分词,得到一级检索词;
依据词语特性,采用加权公式Wi=A×Freqi+B×Lengthi+C×Posi+D×Addi计算所述一级检索词的权重,所述词语特性包括词频Freqi、词长Lengthi、词性Posi和位置Addi,Wi为一级检索词i在文本中的权重,A、B、C、D为比例系数,用于表示各个词语特性在加权公式中的比重;
提取所述权重在预设权重范围内的所述一级检索词,所提取出的所述一级检索词为所述检索词。
3.根据权利要求1所述的方法,其特征在于,从所述原始文本中获取检索词之后,依据用户的检索需求,对所述检索词进行过滤,得到关键词之前,所述方法还包括:
对所述检索词进行词义扩展,得到的扩展词记为检索词,所述词义扩展包括:同义词扩展、等同词扩展、上位词扩展和下位词扩展中的至少一种扩展方式。
4.根据权利要求1所述的方法,其特征在于,依据用户的检索需求,对所述检索词进行过滤,得到关键词,包括:
将所述检索词在词语展示界面中显示,以由用户在所述词语展示界面中对所述检索词进行操作,操作后的所述检索词以及用户在所述词语展示界面中增加的词语为所述关键词,所述操作包括修改和/或删除;
或者将所述检索词和词库中记录的词语进行匹配,匹配成功的所述检索词为关键词,所述词库中记录的词语为用户手动更新的词语。
5.根据权利要求1所述的方法,其特征在于,对所述关键词进行组合,包括:
任意选取n个关键词进行逻辑与运算,得到第一组合词语,第一组合词语的个数为其中m为关键词总数,n等于0.7m;
对所述第一组合词语进行逻辑或运算,得到第二组合词语,所述第二组合词语为组合后的所述关键词,用于对文本数据库中的其他文本进行检索。
6.一种文本检索装置,其特征在于,包括:
第一获取单元,用于获取用户输入的原始文本;
第二获取单元,用于从所述原始文本中获取检索词,所述检索词用于检索文本数据库中的其他文本,以从文本数据库中获取符合用户的检索需求的文本;
过滤单元,用于依据用户的检索需求,对所述检索词进行过滤,得到关键词;
组合单元,用于对所述关键词进行组合;
检索单元,用于依据组合后的关键词对所述文本数据库中的文本进行检索,得到至少一个检索文本;
显示单元,用于对所述检索文本以相关性倒序显示,并在所述检索文本中突显所述关键词,所述相关性用于所述原始文本和所述检索文本具有关联关系的程度。
7.根据权利要求6所述的装置,其特征在于,所述第二获取单元包括:
分词子单元,用于使用中文分词装置对所述原始文本进行分词,得到一级检索词;
加权计算子单元,用于依据词语特性,采用加权公式Wi=A×Freqi+B×Lengthi+C×Posi+D×Addi计算所述一级检索词的权重,所述词语特性包括词频Freqi、词长Lengthi、词性Posi和位置Addi,Wi为一级检索词i在文本中的权重,A、B、C、D为比例系数,用于表示各个词语特性在加权公式中的比重;
提取子单元,用于提取所述权重在预设权重范围内的所述一级检索词,所提取出的所述一级检索词为所述检索词。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
扩展单元,用于对所述检索词进行词义扩展,得到的扩展词记为检索词,所述词义扩展包括:同义词扩展、等同词扩展、上位词扩展和下位词扩展中的至少一种扩展方式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网公司;国家电网公司信息通信分公司;保定市大为计算机软件开发有限公司;国网山东省电力公司济南供电公司,未经国家电网公司;国家电网公司信息通信分公司;保定市大为计算机软件开发有限公司;国网山东省电力公司济南供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410101286.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种制备高强度复合塑料薄膜的方法
- 下一篇:泡沫陶瓷浸渍成型机





