[发明专利]一种文本标签的搜索匹配方法、装置、设备及存储介质在审
| 申请号: | 201911418221.X | 申请日: | 2020-04-17 |
| 公开(公告)号: | CN111191011A | 公开(公告)日: | 2020-05-22 |
| 发明(设计)人: | 许爽;周铜;魏柯;赵冰;庞进丽;吴青娥 | 申请(专利权)人: | 郑州工程技术学院 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33 |
| 代理公司: | 河南豫龙律师事务所 41177 | 代理人: | 高继秀 |
| 地址: | 450000 河南省郑州*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 标签 搜索 匹配 方法 装置 设备 存储 介质 | ||
1.一种文本标签的搜索匹配方法,其特征在于,包括下述步骤:
获取参照集和测试集,
其中,所述参照集中包含n个已进行过标签分类的参照文本,所述测试集中包含m个未进行标签分类的未进行标签分类的测试文本(n、m为正整数);
对所述测试集中测试文本分别进行特征选择,将每个测试文本的特征选择结果作为一个预测标签集,
其中,所述对所述测试集中测试文本分别进行特征选择包括:对测试文本分别进行摘要特征选择、正文特征选择和参考文献特征选择;
基于向量空间模型中的余弦相似度算法,获取每个预测标签集中所有标签分别在其对应的测试文本和参照集中的权重值;
基于所述标签在其对应的测试文本和参照集中的权重值,使用增量式选择模型分别获取所述测试文本中所有标签的余弦相似度量,并判断所述测试文本中是否存在标签余弦相似度量满足预设的标签余弦相似度量阈值,若存在,将所述标签作为所述测试文本的标签匹配集中的一个目标匹配结果;
利用循环迭代的方式,获取预测标签集中所有满足预设的标签余弦相似度量阈值的标签,组成所述测试文本的标签匹配集。
2.根据权利要求1所述的文本标签的搜索匹配方法,其特征在于,所述对所述测试集中测试文本分别进行特征选择之前还包括:
基于预先设定的关键词,对测试集中每个测试文本进行拆分处理,获取拆分出的摘要部分、正文部分和参考文献部分。
3.根据权利要求2所述的文本标签的搜索匹配方法,其特征在于,所述对测试文本分别进行摘要特征选择、正文特征选择和参考文献特征选择包括:
基于模型进行摘要特征选择,基于LDA模型进行正文特征选择,基于预设的文献特征选择模型进行参考文献特征选择。
4.根据权利要求3所述的文本标签的搜索匹配方法,其特征在于,所述
基于预设的文献特征选择模型进行参考文献特征选择包括:
基于预设的文献特征选择模型,对所述测试文本进行文本引用特征选择。
5.根据权利要求1至4任一项所述的文本标签的搜索匹配方法,其特征在于,所述基于预设的文献特征选择模型对所述测试文本进行文本引用特征选择包括步骤如下:
基于预设的文献特征选择模型,获取所述测试文本和参照集中参照文本间的文本引用共现指数和参考距离系数;
基于所述文本引用共现指数和文本引用参考距离系数,获取所述测试文本的文本引用特征。
6.根据权利要求5所述的文本标签的搜索匹配方法,其特征在于,所述基于预设的文献特征选择模型,获取所述测试文本和参照集中参照文本间的文本引用共现指数和文本引用参考距离系数包括步骤如下:
基于标点符号,进行字段分割,获取所述测试文本参考文献部分中参考文献的名称,并生成参考文献集;
基于所述参考文献集,获取所述参考文献集中参考文献在参照集中被参照文本引用的总次数;
基于所述参考文献集,筛选出参照集中同时引用至少两篇所述参考文献集中参考文献的参照文本的总数和名称,并生成文本引用预选集;
基于所述参考文献集中参考文献在参照集中被参照文本引用的总次数和所述文本引用预选集中文本的总数,获取测试文本与参照集中参照文本间的文本引用共现指数;
判断所述测试文本和所述文本引用预选集中文本是否存在直接引用关系,并基于所述判断结果,确定所述测试文本和参照集中参照文本间文本引用参考距离系数。
7.根据权利要求5所述的文本标签的搜索匹配方法,其特征在于,所述增量式选择模型包括步骤如下:
获取预测标签集中的标签在参照集中的权重值之前,基于获取的标签名,判断所述标签是否已经在参照集中获取过权重值,
若已获取,直接将所述标签的历史权重值作为测试文本中相同标签的权重值,否则,基于余弦相似度算法对所述标签进行权重值计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州工程技术学院,未经郑州工程技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911418221.X/1.html,转载请声明来源钻瓜专利网。





