[发明专利]基于相似文本反馈的社交媒体文本查询扩展方法在审
申请号: | 201710799836.6 | 申请日: | 2017-09-07 |
公开(公告)号: | CN107544962A | 公开(公告)日: | 2018-01-05 |
发明(设计)人: | 费高雷;杨杰;马路遥;胡光岷;于富财 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 成都宏顺专利代理事务所(普通合伙)51227 | 代理人: | 周永宏 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 相似 文本 反馈 社交 媒体 查询 扩展 方法 | ||
1.一种基于相似文本反馈的社交媒体文本查询扩展方法,具体包括如下步骤:
步骤S1.输入原始查询词与原始文本;
步骤S2.对原始文本进行预处理与分词;
步骤S3.对步骤S2处理后的文本进行聚类;
步骤S4.步骤S3聚类后的文本进行筛选,
步骤S5.对步骤S4筛选出文本进行查询词扩展,一旦达到收敛条件就输出结果。
2.根据权利要求1所述的基于相似文本反馈的社交媒体文本查询扩展方法,其特征在于,步骤S2所述的预处理具体包括文本正规化和去除重复文本。
3.根据权利要求1所述的基于相似文本反馈的社交媒体文本查询扩展方法,其特征在于,步骤S3所述的聚类具体使用k-means聚类方法。
4.根据权利要求1所述的基于相似文本反馈的社交媒体文本查询扩展方法,其特征在于,步骤S4所述的筛选具体使用TF-IDF算法,通过比较经过聚类的文本和查询词的相关性得到最满足用户需求的文本类;
TF表示的是查询词在文本集合中出现的频率,频率越高说明它对文本集合越重要,其计算公式如下:
IDF是逆文档频率,表达了如果一个词语在各种语料库中是经常出现的,那么它的特征就不是很明显,就不能特定的去描绘某个推文集合,其重要性就会下降,具体如下:
5.根据权利要求1所述的基于相似文本反馈的社交媒体文本查询扩展方法,其特征在于,步骤S5所述的查询词扩展的具体过程如下:
对于筛选出来的新查询词,选取其个数与原始查询词的个数比为1:1,同时新加入的查询词权值如下:
其中,wv,q表示新加入的查询词v的权重,sim(q,v)表示原始查询词集合q与v的相关性,wu,q表示原始查询词集合q中的每个查询词的权重。
将带有权值的新查询词加入到原始查询中构建新查询,使用BM25算法对文本集合进行重新检索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710799836.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:螺带混合机长体混料筒用易拆卸入料罩
- 下一篇:具有称量功能的外加剂添加装置