[发明专利]针对社交媒体的观点检索系统及方法在审
申请号: | 201711343978.8 | 申请日: | 2017-12-15 |
公开(公告)号: | CN108038204A | 公开(公告)日: | 2018-05-15 |
发明(设计)人: | 廖祥文;陈国龙;马飞翔;杨定达 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q50/00 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊;丘鸿超 |
地址: | 350116 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 社交 媒体 观点 检索系统 方法 | ||
1.一种针对社交媒体的观点检索系统,其特征在于:包括:
一文本实体链接模块,用于将用户查询和待查询文档进行分词处理,同时链接到指定的知识图谱,利用知识图谱中的实体间关系,增加系统对用户查询和文档的理解程度;
一查询扩展模块,用于根据用户的查询,结合知识图谱实体描述文本,通过分类得到查询扩展词;
一观点检索得分计算模块,用于结合用户查询和查询扩展词,分别计算用户查询与文档间的主题相关度得分、观点相关度得分以及文档类别得分,并根据三个部分得分得到该文档的综合得分;
一文档排序输出模块,根据文档综合得分从高到低排序,得到查询的观点检索结果并输出。
2.根据权利要求1所述的系统,其特征在于:还包括:
一数据预处理模块,用于去除文本中的链接、特殊字符及标点符号,对英文数据进行词干还原处理,过滤文本中的停用词。
3.根据权利要求1所述的系统,其特征在于:所述查询扩展模块的分类器包括扩展词分布、共现频率、邻近关系、文档集频率四类特征,以及一个标注候选扩展词类别的公式。
4.根据权利要求1所述的系统,其特征在于:所述观点检索得分计算模块包括一带有扩展词的产生式观点检索模型,该模型通过查询和文档之间的关系计算文档综合评分。
5.根据权利要求1或4所述的系统,其特征在于:所述观点相关度得分部分的观点词是带有权重的,不同查询中的观点词权重不同。
6.一种针对社交媒体的观点检索方法,其特征在于:实现如下,
由文本实体链接模块将分词后的用户查询和待查询文档链接到指定的知识图谱,通过知识图谱中的实体间关系,增加系统对用户查询和文档的理解程度;以及
由查询扩展模块根据用户的查询,结合知识图谱中的实体描述文本,通过分类得到用户查询的扩展词;以及
由观点检索得分计算模块结合原始用户查询和查询扩展词,计算用户查询与文档间的主题相关度得分、观点相关度得分、以及文档类别得分,并根据三个部分得分得到文档的综合得分;以及
由文档排序输出模块根据文档综合得分从高到低排序,输出排序后的文档列表。
7.根据权利要求6所述的方法,其特征在于:还包括如下步骤,
由数据预处理模块去除文本中的链接、特殊字符及标点符号,对英文数据进行词干还原处理,过滤文本中的停用词。
8.根据权利要求6所述的方法,其特征在于:所述查询扩展模块的分类器使用扩展词分布、共现频率、邻近关系、文档集频率四类特征作为分类依据,同时使用一个标注候选扩展词类别的公式对候选词类别进行标注。
9.根据权利要求6所述的方法,其特征在于:所述观点检索得分计算模块用一带有扩展词的产生式观点检索模型通过查询和文档之间的关系计算文档综合评分。
10.根据权利要求6或9所述的方法,其特征在于:所述观点相关度得分部分的观点词是带有权重的,不同查询中的观点词权重不同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711343978.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种动物胶固色剂的制备方法
- 下一篇:一种导电介孔纳米二氧化钛的制备方法