[发明专利]一种基于大数据分析的核心语汇专题构建方法及系统在审
申请号: | 201810687746.2 | 申请日: | 2018-06-28 |
公开(公告)号: | CN108897737A | 公开(公告)日: | 2018-11-27 |
发明(设计)人: | 王建华;程国艮 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京万贝专利代理事务所(特殊普通合伙) 11520 | 代理人: | 马红 |
地址: | 100040 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 大数据 集合 计算机软件技术 关键词集合 快速建设 人工干预 文档集合 用户指定 自动发现 文档 图谱 分析 覆盖率 输出 | ||
本发明属于计算机软件技术领域,公开了一种基于大数据分析的核心语汇专题构建方法及系统,用户指定专题的初始关键词或者关键词集合;专题相关文档的获取;从专题相关文档集合中自动发现候选核心语汇集合及其关系,形成专题候选核心语汇图谱;人工干预候选专题中的核心语汇,形成最终的专题输出。本发明能够快速地形成专题级的核心语汇集合,能够大幅度降低专家构建专题的时间,同时提高专题构建的覆盖率和及时性,有利于资源的快速建设和系统的推广。
技术领域
本发明属于计算机软件技术领域,尤其涉及一种基于大数据分析的核心语 汇专题构建方法及系统。
背景技术
综上所述,现有技术存在的问题是:传统的方法往往是专家选定主题,根 据经验挑选一系列的相关核心语汇,人工构建它们之间的关系,往往耗时耗力, 且覆盖率和及时性不高。
发明内容
针对现有技术存在的问题,本发明提供了一种基于大数据分析的核心语汇 专题构建方法及系统。
本发明是这样实现的,一种基于大数据分析的核心语汇专题构建方法,其 特征在于,所述基于大数据分析的核心语汇专题构建方法包括:用户指定专题 的初始关键词或者关键词集合;专题相关文档的获取;从专题相关文档集合中 自动发现候选核心语汇集合及其关系,形成专题候选核心语汇图谱;人工干预 候选专题中的核心语汇,形成最终的专题输出。
进一步,所述专题相关文档的获取进一步包括:通过专题关键词检索相关 文档,基于返回的结果M篇文档,计算专题的伪相关模型:
其中twmi表示第m个文档中第i个特征词的权重,权重采用TF-IDF来计算, <twm1,twm2,...,twmn>表示第m篇文档的VSM向量;
利用Mp-topic模型对相关文档计算相关度,重排序后选出专题相关的最终文档 集合前P篇,并重新计算专题模型:
进一步,所述从专题相关文档集合中自动发现候选核心语汇集合及其关系, 形成专题候选核心语汇图谱进一步包括:基于专题相关文档,提取关键词作为 特征词;将特征词作为节点构建特征图G=<V,E>,其中V表示节点集合,E表 示特征词的边集合;两个特征词v1和v2在一个句子中存在,则存在一条边 e12=<v1,v2>。边上的权重表示之间共现的次数;基于TextRank算法,计算每个 词的权重:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810687746.2/2.html,转载请声明来源钻瓜专利网。