[发明专利]基于标签体系实现资讯标签化处理的方法有效

专利信息
申请号: 202010519352.3 申请日: 2020-06-09
公开(公告)号: CN111640025B 公开(公告)日: 2023-08-01
发明(设计)人: 俞枫;任志浩;陈雨忱;蒋强祖;管敏;李珣峰 申请(专利权)人: 国泰君安证券股份有限公司
主分类号: G06Q40/04 分类号: G06Q40/04;G06F40/247;G06F40/289;G06Q40/06;G06F18/22;G06F16/335
代理公司: 上海智信专利代理有限公司 31002 代理人: 王洁;郑暄
地址: 200041 上海市静安*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 标签 体系 实现 资讯 处理 方法
【说明书】:

发明涉及一种基于标签体系实现资讯标签化处理的方法,包括通过消息多线程实时获取资讯信息,并用于标签化处理;通过资讯标注优化,对数据进行关键词抽取、同义词匹配、权重优化以及标签匹配;通过设定的个股权重阀值和选定市场获取个股的个数,并根据选择的标签进行图片匹配;根据资讯内容和标签化处理得到的相关个股,进行基金抽取;根据标签化处理结果,进行过滤。采用了本发明的基于标签体系实现资讯标签化处理的方法,基于历史数据和金融行业业务需求建立了资讯标签体系,所提出的资讯标签化技术框架不但可按实际业务需求进行标签化、抽取相关个股与基金,并根据标签化结果进行自动配图,将不合规资讯进行拦截,同时从整体架构上使用了微服务多线程架构,具有良好的高可用、扩展性。

技术领域

本发明涉及资讯分类处理领域,尤其涉及计算机应用技术领域,具体是指一种基于标签体系实现资讯标签化处理的方法。

背景技术

金融资讯为用户交易投资掌握市场动态提供了数据辅助,但不同数据源的资讯格式不一,存在着资讯分类栏目过于宽泛无法满足个性化需求、无相关个股与基金、缺少配图用户体验差和无法拦截不合规内容等问题,而要解决上述问题通过人工运营会造成人力成本大大提高,同时对于运营人员专业能力也提出了更高的要求。

现有技术中,通常通过标签化可将资讯进行自定义标签统一处理,对于内容标签化的方式一般采用TF-IDF算法和TextRank算法。TF-IDF算法能简单快速统计出词频并计算出权重,但对于语料库严重依赖;TextRank算法考虑了词间关联性,却无法识别多义词、无法识别金融行业专业术语。

发明内容

本发明的目的是克服了上述现有技术的缺点,提供了一种满足操作简便、适用范围较为广泛的基于标签体系实现资讯标签化处理的方法。

为了实现上述目的,本发明的基于标签体系实现资讯标签化处理的方法如下:

该基于标签体系实现资讯标签化处理的方法,其主要特点是,所述的方法包括以下步骤:

(1)通过消息多线程实时获取资讯信息,并用于标签化处理;

(2)通过资讯标注优化,对数据进行关键词抽取、同义词匹配、权重优化以及标签匹配;

(3)通过设定的个股权重阀值和选定市场获取个股的个数,并根据选择的标签进行图片匹配;

(4)根据资讯内容和标签化处理得到的相关个股,进行基金抽取;

(5)根据标签化处理结果,通过设定的敏感词、免审核名单和利空白名单进行过滤。

较佳地,所述的步骤(2)具体包括以下步骤:

(2.1)对资讯进行html标签预处理,通过正则匹配将资讯内容转化为纯文本形式;

(2.2)通过ANSJ分词器对内容、标题和摘要进行分词;

(2.3)抽取文本中的关键词,并计算每个词的权重值;

(2.4)通过Word2vec模型得到每个词的向量,通过余弦距离计算相似度,将相似度高的划分至一个集合进行同义词匹配;

(2.5)通过贝叶斯平均算法进行实体消歧,并对关键词的权重进行优化;

(2.6)将最终得到的词与标签体系进行术语匹配,将非专业词汇进行剔除。

较佳地,所述的步骤(3)具体包括以下步骤:

(3.1)判断是否存在配图,如果是,则继续步骤(3.2);否则,不进行处理;

(3.2)判断是否存在特定标签,如果是,则进行个股标签计算,继续步骤(3.2);否则,继续步骤(3.5);

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国泰君安证券股份有限公司,未经国泰君安证券股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010519352.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top