[发明专利]基于标签体系实现资讯标签化处理的方法有效
| 申请号: | 202010519352.3 | 申请日: | 2020-06-09 |
| 公开(公告)号: | CN111640025B | 公开(公告)日: | 2023-08-01 |
| 发明(设计)人: | 俞枫;任志浩;陈雨忱;蒋强祖;管敏;李珣峰 | 申请(专利权)人: | 国泰君安证券股份有限公司 |
| 主分类号: | G06Q40/04 | 分类号: | G06Q40/04;G06F40/247;G06F40/289;G06Q40/06;G06F18/22;G06F16/335 |
| 代理公司: | 上海智信专利代理有限公司 31002 | 代理人: | 王洁;郑暄 |
| 地址: | 200041 上海市静安*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 标签 体系 实现 资讯 处理 方法 | ||
本发明涉及一种基于标签体系实现资讯标签化处理的方法,包括通过消息多线程实时获取资讯信息,并用于标签化处理;通过资讯标注优化,对数据进行关键词抽取、同义词匹配、权重优化以及标签匹配;通过设定的个股权重阀值和选定市场获取个股的个数,并根据选择的标签进行图片匹配;根据资讯内容和标签化处理得到的相关个股,进行基金抽取;根据标签化处理结果,进行过滤。采用了本发明的基于标签体系实现资讯标签化处理的方法,基于历史数据和金融行业业务需求建立了资讯标签体系,所提出的资讯标签化技术框架不但可按实际业务需求进行标签化、抽取相关个股与基金,并根据标签化结果进行自动配图,将不合规资讯进行拦截,同时从整体架构上使用了微服务多线程架构,具有良好的高可用、扩展性。
技术领域
本发明涉及资讯分类处理领域,尤其涉及计算机应用技术领域,具体是指一种基于标签体系实现资讯标签化处理的方法。
背景技术
金融资讯为用户交易投资掌握市场动态提供了数据辅助,但不同数据源的资讯格式不一,存在着资讯分类栏目过于宽泛无法满足个性化需求、无相关个股与基金、缺少配图用户体验差和无法拦截不合规内容等问题,而要解决上述问题通过人工运营会造成人力成本大大提高,同时对于运营人员专业能力也提出了更高的要求。
现有技术中,通常通过标签化可将资讯进行自定义标签统一处理,对于内容标签化的方式一般采用TF-IDF算法和TextRank算法。TF-IDF算法能简单快速统计出词频并计算出权重,但对于语料库严重依赖;TextRank算法考虑了词间关联性,却无法识别多义词、无法识别金融行业专业术语。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种满足操作简便、适用范围较为广泛的基于标签体系实现资讯标签化处理的方法。
为了实现上述目的,本发明的基于标签体系实现资讯标签化处理的方法如下:
该基于标签体系实现资讯标签化处理的方法,其主要特点是,所述的方法包括以下步骤:
(1)通过消息多线程实时获取资讯信息,并用于标签化处理;
(2)通过资讯标注优化,对数据进行关键词抽取、同义词匹配、权重优化以及标签匹配;
(3)通过设定的个股权重阀值和选定市场获取个股的个数,并根据选择的标签进行图片匹配;
(4)根据资讯内容和标签化处理得到的相关个股,进行基金抽取;
(5)根据标签化处理结果,通过设定的敏感词、免审核名单和利空白名单进行过滤。
较佳地,所述的步骤(2)具体包括以下步骤:
(2.1)对资讯进行html标签预处理,通过正则匹配将资讯内容转化为纯文本形式;
(2.2)通过ANSJ分词器对内容、标题和摘要进行分词;
(2.3)抽取文本中的关键词,并计算每个词的权重值;
(2.4)通过Word2vec模型得到每个词的向量,通过余弦距离计算相似度,将相似度高的划分至一个集合进行同义词匹配;
(2.5)通过贝叶斯平均算法进行实体消歧,并对关键词的权重进行优化;
(2.6)将最终得到的词与标签体系进行术语匹配,将非专业词汇进行剔除。
较佳地,所述的步骤(3)具体包括以下步骤:
(3.1)判断是否存在配图,如果是,则继续步骤(3.2);否则,不进行处理;
(3.2)判断是否存在特定标签,如果是,则进行个股标签计算,继续步骤(3.2);否则,继续步骤(3.5);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国泰君安证券股份有限公司,未经国泰君安证券股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010519352.3/2.html,转载请声明来源钻瓜专利网。





