[发明专利]基于标签体系实现资讯标签化处理的方法有效
| 申请号: | 202010519352.3 | 申请日: | 2020-06-09 |
| 公开(公告)号: | CN111640025B | 公开(公告)日: | 2023-08-01 |
| 发明(设计)人: | 俞枫;任志浩;陈雨忱;蒋强祖;管敏;李珣峰 | 申请(专利权)人: | 国泰君安证券股份有限公司 |
| 主分类号: | G06Q40/04 | 分类号: | G06Q40/04;G06F40/247;G06F40/289;G06Q40/06;G06F18/22;G06F16/335 |
| 代理公司: | 上海智信专利代理有限公司 31002 | 代理人: | 王洁;郑暄 |
| 地址: | 200041 上海市静安*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 标签 体系 实现 资讯 处理 方法 | ||
1.一种基于标签体系实现资讯标签化处理的方法,其特征在于,所述的方法包括以下步骤:
(1)通过消息多线程实时获取资讯信息,并用于标签化处理;
(2)通过资讯标注优化,对资讯信息进行关键词抽取、同义词匹配、权重优化以及标签匹配;
(3)通过设定的个股权重阀值和选定市场获取个股的个数,并根据选择的标签进行图片匹配;
(4)根据资讯内容和标签化处理得到的相关个股,进行基金抽取;
(5)根据标签化处理结果,通过设定的敏感词、免审核名单和利空白名单进行过滤;
所述的步骤(2)具体包括以下步骤:
(2.1)对资讯进行html标签预处理,通过正则匹配将资讯内容转化为纯文本形式;
(2.2)通过ANSJ分词器对内容、标题和摘要进行分词;
(2.3)抽取文本中的关键词,并计算每个词的权重值;
(2.4)通过Word2vec模型得到每个词的向量,通过余弦距离计算相似度,将相似度高的划分至一个集合进行同义词匹配;
(2.5)通过贝叶斯平均算法进行实体消歧,并对关键词的权重进行优化;
(2.6)将最终得到的词与标签体系进行术语匹配,将非专业词汇进行剔除;
所述的步骤(3)具体包括以下步骤:
(3.1)判断是否存在配图,如果是,则继续步骤(3.2);否则,不进行处理;
(3.2)判断是否存在特定标签,如果是,则进行个股标签计算,继续步骤(3.2);否则,继续步骤(3.5);
(3.3)判断个股数量是否等于1,如果是,则获取个股随机配图,继续步骤(3.5);否则,继续步骤(3.4);
(3.4)按照行业、新闻、主题标签权重排序,根据相关算法自动匹配通用图库选择配图;
(3.5)根据标签获取配图。
2.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法,其特征在于,所述的步骤(4)具体包括以下步骤:
(4.1)判断基金全称和基金简称是否完全匹配,如果是,则抽取基金;否则,继续步骤
(4.2);
(4.2)根据标签化处理得到个股以及设定阀值和市场条件,匹配所有基金的重仓股信息得到相关基金;
(4.3)按照命中的基金的相关个股重仓比例总和进行排序;
(4.4)抽取得到基金。
3.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法,其特征在于,所述的步骤(5)具体包括以下步骤:
(5.1)判断是否有免审设置,如果是,则满足免审名单要求则直接发送消息;否则,继续步骤(5.2);
(5.2)判断是否有敏感词设置,如果是,则通过敏感词过滤算法处理,继续步骤(5.4);否则,继续步骤(5.3);
(5.3)判断是否有白名单设置,如果是,则通过敏感词过滤算法处理,继续步骤(5.4);否则,继续步骤(5.5);
(5.4)等待运营审核,判断审核是否通过,如果是,则继续步骤(5.5);否则,放入拦截资讯池中。
4.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法,其特征在于,所述的步骤(5)中免审名单包括来源、栏目和发布媒体。
5.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法,其特征在于,所述的步骤(5)中敏感词包括违禁、敏感和高敏感三个类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国泰君安证券股份有限公司,未经国泰君安证券股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010519352.3/1.html,转载请声明来源钻瓜专利网。





