[发明专利]基于标签体系实现资讯标签化处理的方法有效

申请号：	202010519352.3	申请日：	2020-06-09
公开（公告）号：	CN111640025B	公开（公告）日：	2023-08-01
发明（设计）人：	俞枫;任志浩;陈雨忱;蒋强祖;管敏;李珣峰	申请（专利权）人：	国泰君安证券股份有限公司
主分类号：	G06Q40/04	分类号：	G06Q40/04;G06F40/247;G06F40/289;G06Q40/06;G06F18/22;G06F16/335
代理公司：	上海智信专利代理有限公司 31002	代理人：	王洁;郑暄
地址：	200041 上海市静安***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于标签体系实现资讯处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于标签体系实现资讯标签化处理的方法，其特征在于，所述的方法包括以下步骤：

(1)通过消息多线程实时获取资讯信息，并用于标签化处理；

(2)通过资讯标注优化，对资讯信息进行关键词抽取、同义词匹配、权重优化以及标签匹配；

(3)通过设定的个股权重阀值和选定市场获取个股的个数，并根据选择的标签进行图片匹配；

(4)根据资讯内容和标签化处理得到的相关个股，进行基金抽取；

(5)根据标签化处理结果，通过设定的敏感词、免审核名单和利空白名单进行过滤；

所述的步骤(2)具体包括以下步骤：

(2.1)对资讯进行html标签预处理，通过正则匹配将资讯内容转化为纯文本形式；

(2.2)通过ANSJ分词器对内容、标题和摘要进行分词；

(2.3)抽取文本中的关键词，并计算每个词的权重值；

(2.4)通过Word2vec模型得到每个词的向量，通过余弦距离计算相似度，将相似度高的划分至一个集合进行同义词匹配；

(2.5)通过贝叶斯平均算法进行实体消歧，并对关键词的权重进行优化；

(2.6)将最终得到的词与标签体系进行术语匹配，将非专业词汇进行剔除；

所述的步骤(3)具体包括以下步骤：

(3.1)判断是否存在配图，如果是，则继续步骤(3.2)；否则，不进行处理；

(3.2)判断是否存在特定标签，如果是，则进行个股标签计算，继续步骤(3.2)；否则，继续步骤(3.5)；

(3.3)判断个股数量是否等于1，如果是，则获取个股随机配图，继续步骤(3.5)；否则，继续步骤(3.4)；

(3.4)按照行业、新闻、主题标签权重排序，根据相关算法自动匹配通用图库选择配图；

(3.5)根据标签获取配图。

2.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法，其特征在于，所述的步骤(4)具体包括以下步骤：

(4.1)判断基金全称和基金简称是否完全匹配，如果是，则抽取基金；否则，继续步骤

(4.2)；

(4.2)根据标签化处理得到个股以及设定阀值和市场条件，匹配所有基金的重仓股信息得到相关基金；

(4.3)按照命中的基金的相关个股重仓比例总和进行排序；

(4.4)抽取得到基金。

3.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法，其特征在于，所述的步骤(5)具体包括以下步骤：

(5.1)判断是否有免审设置，如果是，则满足免审名单要求则直接发送消息；否则，继续步骤(5.2)；

(5.2)判断是否有敏感词设置，如果是，则通过敏感词过滤算法处理，继续步骤(5.4)；否则，继续步骤(5.3)；

(5.3)判断是否有白名单设置，如果是，则通过敏感词过滤算法处理，继续步骤(5.4)；否则，继续步骤(5.5)；

(5.4)等待运营审核，判断审核是否通过，如果是，则继续步骤(5.5)；否则，放入拦截资讯池中。

4.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法，其特征在于，所述的步骤(5)中免审名单包括来源、栏目和发布媒体。

5.根据权利要求1所述的基于标签体系实现资讯标签化处理的方法，其特征在于，所述的步骤(5)中敏感词包括违禁、敏感和高敏感三个类别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国泰君安证券股份有限公司，未经国泰君安证券股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010519352.3/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载