[发明专利]一种财经快讯的关键词提取方法和系统有效

专利信息
申请号: 202011495561.5 申请日: 2020-12-17
公开(公告)号: CN112507190B 公开(公告)日: 2023-04-07
发明(设计)人: 李明玉 申请(专利权)人: 新华智云科技有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/955;G06F40/216;G06F40/30;G06N3/0464;G06N3/08
代理公司: 杭州裕阳联合专利代理有限公司 33289 代理人: 田金霞
地址: 310012 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 财经 快讯 关键词 提取 方法 系统
【说明书】:

发明公开了一种财经快讯的关键词提取方法和系统,所述方法包括如下步骤:获取财经快讯文本数据,并对财经文本进行标注;将标注后的文本数据输入预训练好的卷积神经网络,获取文本数据字符的字型嵌入特征向量;将标注后的文本数据输入预训练好的RoBerta‑wwm模型,获取文本数据字符的语义嵌入特征向量;将字型嵌入特征向量和语义嵌入特征向量进行拼接和降维,获取结合字符特征向量;将结合字符特征向量输入条件随机场层,通过调整训练参数获取输出的字符标签;根据字符标签提取关键词。所述方法和系统采用中文RoBerta‑wwm预测模型表征财经快讯文本的字符向量,并结合中文的五笔特征进行表征,通过结合中文五笔的“字型”特征后可提高关键词的抽取准确率。

技术领域

本发明涉及人工智能领域,特别涉及一种财经快讯的关键词提取方法和系统。

背景技术

目前大多数文本关键词提取算法是基于无监督算法,现有的关键词提取方法包括:基于统计特征的关键词提取方法,基于词图特征的关键词提取方法,基于主题模型的关键词提取方法以及上述关键词提取方法的组合,然而现有的关键词提取方法严重依赖中文分词器性能,而中文分词器对金融领域的专有名词错分比例较高,提取的关键词并不准确,对于财经快讯这类短文本甚至十几个字的超短文本,现有方案所利用的文本统计特征、词图特征和主题特征都比较弱,利用现有方案抽取出的关键词不能有效表达财经快讯的核心主旨,导致了关键词算法的准召率偏低。

发明内容

本发明其中一个主要发明目的在于提供一种财经快讯的关键词提取方法和系统。所述方法和系统采用中文RoBerta-wwm预测模型表征财经快讯文本的字符向量,并结合中文的五笔特征进行表征,通过结合中文五笔的“字型”特征后可提高关键词的抽取准确率。

本发明另一个发明目的在于提供一种财经快讯的关键词提取方法和系统。所述方法和系统将财经快讯文本的字符混合向量馈入CRF(条件随机场)中,用于校正关键词词性句法的约束,可进一步根据输出结果判断每一字符的类型。

本发明另一个发明目的在于提供一种财经快讯的关键词提取方法和系统。所述方法和系统结合字符的字型特征和语义特征对财经快讯进行表征,从而可以提高财经快讯的关键词提取的关联性。

本发明另一个发明目的在于提供一种财经快讯的关键词提取方法和系统。所述方法和系统采用监督学习方法获取关键词提取模型,根据财经快讯的命名规则对财经快讯文本关键词进行序列标注,在标注之前对获取的文本进行清洗,以提高模型对财经快讯关键词提取的准确率。

为了实现至少一个上述发明目的,本发明进一步提供一种财经快讯的关键词提取方法,包括如下步骤:

获取财经快讯文本数据,并对财经文本进行标注;

将标注后的文本数据输入预训练好的卷积神经网络,获取文本数据字符的字型嵌入特征向量;

将标注后的文本数据输入预训练好的RoBerta-wwm模型,获取文本数据字符的语义嵌入特征向量;

将字型嵌入特征向量和语义嵌入特征向量进行拼接和降维,获取结合字符特征向量;

将结合字符特征向量输入条件随机场层,通过调整训练参数获取输出的字符标签;

根据字符标签提取关键词。

根据本发明其中一个较佳实施例,根据单条财经快讯文本获取每个字符的五笔字型特征向量,并建立单条财经快讯的五笔字型特征向量矩阵,用于获取单条财经快讯的字型嵌入特征向量。

根据本发明其中一个较佳实施例,建立至少3个不同尺寸的卷积核滑动窗口,计算每一卷积核滑动窗口在五笔字型特征向量矩阵上的滑动的特征图,根据获取的特征图进行池化操作。

根据本发明其中一个较佳实施例,获取最大池化训练参数α和平均池化训练参数β,进一步计算池化后的窗口输出特征,其中所述窗口输出特征为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华智云科技有限公司,未经新华智云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011495561.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top