[发明专利]一种年报中的金融领域事件句提取方法在审

专利信息
申请号: 202010528238.7 申请日: 2020-06-11
公开(公告)号: CN111666769A 公开(公告)日: 2020-09-15
发明(设计)人: 温秋华;潘定;梁倬骞 申请(专利权)人: 暨南大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/211
代理公司: 深圳科湾知识产权代理事务所(普通合伙) 44585 代理人: 钟斌
地址: 510000 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 年报 中的 金融 领域 事件 提取 方法
【说明书】:

发明公开了一种年报中的金融领域事件句提取方法,具体步骤为:步骤1、输入财务报告数据,步骤2、对数据进行预处理,步骤3、选取基于感知机序列标注的命名实体识别,步骤4、改进基于TextRank的关键词提取算法,步骤5、输出得出文本关键词,本发明涉及金融领域事件句提取技术领域。该年报中的金融领域事件句提取方法,解决了TextRank关键词提取算法分词时忽略命名实体,关键词提取计算算法不理想,以及容易被噪声信息干扰导致提取关键词错误的问题。

技术领域

发明涉及金融领域事件句提取技术领域,具体为一种年报中的金融领域事件句提取方法。

背景技术

随着互联网的兴起与信息科技的发展,大量数据以及文本以计算机作为媒体进行展现,大部分冗杂的互联网短文本需要用户花费大量时间阅读与理解,如何利用计算机快速地处理短文本与准确地提炼文本关键词或摘要成为目前自然语言处理领域的研究热点与主要问题,在自然语言处理领域中,信息抽取技术可以有效地解决问题。

TextRank关键词提取算法分词时忽略命名实体,关键词提取计算算法不理想,以及容易被噪声信息干扰导致提取关键词错误。

发明内容

针对现有技术的不足,发明提供了一种年报中的金融领域事件句提取方法,解决了TextRank关键词提取算法分词时忽略命名实体,关键词提取计算算法不理想,以及容易被噪声信息干扰导致提取关键词错误的问题。

为实现以上目的,发明通过以下技术方案予以实现:一种年报中的金融领域事件句提取方法,具体步骤为:

步骤1、输入财务报告数据;

步骤2、对数据进行预处理;

步骤3、选取基于感知机序列标注的命名实体识别;

步骤4、改进基于TextRank的关键词提取算法;

步骤5、输出得出文本关键词。

优选的,步骤3中基于感知机序列标注的命名实体识别的方法为:

A、感知机模型进行训练;

B、文本词语序列标注;

C、命名实体识别分词。

优选的,步骤4中改进基于TextRank的关键词提取算法,具体步骤为:

a、构建TextRank图模型;

b、迭代计算;

c、计算词语权重;

d、排名。

优选的,步骤A中感知机模型具体为基于线性感知算法的机器学习基础模型,通过计算误差调整模型。

优选的,步骤4中所述TextRank为基于PageRank网页排序算法改进的文本排序算法。

优选的,步骤C中感知机模型通过计算误差调整模型。

有益效果

发明提供了一种年报中的金融领域事件句提取方法。具备以下有益效果:

该年报中的金融领域事件句提取方法,通过构建TextRank图模型、迭代计算、计算词语权重和排名,对其不足之处进行改进,解决了TextRank关键词提取算法分词时忽略命名实体,关键词提取计算算法不理想,以及容易被噪声信息干扰导致提取关键词错误的问题。

附图说明

图1为本发明年报中的金融领域事件句提取方法的流程图。

具体实施方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010528238.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top