[发明专利]政协提案关注点自动提取方法在审
申请号: | 201810606872.0 | 申请日: | 2018-06-13 |
公开(公告)号: | CN108776657A | 公开(公告)日: | 2018-11-09 |
发明(设计)人: | 徐艺;刘跃华;卓优胜;杨帆 | 申请(专利权)人: | 湖南正宇软件技术开发有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410000 湖南省长沙市开发*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提案 关注点 词库 分词 自动提取 样本集 权重 分类结果 工作效率 快速提取 人工分类 提案内容 智能计算 分类 文档 算法 排序 归属 返回 节约 更新 | ||
本发明公开了一种政协提案关注点自动提取方法,具体包括以下步骤:建立提案词库以及样本集;接受提案,根据提案词库对提案文档的内容进行分词;根据样本集计算每个分词的权重;按照权重对分词进行排序;根据算法智能计算该提案归属哪类关注点;返回分类结果,并更新词库。本发明能够对政协提案进行准确分类,并快速提取提案内容的关注点,节约了人工分类的时间,降低了提案分类的成本,大大提高了工作效率。
技术领域
本发明涉及数据自动提取技术领域,特别是一种针对政协提案关注点的自动提取方法。
背景技术
随着信息技术的发展,数字化的信息正以惊人的速度增长,人们每天要面对大量的数字化信息来进行阅读,为了节省时间和提高工作效率,原始的数字信息的各种简洁表示(例如,摘要、关键词等形式)应运而生。人们可以通过这些简洁表示来快速了解原始信息的大致内容,而不需要通读全文。通常,形成这些简洁表示的基本元素是从原始信息提取的关键词。目前现有技术中关键词的提取大多是基于新闻资讯类文章,而对于政协委员们提交的提案等文章则无法准确地快速地实现关注点的提取。
发明内容
本发明需要解决的技术问题是提供一种用于对政协提案的关注点进行自动提取的方法。
为解决上述技术问题,本发明所采取的技术方案如下。
政协提案关注点自动提取方法,具体包括以下步骤:
A.建立提案词库以及样本集;
B.接受提案,根据提案词库对提案文档的内容进行分词;
C.根据样本集计算每个分词的权重;
D.按照权重对分词进行排序;
E.根据算法智能计算该提案归属哪类关注点;
F.返回分类结果,并更新词库。
上述政协提案关注点自动提取方法,步骤C中所述的权重计算方法为:根据TF-IDF算法计算每个分词的权重,再根据特定语义词库,提高某些关键词的权重阀值,来提高权重计算的精度。
上述政协提案关注点自动提取方法,步骤E中所述的算法为:通过余弦距离算法,计算该提案与样本集提案的距离,离哪类样本提案距离最近,则归属于哪类关注点。
由于采用了以上技术方案,本发明所取得技术进步如下。
本发明能够对政协提案进行准确分类,并快速提取提案内容的关注点,节约了人工分类的时间,降低了提案分类的成本,大大提高了工作效率。
附图说明
图1为本发明的流程图。
具体实施方式
下面将结合具体实施例对本发明进行进一步详细说明。
一种政协提案关注点自动提取方法,基于政协领域多年积累的词库与样本集来获得提案关注点自动提取的基础,该自动提取方法具体包括以下步骤。
A.建立提案词库以及样本集。
B.接受提案,根据提案词库对提案文档的内容进行分词。
C.根据样本集计算每个分词的权重。所述权重计算方法为:根据TF-IDF算法计算每个分词的权重,再根据特定语义词库,提高某些关键词的权重阀值,来提高权重计算的精度。
TF-IDF算法用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在词库中出现的频率成反比下降。
D.按照权重对分词进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南正宇软件技术开发有限公司,未经湖南正宇软件技术开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810606872.0/2.html,转载请声明来源钻瓜专利网。