[发明专利]一种政策谱系构建方法、装置和电子设备有效
申请号: | 202110379991.9 | 申请日: | 2021-04-09 |
公开(公告)号: | CN112800246B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 孙会峰;邢婷;冷小萱;魏小敏 | 申请(专利权)人: | 北京智源人工智能研究院 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/31;G06F40/205;G06F40/284;G06F40/289 |
代理公司: | 北京动力号知识产权代理有限公司 11775 | 代理人: | 梁艳;白婉露 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 政策 谱系 构建 方法 装置 电子设备 | ||
本发明公开了一种政策谱系构建方法、装置和电子设备,其中方法包括:采集政策信息;对政策信息进行职能分类,获得政策‑职能集合;将政策‑职能集合中的每一条政策信息进行TF‑IDF计算,根据计算结果获得TF‑IDF分类结果,基于TF‑IDF分类结果为政策‑职能集合中的每一条政策信息建立唯一索引;提取政策‑职能集合中的每一条政策信息的段落关键信息;对政策‑职能集合中的每一条政策信息进行段落映射处理,获得段落映射集合;基于唯一索引、段落关键信息以及段落映射集合,建立结果集合,获得政策谱系;该方法能够实现大量政策信息数据政策谱系的自动构建,效率高且准确性高。
技术领域
本发明涉及信息处理技术领域,尤其涉及一种政策谱系构建方法、装置和电子设备。
背景技术
各地各级政府及其部门面向社会公开发布的政策数量庞大且来源分散,对于有政策研究需求的机构或企业,短时间内难以全面评估各地、各部门、各行业等维度下政策的异同。政策谱系的构建能够使用户直观、快速了解和对比政策内容。当前主流解决方案主要集中在使用爬虫技术实现政策数据的自动化采集,但采集后的政策数据只能通过人工手段实现谱系的结构化处理,效率低且容易出错。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案。
本发明一方面提供了一种政策谱系构建方法,包括:
采集政策信息;
对所述政策信息进行职能分类,获得政策-职能集合;
将所述政策-职能集合中的每一条政策信息进行TF-IDF计算,根据计算结果获得TF-IDF分类结果,基于所述TF-IDF分类结果为所述政策-职能集合中的每一条政策信息建立唯一索引;
提取所述政策-职能集合中的每一条政策信息的段落关键信息;
对所述政策-职能集合中的每一条政策信息进行段落映射处理,获得段落映射集合;
基于所述唯一索引、段落关键信息以及段落映射集合,建立结果集合,获得政策谱系。
进一步地,所述政策信息包括政策标题、政策全文、行政区位、职能部门以及发文时间;
基于所述职能部门对所述政策信息进行职能分类,获得政策-职能集合。
进一步地,将所述政策-职能集合中的每一条政策信息进行TF-IDF计算,根据计算结果获得TF-IDF分类结果,包括:
将所述政策-职能集合中的每一条政策信息的政策标题进行分词,并去除包含行政区位、职能部门的词以及常规停用词,之后采用TF-IDF模型计算每个词的TF-IDF值;
对所述政策-职能集合中的每一条政策信息,将TF-IDF值最高的词作为该条政策信息的关键词,根据所述关键词对所述政策-职能集合中的政策信息进行分类,获得TF-IDF分类结果。
进一步地,基于所述TF-IDF分类结果为所述政策-职能集合中的每一条政策信息建立唯一索引,包括:
获取所述政策信息中的发文时间以及行政区位,并将所述发文时间转换为时间戳;
将所述TF-IDF分类结果、行政区位以及时间戳作为每一条政策信息的唯一索引。
进一步地,提取所述政策-职能集合中的每一条政策信息的段落关键信息,包括:
对所述政策-职能集合中的每一条政策信息,从政策全文中按照段落顺序,去除常规停用词之后进行高频词提取;
按照段落顺序,将各段落的段落索引值和最高频词作为该段落的段落关键信息。
进一步地,对所述政策-职能集合中的每一条政策信息进行段落映射处理,获得段落映射集合,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智源人工智能研究院,未经北京智源人工智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110379991.9/2.html,转载请声明来源钻瓜专利网。