[发明专利]一种文章段落分析注释方法、系统、可读介质及设备有效
| 申请号: | 202210376828.1 | 申请日: | 2022-04-12 |
| 公开(公告)号: | CN114462424B | 公开(公告)日: | 2022-07-08 |
| 发明(设计)人: | 李根柱 | 申请(专利权)人: | 北京思源智通科技有限责任公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F40/247;G06F40/216 |
| 代理公司: | 深圳市添源创鑫知识产权代理有限公司 44855 | 代理人: | 沈冠雄 |
| 地址: | 102400 北京市房山区阎*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文章 段落 分析 注释 方法 系统 可读 介质 设备 | ||
本发明提供了一种文章段落分析注释方法、系统、可读介质及设备。该方案包括获取待分析文章,进行语义采集生成为段落数据和词汇数据;根据所述词汇数据进行语义分析,生成近义词库;获取全部的句子,根据所述近义词库进行关键段关联程度计算,形成目标关键段落;提取每个词汇的出现频率,计算每个词汇的指示词词频和每个句子的自创程度;对每个段落中的词汇进行语义提取,生成语义转折段落;根据所述语义转折段落、所述自创程度和所述目标关键段落进行在线的段落标记、语句标记和词汇标记。该方案通过自动的分析和提取在文章中的段落、语句和词汇快速完成定位关键段落,分析每个句子的自创程度,并进行词频标记和语义转折标记。
技术领域
本发明涉及文档分析技术领域,更具体地,涉及一种文章段落分析注释方法、系统、可读介质及设备。
背景技术
随着科技的发展,人人都能够写作,这导致在社交平台、微博、微信、期刊、报纸等各个场 、景下的写作内容越来越多。在此种情况下,将会产生诸多的文章,但是,这些文章可能每个都存在其特点,若需要对于大量文档进行逐一的分析,需要花费大量的时间和精力,而且可能不能快速获知语义。因此,需要部分文档的分析方法,提升文档分析效率和准确度。
在本发明技术之前,现有的文档分析提取方法,较少能够真正实现在线的对于段落的关键信息和段落的语义和转折的提取。产生这一现象的原因是,现有的技术主要人员经验依靠于对于文档的整体性的分析,而整体的分析虽然能真正的提取出语义,但是每个分析的人员存在其主观的观点;此外,在分析过程中若出现多类型的数据存在近义词时,常常无法有效分析。
发明内容
鉴于上述问题,本发明提出了一种文章段落分析注释方法、系统、可读介质及设备,通过自动的分析和提取在文章中的段落、语句和词汇快速完成定位关键段落,分析每个句子的自创程度,并进行词频标记和语义转折标记。
根据本发明实施例第一方面,提供一种文章段落分析注释方法。
在一个或多个实施例中,优选地,所述一种文章段落分析注释方法包括:
获取待分析文章,进行语义采集生成为段落数据和词汇数据;
根据所述词汇数据进行语义分析,生成近义词库;
获取全部的句子,根据所述近义词库进行关键段关联程度计算,形成目标关键段落;
提取每个词汇的出现频率,计算每个词汇的指示词词频和每个句子的自创程度;
对每个段落中的词汇进行语义提取,生成语义转折段落;
根据所述语义转折段落、所述自创程度和所述目标关键段落进行在线的段落标记、语句标记和词汇标记。
在一个或多个实施例中,优选地,所述获取待分析文章,进行语义采集生成为段落数据和词汇数据,具体 包括:
获取待分析文章,对文章进行段落分析,拆分为不同段落;
根据全部的段落进行词汇拆分,拆分为不同的词汇;
根据全部的段落进行语句拆分,拆分为不同的语句;
根据段落、词汇和语句进行实时编号,并生成为所述段落数据、所述词汇数据和语句数据。
在一个或多个实施例中,优选地,所述根据所述词汇数据进行语义分析,生成近义词库,具体包括:
根据所述语句数据,生成为全部的句子;
根据所述词汇数据,进行近义词提取,根据每个词汇的近义词,生成所述近义词库;
根据所述语句数据和所述段落数据,进行从属关系分析,形成每个句子对应的段落。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京思源智通科技有限责任公司,未经北京思源智通科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210376828.1/2.html,转载请声明来源钻瓜专利网。





