[发明专利]文档段落分割方法无效
申请号: | 201010602030.1 | 申请日: | 2010-12-23 |
公开(公告)号: | CN102004724A | 公开(公告)日: | 2011-04-06 |
发明(设计)人: | 刘铭;刘远超;王晓龙;刘秉权;林磊;单丽莉;孙承杰 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 牟永林 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 段落 分割 方法 | ||
技术领域
本发明涉及文档的分割方法。
背景技术
文本分割,主要是对一篇文本中的各个段落,按照语义关系进行分割,将各个自然段落进行归并,使得文章中所有大意属于一个子主题的段落归并于一个语义段落,这样把一篇文本分割成若干个语义段落。这种文本分割的方式很类似于小学语文教学中对文章分段的方式。
文本分割的意义在于对文本的分析可以从原来的文本级别细致到语义段落级别。过去对文本的分析只能停留在当前文本的主题思想或者类别等有限的范围内。如果想进一步分析文本就只能以自然段落为单位,但这样的自然段落往往不能完整地表达一个子主题,所以很难对文本的结构做出分析。
一旦文本的结构能够正确地被分析出来,则文本处理的很多任务可以通过结构分析的结果完成或提高。文本的自动摘要就是一个典型的例子,对于摘要的对象完全可以根据文本的结构分析出主题的位置、修饰的成分或者结论性语句,这样在这些信息的基础上进行摘要无疑将大大提升结果的准确程度。文本分割的用途除了上文提及自动文本摘要外还有很多,但这些用途多数都是建立在文本理解的基础之上的,而较为著名的应用应当是问答系统。因为问答系统是要计算机模拟人对用户的提问做出回答,整个过程与图灵试验极其相似,所以要求对文本的理解程度较高。
尤其是在信息检索任务中,文本分割将直接提升检索的准确性和缩小结果的范围。以往信息检索是以篇章为单位,结果往往是一篇篇与检索关键字相关的文档,而这样的结果使得用户很少有耐心读完整个文档以确定是否检索结果是其感兴趣的内容。如果结合文本分割技术,将不在以文档为检索的最小单位,而是使用语义段落作为最小的单位,这样用户在检索的时候就能更准确的获知其感兴趣内容的位置,从而不需要通读全文,节省了时间,提高了效率。目前无论是基于局部片段相似性的文本分割算法还是基于全局片段相似性的文本分割算法均以文中所有词作为片段相似度计算的依据。此方法非常容易引入与文档描述的主题无关的噪声词,而增大或缩小描述不同或相同子主题的片段间的相似度,使得片段划分的结果不准确。同时由于上述方法没有对文档主题进行分析,很可能将描述相同子主题的片段分裂到不同的分割单元中。
发明内容
本发明的目的是提供一种文档段落分割方法,以解决现有技术引入与文档描述的主题无关的噪声词而增大或缩小描述不同或相同子主题的片段间的相似度,使得片段划分的结果不准确的缺陷。本发明的方法通过下述步骤实现:一、对文档进行分词的操作及停用词过滤的操作;二、采用词典《知网》对文档的多义词进行消歧;三、对消歧后的词语通过词语之间的相似度构造词汇链;四、对文档构造全文词汇链;五、对文档进行划分,将其划分为多个长度相等的片段,对片段构造词汇链;六、根据片段词汇链和全文词汇链相互覆盖的程度确定片段之间的相似度;七、根据片段之间的相似度构造片段相似图,根据片段相似度图对片段进行分割。
文本分割是按照文档主题叙述的线性变换将文档划分成为若干个语义片段或分割单元,以形成语义片段序列的过程,其能够使不同的分割单元描述不同的子主题信息。文本分割的应用范围相当广泛,如自动文摘、问答检索等系统中文本分割均起到很大的作用。本发明通过分析文档主题,去除与主题信息无关的词语对片段相似度计算的干扰。同时将图的思想引入到文本分割中,使分割转化为一种在全局范围内寻找连通分量的过程,结合了全局和局部特征寻找片段划分的最优值,增加了划分的可信度。由于当代语言处理已经要求越来越高,所以基于内容理解的技术已经得到了广泛的重视。因此本发明提出了一种新颖的文本分割方法,其首先将待分割文档划分为若干片段的集合,然后构造全文词汇链分析文中描述的多个子主题,并通过构造片段对子主题的覆盖图将描述相同子主题的相似片段归类。本发明通过分析文档主题去除与主题信息无关的词语对片段相似度计算的干扰,同时将图的思想引入到文本分割中,使分割转化为一种在全局范围内寻找连通分量的过程,结合了全局和局部特征寻找片段划分的最优值,增加了划分的可信度。
附图说明
图1是以片段(BLOCK)为顶点,以片段间的相似度为边构造片段对子主题的覆盖图。图2是根据阈值去掉弱相关弧后的片段对子主题的覆盖图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010602030.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种透明面板的调温柜
- 下一篇:大蒜收获机