[发明专利]文档段落分割方法无效
申请号: | 201010602030.1 | 申请日: | 2010-12-23 |
公开(公告)号: | CN102004724A | 公开(公告)日: | 2011-04-06 |
发明(设计)人: | 刘铭;刘远超;王晓龙;刘秉权;林磊;单丽莉;孙承杰 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 牟永林 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 段落 分割 方法 | ||
1.文档段落分割方法,其特征在于通过下述步骤实现:一、对文档进行分词的操作及停用词过滤的操作;二、采用词典《知网》对文档的多义词进行消歧;三、对消歧后的词语通过词语之间的相似度构造词汇链;四、对文档构造全文词汇链;五、对文档进行划分,将其划分为多个长度相等的片段,对片段构造词汇链;六、根据片段词汇链和全文词汇链相互覆盖的程度确定片段之间的相似度;七、根据片段之间的相似度构造片段相似图,根据片段相似度图对片段进行分割。
2.根据权利要求1所述的文档段落分割方法,其特征在于步骤三中词汇链的构造过程如下:
[1]过滤掉《知网》中的抽象义原;
[2]设待分割文档Doc的词空间为WordSet,词汇链集合为L;
[3]顺序扫描WordSet,设当前正在扫描的词为Wi,该词具有t个义类;
[4]顺序扫描Wi的t个义类,设当前正在扫描第j个义类,记其为Wij;
[5]按公式(1)计算Wij与L中每条链的关联关系,并找到与Wij具有最大关联关系的链,设此词汇链为Lm;
[6]按公式(2)计算Wij与Lm的Select值,如值为1,则将词Wi插入到词汇链Lm中,并标记Wi在Lm中的义类为Wij,否则新建一条词汇链包含Wi,同时标记Wi在新建链中的义类为Wij;
[7]如果j≥t,即Wij为词Wi的最后一个义类则转步骤[8],否则循环运行步骤[4]~步骤[7];
[8]如果词Wi为WordSet的末尾则转步骤[9],否则循环运行步骤[3]~步骤[8];
[9]计算L中每条词汇链的权值,权值为词汇链包含的词数;
[10]取大于平均链权重的词汇链作为文档Doc描述的子主题的代表,并记这些大于平均链权重的词汇链为强链;
R(Wij,Lk)=max(Sim(Wij,Lk),Cor(Wij,Lk)) (1)
公式(1)中Sim(Wij,Lk)反映的是义类Wij和词汇链Lk所描述的信息之间的相似性;Cor(Wij,Lk)反映的是Wij和Lk所描述的信息之间的相关性。
公式(2)中TH为义类Wij与词汇链Lm反映的信息之间是否相互关联的阈值;其中以词与词汇链包含的所有词的最大相似度和最大相关度作为词与链的关联度;因此词与词汇链之间的关联度阈值也就是词与词之间的关联度阈值;TH为0.7。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010602030.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种透明面板的调温柜
- 下一篇:大蒜收获机