[发明专利]句子提取方法及系统在审
| 申请号: | 201610809405.9 | 申请日: | 2016-09-07 |
| 公开(公告)号: | CN107025216A | 公开(公告)日: | 2017-08-08 |
| 发明(设计)人: | 郑在弼;金在润 | 申请(专利权)人: | UBERPLE有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京德恒律治知识产权代理有限公司11409 | 代理人: | 章社杲,李伟 |
| 地址: | 韩国首尔特别市永登浦*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 句子 提取 方法 系统 | ||
技术领域
本发明涉及一种文档概述方法及系统,更详细地说,本发明涉及一种算出包含在文档的各句子的重要度并且以算出来的各句子的重要度为基础从文档中提取重要句子的方法及其系统。
背景技术
文档概述(Document summarization)用来创建出能代表文档的简缩文本。为了从信息洪水正确快速地获取所需信息而需要进行文档概述。
文档概述方法可以分为提取(extraction)概述方法与抽象(abstraction)概述方法。抽象概述方法虽然可以比提取并概述方法更有效地简缩原文,但无法保障其与原文之间的一贯性及概述的正确性。
提取并概述的方法从文档提取重要句子并且利用所提取的重要句子组成摘要。但,一般的提取并概述算法没有考虑到读者(Reader)的观点、关注事项或意图地从文档提取被判定为绝对重要的句子。
因此,根据一般的提取并概述算法所提取的重要句子虽然对于第一读者来说可能是提供关注事项的信息的重要句子,但是对于第二读者却可能是提供非必要信息的句子而已。因此人们要求下列解决方案,亦即,考虑文档读者各自的偏好度并且提取对任何读者都能判定为重要的句子。
发明内容
【解决的技术课题】
本发明需要解决的技术课题为,提供一种以文档读者(reader)各自的偏好度为基础算出包含在文档的各句子的重要度并且以算出来的各句子的重要度为基础从文档中提取重要句子的方法及其系统。
本发明需要解决的另一个技术课题为,提供一种以提取自文档的重要句子为基础把文档概述的方法及其系统。
本发明需要解决的再一个技术课题为,提供一种以提取自文档的重要句子为基础供应搜索服务及去噪(noise filtering)的方法及系统。
本发明需要解决的再一个技术课题为,提供一种以提取自文档的重要句子为基础进行聚类(clustering)的内容聚类方法及系统。
本发明需要解决的技术课题不限于前述课题,本领域所属领域中具备通常知识者可以在下面的记载中明确地了解到前面没有提到的其它课题。
【技术解决方案】
为了解决上述技术课题的本发明一实施例的一种文档概述方法,包括下列步骤:接受关键词;分析包含多个句子的文档后识别包含在上述文档的各句子;组成下列图形,该图形把上述各句子作为顶点(Vertex)并且把上述各句子之间的相似度作为边(Edge)的加权值(Weight);在上述图形适用变形的佩奇等级算法(PageRank algorithm)算出上述各句子的重要度,上述变形的佩奇等级算法则变形以便把基于和上述关键词的关联度的加权值加以反映;及以上述算出来的重要度为基准从上述文档提取重要句子。
在一实施例中,上述佩奇等级算法以邻接第一顶点的诸多顶点的相对重要度为基础算出上述第一顶点的重要度,在邻接上述第一顶点的各顶点的相对重要度上反映加权值,该加权值则和邻接上述第一顶点的各顶点的句子是否包含上述关键词有关。
为了解决上述技术课题的本发明另一实施例的一种文档概述方法,包括下列步骤:从用户终端接收不包含用来提取文档的重要句子的关键词的文档概述请求;以上述用户终端的用户资料为基准选定反映了上述用户偏好度的关键词;反映上述选定的关键词而从上述文档提取重要句子;及以上述所提取的重要句子为基础生成上述文档的摘要。
为了解决上述技术课题的本发明再一实施例的一种文档概述方法,包括下列步骤:接收第一关键词及第二关键词;反映上述第一关键词而从包含多个句子的文档提取k个重要句子;以上述k个重要句子为基础生成第一摘要;反映上述第二关键词而从第一摘要提取m个重要句子;及以上述m个重要句子为基础生成第二摘要。
为了解决上述技术课题的本发明又一实施例的一种文档概述方法,包括下列步骤:接收第一关键词及不同于上述第一关键词的第二关键词;反映上述第一关键词而从包含多个句子的文档提取第一重要句子;反映上述第二关键词而从上述文档提取第二重要句子;及生成包含上述第一重要句子与上述第二重要句子的摘要;上述第一重要句子与上述第二重要句子是相异的句子。
为了解决上述技术课题的本发明一实施例的一种搜索服务提供方法,包括下列步骤:从用户终端接收搜索用关键词;利用上述收到的搜索用关键词进行预搜索;作为进行上述预搜索的结果,从搜索的文档提取重要句子;及把上述所提取的重要句子是否包含上述搜索用关键词加以反映地把上述预搜索结果重新配置而组成最终搜索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于UBERPLE有限公司,未经UBERPLE有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610809405.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:系统及其操作方法
- 下一篇:一种数据推送方法及装置





