[发明专利]要点抽出装置以及要点抽出方法有效
申请号: | 201310068363.4 | 申请日: | 2013-03-04 |
公开(公告)号: | CN103324653A | 公开(公告)日: | 2013-09-25 |
发明(设计)人: | 新田早织;加纳敏行 | 申请(专利权)人: | 株式会社东芝;东芝解决方案株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;郭凤麟 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 要点 抽出 装置 以及 方法 | ||
本申请基于先前在2012年3月21日递交的日本专利申请2012-064373,并享受其优先权的好处;其全部内容被收容于本申请中,以资参考。
技术领域
本发明涉及从文档中抽出要点的要点抽出装置以及要点抽出方法。
背景技术
一般,例如在产品支持中心等中,为了分析顾客的要求等,需要确认每一个蓄积的询问文档(记述来自该顾客的询问的文档),掌握该询问中的重要的内容。
因此,考虑例如通过抽出与表示询问的谓语(例如“教えて”)有关的句节,自动地抽出询问文档中的要点。此外,像表示询问的谓语那样,把为了在文档中抽出要点而成为线索的词称为线索词。
如上所述,通过抽出与表示询问的谓语那样的线索词有关的句节,能够抽出询问文档中的要点。
但是,在把这样的方法应用在其他的文档(例如记述对于询问的回答的回答文档等)的情况下,不一定能够抽出适当的要点。
例如,在回答文档中包含“××すると○○できる。”这样的句子的情况下,作为在相应回答文档中的回答的要点,希望抽出“××”的部分。
具体说,在包含“プリンタをUSBケ-ブルでパソコンと繫ぐとパソコンのデ-タの印刷ができます。”这样的句子的回答文档的情况下,该回答文档中应该抽出的回答的要点是“プリンタをUSBケ-ブルでパソコンと繫ぐ”。
但是,在把上述的回答文档中的线索词例如设为“できる”的情况下,从该回答文档中抽出的要点成为涉及该线索词“できる”的句节“パソコンのデ-タの印刷ができます”,不适当。
亦即,如上述仅简单地抽出涉及线索词的句节,有时不能抽出适当的要点。
发明内容
本发明要解决的课题在于,提供能够从文档中抽出适当的要点的要点抽出装置以及要点抽出方法。
本实施方式的要点抽出装置具有存储单元、输入单元、分析单元、判定单元、和抽出单元。
存储单元,对应地存储线索词以和用于从包含该线索词的句子中抽出要点的抽出规则,线索词表示成为用于从构成文档的句子中抽出要点的线索的至少一个单词。
输入单元,用于输入由包含用户指定的多个单词的句子构成的文档。
分析单元,通过分析构成上述输入的文档的句子,生成表示在该句子中包含的多个单词以及这些单词间的修饰关系的结构树。
判定单元,根据上述生成的结构树,判定在上述存储单元中存储的线索词是否包含在构成上述输入的文档的句子中。
抽出单元,在判定为在上述存储单元中存储的线索词包含在构成上述输入的文档的句子中的情况下,对于上述生成的结构树应用与该线索词对应在上述存储单元中存储的抽出规则,从该结构树中抽出表示该句子的要点的部分结构树。
根据上述结构的要点抽出装置,能够从文档中抽出适当的要点。
附图说明
图1是表示实施方式的要点抽出装置的硬件结构的框图。
图2是表示图1表示的要点抽出装置30的主要功能结构的框图。
图3是表示本实施方式的要点抽出装置30的处理过程的流程图。
图4是表示使用表示两个节点以及这些节点间的修饰关系的弧线表现的依存结构树的图。
图5是表示“一郎が速いボ-ルを軽々投げた”这样的句子的依存结构树的一例的图。
图6是表示对应关系存储部22的数据结构的一例的图。
图7是表示对应关系存储部22的数据结构的一例的图。
图8是表示通过句子结构分析部32生成的第一句“プリンタを買う予定ですが、スキャナ-とコピ-機の一体型を探しています。”的依存结构树的一例的图。
图9是用于具体说明对于第一句的依存结构树应用第一抽出规则的情况的图。
图10是表示从第一句的依存结构树中抽出的表示第一句的要点的部分结构树的图。
图11是表示通过句子结构分析部32生成的第二句“性能や價格を考えると、別々に買うことをお勧めします。”的依存结构树的一例的图。
图12是用于具体说明对于第二句的依存结构树应用了第一抽出规则的情况的图。
图13是表示从第二句的依存结构树中抽出的表示第二句的要点的部分结构树的图。
图14是表示通过句子结构分析部32生成的第三句“プリンタをUSBケ-ブルでパソコンと繫ぐとパソコンのデ-タの印刷ができます。”的依存结构树的一例的图。
图15是用于具体说明对于第三句的依存结构树应用了第二抽出规则的情况的图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝;东芝解决方案株式会社,未经株式会社东芝;东芝解决方案株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310068363.4/2.html,转载请声明来源钻瓜专利网。