[发明专利]语句改述方法、程序以及系统无效
申请号: | 200780047490.9 | 申请日: | 2007-12-21 |
公开(公告)号: | CN101563682A | 公开(公告)日: | 2009-10-21 |
发明(设计)人: | 石川开;赤峰享 | 申请(专利权)人: | 日本电气株式会社 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/28 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 | 代理人: | 李晓冬;南 霆 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 方法 程序 以及 系统 | ||
技术领域
(相关申请)本申请要求在先的日本发明专利申请第2006-345757号(2006年12月22日申请)的优先权,所述在先申请的全部记载内容将通过引用被记入本申请文件中。
本发明涉及语句改述方法、转换规则计算方法、语句改述系统、转换规则计算用的程序以及语句改述用的程序,尤其是涉及学习语句的改述规则的语句改述方法、转换规则计算方法、语句改述系统、转换规则计算用的程序以及语句改述用的程序。
背景技术
由计算机将由人输入的文章转换为他国语言的文章的机器翻译已被广泛应用,但在将同一语言之间的转换为对象的情况下,则使用用于改变文章表述的语句的改述方法(参见非专利文献1)。
在非专利文献1中,记载了现有的语句的改述后的表述制定方法的一个例子。非专利文献1中记载的语句的改述后的表述制定方法是事先由人制定依照造句法特征(性质)来进行表述的改述规则的方法。而且对于获得的改述后的表述,最终需人工确认。
此外,语句改述方法还被用于对于转换后的疑问句自动输出答复的疑问应答系统等中(参见专利文献1)。例如,在专利文献1中,记载了通过机器学习从改述文集(corpus)获得语句改述模型的语句的改述后的表述制定方法的一个例子。在专利文献1所记载的语句的改述后的表述制定方法中,将多个对于辞典或新闻等报道中的相同标题的说明句当作具有改述关系的文件对来制定改述文集,并对此进行机器学习。
非专利文献1:藤田 篤、他1名、「A Class-oriented Approach toBuilding a paraphrase Corpus(IWP)」、2005年10月、P.25-32;
专利文献1:日本专利申请早期公开特开2002-014990号公报(第0058~0059段、以及图4)。
发明内容
上述非专利文献1以及专利文献1的全部公开内容通过引用被记入本申请文件中。
但是,当对由很多用户输入的疑问句适用现有的语句的改述后的表述制定方法时,就人工制定改述规则的方法(例如,非专利文献1所记载的语句的改述后的表述制定方法)而言,需要制定大量的规则。这是因为对于多种多样的疑问句的内容和表述必须要实现充分的收罗性。而且,当获得最终的改述后的表述时需要人工进行确认操作,因此大多情况下无法适用于对用户的疑问句输入进行实时处理的系统。
此外,在专利文献1所记载的语句的改述后的表述制定方法中,就已有的辞典的标题或新闻等报道中未收罗的领域而言,难以获取学习数据。而且,如果学习数据当中包含有表述上不具有可改述的关系的语句对,则学习时就会成为干扰(无用信息)。此时,根据学习数据的质量有时无法获得恰当的语句改述模型(改述规则。以下称为改述模型)。即,在如专利文献1所记载的那样从已有的辞典或新闻等报道数据进行机器学习的方法中,被收罗的疑问句限定在与已有的辞典和新闻等报道数据相关的内容,因此大多情况下对于用户多种多样的疑问句难以实现充分的收罗性。语句对是指两个语句的组合(两句一组)。
因此,本发明的目的在于,提供对于用户的疑问句输入实时生成改述表述的语句改述方法、转换规则计算方法、语句改述系统、转换规则计算用的程序以及语句改述用的程序,尤其是提供能够对用户输入的疑问句的改述模型进行学习的语句改述方法、转换规则计算方法、语句改述系统、转换规则计算用的程序以及语句改述用的程序。
根据本发明的第一方面,提供一种语句改述方法,用于针对由用户输入的疑问文件生成内容相同但表述不同的疑问文件,其特征在于,包括:第一句子提取步骤,从保存在存储单元中的具有同一答复文件的疑问文件中提取具有所设定的阈值以上的相似度的句子的组合;转换规则计算步骤,基于在第一句子提取步骤中提取的句子的组合来计算用于转换为内容相同但表述不同的句子的转换规则;第二句子提取步骤,使用在转换规则计算步骤中算出的转换规则从存储单元中再次提取具有阈值以上的相似度的句子的组合;判定步骤,判定在第一以及第二句子提取步骤中提取的句子的组合是否全部一致;以及文件生成步骤,使用在转换规则计算步骤中算出的转换规则来生成所输入的疑问文件的改述文件,其中,重复执行第一句子提取步骤、转换规则计算步骤以及第二句子提取步骤,直到在第一以及第二句子提取步骤中提取的句子的组合全部一致为止。
在上述语句改述方法中,优选包括对用户显示所生成的改述文件的步骤,并且一并显示生成的改述文件和表示相对于所输入的疑问句的相似度的值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本电气株式会社,未经日本电气株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200780047490.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:折流接触沉淀一体化厌氧反应器
- 下一篇:双氧水工作液再生剂