[发明专利]一种跨语种的点评复述方法有效
申请号: | 201710014938.2 | 申请日: | 2017-01-09 |
公开(公告)号: | CN106897274B | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 张猛;焦宇;林小俊;暴筱 | 申请(专利权)人: | 北京众荟信息技术股份有限公司 |
主分类号: | G06F40/56 | 分类号: | G06F40/56;G06F40/30 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100088 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语种 点评 复述 方法 | ||
本发明涉及一种跨语种的点评复述方法,其步骤包括:1)获取目标语种的点评数据;2)对目标语种的点评数据进行语义分析;3)根据语义分析的结果,对目标语种的点评数据中的点评句进行语义表示;4)将目标语种的点评数据中的每个点评句作为文档,将其语义的完整表示和部分表示作为词,构建倒排索引,形成目标语种的点评数据的复述句库;5)对源语种的点评数据进行语义分析和语义表示,通过源语种的每个点评句的语义表示在所述复述句库中进行检索,得到目标语种的点评句;6)按照句子衔接规则进行处理,得到最终的目标语种点评。本发明能够根据源语种点评的观点内容生成目标语种的复述点评,复述结果接近人工翻译结果,而且完全自动化。
技术领域
本发明属于数据挖掘技术领域,具体涉及一种面向多语种点评的复述方法,能够根据源语种点评的主要观点内容生成目标语种的复述点评。
背景技术
国家旅游局近日发布数据显示,2015年共有41.2亿人次国内或出境游,相当于全国人口一年旅游近3次。穷游2016年用户调研发现,59.7%的用户会制定详细行程计划。他们通常会规划好主要景点、安排玩乐项目和城际交通,再根据每日的活动范围和第二天的出行情况,寻找匹配的酒店。
美国康乃尔大学酒店管理学院的教授Chris Anderson在2012年的研究中指出,网上点评对现今的旅行者在选择住宿的消费决策上有越来越大的影响力。在该研究中,单单针对在酒店官网所下的订单,就有36%的消费者会在下订单之前阅览TripAdvisor猫途鹰上的点评。而且平均每次预定前都会访问高达4次,超过25个页面。证明网上点评对酒店预订的消费决策举足轻重。
据国际旅游调研机构Phocuswright 2015年对TripAdvisor全球用户展开的调研报告显示,96%的受访者表示“旅游点评”对于他们计划旅行和预订酒店来说非常重要;79%的受访者在预定某家酒店前至少会查看其6到12条点评。这说明随着全球旅游业的迅猛发展,游客在面对五花八门的选择时,亟需参考在线点评内容以做出正确的选择。这一需求在中国游客规划出境游时尤为突出,原因在于海外陌生文化、语言、环境所带来的强烈不确定性促使中国游客急需通过前人经验打消疑虑,形成体验预期。
2015年,英孚教育发布第五版年度英语熟练度指标报告,中国大陆英语熟练度指标仍属于低熟练度水平。中国出境游人数增长明显,行程规划的预定决策过程需要点评支持,但境外酒店多为英语或其他语种,这给出境游的中国游客造成了巨大障碍。为了克服这个困难,一些在线旅游平台通过各种鼓励项目或志愿者计划,组织精通英语等语种的人来翻译。但这种方式效率低,成本高。机器自动翻译虽然有效率,成本可控,但翻译结果语句不通或晦涩难懂。
复述,是对现成语言材料的重述,要求用自己的话把听过或读过的语言材料重述出来,重在内容的提取和言语的转换。从计算语言学的角度讲,复述(Paraphrases)就是对相同语义的不同表达。基于自然语言生成(Natural Language Generation,NLG)的方法是复述的一种方法,主要包括两个步骤。步骤一是通过句法分析、语义分析等一系列处理得到待复述句S的内部表示R;步骤二则是基于NLG技术生成R对应的自然语言句子T。由于S和T都对应相同的中间表示R,因此可保证S和T的意思相同。基于NLG的方法模拟了人的复述行为,即先理解句子的意思,再用另外一种方式将其表达出来。这种方法对深层语义知识的依赖性较大,通常需要建立一整套语义表达形式和框架。另外,NLG系统也非常复杂。由于这种方法的复杂性,实际应用中不常见。
发明内容
本发明提出一种跨语种的点评复述方法,能够根据源语种点评的主要观点内容生成目标语种的复述点评,不仅复述结果接近人工翻译结果,而且完全自动化。
本发明采用的技术方案如下:
一种跨语种的点评复述方法,包括以下步骤:
1)获取目标语种的点评数据;
2)对目标语种的点评数据进行语义分析;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京众荟信息技术股份有限公司,未经北京众荟信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710014938.2/2.html,转载请声明来源钻瓜专利网。