[发明专利]智能机器人交互系统在投融资领域的应用在审
申请号: | 201410853540.4 | 申请日: | 2014-12-31 |
公开(公告)号: | CN104572619A | 公开(公告)日: | 2015-04-29 |
发明(设计)人: | 李朝晖 | 申请(专利权)人: | 天津市招财猫信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 无 | 代理人: | 无 |
地址: | 300457 天津市滨海新区天津经济技术开发*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能 机器人 交互 系统 融资 领域 应用 | ||
技术领域
本发明属于智能机器人技术领域,尤其涉及一种智能机器人交互系统在投融资领域的应用。
背景技术
中文分词指的是将一个汉字序列切分成一个一个单独的词。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。对于所有的智能聊天机器人,简单地说,就是基于人工智能原理、通过对聊天文本进行分析后给出应答的一类程序。世界上最早的聊天机器人诞生于20世纪80年代,而由于中文对“词”划分的模糊及歧义繁多等等原因,中文聊天机器人发展得相对较慢。
现有存在的中文分词技术,是由于中文在基本文法上有其特殊性,具体表现在:与英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文由于继承自古代汉语的传统,词语之间没有分隔,古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要,而现代汉语中双字或多字词居多,一个字不再等同于一个词。在中文里,“词”和“词组”边界模糊。现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,但由于人们认识水平的不同,对词和短语的边界很难去区分。例如:“对随地吐痰者给予处罚”,“随地吐痰者”本身是一个词还是一个短语,不同的人会有不同的标准,同样的“海上”“酒厂”等等,即使是同一个人也可能做出不同判断,如果汉语真的要分词书写,必然会出现混乱,难度很大。
中文分词对于智能聊天机器人来说,最重要的并不是找到所有结果,因为在上千万的应答库中找到所有结果没有太多的意义,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。从定性分析来说,智能聊天机器人的分词算法不同,词库的不同都会影响应答库的返回结果。在中文分词过程中,有两大难题一直没有完全突破。
第一个问题是歧义识别:主要的歧义有两种:交集型歧义和组合型歧义,例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面的”和“表面的”。这种称为交集型歧义(交叉歧义)。像这种交集型歧义十分常见,前面举的“和服”的例子,其实就是因 为交集型歧义引起的错误。“化妆和服装”可以分成“化妆和服装”或者“化妆和服装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交集型歧义相对组合型歧义来说是还算比较容易处理,组合型歧义就必须根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
如果交集型歧义和组合型歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓球拍卖完了”、也可切分成“乒乓球拍卖完了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。
第二个问题是新词识别:命名实体(人名、地名)、新词,专业术语称为未登录词。也就是那些在分词词典中没有收录,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解。句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项既不划算又巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?
除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。如何解决让电脑理解句中的语义成为现阶段中文人工智能的难题。
发明内容
为了克服上述现有技术的不足,本发明的目的是提供一种智能机器人交互系统在投融资领域的应用,可以很好的解决中文聊天中的问题,同时利用大数据自训练学习功能不断提高应答匹配度,能很好的达成聊天客服的基本功能。
为了实现上述目的,本发明采用如下技术方案:
一种智能机器人交互系统在投融资领域的应用,其特征在于该系统的功能及业务处理步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津市招财猫信息技术有限公司;,未经天津市招财猫信息技术有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410853540.4/2.html,转载请声明来源钻瓜专利网。