[发明专利]基于智能问答系统会话历史的新词发现方法及系统有效
申请号: | 201510959114.3 | 申请日: | 2015-12-18 |
公开(公告)号: | CN105630890B | 公开(公告)日: | 2017-06-16 |
发明(设计)人: | 游世学;杜新凯 | 申请(专利权)人: | 北京中科汇联科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京庆峰财智知识产权代理事务所(普通合伙)11417 | 代理人: | 李文军 |
地址: | 100094 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 智能 问答 系统 会话 历史 新词 发现 方法 | ||
技术领域
本发明涉及智能问答领域,特别是一种基于智能问答系统会话历史的新词发现方法及系统。
背景技术
智能问答系统,又称智能机器人,可以接受用户的自然语言输入,分析用户的真实意图,得到唯一的答案返回给用户。随着人工智能技术的进步,智能问答系统,迎来了新一轮的发展热潮。国内外软件公司纷纷推出多款产品,这其中,有以Google Now,微软小冰,百度的小度机器人为代表的聊天机器人,可以满足用户生活、娱乐的需要;也有以北京中科汇联科技股份有限公司研发的微喂智能机器人、爱客服智能机器人为代表的专业智能客服机器人,可以满足企事业单位客户服务工作的需要,帮助企事业单位提升客户服务满意度,提高客户服务工作效率,降低客户服务成本。智能问答系统,已经在人们的工作和生活中扮演越来越重要的角色,也正因为此,智能问答系统被称为人工智能皇冠上的明珠,成为科研界、企业界持续关注的热点方向。
智能问答系统是一个非常复杂的软件系统,使用了几乎所有的自然语言处理和深度学习技术,比如分词、词性标注、命名实体识别、语法分析、句法分析、卷积神经网络、递归神经网络等等。这其中,分词是一项最为基础的工作,分词结果的好坏直接决定了智能问答系统能否正确的理解用户输入。目前,所有主流的分词器都有内置的词典,词典包含所有已知词语的条目。如果句子中的所有词都在词典中已经收录,主流分词器将该句话进行正确分词的概率在95%以上。如果句子中的某个词在词典中未收录,则分词器很可能无法对这句话进行正确的分词。
互联网的普及,知识的爆炸性增长和不断创造,使得新的词汇不断涌现,比如“大众创业”、“万众创新”、“然并卵”、“duang”,这里面既有政府政策和工作中出现的新提法,也有忽然之间发端于互联网的新表达。海量新词的发现使得分词效果面临极大的挑战,进而影响到了智能问答系统的语义理解水平。以“然并卵”为例,只有将其作为一个词看待,才有可能从语义上理解出这个词表达的含义是“然而并没有什么卵用”。
那么,如何发现和识别新的词语就成为一个亟待解决的问题。一种解决方法是通过人工筛选的方法来发现和识别新词,但是随着信息的爆炸式增长,新的词语也注定层出不穷,随着中国劳动人口的减少和工作收入的增加,依靠人力的方法成本高昂,以致于难以负担。
发明内容
为了克服现有技术的不足,发明人对互联网涌现的新词汇进行深入研究,发现用户无论通过何种途经学习到的新的词语,最终都会应用到自己与人、或者机器人的交互过程中。智能问答系统的会话历史是用户与机器聊天的完整记录。将大量用户与智能问答系统的会话历史进行汇总,就能得到人们日常生活工作中经常使用的字、词、句的语料库,这其中自然也会包含人们对新词的使用,并且,越是常用的新词,它出现的频率就会越高,出现在不同搭配和句式中的次数也会越多。
发明人进一步对这些出现在语料库中的新词语进行分析,总结得到这些新词的的四个鲜明特征:(1)一个词由若干个字组成,(2)一个词在一定规模的语料中肯定会多次出现;(3)词语具有较好的凝固度,即作为词语的若干个字在一个规模较大的语料中连续出现的概率要远大于不作为词语的若干个字在一个规模较大的语料中连续出现的概率;(4)词语具有较好的自由度,即作为词语的若干个字,可以和其它的字、词进行各种不同的搭配和组合,如若不然,此连续出现的若干个字很可能只是一个真正词语的子串。也就是说,只有同时满足了上述四个鲜明的特征的若干个字,才可能是一个新词。本发明正是基于此,提出计算新词特征的方法,并应用此方法从智能问答系统的会话历史中发现新词,以提高智能问答系统的语义分析效果,持续完善和提高智能问答系统的性能。
本发明提供一种基于智能问答系统会话历史的新词发现方法,所述方法包括如下步骤:
S1、对智能问答系统的会话历史建立索引,所述索引中包含新词的候选词;
S2、依次遍历索引中的候选词,计算每个候选词在所述会话历史中的出现频度,如果候选词的出现频度低于预设的频度阈值,则判断该候选词不是新词,如果候选词的出现频度不低于所述频度阈值,则执行步骤S3;
S3、计算候选词的凝固度,如果候选词的凝固度低于预设的凝固度阈值,则判断该候选词不是新词,如果候选词的凝固度不低于所述凝固度阈值,则执行步骤S4;
S4、计算候选词的自由度,如果候选词的自由度低于预设的自由度阈值,则判断该候选词不是新词,如果候选词的自由度不低于所述自由度阈值,则判断该候选词为新词。
具体地,所述对智能问答系统的会话历史建立索引,所述索引中包含新词的候选词包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科汇联科技股份有限公司,未经北京中科汇联科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510959114.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种捻股生产工艺
- 下一篇:旅游信息处理方法和装置