[发明专利]用于发现和探索概念的系统和方法有效
申请号: | 201480053132.9 | 申请日: | 2014-07-24 |
公开(公告)号: | CN105745679B | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 艾密尔·里夫-托夫;阿夫拉哈姆·菲札柯夫;大卫·奥林格;尤查·卡尼格 | 申请(专利权)人: | 格林伊登美国控股有限责任公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G10L15/18 |
代理公司: | 11355 北京泰吉知识产权代理有限公司 | 代理人: | 张雅军 |
地址: | 美国加*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 发现 探索 概念 系统 方法 | ||
1.一种用于识别多个交互中的概念的方法,所述方法包括:
由包括处理器和存储器的分析系统的一话题检测模块基于间隔筛选所述交互;
在所述处理器上从所述经筛选的交互创建多个语句,所述语句中的每一者包括一个以上字词;
在所述处理器上计算每一所述语句的突出性;
在所述处理器上删除具有低突出性的语句,以便产生一组信息性语句;
在所述处理器上基于语义类似性聚集所述一组信息性语句中的所述语句,以便产生多个语句群集,所述群集中的每一者对应于所述概念中的一概念;
在所述处理器上计算所述群集中的每一者的突出性;
在所述处理器上将一命名指派到所述群集中的每一者,所述命名包括所述对应的群集中的一语句的一或多个字词;以及
显示指派到具有高突出性的群集的所述命名以作为经识别的所述概念。
2.根据权利要求1所述的方法,其中所述交互包括话音辨识系统的输出。
3.根据权利要求2所述的方法,其进一步包括基于字词置信度筛选所述话音辨识系统的所述输出。
4.根据权利要求1所述的方法,其中所述间隔为时间间隔。
5.根据权利要求1所述的方法,其中所述聚集所述语句包括:
从所述一组信息性语句选择多个模板语句,所述模板语句中的每一者对应于所述群集中的一者;
计算所述一组信息性语句中的每一语句与所述模板语句的类似性;
根据与所述模板语句的所述计算的类似性,将所述一组信息性语句中的所述语句中的每一者指派到所述群集中的一群集;以及
去除具有少于阈值数目个指派的语句的群集。
6.根据权利要求5所述的方法,其中所述聚集所述语句进一步包括反复地从未指派到群集的语句选择额外模板语句和重复所述选择所述多个模板语句,计算每一语句与所述模板语句的所述类似性;所述将所述语句中的所述每一者指派到所述群集;以及去除具有少于所述阈值数目个指派的语句的群集,直到所有语句被指派或直到达到反复限制。
7.根据权利要求1所述的方法,其中所述将一命名指派到所述群集中的每一者包括对于每一群集:
计算所述群集中的每一语句的词频-倒置文档频率,以及
命名具有所述群集中的具有最高词频-倒置文档频率的语句的所述群集。
8.根据权利要求1所述的方法,其进一步包括:
在处理器上接收包括概念的查询;
由所述处理器检索含有所述概念的群集,所述群集为所述多个语句群集中的一者;以及
显示所述检索的群集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于格林伊登美国控股有限责任公司,未经格林伊登美国控股有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480053132.9/1.html,转载请声明来源钻瓜专利网。