[发明专利]基于多轮对话的智能结构化文本抽取方法、装置和电子设备在审
| 申请号: | 202011193595.9 | 申请日: | 2020-10-30 |
| 公开(公告)号: | CN112016327A | 公开(公告)日: | 2020-12-01 |
| 发明(设计)人: | 唐雨晴 | 申请(专利权)人: | 北京淇瑀信息科技有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/31;G06F16/335;G10L15/22 |
| 代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 乔东峰 |
| 地址: | 100012 北京市朝阳*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 轮对 智能 结构 文本 抽取 方法 装置 电子设备 | ||
1.一种基于多轮对话的智能结构化文本抽取方法,其特征在于,包括:
配置信息抽取锚点及其对应的匹配规则;
获取历史对话中的用户语音,识别该用户语音并得到与该用户语音对应的语音文本;
对用户语音文本进行分词处理,并根据信息抽取锚点和匹配规则,对所述用户语音文本进行文本抽取;
对所抽取的文本特征信息进行匹配筛选,建立信息库,该信息库包括与各信息抽取锚点相关联的结构化文本信息表。
2.根据权利要求1所述的智能结构化文本抽取方法,其特征在于,还包括:
基于业务场景,设定多个信息抽取锚点和与所述锚点对应的预设匹配词集,并定期更新所述信息抽取锚点。
3.根据权利要求1或2所述的智能结构化文本抽取方法,其特征在于,所述信息抽取锚点包括身份、时间、事件、原因、资源配额和资源归还意愿。
4.根据权利要求3所述的智能结构化文本抽取方法,其特征在于,还包括:
设定匹配规则,所述匹配规则包括第一匹配规则和第二匹配规则,所述第一匹配规则用于抽取与时间和资源配额相对应的文本特征信息,所述第二匹配规则用于抽取与身份、事件、原因和资源归还意愿相对应的文本特征信息。
5.根据权利要求4所述的智能结构化文本抽取方法,其特征在于,所述对所抽取的文本特征信息进行匹配筛选包括:
抽取关键词,并将所抽取的关键词与预设匹配词集进行匹配,以判断所抽取的关键词是否为信息抽取锚点的有效文本特征信息;
将有效文本特征信息保存至对应信息抽取锚点的结构化文本信息表。
6.根据权利要求4所述的智能结构化文本抽取方法,其特征在于,所述对所抽取的文本特征信息进行匹配筛选包括:
对所抽取的文本特征信息进行语义向量转换,并计算与预设匹配词集中各匹配词的语义向量相似度;
将所计算的语义向量相似度与设定阈值进行比较,以判断所抽取的文本特征信息是否为信息抽取锚点的有效文本特征信息。
7.根据权利要求5或6所述的智能结构化文本抽取方法,其特征在于,还包括:
基于所抽取的有效文本特征信息和所述信息抽取锚点,形成以信息抽取锚点为索引的信息库,所述信息库包括多个表格形式的结构化文本信息表,一个结构化文本信息表与多个信息抽取锚点相对应。
8.一种基于多轮对话的智能结构化文本抽取装置,其特征在于,包括:
配置模块,用于配置信息抽取锚点及其对应的匹配规则;
获取模块,用于获取历史对话中的用户语音,识别该用户语音并得到与该用户语音对应的语音文本;
处理模块,用于对用户语音文本进行分词处理,并根据信息抽取锚点和匹配规则,对所述用户语音文本进行文本抽取;
筛选建立模块,用于对所抽取的文本特征信息进行匹配筛选,建立信息库,该信息库包括与各信息抽取锚点相关联的结构化文本信息表。
9.一种电子设备,其中,该电子设备包括:
处理器;以及,
存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根据权利要求1至7中任一项所述的基于多轮对话的智能结构化文本抽取方法。
10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现权利要求1至7中任一项所述的基于多轮对话的智能结构化文本抽取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京淇瑀信息科技有限公司,未经北京淇瑀信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011193595.9/1.html,转载请声明来源钻瓜专利网。





