[发明专利]一种自动建立个人专属语料库的方法在审
申请号: | 201710076038.0 | 申请日: | 2017-02-13 |
公开(公告)号: | CN106874451A | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 陈包容 | 申请(专利权)人: | 长沙军鸽软件有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410000 湖南省长沙市高新开发*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 建立 个人 专属 语料库 方法 | ||
技术领域
本发明涉及通信技术领域,具体涉及一种自动建立个人专属语料库的方法。
背景技术
目前,智能会话系统中用于自动回复的会话回复内容,往往是通过匹配会话语料库的方式获取。上述过程中的会话语料库,主要是通过人工创建的。人工建库的工作量大,且建库质量普遍不高。此外,现有技术方案中的会话语料库几乎都是通用于所有用户的,不具备个人专属性和针对性。针对该问题,故本实施例提出了一种基于会话内容自动建立个人专属语料库的方法。
发明内容
本发明提供了一种自动建立个人专属语料库的方法,以解决现有采用人工建立会话语料库的工作量大且不具备个人专属性的技术问题。
本发明提供的自动建立个人专属语料库的方法,包括:
采集通讯方的会话内容;
获取会话内容中的会话对;
根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值;
将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库。
进一步地,获取会话内容中的会话对包括:
根据会话内容中会话句的语义,确定会话内容中的发起句和回复句;
根据预设的类型判断规则,确定发起句和回复句的类型;
根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对;
根据基础会话对、基础会话对中发起句和回复句的类型,提取至少一个会话对。
进一步地,根据会话内容中会话句的语义,确定会话内容中的发起句和回复句包括:
判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将会话句确定为发起句;
若有,则判断会话句是否与通讯对方发送的上文无语义关联,若是,则将会话句确定为发起句,否则将会话句确定为回复句。
进一步地,根据预设的类型判断规则,确定发起句的类型包括:
判断发起句是否为具有完整独立语义的语句,若是,则判断发起句是否由多个具有完整独立语义的单句组成,若是,则将发起句的类型确定为复句发起句类型,否则为单句发起句类型;若否,则判断发起句是否包含具有完整独立语义的单句,若包含,则将发起句的类型确定为非标准复句发起句类型,若不包含,则为非标准单句发起句类型;
搜索非标准单句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;
搜索非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;
判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句,若有,则进一步判断发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将发起句的类型衍生扩展为句群发起句类型,否则不进行衍生扩展。
进一步地,根据预设的类型判断规则,确定回复句的类型包括:
判断回复句是否为具有完整独立语义的语句,若是,则判断回复句是否由多个具有完整独立语义的单句组成,若是,则将回复句的类型确定为复句回复句类型,否则为单句回复句类型;若否,则判断回复句是否包含具有完整独立语义的单句,若包含,则将回复句的类型确定为非标准复句回复句类型,若不包含,则为非标准单句回复句类型;
搜索非标准单句回复句类型的回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;
搜索非标准复句回复句类型的回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙军鸽软件有限公司,未经长沙军鸽软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710076038.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:检具标准件生成方法以及系统
- 下一篇:一种获取会话回复内容的方法