[发明专利]目标领域对应类别信息的确定方法及装置在审
申请号: | 202111165130.7 | 申请日: | 2021-09-30 |
公开(公告)号: | CN113901212A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 司马华鹏;华冰涛;汤毅平;汪成 | 申请(专利权)人: | 宿迁硅基智能科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/211;G06F40/289;G06K9/62 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 223808 江苏省宿*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标 领域 对应 类别 信息 确定 方法 装置 | ||
1.一种目标领域对应类别信息的确定方法,其特征在于,包括:
获取目标领域的全部文本素材;
提取目标句子的线索文本,所述目标句子是指所述全部文本素材中的每个句子,所述线索文本是指与所述目标领域中指定类别对应的文本内容;
以所述目标句子的线索文本为起点,按照预设识别顺序,依次识别所述目标句子中的每个分词,以及所述每个分词对应的依存关系,其中,所述依存关系是指在所述预设识别顺序中后一个分词相对于前一个分词的句法关系;
构建每一个所述目标句子对应的关系模板,所述关系模板由所述目标句子的线索文本、各分词、以及每个分词对应的依存关系构成;
基于全部所述目标句子对应的关系模板,确定所述目标领域对应的类别信息,其中,一种所述类别信息对应一种依存关系。
2.根据权利要求1所述的方法,其特征在于,所述提取目标句子的线索文本包括:
获取所述目标领域的全部线索文本;
利用所述全部线索文本训练句法分析模型,以使所述句法分析模型识别所述线索文本对应的文本内容,其中,所述句法分析模型用于按照所述预设识别顺序识别所述目标句子中的分词;
通过所述句法分析模型提取所述目标句子的线索文本。
3.根据权利要求1所述的方法,其特征在于,所述预设识别顺序基于所述分词的词性设定。
4.根据权利要求1所述的方法,其特征在于,所述构建每一个所述目标句子对应的关系模板包括:
以所述目标句子的线索文本以及各分词作为关系节点,以有向线连接每个所述关系节点和相应的目标关系节点,得到所述目标句子的关系模板,其中,所述有向线指示的指向关系与所述关系节点对应的依存关系相一致。
5.根据权利要求4所述的方法,其特征在于,在所述构建每一个所述目标句子对应的关系模板之前,还包括:
统计全部所述目标句子中每一种依存关系的数量;
将数量最多的N种依存关系确定为用于构建所述关系模板的依存关系。
6.根据权利要求1所述的方法,其特征在于,在所述基于全部所述目标句子对应的关系模板,确定所述目标领域对应的类别信息之后,还包括:
将全部所述目标句子中对应于相同依存关系的分词划分为同一类分词,得到每一个所述类别信息对应的全部分词;
将每一个所述类别信息对应的每一个分词转化为共现词向量,所述共现词向量用于指示分词的词性,不指示分词的词义;
确定每一个所述类别信息对应的聚类簇,所述聚类簇中的各分词之间共现词向量的相似度大于或者等于预设相似度阈值;
确定每一个所述类别信息对应的类别文本,所述类别文本是指分词数量最多的所述聚类簇中的分词。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
利用词袋模型计算各所述类别信息对应的类别文本与其它所述类别信息对应的类别文本之间的类别相似度;
确定所述类别信息中的待合并类别信息,所述待合并类别信息是指类别相似度大于或者等于预设类别相似度的两个或者多个所述类别信息;
将所述待合并类别信息合并为同一个类别信息,并将各所述待合并类别信息对应的类别文本对应至所述同一个类别信息。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取与所述依存关系对应的分词的词义;
根据所述词义命名对应的依存关系,得到相应类别信息的名称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宿迁硅基智能科技有限公司,未经宿迁硅基智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111165130.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:账号管理方法以及相关装置
- 下一篇:一种燃料电池系统的吹扫方法及燃料电池系统