[发明专利]基于会议记录构建知识图谱的方法、装置及处理器在审
申请号: | 202011232612.5 | 申请日: | 2020-11-06 |
公开(公告)号: | CN112487197A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 黄跃峰;周阳;周志忠;霍斌 | 申请(专利权)人: | 中科云谷科技有限公司;中联重科股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/289;G06F40/211;G06F40/253;G06F40/30;G06K9/62 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 肖冰滨;王晓晓 |
地址: | 201306 上海市浦东*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 会议记录 构建 知识 图谱 方法 装置 处理器 | ||
1.一种基于会议记录构建知识图谱的方法,其特征在于,所述方法包括:
获取会议记录文本,所述会议记录文本通过语音会议记录转换得到;
通过语言模型对所述会议记录文本进行预处理,所述语言模型是根据预设专业领域的语料数据进行训练得到的;
提取出预处理后的会议记录文本中的实体及实体之间的关系;
根据所述实体及实体之间的关系建立对应的知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述通过语言模型对所述会议记录文本进行预处理包括:
将所述会议记录文本输入至所述语言模型,通过所述语言模型确定所述会议记录文本中包含的指代词和主语;
对所述指代词和所述主语进行分类,确定所述指代词对应的替代主语;
将所述会议记录文本中的指代词替换为与所述替代主语,得到预处理后的会议记录文本。
3.根据权利要求2所述的方法,其特征在于,所述对所述指代词和所述主语进行分类,确定所述指代词对应的替代主语包括:
确定每个指代词对应的候选词;
将所述候选词转换为特征向量;
确定每个特征向量对应的置信度;
将置信度最高的特征向量对应的候选词作为所述指代词对应的替代主语。
4.根据权利要求1所述的方法,其特征在于,所述提取出预处理后的会议记录文本中的实体及实体之间的关系包括:
通过所述语言模型确定所述预处理后的会议记录文本中的实体;
确定所述实体对应的专业领域;
根据所述专业领域确定所述实体对应的类别;
根据所述实体以及所述实体对应的类别确定所述实体及实体之间的关系。
5.根据权利要求1所述的方法,其特征在于,所述提取出预处理后的会议记录文本中的实体及实体之间的关系包括:
提取出所述会议记录文本中的动词及动词短语;
将所述动词及所述动词短语作为实体关系组的谓词,并将所述动词及所述动词短语作为根节点遍历与之相关的名词短语;
根据预设的语言规则确定所述动词和所述动词短语以及所述名词短语的关系。
6.根据权利要求1所述的方法,其特征在于,还包括:
在所述提取出预处理后的会议记录文本中的实体及实体之间的关系之后,将任意确定相同的实体与实体之间的关系的两组进行去重合并;
对确定为语义近似的两组实体进行聚类;
根据进行聚类后的实体及实体之间的关系构建对应的知识图谱。
7.根据权利要求1所述的方法,其特征在于,还包括:
在获取会议记录文本之后,获取所述会议记录文本对应的会议主题;
根据所述会议主题获取相对应的专业词汇包;
根据所述专业词汇包对所述会议记录文本中包含的专业词汇进行纠正。
8.根据权利要求1所述的方法,其特征在于,还包括:
在所述根据所述实体及实体之间的关系建立对应的知识图谱之后,将所述知识图谱发送至关联的显示屏上进行展示。
9.一种处理器,其特征在于,所述处理器被配置成执行根据权利要求1至8中任一项所述的基于会议记录构建知识图谱的方法。
10.一种基于会议记录构建知识图谱的装置,其特征在于,包括根据权利要求9所述的处理器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科云谷科技有限公司;中联重科股份有限公司,未经中科云谷科技有限公司;中联重科股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011232612.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电量显示装置和电子设备
- 下一篇:一种用于辊型设计的轧机装置及其方法