[发明专利]专用术语无监督聚类方法、装置和系统有效
申请号: | 202110921653.3 | 申请日: | 2021-08-12 |
公开(公告)号: | CN113377929B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 陈冠伟 | 申请(专利权)人: | 北京好欣晴移动医疗科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06K9/62;G06K9/32 |
代理公司: | 北京和信华成知识产权代理事务所(普通合伙) 11390 | 代理人: | 李莹 |
地址: | 100080 北京市海淀区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 专用 术语 监督 方法 装置 系统 | ||
本发明公开一种专用术语无监督聚类方法、装置和系统,对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词‑单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词‑单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
技术领域
本发明涉及人工智能技术领域,应用于专业术语文本智能聚类方向,尤其涉及一种专用术语无监督聚类方法、装置和系统。
背景技术
随着互联网技术的普及,越来越多的应用应运而生,各种“互联网+”层出不穷,而人工智能技术也伴随着互联网应用找到了很多应用场景,基于移动互联网技术的智慧服务很多,但这些应用方面的专业性和各种知识的疑难性同时对技术提出了很大挑战。比如各种疾病、化学、医药、珠宝等专业词汇非常多,门类繁杂,有些术语更加难以识别,而这些工作也是整个应用领域中最复杂、占据时间成本最多的部分。
发明内容
针对上述缺陷,本发明要解决的技术问题是如何借助人工智能技术对业务专用术语进行聚类和提取实现快速高效地建立专业数据库。
针对上述缺陷,本发明的目的在于提供一种专用术语无监督聚类方法、应用在服务器端,对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
优选的,上述预处理包括分词、去重、删除停用词。
优选的,上述单词-单词语义矩阵S包括多个元素,单词i和单词j,元素的值Sij表示了当前元素对应的两个单词i和单词j是否存在语义相似性,Sij取值0或1。
优选的,上述模型预训练采用BERT模型训练得到语义关系矩阵,用BERT模型倒数第二层的输出隐向量的平均值作为编码向量,对单词集合中的每个单词进行编码。
优选的,上述方法遍历单词集合中的两两单词i和j,计算当前两个单词的余弦相似度,如果当前相似度大于90%,则这两个单词对应的矩阵元素Sij为1,否则为0。
优选的,上述方法计算单词-单词词序关系矩阵W,设定窗口值为5,对整个输入文本采用大小为窗口值的滑动窗口,若两个单词i和j在同一个窗口共现一次或以上,则认为当前两个单词对应的矩阵元素Wij为1,否则为0;当上述滑动窗口滑过整个文本,得到单词-单词词序关系矩阵W。
优选的,上述方法先将单词的语义信息和词序信息通过关系矩阵的方式进行了充分提取,再通过IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
本发明提供一种专用术语无监督聚类方法,应用于互联网平台,基于终端设备获取用户授权许可,采集用户上传的文本信息并发送到后台服务器的数据中心处理系统,数据中心处理系统对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
优选的,上述单词-单词语义矩阵S包括多个元素,单词i和单词j,元素的值Sij表示了当前元素对应的两个单词i和单词j是否存在语义相似性,Sij取值0或1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京好欣晴移动医疗科技有限公司,未经北京好欣晴移动医疗科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110921653.3/2.html,转载请声明来源钻瓜专利网。