[发明专利]确定文本主题相关度的方法、装置及终端设备有效
申请号: | 201711387857.3 | 申请日: | 2017-12-20 |
公开(公告)号: | CN108052636B | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 徐硕;翟东升;赖永 | 申请(专利权)人: | 北京工业大学;吉林大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/295 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 文本 主题 相关 方法 装置 终端设备 | ||
1.一种确定文本主题关联度的方法,其特征在于,包括:
根据预设处理方式,对获取到的第一预设个数的第一文献信息与第二预设个数的第二文献信息分别进行预处理,所述第一文献信息为第一文本资源对应的文献信息,所述第二文献信息为第二文本资源对应的文献信息;所述第一文本资源与所述第二文本资源为同一领域的、任意两种文本型信息资源;
通过预设的实体-主题模型,分别从预处理后的第一文献信息及预处理后的第二文献信息中提取主题信息,得到对应的第三预设个数的第一词汇主题与第四预设个数的第二词汇主题;
基于所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题,确定所述第一文本资源与所述第二文本资源的主题关联强度;
所述基于所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题,确定所述第一文本资源与所述第二文本资源的主题关联强度,包括:
基于预设模型推断方法,通过所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题,估计所述实体-主题模型的模型参数;
根据预设聚类方法,对通过分词得到的词项及通过命名实体提取得到的命名实体分别进行聚类,得到对应的词项聚簇与实体聚簇;
计算所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题之间的模型参数、词项聚簇以及实体聚簇各自对应的距离矩阵,根据所述模型参数、所述词项聚簇及所述实体聚簇各自对应的距离矩阵,确定所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题间的距离矩阵;
确定满足预设约束条件的所述距离矩阵的最小值;
基于所述距离矩阵的最小值所对应的第一词汇主题与第二词汇主题,确定所述第一文本资源与所述第二文本资源的主题关联强度。
2.根据权利要求1所述的方法,其特征在于,所述预设处理方式包括以下至少一项:
句子切分;分词;命名实体提取;停用词过滤。
3.根据权利要求1或2所述的方法,其特征在于,预设的实体-主题模型包括以下任一项:
条件独立潜狄利克雷分配模型CI-LDA;对应潜狄利克雷分配模型1CorrLDA1;对应潜狄利克雷分配模型2CorrLDA2;开关潜狄利克雷分配模型SwitchLDA;纳入类别的对应潜狄利克雷分配模型2CCorrLDA2。
4.根据权利要求1所述的方法,其特征在于,所述预设聚类方法包括以下任一种:
布朗聚类法;词嵌入法;谱特征对齐法。
5.根据权利要求1所述的方法,其特征在于,所述预设模型推断方法包括以下任一种:
均值场变分法;马尔科夫蒙特卡洛采样;随机变分推断。
6.根据权利要求1所述的方法,其特征在于,所述基于所述距离矩阵的最小值所对应的第一词汇主题与第二词汇主题,确定所述第一文本资源与所述第二文本资源的主题关联强度,包括:
根据所述距离矩阵的最小值所对应的第一词汇主题与第二词汇主题,确定所述第一文本资源与所述第二文本资源间的词汇主题的关联流矩阵;
基于所述关联流矩阵,确定所述第一文本资源与所述第二文本资源的主题关联强度。
7.根据权利要求6所述的方法,其特征在于,所述基于所述关联流矩阵,确定所述第一文本资源与所述第二文本资源的主题关联强度,包括:基于滤除大于预设距离阈值后的所述关联流矩阵,确定所述第一文本资源与所述第二文本资源的主题关联强度。
8.根据权利要求1-7任一项所述的方法,其特征在于,在所述确定所述第一文本资源与所述第二文本资源的主题关联强度之后,还包括:基于预设展示方式,通过可视化界面展示所述第一文本资源与所述第二文本资源的主题关联强度。
9.根据权利要求8所述的方法,其特征在于,所述预设展示方式为关联强度图谱展示方式或二分图展示方式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学;吉林大学,未经北京工业大学;吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711387857.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种压铸件自动取料装置
- 下一篇:一种真空采血管标注系统