[发明专利]基于内容的大文本高阶语义张量化分类方法和系统有效
申请号: | 201710687437.0 | 申请日: | 2017-08-11 |
公开(公告)号: | CN107506415B | 公开(公告)日: | 2020-07-21 |
发明(设计)人: | 谭培波;史晓凌;茹海燕 | 申请(专利权)人: | 北京智通云联科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/284 |
代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙) 11369 | 代理人: | 史霞 |
地址: | 100012 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 内容 文本 语义 量化 分类 方法 系统 | ||
本发明公开了一种基于内容的大文本高阶语义张量化分类方法,包括:步骤一、构造类的DEC张量模型;步骤二、获取待分类的大文本中的部分文本,利用部分文本构建大文本的DEC张量,将其DEC张量和类的特征张量逻辑相乘,之后按照DEC的3个维度全部降维相加,得到大文本属于该类的强度,展示输出结果。本发明还公开了一种基于内容的大文本高阶语义张量化分类系统,包括:基础语料层,用于存储DEC张量模型要素和模型加工所需要的语料样本;DEC语义处理层,用于完成大文本的分词和DEC张量化,实现对张量模型的计算和调用;应用层,用于完成用户输入文本的接收和展示分类结果。本发明解决了计算资源不足和文本理解准确性之间矛盾。
技术领域
本发明属于文本分类技术领域,涉及一种基于内容的大文本高阶语义张量化分类方法和系统。
背景技术
随着互联网的发展,大量知识都存在于网络文献中。但是网络文献一般都是短文本,比如不超过1页A4纸的规模。国内科技文献,如,cnki上的文本一般是5页左右,硕博士论文一般60-100页左右。但是面向领域的科研成果报告,一般都是300页左右的规模,字数10万字左右;而且往往图文并茂,存储的格式以pdf为主,需要进行pdf到txt的转换,转换中存在大量乱码,会干扰科研成果文献的分类准确性。
采用传统的基于文章句子相似度分类方法,要进行上万句句子之间的相似度计算,计算量非常大,不能适应工程项目对于加工速度的要求。一些方法中,按照词袋模型进行分类,然而由于缺少对文本语义的理解,准确度不能满足要求。
发明内容
本发明的一个目的是解决至少上述问题和/或缺陷,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种基于内容的大文本高阶语义张量化分类方法。
本发明再有一个目的是提供一种基于内容的大文本高阶语义张量化分类系统。
为此,本发明提供的技术方案为:
一种基于内容的大文本高阶语义张量化分类方法和系统,包括:
步骤一、构造类的DEC张量模型:
1.1)对多个大文本的词语进行3级领域分词,并建立每个大大文本的大文本词集合与类的对应关系;
2.1)构件大文本的DEC张量:对每个类对应的每个大本文进行分词,得到代表其领域Domain的分词集合D、代表业务活动Concept的分词集合C和代表相关要素的分词集合Element分词集合E;
2.2)首先得到E的独立一维向量,再从E独立一维向量张成CE张量;
2.3)从CE张量张成DEC张量;
2.4)从步骤2.3)到2.1)循环,完成整个类的张量构建;
3.1)任意选定一个类,剩余类张量相加得到该类的反例张量;
3.2)整个类的张量减去类的反例张量,得到该类的特征张量;
步骤二、获取待分类的大文本中的部分文本,首先依照步骤2.1)到2.3),利用该部分文本构建该待分类大文本的DEC张量,之后加载步骤一中的类的特征张量,将该待分类大文本的DEC张量和每个类的特征张量逻辑相乘,然后再将逻辑相乘后的类张量按照DEC的3个维度全部降维相加,得到待分类的大文本属于该类的强度,最后展示输出结果。
优选的是,所述的基于内容的大文本高阶语义张量化分类方法中,在步骤一中,构造类的DEC张量模型时,还包括如下步骤:
首先选取代表领域Domain的多个词作为领域词集合,且建立D表;选取代表业务活动Concept的多个词作为业务活动词集合,且建立C表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智通云联科技有限公司,未经北京智通云联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710687437.0/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法