[发明专利]基于语义理解的文字组织编码算法在审
申请号: | 202110176556.6 | 申请日: | 2021-02-09 |
公开(公告)号: | CN112800722A | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 陆晓;陈文斌;邹志繁 | 申请(专利权)人: | 柳州智视科技有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/30 |
代理公司: | 柳州市荣久专利商标事务所(普通合伙) 45113 | 代理人: | 余航 |
地址: | 545616 广西壮族自治区柳州市*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 理解 文字 组织 编码 算法 | ||
一种基于语义理解的文字组织编码算法,包括以下步骤:(一)将文本拆分成单个字符;(二)将单个字符转换成对应的Unicode编码;(三)组织编码,将相邻字符的编码两两组合,寻找有经验的优先进行组织存储,再与剩下的编码一起继续进行两两组合,重复寻找两两组合有经验的优先进行组织,最终得到一个可能有经验的知识编码,用于系统保存或者关联其它有用编码信息。本发明用于语义理解系统里对语句的分析、理解,将文字数据化的方式,不仅传递方便而且还可以通过ID查询到所有相关信息,更方便系统识别。
技术领域
本发明涉及计算机自然语言处理技术领域,特别涉及一种基于语义理解的文字组织编码算法。
背景技术
目前对于计算机与人工智能的融合,已在多领域进行应用,最为广泛的即NLP(Natural Language Processing,自然语言处理,是研究人与计算机交互的语言问题的一门学科),而现有技术对于传统文本分类的处理大致分为文本预处理、文本特征提取和分类模型构建等,在对文本处理时通常通过大数据来统计,按照概率值进行分词,或者通过提前设置好的词典来分词。但该处理方式还存在以下不足之处:
1.容易引起维度灾难问题,语料库太大,字典的大小为每个词的维度,高维度导致计算困难,若每个文档包含的词语数少于词典的总词语数,则又导致文档稀疏;
2.仅仅考虑词语出现的次数,没有考虑句子词语之间的顺序信息,即语义信息未考虑。
发明内容
本发明要解决的技术问题是:提供一种将文本的语义信息具体化、数据化,变为计算机可以存储的数据信息的基于语义理解的文字组织编码算法,以克服已有技术所存在的上述不足。
本发明采取的技术方案是:一种基于语义理解的文字组织编码算法,包括以下步骤:
(一)拆分文本
(1)将文本拆分成段落;
(2)将段落拆分成整句;
(3)将整句拆分成子句;
(4)将子句拆分成单个字符;
(二)编码转换
将单个字符转换成对应的Unicode编码,每个字符均用16位二进制数来表示;
(三)组织编码
(1)将相邻字符的Unicode编码两两组合;
(2)寻找有经验的组合,优先进行组织、存储;
(3)再与剩下的编码一起继续进行两两组合,重复寻找两两组合有经验的优先进行组织;
(4)持续组织,最终得到一个可能有经验的知识编码,用于系统保存或者关联其它有用编码信息。
其进一步的技术方案是:所述步骤(二)具体包括以下步骤:
(1)将单个字符里的数字部分进行数字转码,即将数字保存到id1,系统标识符-数字保存到id0;
(2)将单个字符里的非数字部分进行非数字转码,其中窄字符(ASCII)转换为宽字符(Unicode),获取对应的Unicode编码,文字则直接转成Unicode编码。
进一步:所述步骤(三)具体包括以下步骤:
s1.组织开始;
s2.将相邻字符的Unicode编码按顺序两两组合成知识ID;
s3.判断知识ID个数是否大于等于3,若是,进入步骤s4,若否,进入步骤s13;
s4.判断计数器是否都小于阈值,若是,进入步骤s5,若否,进入步骤s8;
s5.判断知识ID是否满足固定句式条件,若是,进入步骤s6,若否,进入步骤s7;
s6.优先处理固定句式未知部分,返回步骤s2;
s7.按顺序进行组合、存储,返回步骤s2;
s8.判断计数器是否都大于阈值,若是,进入步骤s9,若否,进入步骤s11;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于柳州智视科技有限公司,未经柳州智视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110176556.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种超高时空分辨X射线成像诊断装置
- 下一篇:稻瘟菌MoPTEN基因及其应用