[发明专利]基于语义理解的文字组织编码算法在审

申请号：	202110176556.6	申请日：	2021-02-09
公开（公告）号：	CN112800722A	公开（公告）日：	2021-05-14
发明（设计）人：	陆晓;陈文斌;邹志繁	申请（专利权）人：	柳州智视科技有限公司
主分类号：	G06F40/126	分类号：	G06F40/126;G06F40/30
代理公司：	柳州市荣久专利商标事务所(普通合伙) 45113	代理人：	余航
地址：	545616 广西壮族自治区柳州市***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于语义理解文字组织编码算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于语义理解的文字组织编码算法，包括以下步骤：（一）将文本拆分成单个字符；（二）将单个字符转换成对应的Unicode编码；（三）组织编码，将相邻字符的编码两两组合，寻找有经验的优先进行组织存储，再与剩下的编码一起继续进行两两组合，重复寻找两两组合有经验的优先进行组织，最终得到一个可能有经验的知识编码，用于系统保存或者关联其它有用编码信息。本发明用于语义理解系统里对语句的分析、理解，将文字数据化的方式，不仅传递方便而且还可以通过ID查询到所有相关信息，更方便系统识别。

技术领域

本发明涉及计算机自然语言处理技术领域，特别涉及一种基于语义理解的文字组织编码算法。

背景技术

目前对于计算机与人工智能的融合，已在多领域进行应用，最为广泛的即NLP（Natural Language Processing，自然语言处理，是研究人与计算机交互的语言问题的一门学科），而现有技术对于传统文本分类的处理大致分为文本预处理、文本特征提取和分类模型构建等，在对文本处理时通常通过大数据来统计，按照概率值进行分词，或者通过提前设置好的词典来分词。但该处理方式还存在以下不足之处：

1．容易引起维度灾难问题，语料库太大，字典的大小为每个词的维度，高维度导致计算困难，若每个文档包含的词语数少于词典的总词语数，则又导致文档稀疏；

2．仅仅考虑词语出现的次数，没有考虑句子词语之间的顺序信息，即语义信息未考虑。

发明内容

本发明要解决的技术问题是：提供一种将文本的语义信息具体化、数据化，变为计算机可以存储的数据信息的基于语义理解的文字组织编码算法，以克服已有技术所存在的上述不足。

本发明采取的技术方案是：一种基于语义理解的文字组织编码算法，包括以下步骤：

（一）拆分文本

（1）将文本拆分成段落；

（2）将段落拆分成整句；

（3）将整句拆分成子句；

（4）将子句拆分成单个字符；

（二）编码转换

将单个字符转换成对应的Unicode编码，每个字符均用16位二进制数来表示；