[发明专利]一种基于文本自身产生词库的分词方法及系统在审

专利信息
申请号: 201810554887.7 申请日: 2018-06-01
公开(公告)号: CN109002460A 公开(公告)日: 2018-12-14
发明(设计)人: 邵玉斌;高凌云志;张琪 申请(专利权)人: 昆明理工大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/22;G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分词 文本 词库 字典 词语信息 文本分析 文本信息 筛选 关联 应用
【说明书】:

发明涉及一种基于文本自身产生词库的分词方法及系统,属于文本分析技术领域。本发明针对在没有明确的已知的字典前提下,通过待处理文本本身的文字关联程度,提取出词典,并依次筛选出待处理文本中可能的词语信息。同时,本发明提高了对未知文本信息的分词速度,满足了对实际未知文本无已知字典情况下的分词应用的实际需要。

技术领域

本发明涉及一种基于文本自身产生词库的分词方法及系统,属于文本分析技术领域。

背景技术

世界上大部分的语言,都是由单个字符所组成的,多个字符相互连接使用就成为词组。现有的分词方式为,在已知词组含义的时候,通过词典比对的方式,可以准确的找出一个文本中的词语组合来。但是,查询速度慢,对已知文本词组的对比要求高,当面对的是完全陌生的一种语言,没有任何准确性词典比对的情况下,现有分词方式将无法胜任。

发明内容

本发明要解决的技术问题是提供一种基于文本自身产生词库的分词方法及系统,根据文本自身产生词典,用概率的方式,将文本中出现较多的组合划分出来,从而起到分词的功能,极大的提高了分词的效率。

本发明的技术方案是:一种基于文本自身产生词库的分词方法,接收传入系统中的待处理文本信息,并储存在数据流中以待使用;使用编写的文本处理程序对文本进行处理,根据文本自身创建出两字词库,词库包含所有文本中前后两个字在整个文本中出现的次数即词频,词频与词库中的两字词相互关联对应;将建立的两字词词库于词频形成的词典进行储存,形成词典A;再一次读取待处理文本信息,计算词频;与预先给定词频关联阈值进行比对,判断前后字段是否达到相关阈值;将达到阈值的前后词进行联合,形成下一较长词语。依次提取出最长长度的并基于自身文本中的词频关系,筛选出可能的词语,将第一次分出的词语放入词库,可进一步通过比对,产生新的小关联性的词组。

第一步、接收待处理文本信息:

通过数据流的方式,将文本信息读入系统之中,按行读取放入String类型字符串中,并最终转换为字符数组Character。

第二步、将字符数组处理为单一的字符,并依次写入Char C中。

第三步、关联性建表,创建一个二维表格,将每一个字符之后出现的所有文本中相邻的字符放入表中,并依次对应,计算出其出现的概率:并放入表中;其中P(xi|yi)为条件概率。

第四步、依次与词库表比对;再次接受文本信息,并做单一字符处理,与词库表中的两字符词进行比对,当前后两个两字符词的概率都大于预定阈值时,将两字符词进行联合,产生一个新的三字符词,依次进行,直到概率低于阈值Q1,结束联合,从而得到一个全新的多字符词,并写入词库中。

第五步、第二次词库比对;第一次比对之后,建立新的多字符词组,再次读取文本,使用新的多字符词组库进行比对,计算出关联概率:并放入表中;通过与新阈值Q2的比较,得到最长长度的在阈值范围内的词。

读取待处理文本信息后,将文本信息处理为单一字符的形式,对前后扫描出来的字符进行分别存储,将新扫描到的字符信息放于Char c字符类中,将前一个字符信息放于Char last字符类中,分别给每一个字符后村放入一张Hashtable表格,用于存放文本中与之相关的文本信息和出现的词频信息。

扫描接收到的文本信息,已文本本身所具有的字词关联特性,建立一张二维的关联性表格,文本中每个字符都会有一个相关联的字符,并从全部文本中获取其出现的频率并进行对应的存储。将整个二维表格返回到词库中进行储存,并用原始文本信息与之进行对比,通过词库中的词频来判断前后词语之间的关联性,并以此来判断是否为结合词语。

已未知词语结果的前提下,通过自身文本中的字符关联性,找到最小前后关联字符的频率数,并通过最小的前后字符所组成的两字符词,通过词频的阈值控制,找到尽可能长的词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810554887.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top