[发明专利]一种基于中文的新型分词方法在审

专利信息
申请号: 201810437731.0 申请日: 2018-05-09
公开(公告)号: CN108647208A 公开(公告)日: 2018-10-12
发明(设计)人: 安静;魏从猛;梁鹏 申请(专利权)人: 上海应用技术大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 上海汉声知识产权代理有限公司 31236 代理人: 胡晶
地址: 200235 上海*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分词 扫描器 构建 汉字 文本 隐马尔科夫模型 马尔科夫模型 单字 扫描文本 中文文本 归一化 起始字 字序列 中文 词字 一字 句子 录入 登录 概率
【说明书】:

发明公开了一种基于中文的新型分词方法,包括以下步骤:(1)以一字一方格形式录入文本,命名方块扫描器;(2)扫描文本,待将所有文本中的词按单字完全切分后,对于扫描器识别的未登录词,构建隐马尔科夫模型;(3)构建马尔科夫模型λ=(A,B,π);(4)将汉字的状态分为起始字B、中间字M、结束字E、单个成词字S四种状态;(5)计算概率并进行归一化;(6)对句子进行切分;本发明对中文文本进行准确而高效分词,将一个汉字序列切分成一个一个单独的词,将连续的字序列按照一定的规范重新组合成词序列。

技术领域

本发明涉及中文分词技术领域,尤其涉及一种基于中文的新型分词方法。

背景技术

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,在英文的行文中,单词之间是以空格作为自然分界符的,使得英文分词技术相对成熟,大大地推动了英文自然语言处理技术的发展。而有别于英文,中文没有天然的空格对词进行切分,中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。与英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文由于继承自古代汉语的传统,词语之间没有分隔。古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要。而现代汉语中双字或多字词居多,一个字不再等同于一个词。在中文里,“词”和“词组”边界模糊。现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,但由于人们认识水平的不同,对词和短语的边界很难去区分。

有鉴于此,特提出本发明。

发明内容内容

针对现有技术中存在的问题,本发明的目的是提供一种基于中文的新型分词方法,对中文文本进行准确而高效分词,将一个汉字序列切分成一个一个单独的词,将连续的字序列按照一定的规范重新组合成词序列。

为了实现上述目的,本发明提供的一种基于中文的新型分词方法,包括以下步骤:

(1)判断字体,将文本以一字一方格形式录入,并将其命名为方块字扫描器;

(2)当扫描器接触到文本起始字边缘时,其将按照单个汉字进行扫描,当扫描完一个字后将其加入空格后显示,当扫描器遇到换行符时继续切换到下一行继续以上操作,当扫描器扫描完文本结束字后自动结束扫描操作,并将扫描完文本输出,完成分词;待将所有文本中的词按单字完全切分后,对扫描器识别未登录词,构建隐马尔科夫模型;

(3)建设隐马尔科夫模型参数,λ=(π,A,B),其中,

A是状态转移概率矩阵A=[aij]N×M,aij=P(it+1=qj|it=qi),aij是在时刻t处于状态qi的条件下时刻t+1转移到状态qj的概率;

B是观测概率矩阵B=[bik]N×M,bik=P(ot=vk|it=qi),bik是在时刻t处于状态qi的条件下生产观测Vk的概率;

π是初始状态概率向量:π=(πi),πi=P(i1=qi),πi是时刻t=1处于状态qi的概率;

Q是所有可能的状态,记为Q={q1,q2,.....qN},N是可能的状态数目,记为:N={v1,v2,......vM};

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海应用技术大学,未经上海应用技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810437731.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top