[发明专利]一种基于中文的新型分词方法在审
申请号: | 201810437731.0 | 申请日: | 2018-05-09 |
公开(公告)号: | CN108647208A | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 安静;魏从猛;梁鹏 | 申请(专利权)人: | 上海应用技术大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200235 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 扫描器 构建 汉字 文本 隐马尔科夫模型 马尔科夫模型 单字 扫描文本 中文文本 归一化 起始字 字序列 中文 词字 一字 句子 录入 登录 概率 | ||
本发明公开了一种基于中文的新型分词方法,包括以下步骤:(1)以一字一方格形式录入文本,命名方块扫描器;(2)扫描文本,待将所有文本中的词按单字完全切分后,对于扫描器识别的未登录词,构建隐马尔科夫模型;(3)构建马尔科夫模型λ=(A,B,π);(4)将汉字的状态分为起始字B、中间字M、结束字E、单个成词字S四种状态;(5)计算概率并进行归一化;(6)对句子进行切分;本发明对中文文本进行准确而高效分词,将一个汉字序列切分成一个一个单独的词,将连续的字序列按照一定的规范重新组合成词序列。
技术领域
本发明涉及中文分词技术领域,尤其涉及一种基于中文的新型分词方法。
背景技术
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,在英文的行文中,单词之间是以空格作为自然分界符的,使得英文分词技术相对成熟,大大地推动了英文自然语言处理技术的发展。而有别于英文,中文没有天然的空格对词进行切分,中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。与英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文由于继承自古代汉语的传统,词语之间没有分隔。古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要。而现代汉语中双字或多字词居多,一个字不再等同于一个词。在中文里,“词”和“词组”边界模糊。现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,但由于人们认识水平的不同,对词和短语的边界很难去区分。
有鉴于此,特提出本发明。
发明内容内容
针对现有技术中存在的问题,本发明的目的是提供一种基于中文的新型分词方法,对中文文本进行准确而高效分词,将一个汉字序列切分成一个一个单独的词,将连续的字序列按照一定的规范重新组合成词序列。
为了实现上述目的,本发明提供的一种基于中文的新型分词方法,包括以下步骤:
(1)判断字体,将文本以一字一方格形式录入,并将其命名为方块字扫描器;
(2)当扫描器接触到文本起始字边缘时,其将按照单个汉字进行扫描,当扫描完一个字后将其加入空格后显示,当扫描器遇到换行符时继续切换到下一行继续以上操作,当扫描器扫描完文本结束字后自动结束扫描操作,并将扫描完文本输出,完成分词;待将所有文本中的词按单字完全切分后,对扫描器识别未登录词,构建隐马尔科夫模型;
(3)建设隐马尔科夫模型参数,λ=(π,A,B),其中,
A是状态转移概率矩阵A=[aij]N×M,aij=P(it+1=qj|it=qi),aij是在时刻t处于状态qi的条件下时刻t+1转移到状态qj的概率;
B是观测概率矩阵B=[bik]N×M,bik=P(ot=vk|it=qi),bik是在时刻t处于状态qi的条件下生产观测Vk的概率;
π是初始状态概率向量:π=(πi),πi=P(i1=qi),πi是时刻t=1处于状态qi的概率;
Q是所有可能的状态,记为Q={q1,q2,.....qN},N是可能的状态数目,记为:N={v1,v2,......vM};
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海应用技术大学,未经上海应用技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810437731.0/2.html,转载请声明来源钻瓜专利网。