[发明专利]一种基于中文的新型分词方法在审
申请号: | 201810437731.0 | 申请日: | 2018-05-09 |
公开(公告)号: | CN108647208A | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 安静;魏从猛;梁鹏 | 申请(专利权)人: | 上海应用技术大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200235 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于中文的新型分词方法,包括以下步骤:(1)以一字一方格形式录入文本,命名方块扫描器;(2)扫描文本,待将所有文本中的词按单字完全切分后,对于扫描器识别的未登录词,构建隐马尔科夫模型;(3)构建马尔科夫模型λ=(A,B,π);(4)将汉字的状态分为起始字B、中间字M、结束字E、单个成词字S四种状态;(5)计算概率并进行归一化;(6)对句子进行切分;本发明对中文文本进行准确而高效分词,将一个汉字序列切分成一个一个单独的词,将连续的字序列按照一定的规范重新组合成词序列。 | ||
搜索关键词: | 分词 扫描器 构建 汉字 文本 隐马尔科夫模型 马尔科夫模型 单字 扫描文本 中文文本 归一化 起始字 字序列 中文 词字 一字 句子 录入 登录 概率 | ||
【主权项】:
1.一种基于中文的新型分词方法,其特征在于,包括以下步骤:(1)判断字体,将文本以一字一方格形式录入,并将其命名为方块字扫描器;(2)当扫描器接触到文本起始字边缘时,其将按照单个汉字进行扫描,当扫描完一个字后将其加入空格后显示,当扫描器遇到换行符时继续切换到下一行继续以上操作,当扫描器扫描完文本结束字后自动结束扫描操作,并将扫描完文本输出,完成分词;待将所有文本中的词按单字完全切分后,对扫描器识别未登录词,构建隐马尔科夫模型;(3)建设隐马尔科夫模型参数,λ=(π,A,B),其中,A是状态转移概率矩阵A=[aij]N×M,aij=P(it+1=qj|it=qi),aij是在时刻t处于状态qi的条件下时刻t+1转移到状态qj的概率;B是观测概率矩阵B=[bik]N×M,bik=P(ot=vk|it=qi),bik是在时刻t处于状态qi的条件下生产观测Vk的概率;π是初始状态概率向量:π=(πi),πi=P(i1=qi),πi是时刻t=1处于状态qi的概率;Q是所有可能的状态,记为Q={q1,q2,.....qN},N是可能的状态数目,记为:N={v1,v2,......vM};I是长度为T的状态序列,O是对应的观测序列I={i1,i2...iT}O={O1,O2,...OT};(4)将汉字的状态分为起始字begin(B)、中间字middle(M)、结束字end(E)、单个成词字single(S)四种状态;(5)读取词库统计B/M/S/E状态字的词频并计算概率(qi)并进行归一化操作即初始概率:
统计词库中B/M/S/E状态字相互转移概率(qij)并进行归一化操作即转移概率:
统计词库中汉字分别为B/M/S/E状态的概率(sik)并进行归一化操作即观测概率:
得λ=(πi,aij,bik)(6)利用Viterbi算法对所给句子进行概率计算并利用大数定理原理从而对句子进行切分。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海应用技术大学,未经上海应用技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810437731.0/,转载请声明来源钻瓜专利网。