[发明专利]一种用于HMM的分词训练语料标注方法在审

申请号：	201510448878.6	申请日：	2015-07-28
公开（公告）号：	CN105045888A	公开（公告）日：	2015-11-11
发明（设计）人：	范莹;刘福明;于治楼	申请（专利权）人：	浪潮集团有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	济南信达专利事务所有限公司 37100	代理人：	姜明
地址：	250101 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于 hmm 分词训练语料标注方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于HMM的分词训练语料标注方法，其特征是：

利用trie将已有实体词词典的内容构建成字典树：构建trie字典树函数，标注字典文件全路径及文件名，将字典文件中每个词加入Set，利用开源org.ahocorasick.trie将输入的词加入trie树，从字符串中识别出trie树包含的词函数，读取特定文档，判断是否有文本行，若有则取出文本行与字典树匹配，匹配成功的词加入tagList中，遍历tagList，在待识别实体词的特定文档中识别出的词的一部分，按HMM构建模型时的需求将实体词按词首和词中进行标注状态的语料标注。

2.根据权利要求1所述的一种用于HMM的分词训练语料标注方法，其特征是所述取出文本行与字典树匹配的过程为：从根结点开始一次搜索；取得要查找包含词的第一个字母，并根据该字母选择对应的子树并转到该子树继续进行检索；在相应的子树上，取得要查找包含词的第二个字母,并进一步选择对应的子树进行检索；迭代过程；在某个结点处，包含词的所有字母已被取出，则读取附在该结点上的词信息，完成匹配查找。

3.根据权利要求2所述的一种用于HMM的分词训练语料标注方法，其特征是所述实体词的标注状态包括人名词首，人名词中，地名词首，地名词中，组织机构名词首，组织机构名词中，其他状态。

4.根据权利要求2或3所述的一种用于HMM的分词训练语料标注方法，其特征是利用trie将已有实体词词典的内容构建成字典树的伪代码为：

buildTrie(StringdictionaryPath)

BEGIN

TrieahoCorasickNaive=newTrie()；

path=dictionaryPath；//

Set<String>dictionary=newTreeSet<String>()；

BufferedReaderbr=newBufferedReader(newFileReader(path))；

Stringline；

while((line=br.readLine())!=null)

{

dictionary.add(line)；//