[发明专利]一种汉语韵律词组词方法及装置有效
| 申请号: | 200610167040.0 | 申请日: | 2006-12-13 |
| 公开(公告)号: | CN101202041A | 公开(公告)日: | 2008-06-18 |
| 发明(设计)人: | 郭庆;片江伸之 | 申请(专利权)人: | 富士通株式会社 |
| 主分类号: | G10L13/00 | 分类号: | G10L13/00;G10L13/08;G10L13/06 |
| 代理公司: | 北京三友知识产权代理有限公司 | 代理人: | 任默闻 |
| 地址: | 日本神奈*** | 国省代码: | 日本;JP |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 汉语 韵律 词组 方法 装置 | ||
1.一种汉语韵律词组词方法,其特征是,所述方法包括以下步骤:
输入汉语文本;
对输入的汉语文本进行分词和词性标注处理,生成一初始的韵律词序列;
在所述初始的韵律词序列中所有的词边界上插入代表韵律词边界的隔栅,生成一隔栅韵律词序列;
根据韵律词组词手段标注所述隔栅韵律词序列中预备删除的隔栅;
根据韵律词组词手段判断预备删除的隔栅中实际需要删除的隔栅;
删除所述隔栅韵律词序列中实际需要删除的隔栅,并使剩余隔栅中的每两个隔栅之间的词进行组词,生成韵律词。
2.根据权利要求1所述的方法,其特征是,对输入的汉语文本进行分词和词性标注处理生成分词结果,根据所述的分词结果生成一初始的韵律词序列。
3.根据权利要求1所述的方法,其特征是,所述的根据韵律词组词手段标注所述隔栅韵律词序列中预备删除的隔栅是指:根据多个韵律词组词手段对同一个隔栅韵律词序列中预备删除的隔栅进行标注。
4.根据权利要求1或3所述的方法,其特征是,所述的根据韵律词组词手段判断预备删除的隔栅中实际需要删除的隔栅是指:根据多个韵律词组词手段综合判断预备删除的隔栅中实际需要删除的隔栅。
5.根据权利要求4所述的方法,其特征是,所述的删除所述隔栅韵律词序列中实际需要删除的隔栅包括:
根据多个韵律词组词手段对当前预备删除的隔栅进行综合判断,给出当前预备删除的隔栅需要删除的置信度;
根据所述的置信度判断当前预备删除的隔栅是否需要删除,如果是则删除当前预备删除的隔栅。
6.一种汉语韵律词组词装置,其特征是,所述装置包括:
输入部,用于输入汉语文本;
分词和词性标注部,用于对输入的汉语文本进行分词和词性标注处理,生成一初始的韵律词序列;
韵律词隔栅插入部,用于在所述初始的韵律词序列中所有的词边界上插入代表韵律词边界的隔栅,生成一隔栅韵律词序列;
韵律词隔栅删除部,用于根据韵律词组词手段标注所述隔栅韵律词序列中预备删除的隔栅;根据韵律词组词手段判断预备删除的隔栅中实际需要删除的隔栅,删除所述隔栅韵律词序列中实际需要删除的隔栅;
韵律词生成部,用于使所述隔栅韵律词序列中剩余隔栅中的每两个隔栅之间的词进行组词,生成韵律词。
7.根据权利要求6所述的装置,其特征是,所述装置还包括:
分词结果存储部,用于存储汉语文本分词和词性标注处理后的分词结果,根据所述的分词结果生成一初始的韵律词序列。
8.根据权利要求6所述的装置,其特征是,所述的韵律词隔栅删除部包括多个韵律词组词手段单元,用于根据多个韵律词组词手段对同一个隔栅韵律词序列中预备删除的隔栅进行标注。
9.根据权利要求6或8所述的装置,其特征是,所述的根据韵律词组词手段判断预备删除的隔栅中实际需要删除的隔栅是指:根据多个韵律词组词手段综合判断预备删除的隔栅中实际需要删除的隔栅。
10.根据权利要求9所述的装置,其特征是,所述的韵律词隔栅删除部进一步包括:
隔栅删除置信度评价单元,根据多个韵律词组词手段对当前预备删除的隔栅进行综合判断,给出当前预备删除的隔栅需要删除的置信度;
隔栅删除单元,根据所述的置信度判断当前预备删除的隔栅是否需要删除,如果是则删除当前预备删除的隔栅。
11.根据权利要求6所述的装置,其特征是,所述装置还包括:
韵律词组词结果分析部,用于对所述韵律词生成部生成的韵律词进行分析处理,生成韵律词组词分析结果。
12.一种汉语韵律词组词程序,其特征是,所述程序包括:
输入汉语文本;
对输入的汉语文本进行分词和词性标注处理,生成一初始的韵律词序列;
在所述初始的韵律词序列中所有的词边界上插入代表韵律词边界的隔栅,生成一隔栅韵律词序列;
根据韵律词组词手段标注所述隔栅韵律词序列中预备删除的隔栅;
根据韵律词组词手段判断预备删除的隔栅中实际需要删除的隔栅;
删除所述隔栅韵律词序列中实际需要删除的隔栅,并使剩余隔栅中的每两个隔栅之间的词进行组词,生成韵律词。
13.一种存储汉语韵律词组词程序的可读存储介质,其特征是,所述可读存储介质存储有以下程序:
输入汉语文本;
对输入的汉语文本进行分词和词性标注处理,生成一初始的韵律词序列;
在所述初始的韵律词序列中所有的词边界上插入代表韵律词边界的隔栅,生成一隔栅韵律词序列;
根据韵律词组词手段标注所述隔栅韵律词序列中预备删除的隔栅;
根据韵律词组词手段判断预备删除的隔栅中实际需要删除的隔栅;
删除所述隔栅韵律词序列中实际需要删除的隔栅,并使剩余隔栅中的每两个隔栅之间的词进行组词,生成韵律词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610167040.0/1.html,转载请声明来源钻瓜专利网。





