[发明专利]一种句法树库构建系统有效
| 申请号: | 201910656652.3 | 申请日: | 2019-07-19 |
| 公开(公告)号: | CN110362691B | 公开(公告)日: | 2023-06-02 |
| 发明(设计)人: | 王伟 | 申请(专利权)人: | 大连语智星科技有限公司 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/211;G06F40/289;G06F40/30;G06F16/35 |
| 代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 李馨 |
| 地址: | 116000 辽宁省大连市高新园区火*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 句法 构建 系统 | ||
本发明提供一种句法树库构建系统,主要包括:分词标注模块,词义标注模块,组块连接模块,成分标识及成分关系标注模块,句法树校对模块。本发明可以让更多人参与到句法树的构建工作,从而构建大规模、多领域、高质量的句法树库,克服了传统构建句法树方法存在的成本高、效率低、一致性差、规模小、领域窄和更新慢等问题,以及解决了标注操作只能在较大屏幕上进行等问题。
技术领域
本发明涉及自然语言处理中的句法分析技术领域,具体而言,尤其涉及一种句法树库构建系统。
背景技术
句法树是一种以树形结构表示的自然语言句子的句法分析结果,句法树的每个节点上都标注了丰富信息以刻画句法分析的粒度。由大量句法树构建的句法树库是机器自动句法分析的一个重要资源,特别是有监督学习的句法分析器都是通过句法树库训练后才能应用。当前已经有一些人工构建的句法树库,比如,美国宾州树库PTB(英文)和CTB(中文)、清华中文句法树库TCT、台湾Sinica中文树库等,这些不同的句法树库有着各自不同的标注体系。
句法树库的规模和质量对自动句法分析器性能至关重要,句法树库的规模越大、质量越高,则自动句法分析的效果越好。但是,现有句法树库普遍存在着规模小、领域窄等问题。主要原因在于:传统句法树标注方法,要求标注人是语言学家或是具备一定语言学背景的人,而且只有标注人记住了标注体系专用的标记符才能进行句法树标注,比如,以清华中文树库TCT为例,有词性标注集(名词n、动词v、形容词a和副词d等)、成分标识集(NP、VP、PP和DP等)、成分关系标识集(vp-SB、vp-RT、fj-BL和fj-LG等)等。为了保证标注结果的质量,必须有专门的校对者对标注结果进行人工校对。这种方法对标注人和校对人的要求都较高,而且若是标注特定领域的句子,标注人和校对人就必须要兼具语言学和专业知识,而具备这样条件的人就更少了,大大限制了更多人来参与标注工作。传统的句法树标注过程,如图1所示。
发明内容
鉴于传统构建句法树方法存在着成本高、效率低、一致性差、规模小、领域窄和更新慢、以及标注操作只能在较大屏幕上进行,无法在小屏幕的移动设备上进行等问题,本发明提出一种句法树库构建系统,可以让更多人参与到句法树的构建工作,从而构建大规模、多领域、高质量的句法树库。
本发明采用的技术手段如下:
一种句法树库构建系统,主要包括:
分词标注模块,对预分词完毕的句子进行分词标注;
词义标注模块,对分词标注后的句子进行词义标注;
组块连接模块,对词义标注后的句子进行组块并将组块连接信息转换为一棵句法树;
成分标识及成分关系标注模块,对于组块后的句法成分标识以及成分关系进行自动标注;
句法树校对模块,通过对标注结果进行过自动校对,得到最终标注结果。
进一步地,在所述分词标注模块被设置为响应第一模式操作将词素组合成词;和/或,响应第二模式操作将词拆解为词素。
进一步地,所述词义标注模块被设置为响应第三模式操作从多义词候选词义列表中选择相应的候选词义。
进一步地,所述词义标注模块在进行词义标注之前,利用词义词典构建多义词候选词义列表。
进一步地,所述组块连接模块包括组块连接部和句法树生成部;
所述组块连接部被设置为响应第四模式操作,将至少两个相邻的词进行组块,再将至少两个相邻的词或组块再组,反复再组直至整个句子组合成一个完整组块;
所述句法树生成部保存全部组块连接完成的信息,并将上述信息转换生成句法树。
进一步地,所述成分标识及成分关系标注模块具体用于:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连语智星科技有限公司,未经大连语智星科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910656652.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种医学知识图谱构建方法及装置
- 下一篇:一种基于知识图谱的学术圈构建方法





