[发明专利]利用多字节编码的文献检索方法及文献索引方法在审
| 申请号: | 201610096619.6 | 申请日: | 2016-02-22 |
| 公开(公告)号: | CN106933938A | 公开(公告)日: | 2017-07-07 |
| 发明(设计)人: | 安洪国;白承哲 | 申请(专利权)人: | 唯溥思株式会社 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京三友知识产权代理有限公司11127 | 代理人: | 李辉,金玲 |
| 地址: | 韩国*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 利用 多字 编码 文献 检索 方法 索引 | ||
技术领域
本发明涉及利用多字节编码而检索与用户输入的关键词匹配的文献的方法及装置。更具体地,涉及如下的方法及装置:对于构成检索对象的文献,分别利用多字节编码而构建数据库化的索引之后,在用户输入了关键词的情况下,抽取上述关键词的单位音节及单位音节的位置,通过将抽取的单位音节及单位音节的位置与之前数据库化的索引进行比较来检索文献。
背景技术
一般,作为分析多语种的语素的方式,具有基于统计的方法和基于词典的方法。
基于统计的方法作为根据通过分析大量的多语种文档集而计算的概率而分析的方式,通过机器学习而自动分析,因此与基于词典的方法相比,难以去除错误。
另外,基于词典的方法作为分析出现在多语种的单词而标记词性并数据库化成词典而分析的方式,能够提高错误的控制及准确度,但需要由人来进行分别将单词数据库化为词典的作业,并且在每次变更词典时,均再次执行整个索引作业及数据库化作业。
本发明是在这样的技术背景下完成的,本发明的目的在于不仅充分满足以上的技术要求,并且还提供本领域技术人员无法容易地发明的追加性的技术要素。
现有技术文献
专利文献
(专利文献0001)韩国公开专利公报2001-0000673(2001.01.05.)
发明内容
发明要解决的课题
本发明的目的在于,利用多字节编码而从构成检索对象的多个文献抽取索引而生成索引信息即进行数据库化,特别是,在生成索引信息时将文献标记化,对于所获得 的语节,以二音节为基准进行拆分而抽取一个以上的单位音节,另外进一步掌握该单位音节在各个语节内的位置,对于一个索引,使单位音节和单位音节的位置匹配起来的方式进行存储。
另外,本发明的目的在于以如下方式进行文献检索:对于用户输入的关键词,利用多字节编码,以二音节的单位音节及各个单位音节的位置进行匹配而分析各个关键词,并对上述分析的单位音节及各个单位音节的位置与之前生成的索引信息进行比较而判断该文献中是否包括关键词。
本发明的目的在于,特别是,以单位音节及单位音节的位置匹配的信息为基础而判断文献内是否包括关键词,从而提高准确度及速度。
解决课题的手段
为了解决上述的问题,本发明的文献检索方法包括:(a)由用户输入关键词的步骤;(b)将上述关键词以语节单位进行分离的步骤;(c)将上述关键词以n-音节(n为1以上的自然数)为基准进行拆分而获得一个以上的单位音节,并获得各个上述单位音节在上述关键词内的位置,从而生成包括上述单位音节及单位音节在上述关键词内的位置的检索信息的步骤;(d)将上述检索信息与关于一个以上的文献的索引信息进行比较,从而检索与上述单位音节及该单位音节的位置相应的文献的步骤。
另外,在上述文献检索方法中,在上述(c)步骤中,将上述分离后的关键词以二音节为基准进行拆分而获得一个以上的单位音节,并获得各个上述单位音节在上述关键词内的位置。
另外,在上述文献检索方法中,在上述(c)步骤中,在上述分离后的关键词为一音节的情况下,在上述一音节后端追加分隔符后定义为单位音节,并获得上述单位音节在关键词内的位置,从而生成包括上述单位音节及单位音节在关键词内的位置的检索信息。
另外,在上述文献检索方法中,在上述(d)步骤中,对包括上述单位音节、该单位音节的位置的检索信息与上述索引信息进行比较。
另外,在上述文献检索方法中,在上述(d)步骤中,对包括上述单位音节和该单位音节的位置的检索信息与上述索引信息进行比较而计算与上述索引信息之间的类似度,并以所计算的类似度为基准检索文献,通过比较在上述检索信息内包括的关键词的单位音节及单位音节的位置与在上述索引信息内包括的索引词的单位音节及单 位音节的位置来算出上述类似度。
另外,本发明的另一方面的文献索引方法包括:(a)下载文献,将上述文献标记化而获得一个以上的语节的步骤;(b)将上述语节以n-音节(n为1以上的自然数)为基准进行拆分而获得一个以上的单位音节,并获得各个上述单位音节在上述语节内的位置的步骤;(c)生成匹配有各个上述单位音节和该单位音节在语节内的位置的索引信息的步骤。
另外,在上述文献索引方法中,在上述(b)步骤中,在上述语节为一音节的情况下,获得上述一音节,并获得上述一音节在上述语节内的位置,并生成匹配有上述一音节和该一音节在语节内的位置的索引信息。
发明效果
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于唯溥思株式会社,未经唯溥思株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610096619.6/2.html,转载请声明来源钻瓜专利网。





