[发明专利]社群特有表现检测装置及方法无效
申请号: | 200680025802.1 | 申请日: | 2006-07-13 |
公开(公告)号: | CN101223521A | 公开(公告)日: | 2008-07-16 |
发明(设计)人: | 小田弘美 | 申请(专利权)人: | 惠普开发有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/28;G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 张雪梅;刘宗杰 |
地址: | 美国德*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 社群 特有 表现 检测 装置 方法 | ||
技术领域
本发明涉及根据语言形成理论,从社群中使用的表现中检测该社群特有表现的检测装置及方法。
背景技术
在围绕特定的兴趣或者题目进行活跃讨论的人们的社群中,往往发生该社群独自的表现。例如,在讨论日本酒的社群中,使用“老ね(ヒネ)、ヒキのぁる、キレる、...”这样的表现。在喜好葡萄酒的人们之间可以看到“黑体(fullbody)、中度干(medium dry)、桶香(cask flavor)、后味(aftertaste)、...”这样的表现。这些并不是具有专业知识的人们使用的难以理解的专业术语,而是只要是喜好葡萄酒或者日本酒的人,作为表达其味道的表现,能自然理解其意思的一种词汇。另外,作为高中生·大学生等的“年青人语语言”而被收集的表现也可以认为是社群固有的表现。最近,在聚集于因特网的公告板等上的人们形成的社群中可见到许多新的表现。
专利文献1:特开2002-297589“未知语汇收集方法”;
专利文献2:特开平5-113997“词典数据收集装置”;
专利文献3:特开2004-265440“未知词汇登记装置和方法以及存储介质”;
专利文献4:特开2005-309853“专业的记述和非专业的记述之间的词汇变换方法·程序·系统”;
非专利文献1:中川祐志、汤本紘彰&辰則(2003),根据出现频率和连接频率的专业术语的抽出,自然语言处理,10(1),27-45;
非专利文献2:辻慶太,&芳鐘冬樹(2004),针对专业领域中成为重要的新词的确定的基础研究,语言处理学会第10届年会发表论文集(pp.189-191);
非专利文献3:藤井敦、伊藤克亘、秋葉友良(2003),IPA未开发软件创造事业“CYCLONE:最强事典网站的构筑”,www.ipa.go.jp/about/news/event/pdf/29A7_fujii.pdf;
非专利文献4:米川明彦(1998)“年青人语言的科学化”东京:明治书院。
发明内容
在涉及社群固有表现的收集的现有技术中,主要有关于专业术语的收集和未知词汇的收集的技术。关于专业术语的收集有以非专利文献1、非专利文献2开始的研究,但是大体上是关于专业领域中的由名词、复合名词组成的专业术语的收集。通过这样的限定,能使用根据着眼于单名词的重叠或者连接关系等的得分的算法,但是难于应用到名词以外的表现。
另外,关于未知词汇·新词的收集,在词典的编纂中也是重要的题目,特开2002-297589“未知词汇收集方法”(专利文献1)、特开2004 265440“未知词汇登记装置和方法以及存储介质”(专利文献3)等已有专利中存在处理该题目的技术。
但是,像在专利文献3等的报告中那样,也有检测日本语中的未知词汇困难的问题,特开2002-297589“未知词汇收集方法”(专利文献1)的方法也是那样,不过基本上多通过手工或者推断方式收集词典中未登记的词汇。另外,在这些未知词汇的检测中也大体限于名词,真正聚焦在新表现的收集上的很少。
另外,在社会语言学中,存在进行高中生·大学生使用的“年青人语言”的收集和分析的领域(非专利文献4)。作为社群固有的表现的现有研究,认为接近于本发明,但是在社会语言学领域中,未提出有规则地收集年青人语言或者流行语的方法。
通过公开以下的装置来解决所述课题。
(1)
一种装置,其特征在于,
从规定的社群中使用的文本集合,检索所述规定的社群中的特有表现,具有以下从(a)到(d)的单元,
(a)抽出所述规定的社群中特有使用的n元语法搭配的单元,
(b)选择有可能成为所述特有表现的核的第一词干的单元,
(c)根据使用所述第一词干的显著性以及取入了所述第一词干的前或后的要素的第二词干的显著性计算出来的值,选择扩展词干的单元,
(d)从所述扩展词干中,根据该语言的语言形成规则,选择所述规定的社群中特有表现的单元。
(2)
再有,根据(1)中所述的装置,其特征在于,包含:通过把规定的术语列表中包含的术语作为关键词进行数据检索,将所述文本集合进行收集的单元。
(3)
再有,根据(1)或(2)中所述的装置,其特征在于,抽出所述n元语法搭配的单元包含:利用多个社群中使用的文本,并根据所述规定的社群中使用的n元语法搭配的显著性与其他社群中使用的n元语法搭配的显著性的比较,抽出所述n元语法搭配的单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于惠普开发有限公司,未经惠普开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680025802.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:新型红色荧光材料及其制备方法
- 下一篇:放电灯点亮电路