[发明专利]一种基于柔性语义相似性度量的中文新闻故事分割方法有效
申请号: | 201410027012.3 | 申请日: | 2014-01-20 |
公开(公告)号: | CN103793491B | 公开(公告)日: | 2017-01-25 |
发明(设计)人: | 冯伟;万亮;聂学成;高晓妮;党建武 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津市北洋有限责任专利代理事务所12201 | 代理人: | 温国林 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 柔性 语义 相似性 度量 中文 新闻 故事 分割 方法 | ||
技术领域
本发明涉及中文新闻故事分割领域,特别涉及一种基于柔性语义相似性度量的中文新闻故事分割方法。
背景技术
随着网络的普及和发展,例如:广播新闻、会议记录、网上公开课之类的多媒体内容正在急速增加,现在急需一种有效的方法将这类多媒体数据进行自动的组织,以用于基于主题的文本检索和分析。一个多媒体的文档,例如一小时的广播新闻节目,通常由多个故事(Story)组成,为了进行高效率的语义检索,指导使用者去找到他们感兴趣主题的开始和结束是很重要的,同时,一个分割好的多媒体文档是进行主题跟踪[1]、分类和总结[2]等高层次的语义浏览的重要前提条件。新闻故事分割技术的目的就在于将新闻故事脚本分割成主题一致的故事。从技术上讲,新闻故事分割技术的效率与两个因素相关:一是词语之间的相似性以及此语句集合之间的相似性的度量方法;二是分割新闻故事脚本的准则。
之前的许多工作都着眼于设计合理的分割准则,例如:TextTiling[3][4]最小归一化分割准则(Minimum NCuts)[5][6]、最大词汇连接准则[7]等。与广泛研究的分割准则相比,现阶段的大多数工作都使用简单的基于重复的硬性相似性度量方式,即相同词语之间的相似性为1,不同词语之间的相似性为0。很明显这种基于重复的硬性相似性度量方法忽略了不同词语之间潜在的语义相关性,使得语义关系度量不准确,得到的中文新闻故事分割结果不准确。因此需要提出一种更加合理的语义相似性度量方式以助于提高分割的效率和精度。
发明内容
本发明提供了一种基于柔性语义相似性度量的中文新闻故事分割方法,本发明能够合理的表示词语之间的语义相似性,并且可以显著提高中文新闻故事分割技术的精度,详见下文描述:
一种基于柔性语义相似性度量的中文新闻故事分割方法,所述方法包括以下步骤:
(1)输入目标文集对文集中的每个新闻故事脚本Ti进行分词;
(2)建立上下文关系图;
(3)通过所述上下文关系图和快速排序算法对词语之间的上下文相关性进行迭代传播获取柔性语义相关性矩阵;
(4)通过所述柔性语义相关性矩阵对句子间的柔性语义相似性进行定义;
(5)使用所述柔性语义相似性对中文新闻故事进行分割。
所述建立上下文关系图的步骤具体为:
1)依次读入每个新闻故事脚本,对所包含的词语进行词频统计;
2)根据定义好的词频阈值,将高频词语和低频词语删除;
3)将保留下的词语作为上下文关系图中的结点,其集合即为V;
4)判断集合中的任意两个词语是否同时出现在某一新闻故事脚本中,且这两个词语之间的距离小于或等于距离阈值,如果是则在这两个词语之间建立边,边的集合即为E;如果否重新判断其他任意两个词语,直至整个集合中的词语都被遍历;
5)边的权值SC由词语之间的权值simC(a,b)、词语本身的权值simC(a,a)表示;
6)所述上下文关系图表示为G=V,E,SC。
所述词语之间的权值simC(a,b)具体为:
其中,freq(a,b)表示词语a和词语b同时出现的次数,freqmax=max(i,j){freq(i,j)}表示词对(i,j)的频率最大值,ε是一个常数用以确保0≤simC(a,b)≤1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410027012.3/2.html,转载请声明来源钻瓜专利网。