多媒体信息检索

关于基于内容的多媒体信息检索的认识

钟雨祺

(14图书情报硕士 [1**********]47)

多媒体技术、网络技术和信息数字化处理等高新技术的飞速发展,使得多媒体数量激增,特别在网络上信息不再只是单纯的文本信息,图形图像、视频、声音等多媒体信息逐渐占有越来越大的比重,一种基于内容的多媒体数据库查询与检索技术———CBR (Content Based Retrieval)应运而生。

1 基于内容的多媒体信息检索

1.1 基于内容的图像检索

图像检索一般是基于图像的颜色特征、纹理特征、形状特征和空间关系特征四种特征。颜色特征是图像检索中应用最为广泛的视觉特征。纹理特征是一种不依赖于颜色或亮色的反映图像中同质现象的视觉特征,它包含了物体表面结构组织排列的重要信息以及它们与周围环境的联系。形状特征有两种表示方法:一种是轮廓特征的,一种是区域特征的。

图像中对象的所在位置和对象之间的空间关系同样是图像检索中非常重要的特征。空间关系特征有两种检索方法:一是首先对图像进行自动分割,划分出其中所含的对象或颜色区域,然后根据这些区域对图像索引;二是简单地将图像均匀划分若干规则小块,对每个图像小块提取特征建立索引。

1.2 基于内容的视频检索

视频检索实际上属于图像的范畴。视频除了具有一般静态图像的特征外,还具有动态性,所以视频又称动态图像。

视频检索的方法主要有三种:①基于关键帧的检索。关键帧通常是一幅图像,因而可以采用与图像检索相似的方法。一旦检索到目标关键帧,用户就可以利用播放器观看它所代表的视频片段。②基于运动的检索。它基于镜头和视频对象的时间特征来检索,包括检索摄像机的移动操作和场景移动,以及用运动方向和运动幅度等特征来检索运动的主体对象。③浏览。一般采用分层结构和集束分类技术。

1.3 基于内容的音频检索

音频检索是以波形声音为对象的检索。波形声音是对模拟声音数字化而得到的数字音频信号,这里的音频可以代表语音、音乐、自然界和合成的音响。

基于听觉特征的检索适合对声音效果数据进行分类,如动物声、机器声和其他自然声等。

如果遇到各种声音混在一起的情况。这需要在处理单体声音之前先分割长段的音频录音。通过信号的声学分析并查找声音的转变点就可以实现音频的分割。转变点是度量特征突然改变的地方。转变点定义信号的区段,然后这些区段就可以作为单个的声音处理。

2 基于内容的多媒体检索的展望

笔者在生活中的使用情况来看,多媒体信息检索发展还不是非常成熟,以图片检索为例,笔者看到过一个非常有意思的案例就是一个黄色的月亮的图片作为检索对象,除了月亮的图片外还检索出来很多圆形的鸡蛋煎饼的图片。在尝试音乐检索的时候,很多轻音乐并不能准确检索出来,而是检索出一些节奏相似的音乐,而且目前人声、哼歌检索技术也十分不成熟。但是笔者相信,随着科学技术的发展信息检索将会变得越来越智能,多媒体信息检索是信息检索领域的一个重要的课题,其发展前景也是无限的。

2.1多种多媒体信息库的结合

目前的多媒体信息库多为分类的信息库,例如图像数据库、声音数据库、视频数据库等。这些分类数据库增加了人们的检索时间和程序。而对这些数据库进行整合应该不是一件很难的技术问题。

2.2 多特征检索技术的发展

多特征检索技术是指综合利用两种或多种媒体的特征、综合利用其它学科的成果。这是当代所有学科的发展方式,更是我们多媒体信息检索的发展需求。

2.3 快速算法的探求

由于多媒体信息的数据量相当大,对它进行处理需要消耗大量的时间,因此寻找快速算法也是实现基于内容的多媒体检索必须研究的一个课题。如果能实现算法上的突破,将会对多媒体检索产生深远的影响。


© 2024 实用范文网 | 联系我们: webmaster# 6400.net.cn