刘俊晓 孟祥增 吴鹏飞
山东师范大学传播学院 山东济南 250014
近年来,数字视频信息出现了飞速膨胀,新的视频应用,如数字图书馆、视频点播、数字电视、视频会议、远程教育等等,已经为越来越多的人所接受和熟悉。面对 海量的视频数据,如何找到所需的视频信息就成为一个急需解决的问题。九十年代以来,出现了基于内容的视频分析和检索研究,其目的就是通过对视频内容进行计 算机处理、分析和理解,建立结构和索引,以实现方便有效的视频信息获取。因此,基于内容的视频分析与检索研究从一开始就得到了广泛的重视并取得了丰硕的研 究成果。本文试图对基于内容的视频分析与检索的发展进行分析总结,并初步探讨其在教学领域的应用。
一、视频结构的分析
视频数据的本质是一组连续的图像帧,除了存在时间上的先后关系外,其本身并不具有任何结构信息。要实现基于内容的视频检索,必须为视频建立不同层次的结构索引,并进一步为视频的检索和浏览提供基本访问单元。
视频数据从结构上自顶向下可分为视频序列、视频场景、镜头和帧,如下图所示。
帧是视频数据的最小单元,是一幅静止的画面。镜头是视频数据的基本单位,它是摄像头的一次连续的动作,只能拍摄相邻地点连续发生的事情。场景由内容相近的 镜头组成,从不同的角度描述同一个事件。而视频序列则由许多场景组成,叙述一个完整的故事结构。层中每一个视频层次的数据都可以用一定的属性加以描述。 如:视频序列的属性,主要包括场景的个数和持续时间;场景的属性,包括标题、持续时间、镜头数目、开始镜头、结束镜头等;镜头的属性,包括持续时间、开始 帧号、结束帧号、代表帧集合、特征空间向量等;帧的属性,帧有大量的属性,包括直方图、轮廓图、DC及AC分量图等。
二、基于内容的视频分析及其关键技术
基于内容的视频分析从提出到现在,大致经历过三个阶段。第一阶段的研究主要集中在视频结构的分析和浏览上。其中涉及的关键技术有:镜头边界检测、关键帧提 取和场景的合并;第二阶段的研究主要围绕相似性检索展开,核心问题是特征的提取和特征空间距离的量度。前两个阶段的研究在一定程度上解决了视频检索和浏览 的问题,并对视频管理和获取技术进行了有价值的探索。第三阶段的工作提出了面向语义的信息提取,这也是目前基于内容视频分析研究的热点。该阶段工作的根本 目标是构建从底层特征到高层语义之间的桥梁,最终形成符合人类思维形式的信息索引和检索方式。
下面对视频分析过程中涉及的关键技术进行分析总结,以期为进一步的研究和算法设计提供参考。
1.视频镜头的检测
镜头检测的关键是确定从镜头到镜头的转换处,并利用镜头之间的转换方式找到镜头图像之间的差别。镜头之间的转变包括切变、渐变和数字特技(Wipe),针 对不同的情况往往需要使用不同的算法。其中切变检测的算法最为成熟,渐变和数字特技的检测算法往往依赖一定的先验假设,技术还有待进一步完善。目前,常用 的自动镜头检测方法主要有以下几种。
(1)基于像素的镜头检测方法。利用视频两帧对应象素之间的差别来检测镜头边界。这种方法的缺点在于容易受到噪声的影响。
(2)基于像素平均值、方差等统计特征的镜头检测方法。
(3)基于视频特征的镜头检测方法。包括基于边缘特征的比较方法(提取视频每帧图像的边缘特征,通过检测边缘的突然变化来确定边界)、采用颜色比率特征(ColorRatioFeature)的方法、基于光流特征的方法等等。这些方法的计算复杂性都比较大。
(4)基于直方图的镜头检测方法。此方法利用视频帧图像的灰度直方图或者颜色直方图的比较来检测边界,在镜头检测的精度和速度之间达到了较好的折中,因此使用最为普遍。
另外,近年来开始出现了直接对压缩视频进行镜头检测的算法。在压缩域内对镜头切变的检测多是利用DCT系数、运动向量及运动补偿宏块等信息进行的。日本的 Yasuyuki利用I帧的DC序列,考查前后两个I帧DC图的色度相似度,在镜头切换时,色度变化一般较大,从而确定切换点;另一种方法是利用B帧中进 行运动补偿的宏块的数量来进行切变的检测。在压缩域内对镜头渐变的检测方法也较多,典型的有以下几种:Yeo等借助从MPEG压缩码流中提取出的DC系数 可以检测闪光、淡人、淡出,同时该方法也可以区分叠化和切变;利用MPEG压缩码流中宏块种类的信息可以获得B-帧的预测方向,并进而检测到各帧中场景发 生变化的区域。通过对这些变化区域的分析,就可以检测出比较复杂的擦除转换,还可以确定擦除的种类。
2.关键帧提取
在镜头分割以后,为提供给用户浏览,一般要进行镜头关键帧(Keyframe)的提取工作。一个镜头的关键帧就是反映该镜头中主要内容的一帧图像或若干帧 图像。关键帧的选取一方面必须能够反映镜头中的主要事件,因而描述应尽可能完全准确;另一方面,为便于管理,数据量应尽量小,且计算不宜太复杂。关键帧提 取方法主要包括以下几种。121DIHI
(1)最简单的关键帧提取方法是提取镜头固定位置上的帧作为关键帧。例如第一帧、中间帧或最后一帧,或者相隔固定帧数采样一帧。这种方法操作简单,但不够灵活,因为不能有效地反映镜头内容。
(2)较为复杂的方法包括基于内容复杂性、镜头活动性等特征来提取关键帧,这些方法能较为准确地反映镜头内容。
(3)较理想的方法是通过分析视频视觉内容(颜色直方图、运动信息)随时间的变化情况,确定所需关键帧的数目,并按照一定的规则为镜头抽取关键帧。
(4)还有一种常用的关键帧生成方法是采用图像拼接(Mosaic)技术,又称全景图生成技术。”即对分割得到的镜头各帧进行拼接,融合镜头中多帧的背景 信息,生成一个全景的拼接图像来代表视频片断的内容。虽然全景图能较为全面地反映镜头内容,但由于算法对前景运动的敏感,这种技术的应用受到一定的限制。 还有其它方法,如用无监督聚类技术来选择关键帧等。
3.基于内容的相似性检索
目前的视频检索主要依赖视频内容的相似性(Similarity),称相似性检索。相似性检索要求用户提交感兴趣的视频片断,检索过程将样本片断与视频库 中的其它片断作相似性比较,并按相似性大小返回检索结果。具体的检索形式可以分为三种,即相似性视频检索、定位视频中的相似性片段和相似性镜头检索。随着 以镜头为中心的视频结构化研究工作的完善,以镜头为基本单位的检索形式成为基于内容的视频检索的主流。视频相似性检索的研究主要解决两个问题:如何提取反 映视频内容的特征;如何量度特征之间的相似性。
在特征提取方面,目前的视频检索技术主要是从传统的图像检索技术直接或间接地继承过来的。颜色、纹理和形状是图像检索中广泛使用的底层特征,相应的,它们 也是视频检索中十分重要的特征。但是,视频并不是简单的图像序列,相邻视频帧之间表现出非常强的相关性。在近期研究中,越来越多的工作开始利用视频的运动 信息为视频检索提供时序线索。视频检索中使用的运动信息主要有物体运动轨迹、块运动矢量的主分量、时序纹理和摄像机运动几种。
在相似性量度方面,相似性量度一般可以分为局部匹配和全局匹配””两种。局部相似性量度方法利用了视频片断间的时序关系,但仅局限在简单的线性关系上,更 有计算复杂的缺点;相反,全局相似性量度方法具有索引信息少、检索速度快等优点,但却对视频的时序关系缺乏描述。因此,更复杂的相似性量度方法被提出,如 运动物体轨迹,基于流形假设的最短特征线等。
4.视频语义分析
绝大多数的检索系统都建立在低级特征提取上,但用户往往希望在高层语义上来检索和浏览视频。因为视频结构复杂、语义信息丰富且多歧义,故而视频语义提取一 直是视频分析中的难点和重点。随着计算机能力的提高及相关技术的成熟,视频语义信息提取已经开始成为现代视频检索、压缩和传输中的关键问题,视频语义分析 逐渐成为研究中的热点问题。传统的视频检索方式是一种被动式的信息获取方式,它需要人主动地去寻找自己需要的视频内容,而不是简单地向计算机描述这些内 容。这里存在的一个关键问题就是低层视频特征与高层内容描述间存在极大的差异,如何在两者间架设联系的桥梁是视频语义分析的核心问题。
视频语义分析可以分为两类,即通用语义分析和特定语义分析。由于通用语义分析面向不受限的视频目标,研究往往在特定视频语义定义条件下进行,如周期性运 动、重复出现的视频片断等。这些方法的根本局限性在于提取的事件虽然表达语义结构,但是却不能提供真正的语义概念。语义信息是基于庞大的人类知识库的信 息,通用的视频语义分析无法预先导人先验知识,因此识别的语义往往是简单的或低级的。大量的研究工作都在特定视频类型下展开,即特定语义分析。由于预先确 定了视频内容,视频信息能够被预先地分析和特定地建模。这样,相关领域的先验知识能够以模型的方式预先导人到识别系统中,所以特定语义分析往往能获得准确 和充分的语义信息。视频语义分析是机器智能的体现,是传统视频分析和机器学习、模式识别相结合’的产物。语义分析中常用的机器学习算法包括:隐马尔科夫模 型(HMM)、支持向量机(SVM)、矢量量化(VQ)等。由于视频语义的多义性和复杂性,当前的特定语义分析主要局限在四类视频中:(1)体育视频; (2)新闻视频;(3)电影视频;(4)监视视频。从另一方面来看,特定语义分析研究也可以分为三个层面的工作:视频分类、概念学习和事件检测与识别。
三、国内外研发应用现状
基于内容的视频分析与检索目前已经取得了很多研究成果,国内外已研发出多个基于内容的视频检索系统,主要有:
1.QBIC系统,IBM公司推出的第一个商用的基于内容的图像查询系统,也是基于内容检索系统的典型代表。QBIC系统允许使用例子图像、用户构建的草图和图画、选择的颜色和纹理模式、镜头和目标运动和其它图形信息等,对大型图像和视频数据库进行查询。
2.Photobook系统,是MIT的媒体实验室在1994年开发研制的。图像在装入时按人脸、形状或纹理特性自动分类,图像根据类别通过显著语义特征压缩编码。
3.COKE系统,新加坡国立大学开发的一个基于内容的检索系统。其显著技术特色包括:多种特征提取方法、多种基于内容检索方法、使用自组织神经网络对复杂特征度量、建立基于内容索引的新方法以及对多媒体信息进行模糊检索的新技术。
4.VisualSEEK系统,美国哥伦比亚大学图像和高级电视实验室开发。它实现了互联网上的“基于内容”的图像/视频检索系统,提供了一套工具供人们在Web上搜索和检索图像和视频。
5.TV-FI系统,TsinghuaVideoFindh是清华大学开发的视频节目管理系统。该系统可以提供视频数据入库、基于内容的浏览、检索等功能,并提供多、种数据访问模式,包括基于关键字查询、示例查询、按视频结构浏览及按用户自定义类别进行浏览。
另外还有许多类似的系统,例如加利福尼亚大学SantaBarbara分校的Netra、伊利诺依大学的MARS、CMU的Infomedia以及哥伦比亚大学的VideoQ等。
四、基于内容的视频分析与检索技术在教学中的应用
数字视频在教育教学中的应用越来越普遍,并且每天都有大量的视频信息产生,基于内容的视频分析与检索技术对有效管理和查找数字资源具有重要的意义。
1.从内容中提取线索并进行相似性检索,提高了检索的有效性。基于内容的检索直接对视频进行分析,从中抽取内容特征,然后利用这些内容特征建立索引进行检 索。这样用户只需给出特定教学内容的例子或教学视频的特征描述,系统就能自动地找到所需的视频片断。并且基于内容的视频分析采用一种近似匹配或局部匹配的 方法和技术逐步求精来获得查询和检索结果,摒弃了传统的精确匹配技术,避免了采用传统检索方法所带来的不确定性,扩大了检索结果的范围,能够为教育教学提 供更多有效的视频资料。
2.满足教育用户多层次的检索要求。基于内容的检索系统通常由媒体库、特征库和知识库组成。媒体库包含多媒体数据,如文本、图像、音频、视频等;特征库包 含用户输入的特征和预处理自动提取的内容特征;知识库包含领域知识和通用知识,其中的知识表达可以更换,如采用一些常用的教学术语,以适应教学领域的应用 要求。这可以帮助学生选择自己喜欢的、跟教育教学有关的数字电视节目和各类数字广播信息,降低了检索过程中的盲目性,从而提高检索效率。
3.随着MPEG-7标准的制定,基于内容的检索技术在教学领域将发挥更大的作用。MPEG-7作为一种被广泛接受的国际标准,在基于内容的视频信息检索 中可得到充分利用。首先,可将以往制作的大量的多媒体教学素材(包括数字或模拟制的磁带、胶片、CD-ROM等)用MPEG-7的标准来描述,这样,搜索 这些多媒体教学素材就像现在搜索文本信息那样方便。另外,MPEG-7标准对多媒体信息精细的、标准化的描述,使得教师和学生能够准确“过滤”出用于某一 特定教学和学习任务的详细资料。因此,在教学和学习过程中教师和学生可以很方便地获取自己想要的多媒体学习资料。
4.构建人性化的媒体访问界面是视频语义分析的一个重要应用。语义信息为各种媒体提供了统一的访问界面,是融合不同媒体形式的关键途径。为此,1998年 W3C组织提出一种标准的数据抽象表示形式一语义网(SemantlcWeb)。作为第三代互联网的核心技术,该标准的提出将促进各种媒体在语义层面的统 一和融合,最终构建与互联网平行的全球性知识网络一本体(Ontology),从根本上改变传统的基于文本关键字的检索方式,将人们头脑中的概念真正从具 体的数据形式中解放出来。因此,视频信息的语义化不仅为视频检索提供了人性化的高效检索手段,也为视频与其它媒体的无缝连接提供了可能。在教育教学中教师 和学生可根据对视频的语义理解来检索视频媒体,扩展了检索范围,提高了检索效率。
5.为在线管理和获取视频资料提供了应用的可行性。随着网络多媒体应用的蓬勃发展,不同网络终端和协议的出现,在线存取视频资料在理论上逐渐变为可能。但 传统的、基于浏览的视频获取方式难以在新的分布式环境中获得应用,因为传统方式不管是在网络带宽占用量、资源定位时间,还是在人的习惯程度上都存在很大的 不足。基于内容的视频分析提取视频的语义信息,构建从底层特征到高层语义之间的桥梁,最终可形成符合人类思维形式的信息索引和检索方式。这为教学人员在线 管理和获取视频资料提供了应用的可行性。
五、结束语