亚洲综合日韩精品欧美综合区,日韩国产在线一区,久久久精品一二三区,午夜精品久久久久久中宇69,国产做爰一区二区三区视频,aa天堂,三级在线视频

視頻處理裝置、視頻處理方法以及設(shè)備與流程

文檔序號(hào):43626883發(fā)布日期:2025-11-01 11:05閱讀:17來源:國(guó)知局
視頻處理裝置、視頻處理方法以及設(shè)備

技術(shù)領(lǐng)域

本發(fā)明涉及視頻處理領(lǐng)域,尤其涉及一種視頻處理裝置、視頻處理方法以及設(shè)備。



背景技術(shù):

隨著數(shù)字視頻數(shù)目的急劇增長(zhǎng),需要研究開發(fā)有效的視頻處理技術(shù)。通常,在現(xiàn)有的一些視頻處理技術(shù)中,需要用戶提供一些訓(xùn)練視頻鏡頭,然后根據(jù)這些訓(xùn)練視頻鏡頭來進(jìn)行相應(yīng)的視頻處理。其中,訓(xùn)練視頻鏡頭可能包括帶標(biāo)簽的視頻鏡頭和不帶標(biāo)簽的視頻鏡頭,而帶標(biāo)簽的視頻鏡頭通常包括正例視頻鏡頭(即,帶正標(biāo)簽的視頻鏡頭)和負(fù)例視頻鏡頭(即,帶負(fù)標(biāo)簽的視頻鏡頭)。根據(jù)訓(xùn)練視頻鏡頭的類型,可以將這些視頻處理技術(shù)分為兩類,即監(jiān)督式的視頻處理技術(shù)和半監(jiān)督式的視頻處理技術(shù)。

對(duì)于監(jiān)督式的視頻處理技術(shù)來說,其所采用的訓(xùn)練視頻鏡頭全部為帶標(biāo)簽的視頻鏡頭。然而,帶標(biāo)簽的視頻鏡頭的數(shù)目通常很有限,因此利用這種技術(shù)所進(jìn)行的處理通常效果較差,而且不能夠有效地利用不帶標(biāo)簽的視頻鏡頭中的信息。

對(duì)于半監(jiān)督式的視頻處理技術(shù)來說,其所采用的訓(xùn)練視頻鏡頭既包括帶標(biāo)簽的視頻鏡頭,又包括不帶標(biāo)簽的視頻鏡頭。相對(duì)于監(jiān)督式的視頻處理技術(shù)而言,半監(jiān)督式的視頻處理技術(shù)能夠相對(duì)有效地利用不帶標(biāo)簽的視頻鏡頭中所包含的信息。然而,在現(xiàn)有的半監(jiān)督式的視頻處理技術(shù)中,大多數(shù)是僅利用鏡頭級(jí)加權(quán)圖或僅利用幀級(jí)加權(quán)圖所進(jìn)行的視頻處理技術(shù),即使有一些同時(shí)利用鏡頭級(jí)加權(quán)圖和幀級(jí)加權(quán)圖的技術(shù),其也只是分別單獨(dú)利用兩種加權(quán)圖進(jìn)行計(jì)算、再簡(jiǎn)單地結(jié)合二者計(jì)算的結(jié)果,而沒有在計(jì)算處理的過程中考慮到二者之間的聯(lián)系,因此處理效果較差。



技術(shù)實(shí)現(xiàn)要素:

在下文中給出了關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。

鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明的目的之一是提供一種視頻處理裝置、視頻處理方法以及設(shè)備,以至少克服現(xiàn)有的監(jiān)督式的視頻處理技術(shù)以及半監(jiān)督式的視頻處理技術(shù)所存在的視頻處理效果差的問題。

為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種視頻處理裝置,該視頻處理裝置包括:預(yù)處理單元,其被配置用于分別提取視頻鏡頭集中的每個(gè)視頻鏡頭的至少一個(gè)代表幀,并將所提取的每個(gè)代表幀分割為多個(gè)區(qū)域,其中,該視頻鏡頭集的至少部分視頻鏡頭是帶標(biāo)簽的視頻鏡頭;特征提取單元,其被配置用于提取上述視頻鏡頭集中的每個(gè)視頻鏡頭的鏡頭級(jí)視覺特征、幀級(jí)視覺特征和區(qū)域級(jí)視覺特征;加權(quán)圖建立單元,其被配置用于根據(jù)上述鏡頭級(jí)視覺特征構(gòu)建鏡頭級(jí)加權(quán)圖,根據(jù)上述幀級(jí)視覺特征構(gòu)建幀級(jí)加權(quán)圖,以及根據(jù)上述區(qū)域級(jí)視覺特征構(gòu)建區(qū)域級(jí)加權(quán)圖;函數(shù)構(gòu)造單元,其被配置用于以上述視頻鏡頭集中的每個(gè)視頻鏡頭的軟標(biāo)簽、上述每個(gè)視頻鏡頭中的每個(gè)代表幀的軟標(biāo)簽以及上述每個(gè)代表幀中的每個(gè)區(qū)域的軟標(biāo)簽為未知量,根據(jù)上述鏡頭級(jí)加權(quán)圖、上述幀級(jí)加權(quán)圖和上述區(qū)域級(jí)加權(quán)圖的結(jié)構(gòu)信息,以及根據(jù)上述每個(gè)視頻鏡頭的軟標(biāo)簽、上述每個(gè)代表幀的軟標(biāo)簽以及上述每個(gè)區(qū)域的軟標(biāo)簽之間的關(guān)系,構(gòu)造代價(jià)函數(shù);計(jì)算單元,其被配置用于通過求解上述代價(jià)函數(shù)的最優(yōu)問題,獲得上述未知量的計(jì)算值;以及視頻處理單元,其被配置用于根據(jù)上述計(jì)算單元所獲得的計(jì)算值來進(jìn)行視頻處理。

根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種視頻處理方法,該視頻處理方法包括:分別提取視頻鏡頭集中的每個(gè)視頻鏡頭的至少一個(gè)代表幀,并將所提取的每個(gè)代表幀分割為多個(gè)區(qū)域,其中,該視頻鏡頭集的至少部分視頻鏡頭是帶標(biāo)簽的視頻鏡頭;提取上述視頻鏡頭集中的每個(gè)視頻鏡頭的鏡頭級(jí)視覺特征、幀級(jí)視覺特征和區(qū)域級(jí)視覺特征;根據(jù)上述鏡頭級(jí)視覺特征構(gòu)建鏡頭級(jí)加權(quán)圖,根據(jù)上述幀級(jí)視覺特征構(gòu)建幀級(jí)加權(quán)圖,以及根據(jù)上述區(qū)域級(jí)視覺特征構(gòu)建區(qū)域級(jí)加權(quán)圖;以上述視頻鏡頭集中的每個(gè)視頻鏡頭的軟標(biāo)簽、上述每個(gè)視頻鏡頭中的每個(gè)代表幀的軟標(biāo)簽以及上述每個(gè)代表幀中的每個(gè)區(qū)域的軟標(biāo)簽為未知量,根據(jù)上述鏡頭級(jí)加權(quán)圖、上述幀級(jí)加權(quán)圖和上述區(qū)域級(jí)加權(quán)圖的結(jié)構(gòu)信息,以及根據(jù)上述每個(gè)視頻鏡頭的軟標(biāo)簽、上述每個(gè)代表幀的軟標(biāo)簽以及上述每個(gè)區(qū)域的軟標(biāo)簽之間的關(guān)系,構(gòu)造代價(jià)函數(shù);通過求解上述代價(jià)函數(shù)的最優(yōu)問題,獲得上述未知量的計(jì)算值;以及根據(jù)所獲得的計(jì)算值來進(jìn)行視頻處理。

根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種設(shè)備,該設(shè)備包括如上所述的視頻處理裝置。

依據(jù)本發(fā)明的其它方面,還提供了相應(yīng)的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有能夠由計(jì)算設(shè)備執(zhí)行的計(jì)算機(jī)程序,所述程序在執(zhí)行時(shí)能夠使所述計(jì)算設(shè)備執(zhí)行上述視頻處理方法。

上述根據(jù)本發(fā)明實(shí)施例的視頻處理裝置和視頻處理方法以及包括該視頻處理裝置的設(shè)備,能夠?qū)崿F(xiàn)至少以下益處之一:通過利用三種加權(quán)圖來充分地利用視頻鏡頭的特征信息,并充分挖掘三種加權(quán)圖之間的聯(lián)系,能夠獲得較好的視頻處理效果;可以在利用帶標(biāo)簽的視頻鏡頭的基礎(chǔ)上,進(jìn)一步利用不帶標(biāo)簽的視頻鏡頭,來實(shí)現(xiàn)視頻處理,進(jìn)而可以提高視頻處理的處理效果;能夠得到更準(zhǔn)確的視頻檢索結(jié)果;以及能夠得到更準(zhǔn)確的視頻概念檢測(cè)結(jié)果。

通過以下結(jié)合附圖對(duì)本發(fā)明的最佳實(shí)施例的詳細(xì)說明,本發(fā)明的這些以及其他優(yōu)點(diǎn)將更加明顯。

附圖說明

本發(fā)明可以通過參考下文中結(jié)合附圖所給出的描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標(biāo)記來表示相同或者相似的部件。所述附圖連同下面的詳細(xì)說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進(jìn)一步舉例說明本發(fā)明的優(yōu)選實(shí)施例和解釋本發(fā)明的原理和優(yōu)點(diǎn)。在附圖中:

圖1是示意性地示出根據(jù)本發(fā)明的實(shí)施例的視頻處理裝置的一種示例結(jié)構(gòu)的框圖。

圖2是示意性地示出圖1中的加權(quán)圖建立單元的一種可能的示例結(jié)構(gòu)的框圖。

圖3是示意性地示出圖1中的函數(shù)構(gòu)造單元的一種可能的示例結(jié)構(gòu)的框圖。

圖4是示意性地示出圖1中的計(jì)算單元的一種可能的示例結(jié)構(gòu)的框圖。

圖5是示意性地示出圖1中的視頻處理單元的一種可能的示例結(jié)構(gòu)的框圖。

圖6是示意性地示出根據(jù)本發(fā)明的實(shí)施例的視頻處理方法的一種示例性處理的流程圖。

圖7是示意性地示出如圖6所示的步驟S660的一種可能的示例性處理的流程圖。

圖8是示意性地示出在視頻處理是視頻概念檢測(cè)的示例情況下,如圖6所示的步驟S670的一種可能的示例性處理的流程圖。

圖9是示出了可用來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的視頻處理裝置和視頻處理方法的一種可能的信息處理設(shè)備的硬件配置的結(jié)構(gòu)簡(jiǎn)圖。

本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,附圖中的元件僅僅是為了簡(jiǎn)單和清楚起見而示出的,而且不一定是按比例繪制的。例如,附圖中某些元件的尺寸可能相對(duì)于其他元件放大了,以便有助于提高對(duì)本發(fā)明實(shí)施例的理解。

具體實(shí)施方式

在下文中將結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡(jiǎn)明起見,在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實(shí)際實(shí)施例的過程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對(duì)得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。

在此,還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細(xì)節(jié)。

如上文所述,現(xiàn)有技術(shù)中的監(jiān)督式或半監(jiān)督式的視頻處理技術(shù),其在對(duì)視頻鏡頭進(jìn)行處理時(shí),由于上文中所描述的原因?qū)е铝颂幚淼男Ч^差。為了改善視頻處理效果,本發(fā)明提出了一種視頻處理裝置,其能夠同時(shí)利用視頻鏡頭的鏡頭級(jí)視覺特征、幀級(jí)視覺特征和區(qū)域級(jí)視覺特征,充分地利用了視頻鏡頭中的信息,能夠更好地反映視頻鏡頭的特征以及視頻鏡頭與視頻鏡頭之間的關(guān)系。

該視頻處理裝置包括:預(yù)處理單元,其被配置用于分別提取視頻鏡頭集中的每個(gè)視頻鏡頭的至少一個(gè)代表幀,并將所提取的每個(gè)代表幀分割為多個(gè)區(qū)域,其中,該視頻鏡頭集的至少部分視頻鏡頭是帶標(biāo)簽的視頻鏡頭;特征提取單元,其被配置用于提取上述視頻鏡頭集中的每個(gè)視頻鏡頭的鏡頭級(jí)視覺特征、幀級(jí)視覺特征和區(qū)域級(jí)視覺特征;加權(quán)圖建立單元,其被配置用于根據(jù)上述鏡頭級(jí)視覺特征構(gòu)建鏡頭級(jí)加權(quán)圖,根據(jù)上述幀級(jí)視覺特征構(gòu)建幀級(jí)加權(quán)圖,以及根據(jù)上述區(qū)域級(jí)視覺特征構(gòu)建區(qū)域級(jí)加權(quán)圖;函數(shù)構(gòu)造單元,其被配置用于以上述視頻鏡頭集中的每個(gè)視頻鏡頭的軟標(biāo)簽、上述每個(gè)視頻鏡頭中的每個(gè)代表幀的軟標(biāo)簽以及上述每個(gè)代表幀中的每個(gè)區(qū)域的軟標(biāo)簽為未知量,根據(jù)上述鏡頭級(jí)加權(quán)圖、幀級(jí)加權(quán)圖和區(qū)域級(jí)加權(quán)圖的結(jié)構(gòu)信息,以及根據(jù)上述每個(gè)視頻鏡頭的軟標(biāo)簽、上述每個(gè)代表幀的軟標(biāo)簽以及上述每個(gè)區(qū)域的軟標(biāo)簽之間的關(guān)系,構(gòu)造代價(jià)函數(shù);計(jì)算單元,其被配置用于通過求解該代價(jià)函數(shù)的最優(yōu)問題,獲得上述未知量的計(jì)算值;以及視頻處理單元,其被配置用于根據(jù)計(jì)算單元所獲得的計(jì)算值來進(jìn)行視頻處理。

下面結(jié)合圖1-圖5來詳細(xì)描述根據(jù)本發(fā)明的實(shí)施例的視頻處理裝置。

圖1是示意性地示出根據(jù)本發(fā)明的實(shí)施例的視頻處理裝置100的一種示例結(jié)構(gòu)的框圖。如圖1所示,根據(jù)本發(fā)明的實(shí)施例的視頻處理裝置100包括預(yù)處理單元110、特征提取單元120、加權(quán)圖建立單元130、函數(shù)構(gòu)造單元140、計(jì)算單元150和視頻處理單元160。

如圖1所示,視頻處理裝置100中的預(yù)處理單元110用于從視頻鏡頭集中的每個(gè)視頻鏡頭中分別提取至少一個(gè)代表幀,并對(duì)提取的每個(gè)代表幀進(jìn)行圖像分割,也即,將所提取的每個(gè)視頻鏡頭的每個(gè)代表幀分別分割為多個(gè)區(qū)域。其中,對(duì)每個(gè)視頻鏡頭所提取的代表幀可以是該視頻鏡頭中的任意一幀或任意多幀,也可以是利用現(xiàn)有的一些提取幀的方法所提取的幀,另外,這里所說的圖像分割可以采用現(xiàn)有技術(shù)中的任一種圖像分割方法來實(shí)現(xiàn),這里不再詳述。此外,上述視頻鏡頭集可以包括多個(gè)視頻鏡頭,而且該多個(gè)視頻鏡頭中的至少部分視頻鏡頭是帶標(biāo)簽的視頻鏡頭。也就是說,該視頻鏡頭集中的視頻鏡頭可以全部是帶標(biāo)簽的視頻鏡頭,也可以部分是帶標(biāo)簽的視頻鏡頭、其余部分是不帶標(biāo)簽的視頻鏡頭。其中,上述帶標(biāo)簽的視頻鏡頭可以是帶正標(biāo)簽的視頻鏡頭(以下簡(jiǎn)稱“正例視頻鏡頭”),也可以是帶負(fù)標(biāo)簽的視頻鏡頭(以下簡(jiǎn)稱“負(fù)例視頻鏡頭”)。需要注意的是,這里所說的視頻鏡頭所帶的“標(biāo)簽”(也稱為硬標(biāo)簽,hardlabel)是一種標(biāo)注信息,通常是例如由用戶預(yù)先標(biāo)注在對(duì)象(例如視頻鏡頭)上的一種表征該對(duì)象類別的信息。其中,帶正標(biāo)簽的視頻鏡頭(也即,帶正的硬標(biāo)簽的視頻鏡頭)通常是符合特定類別的視頻鏡頭,而帶負(fù)標(biāo)簽的視頻鏡頭(也即,帶負(fù)的硬標(biāo)簽的視頻鏡頭)通常是不符合特定類別的視頻鏡頭。例如,正標(biāo)簽可以是“A”的形式,對(duì)應(yīng)地負(fù)標(biāo)簽可以是“非A”的形式。其中,一個(gè)簡(jiǎn)單的例子是“A”為“老虎”,也即,帶正標(biāo)簽的視頻鏡頭是標(biāo)簽為“老虎”的視頻鏡頭(這些視頻鏡頭符合類別“老虎”,表明這些視頻鏡頭中包含“老虎”),而帶負(fù)標(biāo)簽的視頻鏡頭則是標(biāo)簽為“非老虎”的視頻鏡頭(這些視頻鏡頭不符合類別“老虎”,表明這些視頻鏡頭中未包含“老虎”)。

其中,需要說明的是,視頻鏡頭集中的每個(gè)視頻鏡頭被提取的代表幀的數(shù)量可以是相同的,也可以是不同的。此外,通過圖像分割可以將該視頻鏡頭集中的每個(gè)視頻鏡頭的代表幀分割成多個(gè)區(qū)域,但每個(gè)代表幀被分割后得到的區(qū)域的數(shù)目可以是相同的,也可以是不同的。

然后,通過特征提取單元120來提取上述視頻鏡頭集中的每個(gè)視頻鏡頭的鏡頭級(jí)視覺特征、幀級(jí)視覺特征和區(qū)域級(jí)視覺特征。其中,每個(gè)視頻鏡頭的鏡頭級(jí)視覺特征是指在鏡頭層面上提取的該視頻鏡頭的視覺特征;每個(gè)視頻鏡頭的幀級(jí)視覺特征是指在幀層面上提取的該視頻鏡頭的視覺特征;而每個(gè)視頻鏡頭的區(qū)域級(jí)視覺特征是指在區(qū)域?qū)用嫔咸崛〉脑撘曨l鏡頭的視覺特征。其中,這里所說的“視覺特征”是能夠在一定程度上反映視頻鏡頭的內(nèi)容的信息,例如可以是顏色特征、紋理特征以及形狀特征等視覺特征中的任意一種特征,也可以是以上多種視覺特征中的任意幾種的組合。此外,現(xiàn)有技術(shù)中存在的各種用于提取視覺特征的方法都可以為本發(fā)明所用,這里不再詳述。

根據(jù)特征提取單元120所提取的上述視頻鏡頭集中的每個(gè)視頻鏡頭的鏡頭級(jí)視覺特征、幀級(jí)視覺特征和區(qū)域級(jí)視覺特征,加權(quán)圖建立單元130可以建立三種類型的加權(quán)圖(或稱帶權(quán)圖)。具體地,加權(quán)圖建立單元130可以根據(jù)特征提取單元120所提取的每個(gè)視頻鏡頭的鏡頭級(jí)視覺特征建立鏡頭級(jí)加權(quán)圖,以及根據(jù)特征提取單元120所提取的每個(gè)視頻鏡頭的幀級(jí)視覺特征(也即,每個(gè)幀的視覺特征)建立幀級(jí)加權(quán)圖,還可以根據(jù)特征提取單元120所提取的每個(gè)視頻鏡頭的區(qū)域級(jí)視覺特征(也即,每個(gè)區(qū)域的視覺特征)建立區(qū)域級(jí)加權(quán)圖。

在根據(jù)本發(fā)明的實(shí)施例的視頻處理裝置的一種實(shí)現(xiàn)方式中,如圖1所示的加權(quán)圖建立單元130可以采用如圖2所示的結(jié)構(gòu)來實(shí)現(xiàn)。圖2是示意性地示出圖1中的加權(quán)圖建立單元130的一種可能的示例結(jié)構(gòu)的框圖。如圖2所示,加權(quán)圖建立單元130可以包括第一建立子單元210、第二建立子單元220以及第三建立子單元230。

其中,第一建立子單元210可以用于構(gòu)建上述鏡頭級(jí)加權(quán)圖,例如以上述視頻鏡頭集中的每個(gè)視頻鏡頭作為節(jié)點(diǎn),以每?jī)蓚€(gè)節(jié)點(diǎn)之間在鏡頭級(jí)視覺特征上的相似度作為該兩個(gè)節(jié)點(diǎn)之間的加權(quán)邊的權(quán)值,來構(gòu)建該鏡頭級(jí)加權(quán)圖。換句話說,在第一建立子單元210所構(gòu)建的鏡頭級(jí)加權(quán)圖中,每個(gè)節(jié)點(diǎn)分別代表上述視頻鏡頭集中的其中一個(gè)視頻鏡頭,而連接兩個(gè)節(jié)點(diǎn)的加權(quán)邊的權(quán)值則表示這兩個(gè)節(jié)點(diǎn)所對(duì)應(yīng)的兩個(gè)視頻鏡頭之間基于鏡頭級(jí)視覺特征的相似度。其中,該鏡頭級(jí)加權(quán)圖中的節(jié)點(diǎn)與視頻鏡頭集中的視頻鏡頭是一一對(duì)應(yīng)的。

類似地,第二建立子單元220可以用于構(gòu)建上述幀級(jí)加權(quán)圖,例如以上述視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀作為節(jié)點(diǎn),以每?jī)蓚€(gè)節(jié)點(diǎn)之間在幀級(jí)視覺特征上的相似度作為該兩個(gè)節(jié)點(diǎn)之間的加權(quán)邊的權(quán)值,來構(gòu)建該幀級(jí)加權(quán)圖。換句話說,在第二建立子單元220所構(gòu)建的幀級(jí)加權(quán)圖中,每個(gè)節(jié)點(diǎn)分別代表上述視頻鏡頭集中的其中一個(gè)視頻鏡頭的一個(gè)代表幀,而連接兩個(gè)節(jié)點(diǎn)的加權(quán)邊的權(quán)值則表示這兩個(gè)節(jié)點(diǎn)所對(duì)應(yīng)的兩個(gè)代表幀之間基于幀級(jí)視覺特征的相似度。其中,該幀級(jí)加權(quán)圖中的節(jié)點(diǎn)與視頻鏡頭集中的視頻鏡頭的代表幀是一一對(duì)應(yīng)的。

此外,第三建立子單元230可以用于構(gòu)建上述區(qū)域級(jí)加權(quán)圖,例如以上述視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀的每個(gè)區(qū)域作為節(jié)點(diǎn),以每?jī)蓚€(gè)節(jié)點(diǎn)之間在區(qū)域級(jí)視覺特征上的相似度作為該兩個(gè)節(jié)點(diǎn)之間的加權(quán)邊的權(quán)值,來構(gòu)建該區(qū)域級(jí)加權(quán)圖。換句話說,在第三建立子單元230所構(gòu)建的區(qū)域級(jí)加權(quán)圖中,每個(gè)節(jié)點(diǎn)分別代表上述視頻鏡頭集中的其中一個(gè)視頻鏡頭的一個(gè)代表幀的其中一個(gè)區(qū)域,而連接兩個(gè)節(jié)點(diǎn)的加權(quán)邊的權(quán)值則表示這兩個(gè)節(jié)點(diǎn)所對(duì)應(yīng)的兩個(gè)區(qū)域之間基于區(qū)域級(jí)視覺特征的相似度。其中,該區(qū)域級(jí)加權(quán)圖中的節(jié)點(diǎn)與視頻鏡頭集中的視頻鏡頭的代表幀中所包含的區(qū)域是一一對(duì)應(yīng)的。

轉(zhuǎn)至圖1,在通過加權(quán)圖建立單元130構(gòu)建得到鏡頭級(jí)加權(quán)圖、幀級(jí)加權(quán)圖和區(qū)域級(jí)加權(quán)圖之后,可以通過函數(shù)構(gòu)造單元140來構(gòu)造代價(jià)函數(shù)。其中,在該代價(jià)函數(shù)中,未知量為上述視頻鏡頭集中的每個(gè)視頻鏡頭的軟標(biāo)簽、上述視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀的軟標(biāo)簽以及上述視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀的每個(gè)區(qū)域的軟標(biāo)簽。然后,根據(jù)加權(quán)圖建立單元130所構(gòu)建的鏡頭級(jí)加權(quán)圖、幀級(jí)加權(quán)圖和區(qū)域級(jí)加權(quán)圖的結(jié)構(gòu)信息,以及根據(jù)上述視頻鏡頭集中的每個(gè)視頻鏡頭的軟標(biāo)簽、每個(gè)視頻鏡頭的代表幀的軟標(biāo)簽以及每個(gè)視頻鏡頭的代表幀中的區(qū)域的軟標(biāo)簽之間的關(guān)系,可以構(gòu)造得到代價(jià)函數(shù)。

需要注意的是,軟標(biāo)簽(softlabel)是相對(duì)硬標(biāo)簽的概念而定義的一個(gè)概念。硬標(biāo)簽往往是一種真實(shí)的標(biāo)注信息,它通常是預(yù)先標(biāo)注在預(yù)定樣本(例如視頻鏡頭)上的一種反映樣本類別的信息;而軟標(biāo)簽則是一種虛擬的標(biāo)注信息,它通常反映了該軟標(biāo)簽所屬對(duì)象(例如視頻鏡頭、幀或區(qū)域)符合預(yù)定樣本中的硬標(biāo)簽所表征的類別信息的程度。一般地,可以令軟標(biāo)簽為-1到1之間的任意實(shí)數(shù)(包括-1和1),在這種情況下,軟標(biāo)簽的值越接近1(也即越大),表明該軟標(biāo)簽所對(duì)應(yīng)的對(duì)象和預(yù)定樣本中帶正標(biāo)簽的對(duì)象的類別越符合;而相反地,軟標(biāo)簽的值越接近-1(也即越小),表明該軟標(biāo)簽所對(duì)應(yīng)的對(duì)象和預(yù)定樣本中帶正標(biāo)簽的對(duì)象的類別越不符合。換句話說,軟標(biāo)簽的值越大,表明該軟標(biāo)簽所對(duì)應(yīng)的對(duì)象符合上述帶正標(biāo)簽的對(duì)象的類別的可能性就越大,軟標(biāo)簽的值越小,表明該軟標(biāo)簽所對(duì)應(yīng)的對(duì)象符合上述帶正標(biāo)簽的對(duì)象的類別的可能性就越小。此外,需要說明的是,軟標(biāo)簽也可以設(shè)置成其他的實(shí)數(shù),例如也可以設(shè)成大于1或小于-1的實(shí)數(shù),在這種情況下,同樣地,越大的軟標(biāo)簽表示其對(duì)應(yīng)的對(duì)象與預(yù)定樣本中帶正標(biāo)簽的對(duì)象的類別越符合。

例如,在預(yù)定樣本包含帶正標(biāo)簽的視頻鏡頭和帶負(fù)標(biāo)簽的視頻鏡頭、并且上述帶正標(biāo)簽的視頻鏡頭是標(biāo)簽為“老虎”的視頻鏡頭以及上述帶負(fù)標(biāo)簽的視頻鏡頭是標(biāo)簽為“非老虎”的視頻鏡頭的情況下,如果某一視頻鏡頭的軟標(biāo)簽為0.1,另一視頻鏡頭的軟標(biāo)簽為0.8,則軟標(biāo)簽為0.8的視頻鏡頭中包含老虎的可能性要大大高于軟標(biāo)簽為0.1的視頻鏡頭。

具體地,可以采用如圖3所示的結(jié)構(gòu)來實(shí)現(xiàn)函數(shù)構(gòu)造單元140的功能和操作。圖3是示意性地示出圖1中的函數(shù)構(gòu)造單元140的一種可能的示例結(jié)構(gòu)的框圖。

如圖3所示,函數(shù)構(gòu)造單元140可以包括第一設(shè)定子單元310、第二設(shè)定子單元320和函數(shù)構(gòu)造子單元330。其中,第一設(shè)定子單元310用于根據(jù)加權(quán)圖建立單元130所構(gòu)建的鏡頭級(jí)加權(quán)圖、幀級(jí)加權(quán)圖和區(qū)域級(jí)加權(quán)圖的結(jié)構(gòu)信息來設(shè)定第一約束條件,第二設(shè)定子單元320用于根據(jù)上述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭的軟標(biāo)簽與該視頻鏡頭集中帶標(biāo)簽的視頻鏡頭的代表幀的軟標(biāo)簽以及上述代表幀中的區(qū)域的軟標(biāo)簽之間的關(guān)系來設(shè)定第二約束條件,然后函數(shù)構(gòu)造子單元330用于根據(jù)以上兩種約束條件來構(gòu)造得到代價(jià)函數(shù)。如上所述,該代價(jià)函數(shù)中的未知量為上述視頻鏡頭集中的每個(gè)視頻鏡頭的軟標(biāo)簽、該視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀的軟標(biāo)簽以及該視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀中的每個(gè)區(qū)域的軟標(biāo)簽。

具體地,考慮到上述三種加權(quán)圖的結(jié)構(gòu)信息,可以通過第一設(shè)定子單元310設(shè)定這樣的第一約束條件:令鏡頭級(jí)視覺特征越相似的兩個(gè)視頻鏡頭的軟標(biāo)簽之間的差異越小,令幀級(jí)視覺特征越相似的兩個(gè)代表幀的軟標(biāo)簽之間的差異越小,以及令區(qū)域級(jí)視覺特征越相似的兩個(gè)區(qū)域的軟標(biāo)簽之間的差異越小。

此外,對(duì)于上述視頻鏡頭集中的那些帶標(biāo)簽的視頻鏡頭,可以令帶負(fù)標(biāo)簽的視頻鏡頭的軟標(biāo)簽盡量接近-1,而令帶正標(biāo)簽的視頻鏡頭的軟標(biāo)簽盡量接近1。這是因?yàn)?,帶正?biāo)簽的視頻鏡頭中包含某特定類別的內(nèi)容,而負(fù)標(biāo)簽的視頻鏡頭中則不包含該特定類別的內(nèi)容,因此在令軟標(biāo)簽為-1到1之間的任意實(shí)數(shù)的情況下,軟標(biāo)簽越接近1的視頻鏡頭包含該特定類別的內(nèi)容的可能性越大,而軟標(biāo)簽越接近-1的視頻鏡頭包含該特定類別的內(nèi)容的可能性就越小。例如對(duì)于標(biāo)簽為“非老虎”(也即負(fù)標(biāo)簽)的視頻鏡頭,可以令該視頻鏡頭的軟標(biāo)簽盡量接近-1;相反地,對(duì)于標(biāo)簽為“老虎”(也即正標(biāo)簽)的視頻鏡頭,則可令該視頻鏡頭的軟標(biāo)簽盡量接近1。

對(duì)于上述帶負(fù)標(biāo)簽的視頻鏡頭的代表幀來說,若某個(gè)視頻鏡頭帶負(fù)標(biāo)簽,則表示該視頻鏡頭不包含上述“特定類別的內(nèi)容”,則表明該視頻鏡頭中的任何幀都不包含上述“特定類別的內(nèi)容”,而且該視頻鏡頭中的任何幀中的任何區(qū)域也都不包含上述“特定類別的內(nèi)容”。因此,可以令上述帶負(fù)標(biāo)簽的視頻鏡頭中的每個(gè)代表幀的軟標(biāo)簽盡量接近-1,以及令上述帶負(fù)標(biāo)簽的視頻鏡頭中的每個(gè)代表幀的每個(gè)區(qū)域的軟標(biāo)簽也盡量接近-1。

而對(duì)于上述帶正標(biāo)簽的視頻鏡頭的代表幀及其中的區(qū)域來說,情況稍復(fù)雜一些。

例如,對(duì)于帶正標(biāo)簽的視頻鏡頭的代表幀來說,若某個(gè)視頻鏡頭帶正標(biāo)簽,則表示該視頻鏡頭包含上述“特定類別的內(nèi)容”,也即表明該視頻鏡頭中的至少一個(gè)幀包含了上述“特定類別的內(nèi)容”,但無法確定究竟是其中哪些幀包含了該信息。在僅考慮視頻鏡頭的代表幀的情況下,可以認(rèn)為上述帶正標(biāo)簽的視頻鏡頭中的至少一個(gè)代表幀中包含了上述“特定類別的內(nèi)容”,但無法確定究竟是其中哪些代表幀包含了該信息。若某視頻鏡頭帶正標(biāo)簽,可以僅考慮該視頻鏡頭中的具有最大軟標(biāo)簽的代表幀,使該代表幀的軟標(biāo)簽盡量地接近該視頻鏡頭的軟標(biāo)簽。這樣,便將鏡頭級(jí)加權(quán)圖與幀級(jí)加權(quán)圖相互關(guān)聯(lián)起來。

此外,如上所述,在認(rèn)為上述帶正標(biāo)簽的視頻鏡頭中的至少一個(gè)代表幀中包含了上述“特定類別的內(nèi)容”的情況下,則該“至少一個(gè)代表幀”中的每個(gè)代表幀中分別至少存在一個(gè)區(qū)域包含上述“特定類別的內(nèi)容”。針對(duì)上述“至少一個(gè)代表幀”中的每個(gè)代表幀,可以僅考慮該代表幀中的具有最大軟標(biāo)簽的區(qū)域,使該區(qū)域的軟標(biāo)簽盡量地接近該代表幀(也即,該區(qū)域所屬代表幀)的軟標(biāo)簽。這樣,便將幀級(jí)加權(quán)圖與區(qū)域級(jí)加權(quán)圖相互關(guān)聯(lián)起來。

此外,需要說明的是,通常,無法獲知帶正標(biāo)簽的視頻鏡頭中哪些幀是正的(也即,哪些幀是包含上述“特定類別的內(nèi)容”的)。因此,可以根據(jù)一定的準(zhǔn)則選出一些可能是正例的幀(也即,可能包含上述“特定類別的內(nèi)容”的幀,以下簡(jiǎn)稱“可能的正幀”)。例如,上述可能的正幀可以是軟標(biāo)簽的值高于第五預(yù)設(shè)閾值的那些代表幀,也可以是其中包含有軟標(biāo)簽的值高于第六預(yù)設(shè)閾值的區(qū)域的那些代表幀。

由此,可以通過第二設(shè)定子單元320設(shè)定這樣的第二約束條件:令帶負(fù)標(biāo)簽的視頻鏡頭的軟標(biāo)簽、帶負(fù)標(biāo)簽的視頻鏡頭中所有代表幀的軟標(biāo)簽以及帶負(fù)標(biāo)簽的視頻鏡頭中所有代表幀的所有區(qū)域的軟標(biāo)簽盡量接近-1,令帶正標(biāo)簽的視頻鏡頭的軟標(biāo)簽盡量接近1,令帶正標(biāo)簽的視頻鏡頭中具有最大軟標(biāo)簽的代表幀的軟標(biāo)簽盡量接近該代表幀所屬視頻鏡頭的軟標(biāo)簽,以及令帶正標(biāo)簽的視頻鏡頭中的每個(gè)可能的正幀中具有最大軟標(biāo)簽的區(qū)域的軟標(biāo)簽盡量接近該區(qū)域所屬代表幀的軟標(biāo)簽。

根據(jù)以上兩種約束條件,則可以通過函數(shù)構(gòu)造子單元330來構(gòu)造上述代價(jià)函數(shù)。例如,函數(shù)構(gòu)造子單元330根據(jù)以上兩種約束條件可以構(gòu)造得到如下的代價(jià)函數(shù):

表達(dá)式一:

Q(fS,fF,fR)]]>

=12Σg,hWghS(fgS/dgS-fhS/dhS)2+μGF2Σi,jWijF(fiF/diF-fjF/djF)2]]>

+μGR2Σk,lWklR(fkR/dkR-flR/dlR)2+μ-SΣSg∈S-H1(fgS,-1)]]>

+μ-FΣFi∈F-H1(fiF,-1)+μ-RΣRk∈R-H1(fkR,-1)+μ+SΣSg∈S+H2(fgS,1)]]>

+μ+FΣSg∈S+H2(maxFi∈SgfiF,fgS)+μ+RΣFi∈C+H2(maxRl∈FiflR,fiF)]]>

其中,和分別表示上述視頻鏡頭集中的第g個(gè)和第h個(gè)視頻鏡頭的軟標(biāo)簽,其中,g=1,2,...,L,h=1,2,...,L,L為視頻鏡頭集中包括的視頻鏡頭的數(shù)量。和分別表示上述視頻鏡頭集中的所有視頻鏡頭的所有代表幀中的第i個(gè)和第j個(gè)代表幀的軟標(biāo)簽,其中,i=1,2,...,M,j=1,2,...,M,M為上述視頻鏡頭集中的所有視頻鏡頭所包括的代表幀的數(shù)量。和分別表示上述視頻鏡頭集中的所有視頻鏡頭的所有代表幀所包括的所有區(qū)域中的第k個(gè)和第l個(gè)區(qū)域的軟標(biāo)簽,其中,k=1,2,...,N,l=1,2,...,N,N為上述視頻鏡頭集中的所有視頻鏡頭的所有代表幀所包括的區(qū)域的數(shù)量。此外,fS表示由上述視頻鏡頭集中的所有視頻鏡頭的軟標(biāo)簽所組成的向量,fF表示由上述視頻鏡頭集中的所有視頻鏡頭的所有代表幀的軟標(biāo)簽所組成的向量,fR表示由上述視頻鏡頭集中的所有視頻鏡頭的所有代表幀中的所有區(qū)域的軟標(biāo)簽所組成的向量。表示視頻鏡頭集中的第g個(gè)視頻鏡頭和第h個(gè)視頻鏡頭分別在鏡頭級(jí)加權(quán)圖中所對(duì)應(yīng)的節(jié)點(diǎn)之間的加權(quán)邊的權(quán)值,WS表示由鏡頭級(jí)加權(quán)圖中的所有加權(quán)邊的權(quán)值所組成的矩陣,也即,是WS的第g行、第h列元素,此外,和分別表示W(wǎng)S的第g行所有元素之和以及第h行所有元素之和。表示上述視頻鏡頭集中所有視頻鏡頭的所有代表幀中的第i個(gè)代表幀和第j個(gè)代表幀分別在幀級(jí)加權(quán)圖中所對(duì)應(yīng)的節(jié)點(diǎn)之間的加權(quán)邊的權(quán)值,WF表示由幀級(jí)加權(quán)圖中的所有加權(quán)邊的權(quán)值所組成的矩陣,也即,是WF的第i行、第j列元素,此外,和分別表示W(wǎng)F的第i行所有元素之和以及第j行所有元素之和。類似地,表示上述視頻鏡頭集中的所有視頻鏡頭的所有代表幀所包括的所有區(qū)域中的第k個(gè)區(qū)域和第l個(gè)區(qū)域分別在區(qū)域級(jí)加權(quán)圖中所對(duì)應(yīng)的節(jié)點(diǎn)之間的加權(quán)邊的權(quán)值,WR表示由區(qū)域級(jí)加權(quán)圖中的所有加權(quán)邊的權(quán)值所組成的矩陣,也即,是WR的第k行、第l列元素,此外,和分別表示W(wǎng)R的第k行所有元素之和以及第l行所有元素之和。

此外,在上述表達(dá)式一中,Sg表示視頻鏡頭集中的第g個(gè)視頻鏡頭,S+和S-分別表示視頻鏡頭集中的正例視頻鏡頭集合和負(fù)例視頻鏡頭集合,F(xiàn)i表示視頻鏡頭集中所有視頻鏡頭的所有代表幀中的第i個(gè)代表幀,F(xiàn)-表示視頻鏡頭集中的負(fù)例視頻鏡頭集中的所有代表幀的集合,Rk表示視頻鏡頭集中所有視頻鏡頭的所有代表幀的所有區(qū)域中的第k個(gè)區(qū)域,R-表示視頻鏡頭集中的負(fù)例視頻鏡頭集中的所有代表幀的所有區(qū)域的集合,C+是視頻鏡頭集中的所有視頻鏡頭所包含的所有代表幀中的可能的正幀的集合,H1(x,y)和H2(x,y)為度量?jī)蓚€(gè)量之間的不一致性(也即,x和y之間的不一致性)的函數(shù),可以采用的一種形式為H1(x,y)=(max(x-y,0))2和H2(x,y)=(max(y-x,0))2。此外,和分別為式中各對(duì)應(yīng)代價(jià)項(xiàng)的加權(quán)系數(shù),其值可分別根據(jù)經(jīng)驗(yàn)值或通過試驗(yàn)的方式而預(yù)先設(shè)定。

其中,在上述表達(dá)式一中,前三項(xiàng)是第一約束條件在該代價(jià)函數(shù)中所對(duì)應(yīng)的代價(jià)項(xiàng),后四項(xiàng)則是第二約束條件在該代價(jià)函數(shù)中所對(duì)應(yīng)的代價(jià)項(xiàng)。此外,公式中所出現(xiàn)的上角標(biāo)“S”代表視頻鏡頭,上角標(biāo)“F”代表幀,上角標(biāo)“R”代表區(qū)域。

需要說明的是,以上所給出的代價(jià)函數(shù)的具體公式只是代價(jià)函數(shù)的一個(gè)示例性表達(dá)式,而不作為對(duì)本發(fā)明的范圍的限制。例如,上文中所給出的代價(jià)函數(shù)的表達(dá)式也可以是:

表達(dá)式二:

Q(fS,fF,fR)]]>

=12Σg,hWghS(fgS-fhS)2+μGF2Σi,jWijF(fiF-fjF)2]]>

+μGR2Σk,lWklR(fkR-flR)2+μ-SΣSg∈S-H1(fgS,-1)]]>

+μ-FΣFi∈F-H1(fiF,-1)+μ-RΣRk∈R-H1(fkR,-1)+μ+SΣSg∈S+H2(fgS,1)]]>

+μ+FΣSg∈S+H2(maxFi∈SgfiF,fgS)+μ+RΣFi∈C+H2(maxRl∈FiflR,fiF)]]>

其中,與表達(dá)式一相比,表達(dá)式二去掉了表達(dá)式一中的第一項(xiàng)中的和第二項(xiàng)中的和和第三項(xiàng)中的和

此外,代價(jià)函數(shù)的表達(dá)式還可以具有其他的變形,例如,在上述表達(dá)式一和表達(dá)式二中,其中的H1(x,y)和H2(x,y)的具體表達(dá)形式也可以是:H1(x,y)=(x-y)2和H2(x,y)=(x-y)2,等等。此外,本領(lǐng)域的技術(shù)人員根據(jù)以上公開內(nèi)容以及/或結(jié)合公知常識(shí)所得到的上述公式的變形、改進(jìn)或其他表達(dá)形式都應(yīng)包含在本發(fā)明的范圍內(nèi)。

接下來,為了根據(jù)所構(gòu)造的代價(jià)函數(shù)來計(jì)算獲得其中的未知量,也即為了獲得上述視頻鏡頭集中的每個(gè)視頻鏡頭的軟標(biāo)簽的值、上述視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀的軟標(biāo)簽的值以及上述視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀中的每個(gè)區(qū)域的軟標(biāo)簽的值,可以通過計(jì)算單元150來求解該代價(jià)函數(shù)的最優(yōu)問題。具體地,可以通過如圖4所示的結(jié)構(gòu)來實(shí)現(xiàn)計(jì)算單元150的功能和操作。

圖4是示意性地示出圖1中的計(jì)算單元150的一種可能的示例結(jié)構(gòu)的框圖。如圖4所示,計(jì)算單元150可以包括初始化子單元410、第三計(jì)算子單元420、第四計(jì)算子單元430、第五計(jì)算子單元440以及第三判定子單元450。通過如圖4所示的示例結(jié)構(gòu),計(jì)算單元150可以采用一種迭代的計(jì)算方法來對(duì)上述最優(yōu)問題進(jìn)行求解,也即,通過對(duì)fS和fF賦初值,來利用上述代價(jià)函數(shù)進(jìn)行迭代計(jì)算,最終獲得fR、fF和fS的值。下面將詳細(xì)描述如圖4所示的計(jì)算單元150的各子單元的具體功能和處理。

如圖4所示,初始化子單元410用于對(duì)視頻鏡頭集中各視頻鏡頭的軟標(biāo)簽fS以及視頻鏡頭集中各視頻鏡頭中的各代表幀的軟標(biāo)簽fF賦初值。

例如,初始化子單元410可以這樣來設(shè)置視頻鏡頭集中各視頻鏡頭的軟標(biāo)簽的初始值fS(0):如果Sg是帶正標(biāo)簽的視頻鏡頭,則令如果Sg是帶負(fù)標(biāo)簽的視頻鏡頭,則令此外,如果Sg是不帶標(biāo)簽的視頻鏡頭,則令

類似地,可以通過初始化子單元410來這樣設(shè)置視頻鏡頭集中各視頻鏡頭中的各代表幀的軟標(biāo)簽的初始值fF(0):如果Fi是帶正標(biāo)簽的視頻鏡頭中的代表幀,則令如果Fi是帶負(fù)標(biāo)簽的視頻鏡頭中的代表幀,則令此外,如果Fi是不帶標(biāo)簽的視頻鏡頭中的代表幀,則令

如圖4所示,第三計(jì)算子單元420用于根據(jù)視頻鏡頭集中各視頻鏡頭的軟標(biāo)簽fS的當(dāng)前值,以及根據(jù)視頻鏡頭集中各視頻鏡頭中的各代表幀的軟標(biāo)簽fF的當(dāng)前值,將代價(jià)函數(shù)轉(zhuǎn)化為帶約束的最小化問題,并利用帶約束的凹凸過程(constrainedconcaveconvexprocedure,CCCP)來求解該帶約束的最小化問題,以獲得視頻鏡頭集中各視頻鏡頭中的各代表幀的各區(qū)域的軟標(biāo)簽fR的計(jì)算值,來作為fR的當(dāng)前值。

例如,在首次計(jì)算時(shí),fS和fF的當(dāng)前值即是它們的初始值,根據(jù)fS和fF的當(dāng)前值可以將形如表達(dá)式一的代價(jià)函數(shù)可以簡(jiǎn)化為下式,

表達(dá)式一一:

Q(fR)]]>

=μGR2Σk,lWklR(fkR/dkR-flR/dlR)2+μ-RΣRk∈R-H1(fkR,-1)]]>

+μ+RΣFi∈C+H2(maxRl∈FiflR,fiF)]]>

其中,表達(dá)式一一中的各量的含義與表達(dá)式一中的相同。此外,在表達(dá)式一一中,上述視頻鏡頭集中的所有視頻鏡頭所包含的所有代表幀中的可能的正幀的集合C+可以這樣定義:其中,THF即上文所述的第五預(yù)設(shè)閾值,且THF的值可以根據(jù)下式來確定:

THF=max{t|?Sg∈S+,?Fi∈Sg,fiF≥t}=minSg∈S+maxFi∈SgfiF.]]>

通過引入松弛因子將形如表達(dá)式一一的代價(jià)函數(shù)轉(zhuǎn)化為帶約束的最小化問題,則可以使用CCCP求解該優(yōu)化問題。關(guān)于CCCP的詳細(xì)說明,可以參見文獻(xiàn)A.J.Smola,S.V.N.Vishwanathan,andT.Hofmann,“KernelMethodsforMissingVariables,”inProc.Int.WorkshoponArtificialIntelligenceandStatistics,2005。

這樣,第三計(jì)算子單元420通過利用fS和fF的當(dāng)前值以及代價(jià)函數(shù),可以通過上述方式獲得fR的計(jì)算值來作為fR的當(dāng)前值。

如圖4所示,第四計(jì)算子單元430可以根據(jù)視頻鏡頭集中各視頻鏡頭的軟標(biāo)簽fS的當(dāng)前值,以及根據(jù)視頻鏡頭集中各視頻鏡頭中的各代表幀的各區(qū)域的軟標(biāo)簽fR的當(dāng)前值,將代價(jià)函數(shù)轉(zhuǎn)化為帶約束的最小化問題,并利用CCCP來求解該帶約束的最小化問題,以獲得視頻鏡頭集中各視頻鏡頭中的各代表幀的軟標(biāo)簽fF的計(jì)算值,來作為fF的當(dāng)前值。

具體地,在視頻鏡頭的軟標(biāo)簽fS和區(qū)域的軟標(biāo)簽fR確定的情況下,可以將形如表達(dá)式一的代價(jià)函數(shù)簡(jiǎn)化為:

表達(dá)式一二:

Q(fF)]]>

=μGF2Σi,jWijF(fiF/diF-fjF/djF)2+μ-FΣFi∈F-H1(fiF,-1)]]>

+μ+FΣSg∈S+H2(maxFi∈SgfiF,fgS)+μ+RΣFi∈C+H2(maxRl∈FiflR,fiF)]]>

其中,表達(dá)式一二中的各量的含義與表達(dá)式一中的相同。此外,在表達(dá)式一二中,上述視頻鏡頭集中的所有視頻鏡頭所包含的所有代表幀中的可能的正幀的集合C+可以這樣定義:其中,THR即上文所述的第六預(yù)設(shè)閾值,且THR的值可以根據(jù)下式來確定:

THR=max{t|?Sg∈S+,?Rk∈Sg,fkR≥t}=minSg∈S+maxRk∈SgfjR.]]>

同樣地,通過引入松弛因子將形如表達(dá)式一二的代價(jià)函數(shù)轉(zhuǎn)化為帶約束的最小化問題,可以使用帶約束的凹凸過程求解該帶約束的最小化問題。

這樣,第四計(jì)算子單元430通過利用fS和fR的當(dāng)前值以及代價(jià)函數(shù),可以通過上述方式獲得fF的計(jì)算值來作為fF的當(dāng)前值。

如圖4所示,第五計(jì)算子單元440可以根據(jù)視頻鏡頭集中各視頻鏡頭中的各代表幀的軟標(biāo)簽fF的當(dāng)前值,以及根據(jù)視頻鏡頭集中各視頻鏡頭中的各代表幀的各區(qū)域的軟標(biāo)簽fR的當(dāng)前值,直接利用代價(jià)函數(shù)進(jìn)行計(jì)算即可獲得視頻鏡頭集中各視頻鏡頭的軟標(biāo)簽fS的計(jì)算值,來作為fS的當(dāng)前值。

具體地,在代表幀的軟標(biāo)簽fF和區(qū)域的軟標(biāo)簽fR確定的情況下,可以將形如表達(dá)式一的代價(jià)函數(shù)簡(jiǎn)化為:

表達(dá)式一三:

Q(fS)]]>

=12Σg,hWghS(fgS/dgS-fhS/dhS)2+μ-SΣSg∈S-H1(fgS,-1)]]>

+μ+SΣSg∈S+H2(fgS,1)+μ+FΣSg∈S+H2(maxFi∈SgfiF,fgS)]]>

其中,表達(dá)式一三中的各量的含義與表達(dá)式一中的相同。根據(jù)表達(dá)式一三,第五計(jì)算子單元440可以直接求解得到fS的值來作為fS的當(dāng)前值。

如圖4所示,第三判定子單元450用于在每次第三計(jì)算子單元420、第四計(jì)算子單元430和第五計(jì)算子單元440分別依次執(zhí)行完一次計(jì)算之后,判斷fR、fF和fS的當(dāng)前計(jì)算結(jié)果是否收斂:若是,則將fR、fF和fS的當(dāng)前計(jì)算結(jié)果作為以上所述的代價(jià)函數(shù)中的未知量的計(jì)算值保留;否則,則再次利用第三計(jì)算子單元420、第四計(jì)算子單元430和第五計(jì)算子單元440分別進(jìn)行下一次迭代計(jì)算,以及再利用第三判定子單元450進(jìn)行判斷,等等,如此反復(fù)進(jìn)行迭代計(jì)算,直至第三判定子單元450判定fR、fF和fS的當(dāng)前計(jì)算結(jié)果是收斂的為止。

如上所述,通過預(yù)處理單元110、特征提取單元120、加權(quán)圖建立單元130、函數(shù)構(gòu)造單元140以及計(jì)算單元150的處理,可以獲得上述視頻鏡頭集中的每個(gè)視頻鏡頭、每個(gè)代表幀以及每個(gè)區(qū)域的軟標(biāo)簽的計(jì)算值,進(jìn)而視頻處理單元160可以根據(jù)所獲得這些計(jì)算值來進(jìn)行視頻處理。

其中,視頻處理單元160所執(zhí)行的視頻處理可以是各種能夠利用上述軟標(biāo)簽來執(zhí)行操作的處理。

例如,在根據(jù)本發(fā)明的實(shí)施例的視頻處理裝置的一個(gè)應(yīng)用示例中,上述的“視頻處理”可以是視頻檢索,也即,上述視頻處理裝置可以是視頻檢索裝置。

一般而言,為了檢索到所需的視頻鏡頭,用戶向檢索系統(tǒng)提供一些帶標(biāo)簽的訓(xùn)練視頻鏡頭來作為查詢視頻鏡頭。這項(xiàng)技術(shù)可以應(yīng)用于人們?nèi)粘I畹脑S多方面,例如數(shù)字視頻圖書館、個(gè)人錄像及視頻管理、在線影視網(wǎng)站等等。

在該示例中,用戶所提供的查詢視頻鏡頭的數(shù)量可以是一個(gè),也可以是多個(gè)。當(dāng)查詢視頻鏡頭的數(shù)量是一個(gè)時(shí),該查詢視頻鏡頭是帶正標(biāo)簽的視頻鏡頭。當(dāng)查詢視頻鏡頭的數(shù)量是多個(gè)時(shí),這些查詢視頻鏡頭可以全部是帶正標(biāo)簽的視頻鏡頭,也可以是帶正標(biāo)簽的視頻鏡頭和帶負(fù)標(biāo)簽的視頻鏡頭的組合。其中,在查詢視頻鏡頭本身僅包括一幀圖像的特例情況下,查詢視頻鏡頭即為查詢圖像,則對(duì)于查詢視頻鏡頭所提取的代表幀即是該查詢圖像本身。

如上所述,通過預(yù)處理單元110、特征提取單元120、加權(quán)圖建立單元130、函數(shù)構(gòu)造單元140以及計(jì)算單元150的一系列處理操作,可以獲得視頻鏡頭集中的每個(gè)視頻鏡頭的軟標(biāo)簽、該視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀的軟標(biāo)簽以及該視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀的每個(gè)區(qū)域的軟標(biāo)簽的計(jì)算值,由此,利用這些軟標(biāo)簽的計(jì)算值,視頻處理單元160可以確定視頻鏡頭集中的視頻鏡頭(除了查詢視頻鏡頭之外的那些視頻鏡頭)和查詢視頻鏡頭之間的相似度,進(jìn)而可以將其中那些與查詢視頻鏡頭之間的相似度在預(yù)定范圍內(nèi)的視頻鏡頭判定為視頻檢索的結(jié)果(也即,檢索結(jié)果)。

例如,在一個(gè)例子中,視頻處理單元160可以將滿足以下條件的視頻鏡頭判定為視頻檢索的結(jié)果:該視頻鏡頭本身的軟標(biāo)簽高于第一預(yù)設(shè)閾值,且該視頻鏡頭中的具有最大軟標(biāo)簽的代表幀的軟標(biāo)簽高于第二預(yù)設(shè)閾值,以及該視頻鏡頭中的上述具有最大軟標(biāo)簽的代表幀中的、具有最大軟標(biāo)簽的區(qū)域的軟標(biāo)簽高于第三預(yù)設(shè)閾值。其中,第一、第二和第三預(yù)設(shè)閾值的取值可以相同,也可以不同。例如,視頻處理單元160可以將最后計(jì)算結(jié)果中的視頻鏡頭的軟標(biāo)簽高于0.8、其中的具有最大軟標(biāo)簽的代表幀的軟標(biāo)簽高于0.75并且該代表幀中的具有最大軟標(biāo)簽的區(qū)域的軟標(biāo)簽高于0.7的那部分視頻鏡頭確定為檢索結(jié)果。

在另一個(gè)例子中,視頻處理單元160可以滿足如下條件的視頻鏡頭判定為視頻檢索的結(jié)果:視頻鏡頭的軟標(biāo)簽、視頻鏡頭中具有最大軟標(biāo)簽的代表幀的軟標(biāo)簽以及該具有最大軟標(biāo)簽的代表幀中的具有最大軟標(biāo)簽的區(qū)域的軟標(biāo)簽的加權(quán)和最大的前N個(gè)視頻鏡頭,其中,N為正整數(shù)。例如,該加權(quán)和的表達(dá)式可以是:αfgS+βmaxFi∈SgfiF+(1-α-β)maxRk∈Fi0fkR.]]>也即,針對(duì)每個(gè)視頻鏡頭Sg(g=1,2,...,L),都可以根據(jù)上式算出一個(gè)對(duì)應(yīng)的加權(quán)和的值,選取其中的最大的前N個(gè)加權(quán)和所對(duì)應(yīng)的視頻鏡頭,來作為最終的檢索結(jié)果。其中,表示的是視頻鏡頭Sg中的具有最大軟標(biāo)簽的那個(gè)代表幀的軟標(biāo)簽的值,F(xiàn)i0表示視頻鏡頭Sg中的具有最大軟標(biāo)簽的代表幀,而則表示上述視頻鏡頭Sg中的具有最大軟標(biāo)簽的代表幀F(xiàn)i0中的具有最大軟標(biāo)簽的那個(gè)區(qū)域的軟標(biāo)簽的值。此外,α和β是線性組合系數(shù),且0<α<1,0<β<1,0<α+β<1。

此外,視頻處理單元160可以按照以下任一種順序?qū)z索結(jié)果輸出給用戶:按照檢索結(jié)果所對(duì)應(yīng)的視頻鏡頭的軟標(biāo)簽的大小順序;或者按照檢索結(jié)果所對(duì)應(yīng)的視頻鏡頭中的具有最大軟標(biāo)簽的代表幀的軟標(biāo)簽的大小順序;或者按照檢索結(jié)果所對(duì)應(yīng)的視頻鏡頭中的具有最大軟標(biāo)簽的代表幀中的、具有最大軟標(biāo)簽的區(qū)域的軟標(biāo)簽的大小順序;或者按照檢索結(jié)果所對(duì)應(yīng)的視頻鏡頭的軟標(biāo)簽、視頻鏡頭中具有最大軟標(biāo)簽的代表幀的軟標(biāo)簽和該代表幀中具有最大軟標(biāo)簽的區(qū)域的軟標(biāo)簽的三者加權(quán)和的大小順序。

在該示例中,視頻處理裝置根據(jù)用戶所提供的查詢視頻鏡頭及其標(biāo)簽信息,利用鏡頭級(jí)加權(quán)圖、幀級(jí)加權(quán)圖和區(qū)域級(jí)加權(quán)圖三種加權(quán)圖的結(jié)構(gòu)特征以及三者之間的聯(lián)系,獲得了視頻鏡頭集中每個(gè)視頻鏡頭以及每個(gè)視頻鏡頭的每個(gè)代表幀和每個(gè)區(qū)域的軟標(biāo)簽,進(jìn)而根據(jù)這些軟標(biāo)簽來確定該視頻鏡頭集中除了查詢視頻鏡頭之外的那些視頻鏡頭中的每一個(gè)與查詢視頻鏡頭之間的相關(guān)性(或相似度),從而將其中與查詢視頻鏡頭最相關(guān)(或最相似)的那些視頻鏡頭確定為檢索的結(jié)果。與現(xiàn)有的視頻檢索技術(shù)相比,根據(jù)本發(fā)明的實(shí)施例的視頻處理裝置能夠同時(shí)利用鏡頭級(jí)加權(quán)圖、幀級(jí)加權(quán)圖和區(qū)域級(jí)加權(quán)圖三種加權(quán)圖來實(shí)現(xiàn)視頻檢索,充分挖掘了以上三種加權(quán)圖之間的聯(lián)系,并且能夠利用上帶標(biāo)簽的視頻鏡頭和不帶標(biāo)簽的視頻鏡頭,而不會(huì)受到帶標(biāo)簽的視頻鏡頭資源有限這個(gè)問題的影響,因此能夠獲得更好的視頻處理效果,也即,能夠得到更準(zhǔn)確的檢索結(jié)果。

此外,在根據(jù)本發(fā)明的實(shí)施例的視頻處理裝置的另一個(gè)應(yīng)用示例中,上述的“視頻處理”也可以是視頻概念檢測(cè),也即,上述視頻處理裝置可以是視頻概念檢測(cè)裝置。

一般而言,視頻概念檢測(cè)的目的是為了確定待測(cè)視頻鏡頭中是否包含(或者在多大的程度上包含)某些給定的語義概念。這項(xiàng)技術(shù)可以應(yīng)用于人們?nèi)粘I畹脑S多方面,例如視頻圖書館、家庭視頻管理、視頻點(diǎn)播等等。

在該示例中,待測(cè)視頻鏡頭為不帶標(biāo)簽的視頻鏡頭,其可以包含在上述的視頻鏡頭集中,也可以不包含在該視頻鏡頭集中。其中,待測(cè)視頻鏡頭的數(shù)量可以是一個(gè),也可以是多個(gè)。此外,如上所述,該示例中的視頻鏡頭集中的至少部分視頻鏡頭是帶標(biāo)簽的視頻鏡頭,這是為了確定待測(cè)視頻鏡頭是否包含與視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭相關(guān)的語義概念。

與前述示例相類似地,通過預(yù)處理單元110、特征提取單元120、加權(quán)圖建立單元130、函數(shù)構(gòu)造單元140以及計(jì)算單元150的一系列處理操作,可以獲得視頻鏡頭集中的每個(gè)視頻鏡頭的軟標(biāo)簽的計(jì)算值以及該視頻鏡頭集中的每個(gè)代表幀、每個(gè)代表幀的每個(gè)區(qū)域的軟標(biāo)簽的計(jì)算值,由此,利用這些軟標(biāo)簽的計(jì)算值,視頻處理單元160可以確定待測(cè)視頻鏡頭是否包含有上述語義概念,也即,是否包含與視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭相關(guān)的語義概念。例如,在上述視頻鏡頭集包含帶正標(biāo)簽的視頻鏡頭和帶負(fù)標(biāo)簽的視頻鏡頭、并且?guī)д龢?biāo)簽的視頻鏡頭是標(biāo)簽為“老虎”的視頻鏡頭以及帶負(fù)標(biāo)簽的視頻鏡頭是標(biāo)簽為“非老虎”的視頻鏡頭的情況下,則容易知道,“與視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭相關(guān)的語義概念”即“老虎”,也即,視頻處理單元160需要判斷待測(cè)視頻鏡頭的內(nèi)容中是否包含老虎。具體地,視頻處理單元160的功能和處理可以通過如圖5所示的結(jié)構(gòu)來實(shí)現(xiàn)。

圖5是示意性地示出該應(yīng)用示例中、如圖1所示的視頻處理單元160的一種可能的示例結(jié)構(gòu)的框圖。如圖5所示,視頻處理單元160可以包括第一判定子單元510、第一計(jì)算子單元520、第二計(jì)算子單元530和第二判定子單元540。

為了判斷待測(cè)視頻鏡頭中是否包含“與視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭相關(guān)的語義概念”,首先可以通過第一判定子單元510來判斷該待測(cè)視頻鏡頭是否包括在上述視頻鏡頭集中,然后可以分兩種情況來描述接下來的計(jì)算處理。

在第一種情況下、也即在待測(cè)視頻鏡頭未包括在上述視頻鏡頭集中的情況下,可以通過第一計(jì)算子單元520首先提取該待測(cè)視頻鏡頭的至少一個(gè)代表幀,然后,對(duì)所提取的待測(cè)視頻鏡頭的每個(gè)代表幀進(jìn)行圖像分割,分別得到每個(gè)代表幀的多個(gè)區(qū)域,進(jìn)而可以根據(jù)計(jì)算單元150所獲得的結(jié)果(也即,視頻鏡頭集中的各個(gè)視頻鏡頭、各視頻鏡頭的各個(gè)代表幀、各代表幀的各區(qū)域的軟標(biāo)簽的計(jì)算值),來獲得待測(cè)視頻鏡頭的軟標(biāo)簽的計(jì)算值、待測(cè)視頻鏡頭中的每個(gè)代表幀的軟標(biāo)簽的計(jì)算值以及待測(cè)視頻鏡頭中的每個(gè)代表幀的每個(gè)區(qū)域的軟標(biāo)簽的計(jì)算值(具體計(jì)算過程將在下文中描述)。然后,根據(jù)待測(cè)視頻鏡頭以及其中各代表幀、各區(qū)域的軟標(biāo)簽的計(jì)算值,可以通過第二計(jì)算子單元530來計(jì)算待測(cè)視頻鏡頭包含與上述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念的程度值。

其中,在這種情況下,可以根據(jù)如下的表達(dá)式三至五來計(jì)算待測(cè)視頻鏡頭的軟標(biāo)簽以及其中各代表幀、各區(qū)域的軟標(biāo)簽:

表達(dá)式三:

fS(St)=Σg[fgSWS(St,Sg)/dgS]ΣgWS(St,Sg)/dtS=dtSΣg[fgSWS(St,Sg)/dgS]ΣgWS(St,Sg)]]>

表達(dá)式四:

fF(Ft)=Σi[fiFWF(Ft,Fi)/diF]ΣiWF(Ft,Fi)/dtF=dtFΣi[fiFWF(Ft,Fi)/diF]ΣiWF(Ft,Fi)]]>

表達(dá)式五:

fR(Rt)=Σk[fkRWR(Rt,Rk)/dkR]ΣkWR(Rt,Rk)/dtR=dtRΣk[fkRWR(Rt,Rk)/dkR]ΣkWR(Rt,Rk)]]>

其中,St表示待測(cè)視頻鏡頭,F(xiàn)t表示待測(cè)視頻鏡頭中的某個(gè)代表幀,Rt表示待測(cè)視頻鏡頭中的某個(gè)代表幀中的某個(gè)區(qū)域,fS(St)表示待測(cè)視頻鏡頭的軟標(biāo)簽,fF(Ft)表示待測(cè)視頻鏡頭中的某個(gè)代表幀F(xiàn)t的軟標(biāo)簽,fR(Rt)表示待測(cè)視頻鏡頭的某個(gè)代表幀F(xiàn)t中的某個(gè)區(qū)域Rt的軟標(biāo)簽,Sg、Fi及Rk與上文中所描述的含義相同。WS(St,Sg)為待測(cè)視頻鏡頭St與視頻鏡頭集中的第g個(gè)視頻鏡頭Sg之間的基于鏡頭級(jí)視覺特征的相似度,為視頻鏡頭集中的第g個(gè)視頻鏡頭Sg與鏡頭級(jí)加權(quán)圖中所有節(jié)點(diǎn)所對(duì)應(yīng)的視頻鏡頭的相似度之和,為待測(cè)視頻鏡頭與鏡頭級(jí)加權(quán)圖中所有節(jié)點(diǎn)所對(duì)應(yīng)的視頻鏡頭的相似度之和。WF(Ft,F(xiàn)i)為待測(cè)視頻鏡頭中的某個(gè)代表幀F(xiàn)t與視頻鏡頭集中的所有視頻鏡頭的所有代表幀中的第i個(gè)代表幀F(xiàn)i之間的基于幀級(jí)視覺特征的相似度,為上述第i個(gè)代表幀F(xiàn)i與幀級(jí)加權(quán)圖中所有節(jié)點(diǎn)所對(duì)應(yīng)的代表幀的相似度之和,為待測(cè)視頻鏡頭中的某個(gè)代表幀F(xiàn)t與幀級(jí)加權(quán)圖中所有節(jié)點(diǎn)所對(duì)應(yīng)的代表幀的相似度之和。WR(Rt,Rk)為待測(cè)視頻鏡頭中的某個(gè)代表幀F(xiàn)t中的某個(gè)區(qū)域Rt與視頻鏡頭集中的所有視頻鏡頭的所有代表幀中所包含的所有區(qū)域中的第k個(gè)區(qū)域Rk之間的基于區(qū)域級(jí)視覺特征的相似度,為上述第k個(gè)區(qū)域Rk與區(qū)域級(jí)加權(quán)圖中所有節(jié)點(diǎn)所對(duì)應(yīng)的區(qū)域的相似度之和,為待測(cè)視頻鏡頭中的某個(gè)代表幀F(xiàn)t中的某個(gè)區(qū)域Rt與區(qū)域級(jí)加權(quán)圖中所有節(jié)點(diǎn)所對(duì)應(yīng)的區(qū)域的相似度之和。

此外,在另一種實(shí)現(xiàn)方式中,也可以根據(jù)如下的表達(dá)式六至八來計(jì)算待測(cè)視頻鏡頭的軟標(biāo)簽以及其中各代表幀、各區(qū)域的軟標(biāo)簽:

表達(dá)式六:

fS(St)=ΣgfgSWS(St,Sg)ΣgWS(St,Sg)]]>

表達(dá)式七:

fF(Ft)=ΣifiFWF(Ft,Fi)ΣiWF(Ft,Fi)]]>

表達(dá)式八:

fR(Rt)=ΣkfkRWR(Rt,Rk)ΣkWR(Rt,Rk)]]>

需要說明的是,當(dāng)利用上文中所描述的表達(dá)式一來構(gòu)造代價(jià)函數(shù)時(shí),可以利用表達(dá)式三至五來計(jì)算待測(cè)視頻鏡頭的軟標(biāo)簽以及其中各代表幀、各區(qū)域的軟標(biāo)簽;類似地,當(dāng)利用上文中所描述的表達(dá)式二來構(gòu)造代價(jià)函數(shù)時(shí),則可以利用表達(dá)式六至八來計(jì)算待測(cè)視頻鏡頭的軟標(biāo)簽以及其中各代表幀、各區(qū)域的軟標(biāo)簽。

在第二種情況下、也即在待測(cè)視頻鏡頭包括在上述視頻鏡頭集中的情況下,則通過計(jì)算單元150的計(jì)算已經(jīng)獲得了待測(cè)視頻鏡頭的軟標(biāo)簽的計(jì)算值以及待測(cè)視頻鏡頭中的各代表幀、各區(qū)域的軟標(biāo)簽的計(jì)算值,因此可以直接通過第二計(jì)算子單元530以上文中所描述的方式來計(jì)算待測(cè)視頻鏡頭包含與上述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念的程度值。

其中,上述兩種情況下可以利用下式來計(jì)算待測(cè)視頻鏡頭包含與上述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念的程度值:αfgS+βmaxFi∈SgfiF+(1-α-β)maxRk∈Fi0fkR.]]>其中,式中參數(shù)與上文中定義相同,這里不再贅述。

由此,在該示例中,通過第一判定子單元510、第一計(jì)算子單元520以及第二計(jì)算子單元530可以獲得待測(cè)視頻鏡頭包含與上述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念的程度值。例如,在正標(biāo)簽為“老虎”的情況下,通過這三個(gè)子單元510-530,可以確定待測(cè)視頻鏡頭的內(nèi)容中包含老虎的程度有多大。

然后,若上述程度值大于或等于第四預(yù)設(shè)閾值(例如第四預(yù)設(shè)閾值為0.75),則第二判定子單元540可以判定該待測(cè)視頻鏡頭的內(nèi)容中包含“與上述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念”。若上述程度值小于第四預(yù)設(shè)閾值,則第二判定子單元540可以判定該待測(cè)視頻鏡頭的內(nèi)容中不包含“與上述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念”。

根據(jù)上述判定結(jié)果,在第二判定子單元540判定待測(cè)視頻鏡頭包含“與上述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念”的情況下,第二判定子單元540還可以進(jìn)一步地利用該語義概念來標(biāo)注上述待測(cè)視頻鏡頭,也即,可以利用上述視頻鏡頭集中的帶正標(biāo)簽的視頻鏡頭的標(biāo)簽信息來標(biāo)注待測(cè)視頻鏡頭。例如,當(dāng)?shù)诙卸ㄗ訂卧?40判定待測(cè)視頻鏡頭包含“老虎”時(shí),則可以為待測(cè)視頻鏡頭貼上“老虎”的標(biāo)簽。

在該示例中,視頻處理裝置利用鏡頭級(jí)加權(quán)圖、幀級(jí)加權(quán)圖和區(qū)域級(jí)加權(quán)圖三種加權(quán)圖的結(jié)構(gòu)特征以及三者之間的聯(lián)系,獲得了視頻鏡頭集中每個(gè)視頻鏡頭以及每個(gè)視頻鏡頭中的每個(gè)代表幀和每個(gè)區(qū)域的軟標(biāo)簽,進(jìn)而根據(jù)這些軟標(biāo)簽來確定待測(cè)視頻鏡頭是否包含與上述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念。與現(xiàn)有的視頻概念檢測(cè)技術(shù)相比,利用根據(jù)本發(fā)明的實(shí)施例的視頻處理裝置的上述示例所實(shí)現(xiàn)的視頻概念檢測(cè)能夠同時(shí)利用了以上三種加權(quán)圖,更加充分地利用了視頻鏡頭的特征信息,并充分挖掘了三種加權(quán)圖之間的聯(lián)系,還可以在利用帶標(biāo)簽的視頻鏡頭的基礎(chǔ)上同時(shí)利用上不帶標(biāo)簽的視頻鏡頭,從而能夠獲得更好的視頻處理效果,也即,能夠得到更準(zhǔn)確的概念檢測(cè)結(jié)果。

通過以上描述可知,應(yīng)用根據(jù)本發(fā)明的實(shí)施例的視頻處理裝置,可以利用鏡頭級(jí)加權(quán)圖、幀級(jí)加權(quán)圖和區(qū)域級(jí)加權(quán)圖三種類型的加權(quán)圖,更加充分地利用視頻鏡頭的特征信息,并充分挖掘了三種加權(quán)圖之間的聯(lián)系,從而能夠獲得較好的視頻處理效果。

此外,本發(fā)明的實(shí)施例還提供了一種視頻處理方法。下面結(jié)合圖6和圖7來描述該方法的一種示例性處理。

圖6是示意性地示出根據(jù)本發(fā)明的實(shí)施例的視頻處理方法的一種示例性處理的流程圖。如圖6所示,根據(jù)本發(fā)明的實(shí)施例的視頻處理方法的處理流程600開始于步驟S610,然后執(zhí)行步驟S620。

在步驟S620中,分別提取視頻鏡頭集中的每個(gè)視頻鏡頭的至少一個(gè)代表幀,并將所提取的每個(gè)代表幀分割為多個(gè)區(qū)域,其中,該視頻鏡頭集中的至少部分視頻鏡頭是帶標(biāo)簽的視頻鏡頭。然后執(zhí)行步驟S630。其中,步驟S620中所涉及的圖像分割可以采用上文所述的方法。

在步驟S630中,提取上述視頻鏡頭集中的每個(gè)視頻鏡頭的鏡頭級(jí)視覺特征、幀級(jí)視覺特征和區(qū)域級(jí)視覺特征。然后執(zhí)行步驟S640。其中,上述三種視覺特征的特性、選擇以及提取方法等均可參考上文所述的相應(yīng)內(nèi)容,這里省略其具體描述。

在步驟S640中,根據(jù)上述鏡頭級(jí)視覺特征構(gòu)建鏡頭級(jí)加權(quán)圖,根據(jù)上述幀級(jí)視覺特征構(gòu)建幀級(jí)加權(quán)圖,以及根據(jù)上述區(qū)域級(jí)視覺特征構(gòu)建區(qū)域級(jí)加權(quán)圖。然后執(zhí)行步驟S650。

其中,在一種實(shí)現(xiàn)方式中,可以這樣來構(gòu)建上述鏡頭級(jí)加權(quán)圖、幀級(jí)加權(quán)圖和區(qū)域級(jí)加權(quán)圖:以上述視頻鏡頭集中的每個(gè)視頻鏡頭作為節(jié)點(diǎn),以每?jī)蓚€(gè)節(jié)點(diǎn)之間在鏡頭級(jí)視覺特征上的相似度作為所述兩個(gè)節(jié)點(diǎn)之間的加權(quán)邊的權(quán)值,構(gòu)建上述鏡頭級(jí)加權(quán)圖;以上述視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀作為節(jié)點(diǎn),以每?jī)蓚€(gè)節(jié)點(diǎn)之間在幀級(jí)視覺特征上的相似度作為這兩個(gè)節(jié)點(diǎn)之間的加權(quán)邊的權(quán)值,來構(gòu)建上述幀級(jí)加權(quán)圖;以及以上述視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀中的每個(gè)區(qū)域作為節(jié)點(diǎn),以每?jī)蓚€(gè)節(jié)點(diǎn)之間在區(qū)域級(jí)視覺特征上的相似度作為這兩個(gè)節(jié)點(diǎn)之間的加權(quán)邊的權(quán)值,來構(gòu)建上述區(qū)域級(jí)加權(quán)圖。

在步驟S650中,以上述視頻鏡頭集中的每個(gè)視頻鏡頭的軟標(biāo)簽、上述每個(gè)視頻鏡頭中的每個(gè)代表幀的軟標(biāo)簽以及上述每個(gè)代表幀中的每個(gè)區(qū)域的軟標(biāo)簽為未知量,根據(jù)上述鏡頭級(jí)加權(quán)圖、幀級(jí)加權(quán)圖和區(qū)域級(jí)加權(quán)圖的結(jié)構(gòu)信息,以及根據(jù)上述每個(gè)視頻鏡頭的軟標(biāo)簽、上述每個(gè)代表幀的軟標(biāo)簽以及上述每個(gè)區(qū)域的軟標(biāo)簽之間的關(guān)系,構(gòu)造代價(jià)函數(shù)。然后執(zhí)行步驟S660。

具體地,可以利用如下將要描述的方法來構(gòu)建上述代價(jià)函數(shù)。

例如,可以根據(jù)上述鏡頭級(jí)加權(quán)圖、幀級(jí)加權(quán)圖和區(qū)域級(jí)加權(quán)圖的結(jié)構(gòu)信息,設(shè)定這樣的第一約束條件:令鏡頭級(jí)視覺特征越相似的兩個(gè)視頻鏡頭的軟標(biāo)簽之間的差異越小,令幀級(jí)視覺特征越相似的兩個(gè)代表幀的軟標(biāo)簽之間的差異越小,以及令區(qū)域級(jí)視覺特征越相似的兩個(gè)區(qū)域的軟標(biāo)簽之間的差異越小。

此外,還可以根據(jù)上述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭的軟標(biāo)簽與該視頻鏡頭集中帶標(biāo)簽的視頻鏡頭中的代表幀的軟標(biāo)簽及代表幀中的區(qū)域的軟標(biāo)簽之間的關(guān)系來設(shè)定這樣的第二約束條件:令帶負(fù)標(biāo)簽的視頻鏡頭的軟標(biāo)簽、帶負(fù)標(biāo)簽的視頻鏡頭中所有代表幀的軟標(biāo)簽以及帶負(fù)標(biāo)簽的視頻鏡頭中所有代表幀的所有區(qū)域的軟標(biāo)簽盡量接近-1,令帶正標(biāo)簽的視頻鏡頭的軟標(biāo)簽盡量接近1,令帶正標(biāo)簽的視頻鏡頭中具有最大軟標(biāo)簽的代表幀的軟標(biāo)簽盡量接近該代表幀所屬視頻鏡頭的軟標(biāo)簽,以及令帶正標(biāo)簽的視頻鏡頭中的每個(gè)可能的正幀中具有最大軟標(biāo)簽的區(qū)域的軟標(biāo)簽盡量接近該區(qū)域所屬代表幀的軟標(biāo)簽。

其中,需要說明的是,每個(gè)可能的正幀可以是其軟標(biāo)簽的值高于第五預(yù)設(shè)閾值的幀,或者可以是其中包含有軟標(biāo)簽的值高于第六預(yù)設(shè)閾值的區(qū)域的幀。

然后,可以根據(jù)上述第一約束條件和第二約束條件來構(gòu)造代價(jià)函數(shù)。其中,這里的代價(jià)函數(shù)可以采用上文中所描述的任意一種形式,這里不再贅述。

然后,在步驟S660中,通過求解上述代價(jià)函數(shù)的最優(yōu)問題,以獲得上述未知量的計(jì)算值。然后執(zhí)行步驟S670。

其中,在步驟S660中,可以采用一種迭代的計(jì)算方法來對(duì)上述最優(yōu)問題進(jìn)行求解,也即,通過對(duì)fS和fF賦初值,來利用上述代價(jià)函數(shù)進(jìn)行迭代計(jì)算,最終獲得fR、fF和fS的值。下面,將結(jié)合圖7來描述步驟S660的一種可能的示例計(jì)算過程。

圖7是示意性地示出如圖6所示的步驟S670的一種可能的示例性處理的流程圖。如圖7所示,在步驟S710中,首先對(duì)視頻鏡頭集中各視頻鏡頭的軟標(biāo)簽fS以及視頻鏡頭集中各視頻鏡頭中的各代表幀的軟標(biāo)簽fF賦初值。其中,在步驟S710中,可以采用與上文中結(jié)合圖4所描述的初始化子單元410所執(zhí)行的處理方法相同的方法來對(duì)各視頻鏡頭的軟標(biāo)簽fS以及各代表幀的軟標(biāo)簽fF賦初值,這里不再贅述。然后執(zhí)行步驟S720。

接下來,通過步驟S720-S750的循環(huán)處理,來計(jì)算fR、fF和fS的值。

其中,在步驟S720中,根據(jù)視頻鏡頭集中各視頻鏡頭的軟標(biāo)簽fS的當(dāng)前值,以及根據(jù)視頻鏡頭集中各視頻鏡頭中的各代表幀的軟標(biāo)簽fF的當(dāng)前值,將代價(jià)函數(shù)轉(zhuǎn)化為帶約束的最小化問題,并利用CCCP來求解該帶約束的最小化問題,以獲得視頻鏡頭集中各視頻鏡頭中的各代表幀的各區(qū)域的軟標(biāo)簽fR的計(jì)算值,來作為fR的當(dāng)前值。其中,在步驟S720中,可以采用與上文中結(jié)合圖4所描述的第三計(jì)算子單元420所執(zhí)行的處理方法相同的方法來獲得fR的計(jì)算值,這里不再贅述。然后執(zhí)行步驟S730。

在步驟S730中,根據(jù)視頻鏡頭集中各視頻鏡頭的軟標(biāo)簽fS的當(dāng)前值,以及根據(jù)視頻鏡頭集中各視頻鏡頭中的各代表幀的各區(qū)域的軟標(biāo)簽fR的當(dāng)前值,將代價(jià)函數(shù)轉(zhuǎn)化為帶約束的最小化問題,并利用CCCP來求解該帶約束的最小化問題,以獲得視頻鏡頭集中各視頻鏡頭中的各代表幀的軟標(biāo)簽fF的計(jì)算值,來作為fF的當(dāng)前值。其中,在步驟S730中,可以采用與上文中結(jié)合圖4所描述的第四計(jì)算子單元430所執(zhí)行的處理方法相同的方法來獲得fF的計(jì)算值,這里不再贅述。然后執(zhí)行步驟S740。

在步驟S740中,根據(jù)視頻鏡頭集中各視頻鏡頭中的各代表幀的軟標(biāo)簽fF的當(dāng)前值,以及根據(jù)視頻鏡頭集中各視頻鏡頭中的各代表幀的各區(qū)域的軟標(biāo)簽fR的當(dāng)前值,直接利用代價(jià)函數(shù)進(jìn)行計(jì)算即可獲得視頻鏡頭集中各視頻鏡頭的軟標(biāo)簽fS的計(jì)算值,來作為fS的當(dāng)前值。其中,在步驟S740中,可以采用與上文中結(jié)合圖4所描述的第五計(jì)算子單元440所執(zhí)行的處理方法相同的方法來獲得fS的計(jì)算值,這里不再贅述。然后執(zhí)行步驟S750。

在步驟S750中,判斷fR、fF和fS的當(dāng)前計(jì)算結(jié)果是否收斂:若是,則將所述各視頻鏡頭的軟標(biāo)簽、所述各代表幀的軟標(biāo)簽以及所述各區(qū)域的軟標(biāo)簽的當(dāng)前值作為所述代價(jià)函數(shù)中的未知量的計(jì)算值保留后,繼續(xù)執(zhí)行步驟S670;否則,返回執(zhí)行步驟S720,進(jìn)行下一次迭代計(jì)算。

如此,通過步驟S720-750的循環(huán)迭代計(jì)算,可以分別在fR、fF和fS中的其中兩個(gè)確定的情況下,以剩下的那個(gè)向量中的元素為變量,從而可以求解獲得剩下的那個(gè)向量中的元素的值,按照如上的順序依次進(jìn)行迭代,也即,按照fR→fF→fS→fR→fF→fS→...的順序進(jìn)行循環(huán)迭代計(jì)算,直至計(jì)算結(jié)果收斂為止。由此,便可獲得步驟S650中所述的代價(jià)函數(shù)中的未知量的計(jì)算值。

轉(zhuǎn)至圖6,在步驟S670中,根據(jù)上述所計(jì)算的未知量的計(jì)算值,進(jìn)行視頻處理。然后執(zhí)行步驟S680。

其中,在根據(jù)本發(fā)明的實(shí)施例的視頻處理方法的一個(gè)示例中,該視頻處理方法中所涉及的視頻處理可以是視頻檢索,在這種情況下,上述視頻鏡頭集包括帶標(biāo)簽的查詢視頻鏡頭。此外,在這種情況下,在步驟S670中,可以根據(jù)所獲得的計(jì)算值,將上述視頻鏡頭集中除該查詢視頻鏡頭之外的、與該查詢視頻鏡頭的相似度在預(yù)定范圍內(nèi)的視頻鏡頭判定為檢索結(jié)果。上述檢索結(jié)果可以是這樣的視頻鏡頭:其軟標(biāo)簽高于第一預(yù)設(shè)閾值的視頻鏡頭,并且該視頻鏡頭中具有最大軟標(biāo)簽的代表幀的軟標(biāo)簽高于第二預(yù)設(shè)閾值、以及該代表幀中具有最大軟標(biāo)簽的區(qū)域的軟標(biāo)簽高于第三預(yù)設(shè)閾值。

此外,上述檢索結(jié)果也可以是這樣的視頻鏡頭:其軟標(biāo)簽以及其中具有最大軟標(biāo)簽的代表幀的軟標(biāo)簽和該代表幀中具有最大軟標(biāo)簽的區(qū)域的軟標(biāo)簽的三者加權(quán)和最大的前N個(gè)視頻鏡頭,其中,N為正整數(shù)。其中,在查詢視頻鏡頭本身僅包括一幀圖像的特例情況下,查詢視頻鏡頭即為查詢圖像,則對(duì)于查詢視頻鏡頭所提取的代表幀即是該查詢圖像本身。此外,上述檢索結(jié)果也可以按照一定順序被輸出,例如可以按照上文所述的幾種順序中的任意一種來輸出檢索結(jié)果,這里不再贅述。

此外,在根據(jù)本發(fā)明的實(shí)施例的視頻處理方法的另一個(gè)示例中,該視頻處理方法中所涉及的視頻處理也可以是視頻概念檢測(cè)。在這種情況下,在步驟S670中,可以根據(jù)步驟S660中所獲得的軟標(biāo)簽的計(jì)算值,來判定不帶標(biāo)簽的待測(cè)視頻鏡頭是否包含與視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念。其中,在這種情況下,步驟S670的處理可以通過如圖8所示的步驟S810-S860來實(shí)現(xiàn),下面將描述該具體處理過程。

圖8是示意性地示出在視頻處理是視頻概念檢測(cè)的示例情況下,如圖6所示的步驟S670的一種可能的示例性處理的流程圖。如圖8所示,在步驟S810中,判定待測(cè)視頻鏡頭是否包括在上述視頻鏡頭集中:若是,則由于待測(cè)視頻鏡頭的軟標(biāo)簽以及其中各代表幀、各區(qū)域的軟標(biāo)簽均已獲得,因此可以直接執(zhí)行步驟S830來進(jìn)行下一步計(jì)算;若不是,則由于待測(cè)視頻鏡頭的軟標(biāo)簽以及其中各代表幀、各區(qū)域的軟標(biāo)簽均未知,因此可以執(zhí)行步驟S820來獲得這些軟標(biāo)簽。

在步驟S820中,可以首先提取待測(cè)視頻鏡頭中的至少一幀,來作為該待測(cè)視頻鏡頭的代表幀,然后將待測(cè)視頻鏡頭的每個(gè)代表幀分割為多個(gè)區(qū)域,然后根據(jù)所獲得的未知量的計(jì)算值,來獲得待測(cè)視頻鏡頭的軟標(biāo)簽的計(jì)算值、待測(cè)視頻鏡頭中每個(gè)代表幀的軟標(biāo)簽的計(jì)算值以及待測(cè)視頻鏡頭中每個(gè)代表幀的每個(gè)區(qū)域的軟標(biāo)簽的計(jì)算值。具體計(jì)算方法可以參考上文中所描述的用于計(jì)算待測(cè)視頻鏡頭的軟標(biāo)簽、待測(cè)視頻鏡頭中每個(gè)代表幀以及其中每個(gè)區(qū)域的軟標(biāo)簽的方法,在此不再贅述。執(zhí)行完步驟S820之后,執(zhí)行步驟S830。

在步驟S830中,根據(jù)所獲得的待測(cè)視頻鏡頭的軟標(biāo)簽的計(jì)算值、所測(cè)視頻鏡頭中每個(gè)代表幀的軟標(biāo)簽的計(jì)算值以及待測(cè)視頻鏡頭中每個(gè)代表幀的每個(gè)區(qū)域的軟標(biāo)簽的計(jì)算值,來計(jì)算待測(cè)視頻鏡頭包含與上述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念的程度值;其中,該計(jì)算過程也可以參考上文中相應(yīng)部分所描述的關(guān)于程度值的計(jì)算方法,不再贅述。然后執(zhí)行步驟S840。

在步驟S840中,判斷該程度值是否大于或等于第四預(yù)設(shè)閾值:若是,則執(zhí)行步驟S850,也即,在步驟S850中判定待測(cè)視頻鏡頭包含“與上述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念”,然后執(zhí)行后續(xù)步驟(例如如圖6所示的步驟S680);否則,執(zhí)行步驟S860,也即,在步驟S860中判定待測(cè)視頻鏡頭不包含“與上述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念”,然后執(zhí)行后續(xù)步驟(例如如圖6所示的步驟S680)。

需要說明的是,根據(jù)本發(fā)明的實(shí)施例的上述視頻處理方法中的各步驟的處理或子處理,可以具有能夠?qū)崿F(xiàn)上文中所描述的視頻處理裝置的單元、子單元、模塊或子模塊的操作或功能的處理過程,并且能夠達(dá)到類似的技術(shù)效果,在此省略其描述。

通過以上描述可知,應(yīng)用根據(jù)本發(fā)明的實(shí)施例的視頻處理方法,可以利用鏡頭級(jí)加權(quán)圖、幀級(jí)加權(quán)圖和區(qū)域級(jí)加權(quán)圖三種類型的加權(quán)圖,更加充分地利用視頻鏡頭的特征信息,并充分挖掘了三種加權(quán)圖之間的聯(lián)系,從而能夠獲得較好的視頻處理效果。此外,根據(jù)本發(fā)明的實(shí)施例的視頻處理方法還可以同時(shí)利用帶標(biāo)簽的視頻鏡頭和不帶標(biāo)簽的視頻鏡頭,由此大大豐富了可利用的資源,能夠使得處理效果更佳、更準(zhǔn)確。

此外,本發(fā)明的實(shí)施例還提供了一種設(shè)備,該設(shè)備包括如上所述的視頻處理裝置。其中,該設(shè)備例如可以是照相機(jī)、攝像機(jī)、計(jì)算機(jī)(例如,臺(tái)式機(jī)或筆記本電腦)、手機(jī)(例如智能手機(jī))、個(gè)人數(shù)字助理以及多媒體處理設(shè)備(例如,具有視頻播放功能的MP3、MP4等),等等。

根據(jù)本發(fā)明實(shí)施例的上述設(shè)備,通過集成上述視頻處理裝置,因此可以利用鏡頭級(jí)加權(quán)圖、幀級(jí)加權(quán)圖和區(qū)域級(jí)加權(quán)圖三種類型的加權(quán)圖,更加充分地利用視頻鏡頭的特征信息,并充分挖掘了三種加權(quán)圖之間的聯(lián)系,從而能夠獲得較好的視頻處理效果。

上述根據(jù)本發(fā)明的實(shí)施例的視頻處理裝置中的各個(gè)組成單元、子單元等可以通過軟件、固件、硬件或其任意組合的方式進(jìn)行配置。在通過軟件或固件實(shí)現(xiàn)的情況下,可從存儲(chǔ)介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的機(jī)器(例如圖9所示的通用機(jī)器900)安裝構(gòu)成該軟件或固件的程序,該機(jī)器在安裝有各種程序時(shí),能夠執(zhí)行上述各組成單元、子單元的各種功能。

圖9是示出了可用來實(shí)現(xiàn)根據(jù)本發(fā)明的實(shí)施例的視頻處理裝置和視頻處理方法的一種可能的信息處理設(shè)備的硬件配置的結(jié)構(gòu)簡(jiǎn)圖。

在圖9中,中央處理單元(CPU)901根據(jù)只讀存儲(chǔ)器(ROM)902中存儲(chǔ)的程序或從存儲(chǔ)部分908加載到隨機(jī)存取存儲(chǔ)器(RAM)903的程序執(zhí)行各種處理。在RAM903中,還根據(jù)需要存儲(chǔ)當(dāng)CPU901執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。CPU901、ROM902和RAM903經(jīng)由總線904彼此連接。輸入/輸出接口905也連接到總線904。

下述部件也連接到輸入/輸出接口905:輸入部分906(包括鍵盤、鼠標(biāo)等等)、輸出部分907(包括顯示器,例如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚(yáng)聲器等)、存儲(chǔ)部分908(包括硬盤等)、通信部分909(包括網(wǎng)絡(luò)接口卡例如LAN卡、調(diào)制解調(diào)器等)。通信部分909經(jīng)由網(wǎng)絡(luò)例如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動(dòng)器910也可連接到輸入/輸出接口905。可拆卸介質(zhì)911例如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等可以根據(jù)需要被安裝在驅(qū)動(dòng)器910上,使得從中讀出的計(jì)算機(jī)程序可根據(jù)需要被安裝到存儲(chǔ)部分908中。

在通過軟件實(shí)現(xiàn)上述系列處理的情況下,可以從網(wǎng)絡(luò)例如因特網(wǎng)或從存儲(chǔ)介質(zhì)例如可拆卸介質(zhì)911安裝構(gòu)成軟件的程序。

本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲(chǔ)介質(zhì)不局限于圖9所示的其中存儲(chǔ)有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)911??刹鹦督橘|(zhì)911的例子包含磁盤(包含軟盤)、光盤(包含光盤只讀存儲(chǔ)器(CD-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊(cè)商標(biāo)))和半導(dǎo)體存儲(chǔ)器。或者,存儲(chǔ)介質(zhì)可以是ROM902、存儲(chǔ)部分908中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。

此外,本發(fā)明還提出了一種存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品。所述指令代碼由機(jī)器讀取并執(zhí)行時(shí),可執(zhí)行上述根據(jù)本發(fā)明的實(shí)施例的視頻處理方法。相應(yīng)地,用于承載這種程序產(chǎn)品的例如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等的各種存儲(chǔ)介質(zhì)也包括在本發(fā)明的公開中。

在上面對(duì)本發(fā)明具體實(shí)施例的描述中,針對(duì)一種實(shí)施方式描述和/或示出的特征可以以相同或類似的方式在一個(gè)或更多個(gè)其它實(shí)施方式中使用,與其它實(shí)施方式中的特征相組合,或替代其它實(shí)施方式中的特征。

應(yīng)該強(qiáng)調(diào),術(shù)語“包括/包含”在本文使用時(shí)指特征、要素、步驟或組件的存在,但并不排除一個(gè)或更多個(gè)其它特征、要素、步驟或組件的存在或附加。涉及序數(shù)的術(shù)語“第一”,“第二”等并不表示這些術(shù)語所限定的特征、要素、步驟或組件的實(shí)施順序或者重要性程度,而僅僅是為了描述清楚起見而被配置用于在這些特征、要素、步驟或組件之間進(jìn)行標(biāo)識(shí)。

此外,本發(fā)明的各實(shí)施例的方法不限于按照說明書中描述的或者附圖中示出的時(shí)間順序來執(zhí)行,也可以按照其他的時(shí)間順序、并行地或獨(dú)立地執(zhí)行。因此,本說明書中描述的方法的執(zhí)行順序不對(duì)本發(fā)明的技術(shù)范圍構(gòu)成限制。

此外,顯然,根據(jù)本發(fā)明的上述方法的各個(gè)操作過程也可以以存儲(chǔ)在各種機(jī)器可讀的存儲(chǔ)介質(zhì)中的計(jì)算機(jī)可執(zhí)行程序的方式實(shí)現(xiàn)。

而且,本發(fā)明的目的也可以通過下述方式實(shí)現(xiàn):將存儲(chǔ)有上述可執(zhí)行程序代碼的存儲(chǔ)介質(zhì)直接或者間接地提供給系統(tǒng)或設(shè)備,并且該系統(tǒng)或設(shè)備中的計(jì)算機(jī)或者中央處理單元(CPU)讀出并執(zhí)行上述程序代碼。

此時(shí),只要該系統(tǒng)或者設(shè)備具有執(zhí)行程序的功能,則本發(fā)明的實(shí)施方式不局限于程序,并且該程序也可以是任意的形式,例如,目標(biāo)程序、解釋器執(zhí)行的程序或者提供給操作系統(tǒng)的腳本程序等。

上述這些機(jī)器可讀存儲(chǔ)介質(zhì)包括但不限于:各種存儲(chǔ)器和存儲(chǔ)單元,半導(dǎo)體設(shè)備,磁盤單元例如光、磁和磁光盤,以及其它適于存儲(chǔ)信息的介質(zhì)等。

另外,客戶計(jì)算機(jī)通過連接到因特網(wǎng)上的相應(yīng)網(wǎng)站,并且將依據(jù)本發(fā)明的計(jì)算機(jī)程序代碼下載和安裝到計(jì)算機(jī)中然后執(zhí)行該程序,也可以實(shí)現(xiàn)本發(fā)明。

最后,還需要說明的是,在本文中,諸如左和右、第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)......”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

綜上,在根據(jù)本發(fā)明的實(shí)施例中,本發(fā)明提供了如下方案:

附記1.一種視頻處理裝置,包括:預(yù)處理單元,其被配置用于分別提取視頻鏡頭集中的每個(gè)視頻鏡頭的至少一個(gè)代表幀,并將所提取的每個(gè)代表幀分割為多個(gè)區(qū)域,其中,所述視頻鏡頭集的至少部分視頻鏡頭是帶標(biāo)簽的視頻鏡頭;特征提取單元,其被配置用于提取所述視頻鏡頭集中的每個(gè)視頻鏡頭的鏡頭級(jí)視覺特征、幀級(jí)視覺特征和區(qū)域級(jí)視覺特征;加權(quán)圖建立單元,其被配置用于根據(jù)所述鏡頭級(jí)視覺特征構(gòu)建鏡頭級(jí)加權(quán)圖,根據(jù)所述幀級(jí)視覺特征構(gòu)建幀級(jí)加權(quán)圖,以及根據(jù)所述區(qū)域級(jí)視覺特征構(gòu)建區(qū)域級(jí)加權(quán)圖;函數(shù)構(gòu)造單元,其被配置用于以所述視頻鏡頭集中的每個(gè)視頻鏡頭的軟標(biāo)簽、所述每個(gè)視頻鏡頭中的每個(gè)代表幀的軟標(biāo)簽以及所述每個(gè)代表幀中的每個(gè)區(qū)域的軟標(biāo)簽為未知量,根據(jù)所述鏡頭級(jí)加權(quán)圖、所述幀級(jí)加權(quán)圖和所述區(qū)域級(jí)加權(quán)圖的結(jié)構(gòu)信息,以及根據(jù)所述每個(gè)視頻鏡頭的軟標(biāo)簽、所述每個(gè)代表幀的軟標(biāo)簽以及所述每個(gè)區(qū)域的軟標(biāo)簽之間的關(guān)系,構(gòu)造代價(jià)函數(shù);計(jì)算單元,其被配置用于通過求解所述代價(jià)函數(shù)的最優(yōu)問題,獲得所述未知量的計(jì)算值;以及視頻處理單元,其被配置用于根據(jù)所述計(jì)算單元所獲得的計(jì)算值來進(jìn)行視頻處理。

附記2.根據(jù)附記1所述的視頻處理裝置,所述視頻處理裝置是視頻檢索裝置,其中,所述視頻鏡頭集包括帶標(biāo)簽的查詢視頻鏡頭,以及所述視頻處理單元被配置用于根據(jù)所述計(jì)算單元所獲得的計(jì)算值,將所述視頻鏡頭集中除所述查詢視頻鏡頭之外的、與所述查詢視頻鏡頭的相似度在預(yù)定范圍內(nèi)的視頻鏡頭判定為檢索結(jié)果。

附記3.根據(jù)附記2所述的視頻處理裝置,其中,所述視頻鏡頭集中除所述查詢視頻鏡頭之外的、與所述查詢視頻鏡頭的相似度在預(yù)定范圍內(nèi)的視頻鏡頭是以下視頻鏡頭中的一種:其軟標(biāo)簽高于第一預(yù)設(shè)閾值的視頻鏡頭,并且該視頻鏡頭中具有最大軟標(biāo)簽的代表幀的軟標(biāo)簽高于第二預(yù)設(shè)閾值、以及該代表幀中具有最大軟標(biāo)簽的區(qū)域的軟標(biāo)簽高于第三預(yù)設(shè)閾值;以及其軟標(biāo)簽以及其中具有最大軟標(biāo)簽的代表幀的軟標(biāo)簽和該代表幀中具有最大軟標(biāo)簽的區(qū)域的軟標(biāo)簽的三者加權(quán)和最大的前N個(gè)視頻鏡頭,其中,N為正整數(shù)。

附記4.根據(jù)附記2或3所述的視頻處理裝置,其中,在所述查詢視頻鏡頭僅包括一幀圖像的情況下,所述查詢視頻鏡頭即為查詢圖像,以及所述查詢視頻鏡頭中的代表幀即為所述查詢圖像本身。

附記5.根據(jù)附記1所述的視頻處理裝置,所述視頻處理裝置是視頻概念檢測(cè)裝置,其中,所述視頻處理單元被配置用于根據(jù)所述計(jì)算單元所獲得的結(jié)果,判定不帶標(biāo)簽的待測(cè)視頻鏡頭是否包含與所述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念。

附記6.根據(jù)附記5所述的視頻處理裝置,其中,所述視頻處理單元包括:第一判定子單元,其被配置用于判定所述待測(cè)視頻鏡頭是否包括在所述視頻鏡頭集中;第一計(jì)算子單元,其被配置用于在所述待測(cè)視頻鏡頭未包括在所述視頻鏡頭集中的情況下,提取所述待測(cè)視頻鏡頭的至少一個(gè)代表幀,并將所述待測(cè)視頻鏡頭的每個(gè)代表幀分割為多個(gè)區(qū)域,并根據(jù)所述計(jì)算單元所獲得的結(jié)果,來獲得所述待測(cè)視頻鏡頭的軟標(biāo)簽的計(jì)算值、所述待測(cè)視頻鏡頭中每個(gè)代表幀的軟標(biāo)簽的計(jì)算值以及所述待測(cè)視頻鏡頭中每個(gè)代表幀的每個(gè)區(qū)域的軟標(biāo)簽的計(jì)算值;第二計(jì)算子單元,其被配置用于根據(jù)所述第一計(jì)算子單元所獲得的結(jié)果,來計(jì)算所述待測(cè)視頻鏡頭包含與所述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念的程度值;以及第二判定子單元,其被配置用于在所述第二計(jì)算子單元所計(jì)算的所述程度值大于或等于第四預(yù)設(shè)閾值的情況下判定所述待測(cè)視頻鏡頭包含與所述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念,以及在所述程度值小于所述第四預(yù)設(shè)閾值的情況下判定所述待測(cè)視頻鏡頭不包含與所述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念。

附記7.根據(jù)附記5或6所述的視頻處理裝置,其中,所述視頻處理單元還被配置用于在所述待測(cè)視頻鏡頭被判定為包含與所述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念的情況下,使用所述視頻鏡頭集中的帶正標(biāo)簽的視頻鏡頭的標(biāo)簽來標(biāo)注所述待測(cè)視頻鏡頭。

附記8.根據(jù)附記1-7中任一所述的視頻處理裝置,其中,所述加權(quán)圖建立單元包括:第一建立子單元,其被配置用于以所述視頻鏡頭集中的每個(gè)視頻鏡頭作為節(jié)點(diǎn),以每?jī)蓚€(gè)節(jié)點(diǎn)之間在鏡頭級(jí)視覺特征上的相似度作為所述兩個(gè)節(jié)點(diǎn)之間的加權(quán)邊的權(quán)值,構(gòu)建所述鏡頭級(jí)加權(quán)圖;第二建立子單元,其被配置用于以所述視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀作為節(jié)點(diǎn),以每?jī)蓚€(gè)節(jié)點(diǎn)之間在幀級(jí)視覺特征上的相似度作為所述兩個(gè)節(jié)點(diǎn)之間的加權(quán)邊的權(quán)值,構(gòu)建所述幀級(jí)加權(quán)圖;以及第三建立子單元,其被配置用于以所述視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀的每個(gè)區(qū)域作為節(jié)點(diǎn),以每?jī)蓚€(gè)節(jié)點(diǎn)之間在區(qū)域級(jí)視覺特征上的相似度作為所述兩個(gè)節(jié)點(diǎn)之間的加權(quán)邊的權(quán)值,構(gòu)建所述區(qū)域級(jí)加權(quán)圖。

附記9.根據(jù)附記1-8中任一所述的視頻處理裝置,其中,所述函數(shù)構(gòu)造單元包括:第一設(shè)定子單元,其被配置用于根據(jù)所述鏡頭級(jí)加權(quán)圖、所述幀級(jí)加權(quán)圖和所述區(qū)域級(jí)加權(quán)圖的結(jié)構(gòu)信息,設(shè)定這樣的第一約束條件:令鏡頭級(jí)視覺特征越相似的兩個(gè)視頻鏡頭的軟標(biāo)簽之間的差異越小,令幀級(jí)視覺特征越相似的兩個(gè)代表幀的軟標(biāo)簽之間的差異越小,以及令區(qū)域級(jí)視覺特征越相似的兩個(gè)區(qū)域的軟標(biāo)簽之間的差異越??;第二設(shè)定子單元,其被配置用于根據(jù)所述每個(gè)視頻鏡頭的軟標(biāo)簽、所述每個(gè)代表幀的軟標(biāo)簽以及所述每個(gè)區(qū)域的軟標(biāo)簽之間的關(guān)系來設(shè)定這樣的第二約束條件:令帶負(fù)標(biāo)簽的視頻鏡頭的軟標(biāo)簽、帶負(fù)標(biāo)簽的視頻鏡頭中所有代表幀的軟標(biāo)簽以及帶負(fù)標(biāo)簽的視頻鏡頭中所有代表幀的所有區(qū)域的軟標(biāo)簽盡量接近-1,令帶正標(biāo)簽的視頻鏡頭的軟標(biāo)簽盡量接近1,令帶正標(biāo)簽的視頻鏡頭中具有最大軟標(biāo)簽的代表幀的軟標(biāo)簽盡量接近該代表幀所屬視頻鏡頭的軟標(biāo)簽,以及令帶正標(biāo)簽的視頻鏡頭中的每個(gè)可能的正幀中具有最大軟標(biāo)簽的區(qū)域的軟標(biāo)簽盡量接近該區(qū)域所屬代表幀的軟標(biāo)簽;以及函數(shù)構(gòu)造子單元,其被配置用于以所述視頻鏡頭集中的每個(gè)視頻鏡頭的軟標(biāo)簽、所述視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀的軟標(biāo)簽以及所述視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀的每個(gè)區(qū)域的軟標(biāo)簽為未知量,根據(jù)所述第一約束條件和所述第二約束條件,構(gòu)造代價(jià)函數(shù)。

附記10.根據(jù)附記9所述的視頻處理裝置,其中,所述可能的正幀是這樣的幀:該幀的軟標(biāo)簽的值高于第五預(yù)設(shè)閾值;或該幀中包含有軟標(biāo)簽高于第六預(yù)設(shè)閾值的區(qū)域。

附記11.根據(jù)附記1-10中任一所述的視頻處理裝置,其中,所述計(jì)算單元包括:

初始化子單元,其被配置用于對(duì)所述視頻鏡頭集中各視頻鏡頭的軟標(biāo)簽以及所述視頻鏡頭集中各視頻鏡頭中的各代表幀的軟標(biāo)簽賦初值;

第三計(jì)算子單元,其被配置用于根據(jù)所述視頻鏡頭集中各視頻鏡頭的軟標(biāo)簽的當(dāng)前值,以及根據(jù)所述視頻鏡頭集中各視頻鏡頭中的各代表幀的軟標(biāo)簽的當(dāng)前值,將所述代價(jià)函數(shù)轉(zhuǎn)化為帶約束的最小化問題,并利用帶約束的凹凸過程來求解該帶約束的最小化問題,以獲得所述視頻鏡頭集中各視頻鏡頭中的各代表幀的各區(qū)域的軟標(biāo)簽的計(jì)算值;

第四計(jì)算子單元,其被配置用于根據(jù)所述視頻鏡頭集中各視頻鏡頭的軟標(biāo)簽的當(dāng)前值,以及根據(jù)所述視頻鏡頭集中各視頻鏡頭中的各代表幀的各區(qū)域的軟標(biāo)簽的當(dāng)前值,將所述代價(jià)函數(shù)轉(zhuǎn)化為帶約束的最小化問題,并利用帶約束的凹凸過程來求解該帶約束的最小化問題,以獲得所述視頻鏡頭集中各視頻鏡頭中的各代表幀的軟標(biāo)簽的計(jì)算值;

第五計(jì)算子單元,其被配置用于根據(jù)所述視頻鏡頭集中各視頻鏡頭中的各代表幀的軟標(biāo)簽的當(dāng)前值,以及根據(jù)所述視頻鏡頭集中各視頻鏡頭中的各代表幀的各區(qū)域的軟標(biāo)簽的當(dāng)前值,利用所述代價(jià)函數(shù)進(jìn)行計(jì)算來獲得所述視頻鏡頭集中各視頻鏡頭的軟標(biāo)簽的計(jì)算值;以及

第三判定子單元,其被配置用于在每次第三計(jì)算子單元、第四計(jì)算子單元和第五計(jì)算子單元分別依次執(zhí)行完一次計(jì)算之后,判斷所述視頻鏡頭集中各視頻鏡頭的軟標(biāo)簽、所述視頻鏡頭集中各視頻鏡頭中的各代表幀的軟標(biāo)簽以及所述視頻鏡頭集中各視頻鏡頭中的各代表幀的各區(qū)域的軟標(biāo)簽的當(dāng)前值是否收斂:若是,則將所述各視頻鏡頭的軟標(biāo)簽、所述各代表幀的軟標(biāo)簽以及所述各區(qū)域的軟標(biāo)簽的當(dāng)前值作為所述代價(jià)函數(shù)中的未知量的計(jì)算值保留;否則,再次利用第三計(jì)算子單元、第四計(jì)算子單元和第五計(jì)算子單元分別進(jìn)行下一次迭代計(jì)算,直至第三判定子單元判定所述各視頻鏡頭的軟標(biāo)簽、所述各代表幀的軟標(biāo)簽以及所述各區(qū)域的軟標(biāo)簽的當(dāng)前值收斂為止。

附記12.一種視頻處理方法,包括:分別提取視頻鏡頭集中的每個(gè)視頻鏡頭的至少一個(gè)代表幀,并將所提取的每個(gè)代表幀分割為多個(gè)區(qū)域,其中,所述視頻鏡頭集的至少部分視頻鏡頭是帶標(biāo)簽的視頻鏡頭;提取所述視頻鏡頭集中的每個(gè)視頻鏡頭的鏡頭級(jí)視覺特征、幀級(jí)視覺特征和區(qū)域級(jí)視覺特征;根據(jù)所述鏡頭級(jí)視覺特征構(gòu)建鏡頭級(jí)加權(quán)圖,根據(jù)所述幀級(jí)視覺特征構(gòu)建幀級(jí)加權(quán)圖,以及根據(jù)所述區(qū)域級(jí)視覺特征構(gòu)建區(qū)域級(jí)加權(quán)圖;以所述視頻鏡頭集中的每個(gè)視頻鏡頭的軟標(biāo)簽、所述每個(gè)視頻鏡頭中的每個(gè)代表幀的軟標(biāo)簽以及所述每個(gè)代表幀中的每個(gè)區(qū)域的軟標(biāo)簽為未知量,根據(jù)所述鏡頭級(jí)加權(quán)圖、所述幀級(jí)加權(quán)圖和所述區(qū)域級(jí)加權(quán)圖的結(jié)構(gòu)信息,以及根據(jù)所述每個(gè)視頻鏡頭的軟標(biāo)簽、所述每個(gè)代表幀的軟標(biāo)簽以及所述每個(gè)區(qū)域的軟標(biāo)簽之間的關(guān)系,構(gòu)造代價(jià)函數(shù);通過求解所述代價(jià)函數(shù)的最優(yōu)問題,獲得所述未知量的計(jì)算值;以及根據(jù)所獲得的計(jì)算值來進(jìn)行視頻處理。

附記13.根據(jù)附記12所述的視頻處理方法,所述視頻處理是視頻檢索,其中,所述視頻鏡頭集包括帶標(biāo)簽的查詢視頻鏡頭,以及所述的根據(jù)所獲得的計(jì)算值來進(jìn)行視頻處理的步驟包括:根據(jù)所獲得的計(jì)算值,將所述視頻鏡頭集中除所述查詢視頻鏡頭之外的、與所述查詢視頻鏡頭的相似度在預(yù)定范圍內(nèi)的視頻鏡頭判定為檢索結(jié)果。

附記14.根據(jù)附記13所述的視頻處理方法,其中,所述視頻鏡頭集中除所述查詢視頻鏡頭之外的、與所述查詢視頻鏡頭的相似度在預(yù)定范圍內(nèi)的視頻鏡頭是以下視頻鏡頭中的一種:其軟標(biāo)簽高于第一預(yù)設(shè)閾值的視頻鏡頭,并且該視頻鏡頭中具有最大軟標(biāo)簽的代表幀的軟標(biāo)簽高于第二預(yù)設(shè)閾值、以及該代表幀中具有最大軟標(biāo)簽的區(qū)域的軟標(biāo)簽高于第三預(yù)設(shè)閾值;以及其軟標(biāo)簽以及其中具有最大軟標(biāo)簽的代表幀的軟標(biāo)簽和該代表幀中具有最大軟標(biāo)簽的區(qū)域的軟標(biāo)簽的三者加權(quán)和最大的前N個(gè)視頻鏡頭,其中,N為正整數(shù)。

附記15.根據(jù)附記13或14所述的視頻處理方法,其中,在所述查詢視頻鏡頭僅包括一幀圖像的情況下,所述查詢視頻鏡頭即為查詢圖像,以及所述查詢視頻鏡頭中的代表幀即為所述查詢圖像本身。

附記16.根據(jù)附記12所述的視頻處理方法,其中,所述視頻處理是視頻概念檢測(cè),以及所述的根據(jù)所獲得的計(jì)算值來進(jìn)行視頻處理的步驟包括:根據(jù)所獲得的計(jì)算值,判定不帶標(biāo)簽的待測(cè)視頻鏡頭是否包含與所述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念。

附記17.根據(jù)附記16所述的視頻處理方法,其中,所述的判定不帶標(biāo)簽的待測(cè)視頻鏡頭是否包含與所述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念包括:判定所述待測(cè)視頻鏡頭是否包括在所述視頻鏡頭集中;在所述待測(cè)視頻鏡頭未包括在所述視頻鏡頭集中的情況下,提取所述待測(cè)視頻鏡頭的至少一個(gè)代表幀,并將所述待測(cè)視頻鏡頭的每個(gè)代表幀分割為多個(gè)區(qū)域,并根據(jù)所述未知量的計(jì)算值,來獲得所述待測(cè)視頻鏡頭的軟標(biāo)簽的計(jì)算值、所述待測(cè)視頻鏡頭中每個(gè)代表幀的軟標(biāo)簽的計(jì)算值以及所述待測(cè)視頻鏡頭中每個(gè)代表幀的每個(gè)區(qū)域的軟標(biāo)簽的計(jì)算值;根據(jù)所獲得的所述待測(cè)視頻鏡頭的軟標(biāo)簽的計(jì)算值、所述待測(cè)視頻鏡頭中每個(gè)代表幀的軟標(biāo)簽的計(jì)算值以及所述待測(cè)視頻鏡頭中每個(gè)代表幀的每個(gè)區(qū)域的軟標(biāo)簽的計(jì)算值,來計(jì)算所述待測(cè)視頻鏡頭包含與所述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念的程度值;以及在所述程度值大于或等于第四預(yù)設(shè)閾值的情況下判定所述待測(cè)視頻鏡頭包含與所述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念,以及在所述程度值小于所述第四預(yù)設(shè)閾值的情況下判定所述待測(cè)視頻鏡頭不包含與所述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念。

附記18.根據(jù)附記16或17所述的視頻處理方法,還包括:在所述待測(cè)視頻鏡頭被判定為包含與所述視頻鏡頭集中的帶標(biāo)簽的視頻鏡頭有關(guān)的語義概念的情況下,使用所述視頻鏡頭集中的帶正標(biāo)簽的視頻鏡頭的標(biāo)簽來標(biāo)注所述待測(cè)視頻鏡頭。

附記19.根據(jù)附記12-18中任一所述的視頻處理方法,其中,所述的根據(jù)所述鏡頭級(jí)視覺特征構(gòu)建鏡頭級(jí)加權(quán)圖、根據(jù)所述幀級(jí)視覺特征構(gòu)建幀級(jí)加權(quán)圖以及根據(jù)所述區(qū)域級(jí)視覺特征構(gòu)建區(qū)域級(jí)加權(quán)圖包括:以所述視頻鏡頭集中的每個(gè)視頻鏡頭作為節(jié)點(diǎn),以每?jī)蓚€(gè)節(jié)點(diǎn)之間在鏡頭級(jí)視覺特征上的相似度作為所述兩個(gè)節(jié)點(diǎn)之間的加權(quán)邊的權(quán)值,構(gòu)建所述鏡頭級(jí)加權(quán)圖;以所述視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀作為節(jié)點(diǎn),以每?jī)蓚€(gè)節(jié)點(diǎn)之間在幀級(jí)視覺特征上的相似度作為所述兩個(gè)節(jié)點(diǎn)之間的加權(quán)邊的權(quán)值,構(gòu)建所述幀級(jí)加權(quán)圖;以及以所述視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀的每個(gè)區(qū)域作為節(jié)點(diǎn),以每?jī)蓚€(gè)節(jié)點(diǎn)之間在區(qū)域級(jí)視覺特征上的相似度作為所述兩個(gè)節(jié)點(diǎn)之間的加權(quán)邊的權(quán)值,構(gòu)建所述區(qū)域級(jí)加權(quán)圖。

附記20.根據(jù)附記12-19中任一所述的視頻處理方法,其中,所述代價(jià)函數(shù)通過如下方式構(gòu)造:根據(jù)所述鏡頭級(jí)加權(quán)圖、所述幀級(jí)加權(quán)圖和所述區(qū)域級(jí)加權(quán)圖的結(jié)構(gòu)信息,設(shè)定這樣的第一約束條件:令鏡頭級(jí)視覺特征越相似的兩個(gè)視頻鏡頭的軟標(biāo)簽之間的差異越小,令幀級(jí)視覺特征越相似的兩個(gè)代表幀的軟標(biāo)簽之間的差異越小,以及令區(qū)域級(jí)視覺特征越相似的兩個(gè)區(qū)域的軟標(biāo)簽之間的差異越??;根據(jù)所述每個(gè)視頻鏡頭的軟標(biāo)簽、所述每個(gè)代表幀的軟標(biāo)簽以及所述每個(gè)區(qū)域的軟標(biāo)簽之間的關(guān)系來設(shè)定這樣的第二約束條件:令帶負(fù)標(biāo)簽的視頻鏡頭的軟標(biāo)簽、帶負(fù)標(biāo)簽的視頻鏡頭中所有代表幀的軟標(biāo)簽以及帶負(fù)標(biāo)簽的視頻鏡頭中所有代表幀的所有區(qū)域的軟標(biāo)簽盡量接近-1,令帶正標(biāo)簽的視頻鏡頭的軟標(biāo)簽盡量接近1,令帶正標(biāo)簽的視頻鏡頭中具有最大軟標(biāo)簽的代表幀的軟標(biāo)簽盡量接近該代表幀所屬視頻鏡頭的軟標(biāo)簽,以及令帶正標(biāo)簽的視頻鏡頭中的每個(gè)可能的正幀中具有最大軟標(biāo)簽的區(qū)域的軟標(biāo)簽盡量接近該區(qū)域所屬代表幀的軟標(biāo)簽;以及以所述視頻鏡頭集中的每個(gè)視頻鏡頭的軟標(biāo)簽、所述視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀的軟標(biāo)簽以及所述視頻鏡頭集中的每個(gè)視頻鏡頭的每個(gè)代表幀的每個(gè)區(qū)域的軟標(biāo)簽為未知量,根據(jù)所述第一約束條件和所述第二約束條件,構(gòu)造代價(jià)函數(shù)。

附記21.根據(jù)附記20所述的視頻處理方法,其中,所述可能的正幀是這樣的幀:該幀的軟標(biāo)簽的值高于第五預(yù)設(shè)閾值;或該幀中包含有軟標(biāo)簽的值高于第六預(yù)設(shè)閾值的區(qū)域。

附記22.根據(jù)附記12-21中任一所述的視頻處理方法,其中,所述的通過求解所述代價(jià)函數(shù)的最優(yōu)問題獲得所述未知量的計(jì)算值包括:

對(duì)所述視頻鏡頭集中各視頻鏡頭的軟標(biāo)簽以及所述視頻鏡頭集中各視頻鏡頭中的各代表幀的軟標(biāo)簽賦初值;

根據(jù)所述視頻鏡頭集中各視頻鏡頭的軟標(biāo)簽的當(dāng)前值,以及根據(jù)所述視頻鏡頭集中各視頻鏡頭中的各代表幀的軟標(biāo)簽的當(dāng)前值,將所述代價(jià)函數(shù)轉(zhuǎn)化為帶約束的最小化問題,并利用帶約束的凹凸過程來求解該帶約束的最小化問題,以獲得所述視頻鏡頭集中各視頻鏡頭中的各代表幀的各區(qū)域的軟標(biāo)簽的計(jì)算值;

根據(jù)所述視頻鏡頭集中各視頻鏡頭的軟標(biāo)簽的當(dāng)前值,以及根據(jù)所述視頻鏡頭集中各視頻鏡頭中的各代表幀的各區(qū)域的軟標(biāo)簽的當(dāng)前值,將所述代價(jià)函數(shù)轉(zhuǎn)化為帶約束的最小化問題,并利用帶約束的凹凸過程來求解該帶約束的最小化問題,以獲得所述視頻鏡頭集中各視頻鏡頭中的各代表幀的軟標(biāo)簽的計(jì)算值;

根據(jù)所述視頻鏡頭集中各視頻鏡頭中的各代表幀的軟標(biāo)簽的當(dāng)前值,以及根據(jù)所述視頻鏡頭集中各視頻鏡頭中的各代表幀的各區(qū)域的軟標(biāo)簽的當(dāng)前值,利用所述代價(jià)函數(shù)進(jìn)行計(jì)算來獲得所述視頻鏡頭集中各視頻鏡頭的軟標(biāo)簽的計(jì)算值;以及

判定所述各視頻鏡頭的軟標(biāo)簽、所述各代表幀的軟標(biāo)簽以及所述各區(qū)域的軟標(biāo)簽的當(dāng)前值是否收斂:若是,則將所述各視頻鏡頭的軟標(biāo)簽、所述各代表幀的軟標(biāo)簽以及所述各區(qū)域的軟標(biāo)簽的當(dāng)前值作為所述代價(jià)函數(shù)中的未知量的計(jì)算值保留;否則,進(jìn)行下次迭代計(jì)算來分別依次計(jì)算所述各區(qū)域的軟標(biāo)簽的計(jì)算值、所述各代表幀的軟標(biāo)簽的計(jì)算值以及所述各視頻鏡頭的軟標(biāo)簽的計(jì)算值,直至所計(jì)算的所述各區(qū)域的軟標(biāo)簽的計(jì)算值、所述各代表幀的軟標(biāo)簽的計(jì)算值以及所述各視頻鏡頭的軟標(biāo)簽的計(jì)算值的當(dāng)前值收斂為止。

附記23.一種設(shè)備,其包括如附記1-11中任一所述的視頻處理裝置。

附記24.根據(jù)附記23所述的設(shè)備,其中,所述設(shè)備是以下設(shè)備中的任意一種:照相機(jī)、攝像機(jī)、計(jì)算機(jī)、手機(jī)、個(gè)人數(shù)字助理以及多媒體處理設(shè)備。

附記25.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有能夠由計(jì)算設(shè)備執(zhí)行的計(jì)算機(jī)程序,所述程序在執(zhí)行時(shí)能夠使所述計(jì)算設(shè)備執(zhí)行根據(jù)附記12-22中任意一項(xiàng)所述的視頻處理方法。

當(dāng)前第1頁1 2 
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 留言:0條
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1