本發(fā)明提出了一種基于語(yǔ)義-情感雙流注意力融合的虛假評(píng)論感知方法,涉及自然語(yǔ)言處理、文本分類技術(shù),尤其涉及一種用于在線虛假評(píng)論感知的方法與系統(tǒng)。
背景技術(shù):
1、在當(dāng)今的數(shù)字經(jīng)濟(jì)時(shí)代,在線評(píng)論已成為連接消費(fèi)者與商家的關(guān)鍵橋梁,是影響公眾輿論和消費(fèi)決策的核心信息來源。然而,這一生態(tài)系統(tǒng)的價(jià)值正受到日益泛濫的虛假評(píng)論的嚴(yán)重侵蝕。出于商業(yè)競(jìng)爭(zhēng)或惡意攻擊等目的,大量虛假、誤導(dǎo)性內(nèi)容充斥網(wǎng)絡(luò),不僅損害了消費(fèi)者的知情權(quán),也破壞了公平、誠(chéng)信的市場(chǎng)環(huán)境。因此,開發(fā)能夠自動(dòng)、精準(zhǔn)識(shí)別感知虛假評(píng)論的技術(shù),對(duì)維護(hù)網(wǎng)絡(luò)生態(tài)健康具有重大的現(xiàn)實(shí)意義。
2、傳統(tǒng)的虛假評(píng)論識(shí)別技術(shù)在面對(duì)不斷演進(jìn)的、特別是針對(duì)中文語(yǔ)言特點(diǎn)的欺騙性文本時(shí),存在諸多問題。一方面,早期方法依賴的淺層文本特征已難以應(yīng)對(duì)復(fù)雜的語(yǔ)言偽裝;另一方面,現(xiàn)有模型雖然在通用語(yǔ)義理解上有所進(jìn)步,但對(duì)于評(píng)論文本中特有的、暗示其虛假性的“情感邏輯”線索缺乏專門的建模能力,尤其是在處理語(yǔ)言結(jié)構(gòu)復(fù)雜、表達(dá)含蓄的中文環(huán)境時(shí),識(shí)別性能不盡人意。
3、目前主流的感知技術(shù)大致可分為以下幾類:
4、(1)基于人工特征工程與傳統(tǒng)機(jī)器學(xué)習(xí)的方法
5、此類方法通過人工設(shè)計(jì)和提取一系列可量化的文本特征,再輸入到支持向量機(jī)(svm)、邏輯回歸或隨機(jī)森林等傳統(tǒng)分類器中進(jìn)行訓(xùn)練和識(shí)別。這些特征通常包括:文本元數(shù)據(jù)特征(如評(píng)論長(zhǎng)度、大寫字母比例、評(píng)分星級(jí))、詞匯統(tǒng)計(jì)特征(如特定情感詞、代詞的使用頻率)以及句法結(jié)構(gòu)特征(如詞性分布)等。
6、然而,該方法存在多方面的固有局限性。首先,特征工程過程高度依賴領(lǐng)域?qū)<业慕?jīng)驗(yàn),耗費(fèi)大量人力,且設(shè)計(jì)的特征集合泛化能力有限。其次,該方法將評(píng)論視為一個(gè)無(wú)序的“特征袋”,完全忽略了詞語(yǔ)順序和句子間的上下文關(guān)系,無(wú)法捕捉文本深層的語(yǔ)義內(nèi)涵。
7、在面對(duì)精心偽造的中文虛假評(píng)論時(shí),其局限性尤為明顯。欺騙性文本的作者可以輕易地規(guī)避這些淺層規(guī)則,例如通過調(diào)整評(píng)論長(zhǎng)度、穿插使用情感詞來繞過檢測(cè)。更重要的是,對(duì)于中文中常見的、通過前后句情感轉(zhuǎn)折或?qū)Ρ葋戆凳菊鎸?shí)意圖的復(fù)雜評(píng)論(例如“外觀設(shè)計(jì)滿分,材質(zhì)手感也很棒,但是用了一天就壞了”),此類方法幾乎無(wú)法理解其中蘊(yùn)含的邏輯和真實(shí)傾向,從而導(dǎo)致較高的誤判率。
8、(2)基于靜態(tài)詞嵌入與早期深度學(xué)習(xí)的方法
9、隨著深度學(xué)習(xí)的發(fā)展,研究者開始使用卷積神經(jīng)網(wǎng)絡(luò)(cnn)或長(zhǎng)短期記憶網(wǎng)絡(luò)(lstm)等模型自動(dòng)學(xué)習(xí)文本表示。這些方法通常將文本中的單詞映射為預(yù)訓(xùn)練好的靜態(tài)詞向量(如word2vec、glove),然后由神經(jīng)網(wǎng)絡(luò)捕捉局部語(yǔ)序(cnn)或長(zhǎng)距離依賴(lstm)來學(xué)習(xí)句子或文檔的表示,并用于最終分類。
10、相較于傳統(tǒng)方法,這類技術(shù)在自動(dòng)特征提取和捕捉語(yǔ)序方面有了顯著進(jìn)步。然而,其核心的“靜態(tài)詞嵌入”存在重大缺陷:它無(wú)法解決一詞多義問題,即同一個(gè)詞在不同上下文中擁有完全相同的向量表示,這限制了模型對(duì)復(fù)雜語(yǔ)義的理解深度。
11、在虛假評(píng)論檢測(cè)感知任務(wù)中,這一缺陷會(huì)造成關(guān)鍵信息的損失。此外,雖然lstm理論上可以捕捉長(zhǎng)依賴,但在實(shí)踐中,對(duì)于一篇包含多個(gè)分句、情感多次轉(zhuǎn)折的評(píng)論,標(biāo)準(zhǔn)的深度學(xué)習(xí)模型仍然缺乏一個(gè)明確的機(jī)制去建模情感的流動(dòng)軌跡和邏輯連貫性。模型可能知道評(píng)論中同時(shí)包含了正面和負(fù)面的詞語(yǔ),但難以判斷這種情感組合是合理的(如描述產(chǎn)品的優(yōu)缺點(diǎn)),還是不合邏輯的、帶有欺騙性意圖的(如為了湊字?jǐn)?shù)或偽裝成真實(shí)用戶而生硬地拼接內(nèi)容)。
12、(3)基于大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的方法
13、以bert為代表的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型(pre-trained?language?models)通過在海量無(wú)標(biāo)簽文本上進(jìn)行自監(jiān)督學(xué)習(xí),獲得了強(qiáng)大的上下文感知能力,極大地推動(dòng)了自然語(yǔ)言處理領(lǐng)域的發(fā)展。在虛假評(píng)論檢測(cè)中,對(duì)bert等模型進(jìn)行微調(diào)(fine-tuning)已成為當(dāng)前的主流和最先進(jìn)的基線方法。
14、盡管取得了顯著成果,但標(biāo)準(zhǔn)的微調(diào)方法依然存在其局限性。標(biāo)準(zhǔn)的微調(diào)過程通常只在模型的最終輸出層添加一個(gè)分類頭,并以最小化分類損失為唯一目標(biāo)。這種“端到端”的優(yōu)化方式雖然直接,但也導(dǎo)致模型成為一個(gè)“黑箱”,其學(xué)習(xí)過程缺乏針對(duì)性的引導(dǎo)。
15、在處理復(fù)雜的、具有欺騙性的中文評(píng)論時(shí),這一問題尤為突出。標(biāo)準(zhǔn)微調(diào)模型并沒有被顯式地要求去理解和評(píng)估評(píng)論內(nèi)部“情感發(fā)展是否合乎邏輯”。例如,一篇虛假評(píng)論可能會(huì)為了顯得客觀而刻意制造情感轉(zhuǎn)折,但其轉(zhuǎn)折方式可能是生硬和不自然的。標(biāo)準(zhǔn)bert模型在微調(diào)時(shí)缺乏一個(gè)專門的架構(gòu)或優(yōu)化目標(biāo)去捕捉并利用這種“情感邏輯上的不和諧感”。它可能僅僅依賴于某些強(qiáng)語(yǔ)義詞匯作出判斷,而忽略了這種更能揭示其虛假本質(zhì)的深層線索。
16、因此,如何設(shè)計(jì)一種能充分利用預(yù)訓(xùn)練語(yǔ)言模型的強(qiáng)大語(yǔ)義能力,同時(shí)引入一種新機(jī)制來顯式地、有監(jiān)督地學(xué)習(xí)和理解文本內(nèi)部情感邏輯的連貫性,是本領(lǐng)域目前亟待解決的關(guān)鍵技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、為解決現(xiàn)有技術(shù)中難以精準(zhǔn)識(shí)別中文虛假評(píng)論,特別是無(wú)法有效建模評(píng)論內(nèi)部情感邏輯連貫性的問題,本發(fā)明提出一種融合深度語(yǔ)義與情感動(dòng)態(tài)的虛假評(píng)論感知方法。該方法為高精度、強(qiáng)魯棒性地自動(dòng)化識(shí)別中文虛假評(píng)論提供了有效的解決方案,能夠有效應(yīng)對(duì)當(dāng)前網(wǎng)絡(luò)信息內(nèi)容安全所面臨的挑戰(zhàn)。
2、本發(fā)明提出了一種基于語(yǔ)義-情感雙流并行處理架構(gòu)的虛假評(píng)論感知方法。通過本發(fā)明的方法,可以在復(fù)雜的網(wǎng)絡(luò)輿論環(huán)境中,精準(zhǔn)識(shí)別出那些通過模仿真實(shí)用戶語(yǔ)氣、刻意構(gòu)造情感轉(zhuǎn)折來偽裝的虛假評(píng)論,解決了傳統(tǒng)模型僅依賴淺層特征或單一語(yǔ)義維度而容易被誤導(dǎo)的難題。
3、在模型構(gòu)建與訓(xùn)練階段中,本發(fā)明基于中文評(píng)論的語(yǔ)言學(xué)特性,首先將單篇評(píng)論文本劃分為能夠體現(xiàn)情感基本單元的有序子句序列。然后,本發(fā)明獨(dú)創(chuàng)性地采用雙流并行架構(gòu)處理文本信息:語(yǔ)義特征流,通過大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型(如bert),對(duì)完整的評(píng)論文本進(jìn)行處理,以捕捉全局的、深層次的上下文語(yǔ)義信息;情感動(dòng)態(tài)特征流,通過對(duì)每一個(gè)子句進(jìn)行情感分析,生成一個(gè)描繪評(píng)論情感流動(dòng)軌跡的情感向量序列。尤為關(guān)鍵的是,本發(fā)明創(chuàng)新性地引入一項(xiàng)情感遮蓋建模(masked?sentiment?modeling,msm)輔助任務(wù),通過讓模型根據(jù)相鄰子句的情感來預(yù)測(cè)被遮蓋子句的情感,從而強(qiáng)制模型學(xué)習(xí)和理解情感表達(dá)的內(nèi)在邏輯與連貫性。最后,利用一個(gè)包含分層注意力機(jī)制的深度學(xué)習(xí)主模型,在一個(gè)由主分類任務(wù)損失和上述輔助任務(wù)損失共同構(gòu)成的聯(lián)合損失函數(shù)的監(jiān)督下,對(duì)這兩個(gè)信息流進(jìn)行深度融合與訓(xùn)練,構(gòu)建出一個(gè)兼具強(qiáng)大語(yǔ)義理解能力和情感邏輯辨別能力的識(shí)別模型。
4、在識(shí)別與應(yīng)用階段,本發(fā)明首先對(duì)一篇新的、待檢測(cè)的評(píng)論文本執(zhí)行同樣的分句處理。接著,通過已經(jīng)訓(xùn)練好的雙流特征提取模塊,生成該評(píng)論的全局語(yǔ)義表示向量和全局情感動(dòng)態(tài)向量。最后,將這兩個(gè)融合后的特征向量輸入到經(jīng)過訓(xùn)練的深度學(xué)習(xí)主模型中進(jìn)行分類判別。其中,分層注意力機(jī)制負(fù)責(zé)捕捉評(píng)論內(nèi)部各子句之間復(fù)雜的語(yǔ)義依賴關(guān)系;情感注意力機(jī)制則聚焦于評(píng)估整體情感流的合理性。本發(fā)明的方法在面對(duì)包含諷刺、隱喻、情感轉(zhuǎn)折等復(fù)雜語(yǔ)言現(xiàn)象的評(píng)論時(shí),仍能保持較高的識(shí)別準(zhǔn)確率和魯棒性,能夠?qū)A吭u(píng)論進(jìn)行實(shí)時(shí)檢測(cè),且不依賴于任何除評(píng)論文本本身之外的外部信息。
5、為了實(shí)現(xiàn)本發(fā)明的目的,本方案具體技術(shù)步驟如下:一種融合深度語(yǔ)義與情感動(dòng)態(tài)的虛假評(píng)論感知方法,所述方法包括以下步驟:
6、步驟(1)構(gòu)建并預(yù)處理用于模型訓(xùn)練的評(píng)論數(shù)據(jù)集,所述數(shù)據(jù)集包含大量已標(biāo)注的真實(shí)評(píng)論與虛假評(píng)論樣本;
7、步驟(2)對(duì)輸入的待檢測(cè)評(píng)論文本進(jìn)行分句處理,將單篇評(píng)論文本分割成一個(gè)或多個(gè)有序的子句,形成子句序列;
8、步驟(3)采用雙流并行架構(gòu),對(duì)所述評(píng)論文本及子句序列進(jìn)行特征提取,分別獲得深層語(yǔ)義特征流和情感動(dòng)態(tài)特征流;
9、步驟(4)基于步驟(3)獲得的情感動(dòng)態(tài)特征流,執(zhí)行情感遮蓋建模(msm)輔助任務(wù),以訓(xùn)練模型對(duì)情感上下文邏輯的理解能力;
10、步驟(5)構(gòu)建一個(gè)包含分層注意力機(jī)制、特征融合網(wǎng)絡(luò)及分類器的深度學(xué)習(xí)主模型,并利用步驟(1)的數(shù)據(jù)集及一個(gè)聯(lián)合損失函數(shù)對(duì)所述主模型進(jìn)行端到端的訓(xùn)練;
11、步驟(6)保存經(jīng)過步驟(5)充分訓(xùn)練后所得到的、包含最優(yōu)參數(shù)的虛假評(píng)論識(shí)別模型;
12、步驟(7)調(diào)用步驟(6)得到的識(shí)別模型,對(duì)任意新的待檢測(cè)評(píng)論文本進(jìn)行處理和分類,輸出其為虛假評(píng)論的概率。
13、進(jìn)一步的,所述步驟(1)中,構(gòu)建并預(yù)處理評(píng)論數(shù)據(jù)集的具體過程如下
14、(1.1)從主流電子商務(wù)平臺(tái)、社交媒體網(wǎng)站等渠道,大規(guī)模采集公開的、帶有用戶標(biāo)簽或平臺(tái)官方標(biāo)記的評(píng)論文本;
15、(1.2)對(duì)采集的數(shù)據(jù)進(jìn)行清洗,去除無(wú)關(guān)字符、html標(biāo)簽等噪聲,并依據(jù)平臺(tái)標(biāo)記、用戶反饋或其他先驗(yàn)知識(shí),對(duì)評(píng)論進(jìn)行“真實(shí)評(píng)論”或“虛假評(píng)論”的初步標(biāo)注,形成原始語(yǔ)料庫(kù);
16、(1.3)組織人工對(duì)初步標(biāo)注的數(shù)據(jù)進(jìn)行交叉驗(yàn)證和精校,確保標(biāo)簽的準(zhǔn)確性,最終形成高質(zhì)量的、可用于監(jiān)督學(xué)習(xí)的訓(xùn)練集、驗(yàn)證集和測(cè)試集。
17、進(jìn)一步的,所述步驟(2)中,對(duì)評(píng)論文本進(jìn)行分句處理的方法如下:
18、(2.1)分析中文評(píng)論的語(yǔ)言學(xué)特征,發(fā)現(xiàn)評(píng)論內(nèi)部的情感轉(zhuǎn)折點(diǎn)往往是識(shí)別其真實(shí)性的關(guān)鍵線索。這些轉(zhuǎn)折點(diǎn)通常由特定的連詞或標(biāo)點(diǎn)符號(hào)標(biāo)記;
19、(2.2)預(yù)設(shè)一個(gè)切分規(guī)則庫(kù),該庫(kù)包含中文中常見的轉(zhuǎn)折連詞(例如“但是”、“可是”、“不過”、“然而”等)以及顯式分隔標(biāo)點(diǎn)符號(hào)(例如句號(hào)、問號(hào)、感嘆號(hào)、分號(hào)等)。依據(jù)此規(guī)則庫(kù),將輸入的單篇評(píng)論文本t分割成一個(gè)有序的子句序列c={c1,c2,...,cn}。
20、現(xiàn)有的技術(shù)通常將預(yù)處理后的文本直接輸入模型(如bert、cnn、gnn等),讓模型自身去學(xué)習(xí)文本內(nèi)的關(guān)系。這種方式雖然可行,但缺乏針對(duì)性的引導(dǎo),需要耗費(fèi)更多精力去學(xué)習(xí)句子間的邏輯關(guān)系。進(jìn)行文本分割,本質(zhì)上是一種有監(jiān)督的、基于先驗(yàn)知識(shí)的特征工程。這種以“保留情感邏輯”為目的的預(yù)處理,是專門為后續(xù)雙流模型(特別是情感動(dòng)態(tài)流)服務(wù)的,具有極強(qiáng)的任務(wù)針對(duì)性。沒有直接將文本丟給模型,而是先用語(yǔ)言學(xué)知識(shí)提煉出最重要的結(jié)構(gòu)化信息。這極大地降低了后續(xù)模型的學(xué)習(xí)難度,使其可以更專注于學(xué)習(xí)子句之間的情感邏輯,而不是從一堆零散的詞元中去大海撈針。使得整體模型架構(gòu)更加高效、精準(zhǔn),且更具創(chuàng)新性。
21、進(jìn)一步的,所述步驟(3)中,雙流并行架構(gòu)的特征提取過程如下:
22、(3.1)深層語(yǔ)義特征流:將未經(jīng)分句的、完整的原始評(píng)論文本t輸入一個(gè)大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型(如bert)。該模型通過其內(nèi)部的transformer結(jié)構(gòu)和上下文自注意力機(jī)制,為文本中的每一個(gè)詞元(token)生成一個(gè)富含上下文信息的深度語(yǔ)義詞向量hi。
23、(3.2)情感動(dòng)態(tài)特征流:將步驟(2)得到的每一個(gè)分句cj,分別輸入一個(gè)預(yù)訓(xùn)練好的、高質(zhì)量的情感分析模型(可以是api或另一個(gè)語(yǔ)言模型),為每個(gè)子句生成其對(duì)應(yīng)的情感向量sj。所有子句的情感向量構(gòu)成了一個(gè)情感向量序列{s1,s2,...,sn},該序列顯式地描繪了評(píng)論的情感流動(dòng)軌跡。
24、通過為每一個(gè)分句生成一個(gè)情感向量,最終得到了一個(gè)有序的情感向量序列。它顯式地、結(jié)構(gòu)化地描繪了用戶的情感是如何在評(píng)論中發(fā)展和轉(zhuǎn)折的。例如,一篇虛假評(píng)論可能會(huì)出現(xiàn)“極度正面->生硬轉(zhuǎn)折->強(qiáng)行正面”這種不自然的模式。該方法把這種模式以向量序列的形式清晰地捕捉了下來,而傳統(tǒng)方法則會(huì)忽略這種過程。這是后續(xù)進(jìn)行“情感遮蓋建模(msm)”和情感注意力分析的基礎(chǔ),也是相比現(xiàn)有技術(shù)最核心的進(jìn)步之一。
25、進(jìn)一步的,所述步驟(4)中,訓(xùn)練情感遮蓋建模(msm)輔助任務(wù)的具體過程如下:
26、(4.1)該任務(wù)旨在讓模型學(xué)習(xí)并理解情感上下文的邏輯連貫性。遍歷步驟(3.2)生成的情感向量序列{s1,s2,...,sn},對(duì)于其中任意一個(gè)索引i(從1到n-2),構(gòu)建一個(gè)訓(xùn)練樣本;
27、(4.2)將第i個(gè)分句的情感向量si和第i+2個(gè)分句的情感向量si+2在向量維度上進(jìn)行拼接,形成一個(gè)上下文向量:context_vector=[si;si+2],該向量作為模型的輸入;
28、(4.3)設(shè)定模型的預(yù)測(cè)目標(biāo)為中間被“遮蓋”的第i+1個(gè)分句的真實(shí)情感向量si+1。模型采用一個(gè)多層感知機(jī)(mlp)作為預(yù)測(cè)頭,其輸出維度與情感向量的維度一致;
29、(4.4)這是一個(gè)高維向量回歸任務(wù),其損失函數(shù)lmsm采用余弦相似度損失,旨在最小化預(yù)測(cè)向量與真實(shí)向量之間的方向差異。損失函數(shù)公式如下:
30、
31、其中,是模型預(yù)測(cè)出的情感向量,si+1是真實(shí)的情感向量。
32、與msm在形式上最接近的是bert自身的掩碼語(yǔ)言建模(mlm)任務(wù)。但mlm的目標(biāo)是預(yù)測(cè)被遮蓋的具體token,它本質(zhì)上還是在語(yǔ)言符號(hào)層面進(jìn)行學(xué)習(xí)。msm是一個(gè)更高層次的抽象。模型學(xué)習(xí)的不再是“這個(gè)空應(yīng)該填‘高興’還是‘滿意’”,而是“在前一種積極情感和后一種積極情感之間,應(yīng)該存在一個(gè)在向量空間中與之方向一致的積極情感狀態(tài)”。它學(xué)習(xí)的是情感狀態(tài)之間的關(guān)聯(lián),而不是詞語(yǔ)搭配。這使得模型能夠擺脫表面文字的束縛,抓住情感的本質(zhì)。因此,即使虛假評(píng)論用不同的詞語(yǔ)偽造了相似的情感轉(zhuǎn)折,msm訓(xùn)練出的模型也可能因?yàn)槠洹扒楦邢蛄俊钡倪壿嫴贿B貫而識(shí)別出異常。
33、進(jìn)一步的,所述步驟(5)中,構(gòu)建并訓(xùn)練深度學(xué)習(xí)主模型的具體過程如下(5.1)構(gòu)建主模型架構(gòu)。模型由分層注意力單元、特征融合單元和分類單元組成:
34、分層注意力單元:包含句內(nèi)注意力和句間注意力。句內(nèi)注意力用于聚合每個(gè)子句內(nèi)的詞向量,形成子句級(jí)語(yǔ)義表示vj。句間注意力借鑒transformer?encoder結(jié)構(gòu),通過多頭自注意力機(jī)制、殘差連接與層歸一化等操作,對(duì)所有子句的表示vj進(jìn)行信息交互,以捕捉長(zhǎng)距離依賴,最終輸出全局語(yǔ)義表示向量x。同時(shí),一個(gè)情感注意力單元對(duì)情感向量序列{s1,s2,...,sn}進(jìn)行加權(quán)求和,得到全局情感動(dòng)態(tài)向量s。
35、特征融合單元:將前一步得到的全局語(yǔ)義表示向量x和全局情感動(dòng)態(tài)向量s在特征維度上進(jìn)行拼接,形成融合向量[x;s],并將其輸入一個(gè)由全連接層構(gòu)成的融合網(wǎng)絡(luò),以進(jìn)行更深度的信息交互。
36、分類單元:在融合網(wǎng)絡(luò)的末端連接一個(gè)帶有sigmoid激活函數(shù)的線性輸出層,用于輸出該評(píng)論為虛假評(píng)論的最終概率值。
37、(5.2)采用聯(lián)合損失函數(shù)進(jìn)行訓(xùn)練。為實(shí)現(xiàn)端到端優(yōu)化,并充分利用多任務(wù)學(xué)習(xí)的優(yōu)勢(shì),采用一個(gè)聯(lián)合損失函數(shù)ltotal對(duì)整個(gè)模型進(jìn)行訓(xùn)練。該函數(shù)由三部分加權(quán)構(gòu)成:
38、ltotal=lmain+α·lmlm+β·lmsm
39、其中,lmain是主任務(wù)(即真假二分類)的二元交叉熵?fù)p失;lmlm是來自bert語(yǔ)義流的掩碼語(yǔ)言建模損失,作為一項(xiàng)輔助正則化任務(wù);lmsm是來自步驟(4)的情感遮蓋建模任務(wù)損失。α和β是用于平衡各項(xiàng)損失權(quán)重的超參數(shù)。
40、本文中的分層注意力單元采用先局部,再全局”的層次化處理方式,非常符合人類的閱讀和理解習(xí)慣。這種設(shè)計(jì)使得模型能夠更好地理解那些包含多次情感轉(zhuǎn)折或復(fù)雜從句的評(píng)論,而不是將它們視為一堆無(wú)結(jié)構(gòu)的單詞,理解的深度和準(zhǔn)確性遠(yuǎn)超“扁平化”注意力機(jī)制。除此之外,現(xiàn)有技術(shù)的絕大多數(shù)模型在微調(diào)階段都采用“單任務(wù)學(xué)習(xí)”,即只優(yōu)化最終的分類損失。這意味著模型的所有努力都只為了一個(gè)目標(biāo)服務(wù),容易導(dǎo)致過擬合,且學(xué)到的特征表示可能不夠通用和扎實(shí)。而本文采用了由三部分構(gòu)成的聯(lián)合損失函數(shù),這是一個(gè)非常強(qiáng)大的多任務(wù)學(xué)習(xí)框架。通過同時(shí)學(xué)習(xí)三個(gè)任務(wù),模型被引導(dǎo)去學(xué)習(xí)一個(gè)更通用、更本質(zhì)、更魯棒的內(nèi)部表示。因?yàn)榻?jīng)受了多重任務(wù)的考驗(yàn),所以泛化能力更強(qiáng),不容易被一些表面的、欺騙性的文本特征所迷惑,最終在主任務(wù)上的表現(xiàn)也因此得到提升。
41、進(jìn)一步的,所述步驟(7)中,使用訓(xùn)練好的模型進(jìn)行識(shí)別的過程如下:
42、(7.1)捕獲或接收一篇新的待檢測(cè)評(píng)論文本;
43、(7.2)按照步驟(2)和步驟(3)的方法,對(duì)新評(píng)論進(jìn)行分句處理和雙流特征提??;
44、(7.3)將提取出的特征輸入到步驟(6)中保存的、已完成訓(xùn)練的識(shí)別模型中;
45、(7.4)模型前向傳播,通過其內(nèi)部的分層注意力、融合及分類單元進(jìn)行計(jì)算,最終輸出一個(gè)介于0和1之間的概率值??稍O(shè)定一個(gè)閾值(如0.5),若輸出值大于該閾值,則判定該評(píng)論為虛假評(píng)論,反之則為真實(shí)評(píng)論。
46、整個(gè)模型通過一個(gè)由主分類任務(wù)損失、mlm任務(wù)損失和msm任務(wù)損失共同組成的聯(lián)合損失函數(shù)進(jìn)行訓(xùn)練優(yōu)化。這種多任務(wù)學(xué)習(xí)框架使得模型不僅關(guān)注最終的分類結(jié)果,也同時(shí)在語(yǔ)義理解和情感邏輯兩個(gè)維度上進(jìn)行深度學(xué)習(xí),從而獲得更強(qiáng)的泛化能力和魯棒性。
47、一種融合深度語(yǔ)義與情感動(dòng)態(tài)的虛假評(píng)論感知系統(tǒng),所述系統(tǒng)包括:
48、一個(gè)數(shù)據(jù)預(yù)處理模塊,被配置為執(zhí)行步驟(1)(2)所述的步驟;
49、一個(gè)特征提取與模型訓(xùn)練模塊,被配置為執(zhí)行步驟(3)(4)(5)所述的步驟;一個(gè)識(shí)別分類模塊,被配置為執(zhí)行步驟(7)所述的步驟。
50、一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)所述的一種融合深度語(yǔ)義與情感動(dòng)態(tài)的虛假評(píng)論感知方法。
51、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)指令,該計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的一種融合深度語(yǔ)義與情感動(dòng)態(tài)的虛假評(píng)論感知方法
52、與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)如下:
53、1、本發(fā)明通過語(yǔ)義與情感雙流架構(gòu)、創(chuàng)新的msm任務(wù)以及分層注意力機(jī)制,能夠更深刻地理解中文評(píng)論的內(nèi)部結(jié)構(gòu)和情感邏輯,顯著提升了虛假評(píng)論檢測(cè)感知的準(zhǔn)確性和可靠性;
54、2、技術(shù)方案的完整性與獨(dú)立性,整個(gè)感知方法僅依賴于評(píng)論文本本身,不依賴任何外部的元數(shù)據(jù)(如用戶信息、評(píng)分星級(jí)、發(fā)布時(shí)間、ip地址等)。
55、很多場(chǎng)景下,用戶畫像、歷史行為等數(shù)據(jù)是缺失的、不完整的,或是涉及隱私而無(wú)法獲取。純文本方案擁有極強(qiáng)的通用性,可以輕松部署到任何只有評(píng)論文本的平臺(tái),無(wú)論是電商、社交媒體還是新聞app,實(shí)現(xiàn)了“即插即用”。除此之外,依賴用戶行為的圖神經(jīng)網(wǎng)絡(luò)等方法,在新用戶或“小號(hào)”上效果不佳(數(shù)據(jù)稀疏),且容易被偽裝的用戶行為所欺騙;
56、3、模型可解釋性的提升,雖然深度學(xué)習(xí)模型本質(zhì)上是“黑箱”,但架構(gòu)設(shè)計(jì)為理解模型的決策過程提供了多個(gè)可供分析的“窗口”。這也是現(xiàn)有bert微調(diào)方法所欠缺的?!扒楦袆?dòng)態(tài)特征流”生成了一個(gè)有序的情感向量序列{s1,s2,...,s}。這意味著,對(duì)于任何一篇被判為虛假的評(píng)論,分析人員都可以將這個(gè)情感序列可視化,直觀地看到其情感流動(dòng)是否生硬、不合邏輯。這為人工審核和模型糾錯(cuò)提供了極具價(jià)值的線索。“分層注意力單元”在計(jì)算過程中會(huì)生成注意力權(quán)重。通過分析這些權(quán)重,可以知道模型在做決策時(shí),究竟是更關(guān)注評(píng)論中的哪一個(gè)子句。這種“提供觀察窗口”的能力,讓使用者(如平臺(tái)審核員)不再是簡(jiǎn)單地接受一個(gè)“真/假”的結(jié)論,而是能看到一部分模型決策的依據(jù),從而大大提升了對(duì)整個(gè)系統(tǒng)的信任度;
57、4、對(duì)中文語(yǔ)言特性的深度適配,本方案并非單純地將一個(gè)強(qiáng)大的通用模型(bert)直接應(yīng)用于中文數(shù)據(jù),而是先用語(yǔ)言學(xué)知識(shí)對(duì)問題進(jìn)行了“預(yù)處理”和“結(jié)構(gòu)化”,體現(xiàn)了對(duì)中文特性的深刻理解。