本發(fā)明涉及智能交通控制,尤其涉及一種交通信號(hào)控制方法及系統(tǒng)。
背景技術(shù):
1、當(dāng)前,隨著社會(huì)經(jīng)濟(jì)的持續(xù)發(fā)展,城市機(jī)動(dòng)車數(shù)量迅速增長,現(xiàn)有的道路交通設(shè)施普遍承載著巨大的運(yùn)行壓力,由此導(dǎo)致的交通擁堵、通行延誤等問題已成為制約城市發(fā)展的普遍性難題。為緩解交通壓力,現(xiàn)有技術(shù)通常采用固定配時(shí)或感應(yīng)式的交通信號(hào)控制方法,它們存在控制邏輯靜態(tài)、控制效率低下、不具備自主學(xué)習(xí)和優(yōu)化的能力等缺陷,所以,傳統(tǒng)交通信號(hào)控制方法已逐漸無法滿足現(xiàn)代城市交通系統(tǒng)動(dòng)態(tài)復(fù)雜的管理需求。為此,將深度強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用于交通信號(hào)控制領(lǐng)域,成為了一個(gè)極具潛力的技術(shù)方向。該技術(shù)使得信號(hào)控制系統(tǒng)能夠作為一個(gè)智能體,通過與交通環(huán)境的實(shí)時(shí)交互進(jìn)行自主學(xué)習(xí),從而實(shí)現(xiàn)對動(dòng)態(tài)交通流的自適應(yīng)調(diào)控。在眾多深度強(qiáng)化學(xué)習(xí)算法中,d3qn(dueling?double?deep?q-network)是一種被廣泛應(yīng)用的先進(jìn)算法。其基本結(jié)構(gòu)包含一個(gè)用于選擇與評(píng)估的雙網(wǎng)絡(luò)和一個(gè)將狀態(tài)價(jià)值函數(shù)與優(yōu)勢函數(shù)分離的競爭網(wǎng)絡(luò)。
2、然而,在應(yīng)用于復(fù)雜的交通信號(hào)控制場景時(shí),基于d3qn的方法仍存在固有的缺陷:首先,其輸入層通常將來自多方向的交通狀態(tài)信息扁平化為單一的特征向量,這破壞了各交通流之間的時(shí)空關(guān)聯(lián)性,導(dǎo)致模型難以形成對路口態(tài)勢的全局感知;其次,模型對所有輸入特征的關(guān)注度是靜態(tài)的,無法根據(jù)實(shí)時(shí)交通狀況動(dòng)態(tài)地聚焦于最需關(guān)注的交通流上。同時(shí),獎(jiǎng)勵(lì)函數(shù)在深度強(qiáng)化學(xué)習(xí)中扮演著至關(guān)重要的角色,它為智能體的學(xué)習(xí)過程提供唯一的監(jiān)督信號(hào),直接決定了最終策略的優(yōu)劣。然而,傳統(tǒng)的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方式過于單一,無法對交通系統(tǒng)的多指標(biāo)進(jìn)行全面刻畫,具有局限性。
技術(shù)實(shí)現(xiàn)思路
1、為解決背景技術(shù)中存在的技術(shù)問題,本發(fā)明提出一種交通信號(hào)控制方法及系統(tǒng)。
2、本發(fā)明提出的一種交通信號(hào)控制方法,包括:
3、實(shí)時(shí)獲取道路交叉口的多維交通狀態(tài)矩陣,其中,為交叉口方向數(shù),為方向特征維度;
4、將多維交通狀態(tài)矩陣輸入預(yù)訓(xùn)練的自注意力模塊,以得到注意力加權(quán)的狀態(tài)表征向量;
5、設(shè)置分層效能獎(jiǎng)勵(lì),為預(yù)訓(xùn)練的交通信號(hào)控制模型訓(xùn)練過程提供監(jiān)督信號(hào);
6、將狀態(tài)表征向量輸入預(yù)訓(xùn)練的交通信號(hào)控制模型中,以得到當(dāng)前最優(yōu)的信號(hào)燈相位動(dòng)作,實(shí)現(xiàn)對交通信號(hào)的實(shí)時(shí)最優(yōu)控制,信號(hào)燈相位動(dòng)作包括南北向直行、南北向左轉(zhuǎn)、東西向直行和東西向左轉(zhuǎn)。
7、優(yōu)選地,所述預(yù)訓(xùn)練的自注意力模塊的處理過程具體包括:
8、將多維交通狀態(tài)矩陣進(jìn)行特征嵌入,以生成嵌入矩陣;
9、通過位置編碼向量為嵌入矩陣賦予位置信息,以得到具有交通狀態(tài)信息和空間位置信息的輸入矩陣;
10、對輸入矩陣執(zhí)行4頭并行注意力計(jì)算與層歸一化,以輸出注意力加權(quán)的狀態(tài)表征向量。
11、優(yōu)選地,所述將多維交通狀態(tài)矩陣進(jìn)行特征嵌入,以生成嵌入矩陣,具體為:
12、;
13、其中,是第個(gè)交通方向的原始特征向量,和分別是嵌入層的權(quán)重矩陣和偏置向量,是經(jīng)過嵌入和激活函數(shù)處理后,代表第個(gè)方向的維特征向量,即嵌入矩陣。
14、優(yōu)選地,所述通過位置編碼向量為嵌入矩陣賦予位置信息,以得到具有交通狀態(tài)信息和空間位置信息的輸入矩陣,具體為:
15、;
16、其中,為位置編碼向量,是根據(jù)元素位置通過正弦和余弦函數(shù)生成的。
17、優(yōu)選地,所述對輸入矩陣執(zhí)行4頭并行注意力計(jì)算與層歸一化,以輸出注意力加權(quán)的狀態(tài)表征向量,具體包括:
18、生成4頭各自對應(yīng)的查詢、鍵和值,其中:
19、;
20、基于4頭各自對應(yīng)的查詢、鍵和值計(jì)算出每個(gè)頭的輸出,將4個(gè)頭的輸出的拼接,并通過線性層整合,以得到多頭注意力機(jī)制輸出;
21、對多頭注意力機(jī)制輸出使用殘差連接和層歸一化處理,將所有元素展開,以拼接成最終的狀態(tài)輸出,即注意力加權(quán)的狀態(tài)表征向量。
22、優(yōu)選地,所述分層效能獎(jiǎng)勵(lì)具體為:;
23、其中,表示動(dòng)態(tài)變化獎(jiǎng)勵(lì);表示狀態(tài)懲罰;表示平衡性獎(jiǎng)勵(lì),表示效率獎(jiǎng)勵(lì);為初始獎(jiǎng)勵(lì);
24、對進(jìn)行獎(jiǎng)勵(lì)裁剪并進(jìn)行噪聲注入,得到最終的獎(jiǎng)勵(lì):
25、。
26、優(yōu)選地,所述交通信號(hào)控制模型具體為決斗式雙深度網(wǎng)絡(luò),所述交通信號(hào)控制模型的訓(xùn)練過程具體包括:?經(jīng)驗(yàn)回放,將提前交互產(chǎn)生的經(jīng)驗(yàn)元組儲(chǔ)存在經(jīng)驗(yàn)回放緩沖區(qū)中,從緩沖區(qū)中隨機(jī)采樣一個(gè)小批量的經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行訓(xùn)練,通過自注意力機(jī)制模塊處理后的經(jīng)驗(yàn)數(shù)據(jù),即狀態(tài)表征向量;
27、將狀態(tài)表征向量輸入至主網(wǎng)絡(luò)得到值;
28、獲取目標(biāo)值,基于主網(wǎng)絡(luò)輸出值和目標(biāo)值計(jì)算損失值,利用損失值計(jì)算關(guān)于主網(wǎng)絡(luò)完整參數(shù)集的梯度,并使用優(yōu)化器執(zhí)行一步梯度下降,以更新主網(wǎng)絡(luò)所有參數(shù);
29、在訓(xùn)練相應(yīng)的步數(shù)以后,模型逐漸收斂,此時(shí)保存交通信號(hào)控制模型的所有參數(shù),以得到訓(xùn)練好的交通信號(hào)控制模型。
30、優(yōu)選地,所述將狀態(tài)表征向量輸入至主網(wǎng)絡(luò)得到值,具體為:
31、;
32、其中,是狀態(tài)價(jià)值流,用于評(píng)估當(dāng)前狀態(tài)的整體價(jià)值;是動(dòng)作優(yōu)勢流,表示在狀態(tài)下選擇動(dòng)作相對于其他動(dòng)作的優(yōu)越程度;是所有動(dòng)作空間的集合,為所有動(dòng)作的數(shù)量。
33、優(yōu)選地,所述基于主網(wǎng)絡(luò)輸出值和目標(biāo)值計(jì)算損失值,具體為:
34、;
35、其中,,該函數(shù)設(shè)定一個(gè)閾值,對于小于該閾值的誤差項(xiàng),采用二次方懲罰;當(dāng)誤差超過閾值,損失函數(shù)轉(zhuǎn)為線性懲罰;這樣設(shè)置可同時(shí)處理非平穩(wěn)和含噪數(shù)值。
36、本發(fā)明提出的一種交通信號(hào)控制系統(tǒng),包括:
37、數(shù)據(jù)獲取模塊,用于實(shí)時(shí)獲取道路交叉口的多維交通狀態(tài)矩陣,其中,為交叉口方向數(shù),為方向特征維度;
38、第一處理模塊,用于將多維交通狀態(tài)矩陣輸入預(yù)訓(xùn)練的自注意力模塊,以得到注意力加權(quán)的狀態(tài)表征向量;
39、監(jiān)督模塊,用于設(shè)置分層效能獎(jiǎng)勵(lì),為預(yù)訓(xùn)練的交通信號(hào)控制模型訓(xùn)練過程提供監(jiān)督信號(hào);
40、第二處理模塊,用于將狀態(tài)表征向量輸入預(yù)訓(xùn)練的交通信號(hào)控制模型中,以得到當(dāng)前最優(yōu)的信號(hào)燈相位動(dòng)作,實(shí)現(xiàn)對交通信號(hào)的實(shí)時(shí)最優(yōu)控制,信號(hào)燈相位動(dòng)作包括南北向直行、南北向左轉(zhuǎn)、東西向直行和東西向左轉(zhuǎn)。
41、本發(fā)明中,所提出的交通信號(hào)控制方法及系統(tǒng),將自注意力機(jī)制與深度強(qiáng)化學(xué)習(xí)中的d3qn算法相結(jié)合,通過為交通環(huán)境分配不同的注意力權(quán)重,使控制系統(tǒng)能夠突破傳統(tǒng)方法將交通數(shù)據(jù)扁平化處理的局限,從全局視角動(dòng)態(tài)評(píng)估各方向車流之間的相互關(guān)系,從而精準(zhǔn)識(shí)別并優(yōu)先響應(yīng)關(guān)鍵擁堵方向。在此基礎(chǔ)上,本發(fā)明進(jìn)一步設(shè)計(jì)了分層效能獎(jiǎng)勵(lì)函數(shù),通過對動(dòng)態(tài)變化獎(jiǎng)勵(lì)、平衡性獎(jiǎng)勵(lì)、效率獎(jiǎng)勵(lì)等多個(gè)核心指標(biāo)進(jìn)行協(xié)同優(yōu)化,引導(dǎo)系統(tǒng)在追求最大通行效率的同時(shí),兼顧各方向的公平性,為智能體的學(xué)習(xí)過程提供了更加全面穩(wěn)定的監(jiān)督。綜上所述,本發(fā)明通過網(wǎng)絡(luò)耦合和監(jiān)督機(jī)制創(chuàng)新,使交通信號(hào)控制系統(tǒng)在復(fù)雜路況下可以進(jìn)行更高效、均衡的實(shí)時(shí)調(diào)度,顯著提升了路口的通行能力和運(yùn)行穩(wěn)定性。