中國(guó)儲(chǔ)能網(wǎng)訊:
摘要 針對(duì)風(fēng)光儲(chǔ)聯(lián)合系統(tǒng)的調(diào)度問(wèn)題,提出了一種基于深度強(qiáng)化學(xué)習(xí)的風(fēng)光儲(chǔ)系統(tǒng)聯(lián)合調(diào)度模型。首先,以計(jì)劃跟蹤、棄風(fēng)棄光以及儲(chǔ)能運(yùn)行成本最小為目標(biāo),建立了充分考慮風(fēng)光儲(chǔ)各個(gè)場(chǎng)站約束下的聯(lián)合調(diào)度模型。然后,定義該調(diào)度模型在強(qiáng)化學(xué)習(xí)框架下的系統(tǒng)狀態(tài)變量、動(dòng)作變量以及獎(jiǎng)勵(lì)函數(shù)等,引入了深度確定性策略梯度算法,利用其環(huán)境交互、策略探索的機(jī)制,學(xué)習(xí)風(fēng)光儲(chǔ)系統(tǒng)的聯(lián)合調(diào)度策略,以實(shí)現(xiàn)對(duì)聯(lián)合系統(tǒng)功率跟蹤,減少棄風(fēng)棄光以及儲(chǔ)能充放電。最后,借用西北某地區(qū)風(fēng)電、光伏、跟蹤計(jì)劃的歷史數(shù)據(jù)對(duì)模型進(jìn)行了訓(xùn)練和算例分析,結(jié)果表明所提方法可以較好地適應(yīng)不同時(shí)期的風(fēng)光變化,得到在給定風(fēng)光下聯(lián)合系統(tǒng)的調(diào)度策略。
01 風(fēng)光儲(chǔ)系統(tǒng)聯(lián)合調(diào)度模型
1.1 風(fēng)光儲(chǔ)聯(lián)合系統(tǒng)功率控制原理
風(fēng)光儲(chǔ)聯(lián)合發(fā)電系統(tǒng)是由聯(lián)合調(diào)度層、風(fēng)光儲(chǔ)場(chǎng)站監(jiān)控層以及場(chǎng)站設(shè)備層組成,其結(jié)構(gòu)如圖1所示。
圖1 風(fēng)光儲(chǔ)聯(lián)合發(fā)電系統(tǒng)
Fig.1 Wind-photovoltaic-storage hybrid power generation system
可以看出,聯(lián)合調(diào)度層基于場(chǎng)站的監(jiān)控信息實(shí)現(xiàn)對(duì)風(fēng)電、光伏以及儲(chǔ)能的協(xié)調(diào)控制,場(chǎng)站監(jiān)控層主要實(shí)現(xiàn)對(duì)各個(gè)子系統(tǒng)的單獨(dú)監(jiān)控和各個(gè)設(shè)備的運(yùn)行信息的上傳,而其中場(chǎng)站設(shè)備層主要包括風(fēng)力發(fā)電系統(tǒng)、光伏發(fā)電系統(tǒng)和儲(chǔ)能系統(tǒng)。
進(jìn)一步看出,上級(jí)調(diào)度機(jī)構(gòu)通過(guò)聯(lián)合調(diào)度層下達(dá)電網(wǎng)的調(diào)度指令,場(chǎng)站監(jiān)控層接收到調(diào)度指令之后,分解后下發(fā)到設(shè)備層的各個(gè)風(fēng)電、光伏以及儲(chǔ)能單元。因此,風(fēng)光儲(chǔ)聯(lián)合系統(tǒng)的核心功能就是通過(guò)統(tǒng)一協(xié)調(diào)分配風(fēng)電、光伏以及儲(chǔ)能系統(tǒng)的發(fā)電功率,以實(shí)現(xiàn)跟蹤電網(wǎng)調(diào)度指令并且減少棄風(fēng)棄光的目的。
1.2 目標(biāo)函數(shù)
為了提高風(fēng)光儲(chǔ)系統(tǒng)的功率跟蹤能力,改善其輸出特性,本文建立了以風(fēng)光跟蹤考核成本、棄風(fēng)棄光成本以及儲(chǔ)能運(yùn)行成本最小為目標(biāo)的風(fēng)光儲(chǔ)協(xié)調(diào)控制模型,其目標(biāo)函數(shù)為
式中:Cwpb為聯(lián)合系統(tǒng)的總成本;Ck為聯(lián)合系統(tǒng)跟蹤偏差考核成本;Cq為棄風(fēng)棄光成本;Cbt為儲(chǔ)能運(yùn)行成本,其計(jì)算式分別為
式中:T為調(diào)度周期;Pwt(t)、Ppv(t)和Pbt(t)分別是風(fēng)電、光伏和儲(chǔ)能在t時(shí)刻的控制功率;Pwt,max(t)和Ppv,max(t)分別為風(fēng)電和光伏在t時(shí)刻的最大出力,屬于風(fēng)光的日前預(yù)測(cè)值;Pplan(t)為上級(jí)電網(wǎng)給定的系統(tǒng)在t時(shí)刻的跟蹤出力計(jì)劃值;csell、cunit,bt和cunit,k分別是風(fēng)光售電電價(jià)、儲(chǔ)能充放電單位成本和風(fēng)光跟蹤偏差單位考核成本。
為了評(píng)估聯(lián)合系統(tǒng)的跟蹤能力,引入跟蹤計(jì)劃平方差Es及其最大跟蹤偏差Emax來(lái)量化聯(lián)合系統(tǒng)的跟蹤性能,其具體計(jì)算式為
1.3 約束條件
(1)風(fēng)電場(chǎng)出力約束為
式中:Vwt(t)為風(fēng)電場(chǎng)在t時(shí)刻與t–1時(shí)刻輸出功率的差值,其功率限值和波動(dòng)時(shí)間尺度和裝機(jī)容量相關(guān),詳細(xì)可見《西北區(qū)域并網(wǎng)發(fā)電廠輔助服務(wù)管理實(shí)施細(xì)則》和《西北區(qū)域發(fā)電廠并網(wǎng)運(yùn)行管理實(shí)施細(xì)則》; Vwt,max 為風(fēng)電場(chǎng)理論輸出功率的最大值。
(2)光伏電站出力約束為
式中:Vpv(t)為光伏電站在t時(shí)刻與t–1時(shí)刻輸出功率的差值,其功率變化限值與風(fēng)電相同; Vpv,max 為光伏電站理論輸出功率的最大值。
(3)儲(chǔ)能電站出力約束。為了引導(dǎo)儲(chǔ)能設(shè)備合理充放電和避免過(guò)充過(guò)放,延長(zhǎng)其使用時(shí)間,設(shè)置儲(chǔ)能電站的約束條件為
式中:Pbt,max為儲(chǔ)能設(shè)備的最大充放電功率;Hsoc,max和Hsoc,min分別為儲(chǔ)能荷電狀態(tài)(state of charge,SOC)的上限和下限;Hsoc(t)為儲(chǔ)能設(shè)備在t時(shí)刻的荷電狀態(tài),其計(jì)算公式為
式中:ρ為儲(chǔ)能電池的自持放電率;ΔHsoc(t)為儲(chǔ)能設(shè)備在t時(shí)刻的荷電變化量,取決于儲(chǔ)能設(shè)備的充放電狀態(tài)和充放電功率,具體計(jì)算式為
式中:Ebt,max為儲(chǔ)能設(shè)備的最大容量;ηc為儲(chǔ)能設(shè)備的充電效率;ηd為儲(chǔ)能設(shè)備的放電效率。
02 風(fēng)光儲(chǔ)聯(lián)合調(diào)度模型的深度強(qiáng)化學(xué)習(xí)框架
強(qiáng)化學(xué)習(xí)是一種通過(guò)訓(xùn)練智能體與環(huán)境不斷交互來(lái)建立環(huán)境狀態(tài)與動(dòng)作之間映射關(guān)系的自我學(xué)習(xí)機(jī)制。它本質(zhì)上是一個(gè)馬爾科夫決策過(guò)程,主要由包含狀態(tài)空間S、動(dòng)作空間A、狀態(tài)轉(zhuǎn)移概率P、折扣因子γ和回報(bào)函數(shù)R構(gòu)成的五元數(shù)組{S, A, P, γ, R}。
在強(qiáng)化學(xué)習(xí)過(guò)程中,定義策略π為狀態(tài)空間到動(dòng)作空間的一個(gè)映射(S→A),表示為智能體在狀態(tài)st選擇動(dòng)作at,執(zhí)行該動(dòng)作并以概率P (st, at )轉(zhuǎn)移到下一狀態(tài)st+1,同時(shí)接受來(lái)自環(huán)境反饋的獎(jiǎng)賞rt。而在一個(gè)多步的強(qiáng)化學(xué)習(xí)過(guò)程中,假設(shè)未來(lái)每個(gè)時(shí)間步所獲的立即獎(jiǎng)賞都必須乘以一個(gè)折扣因子γ,用于削減遠(yuǎn)期決策對(duì)應(yīng)的獎(jiǎng)勵(lì),權(quán)重則從t0時(shí)刻開始到T時(shí)刻情節(jié)結(jié)束時(shí),獎(jiǎng)賞之和定義為
因此,智能體根據(jù)得到的獎(jiǎng)勵(lì)R來(lái)調(diào)整自身的策略并針對(duì)新的狀態(tài)st+1做出新的決策at+1,以期獲得最大的長(zhǎng)期累積獎(jiǎng)勵(lì),其原理如圖2所示。
圖2 強(qiáng)化學(xué)習(xí)原理
Fig.2 Schematic diagram of reinforcement learning
在強(qiáng)化學(xué)習(xí)過(guò)程中,如何根據(jù)現(xiàn)有的優(yōu)化模型定義系統(tǒng)的狀態(tài)變空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù)成為常規(guī)優(yōu)化模型向強(qiáng)化學(xué)習(xí)模型轉(zhuǎn)化的關(guān)鍵。
(1)狀態(tài)空間S。在風(fēng)光儲(chǔ)聯(lián)合調(diào)度模型中,選取聯(lián)合電站跟蹤計(jì)劃值、儲(chǔ)能的充放電功率、SOC、風(fēng)電以及光伏的預(yù)測(cè)出力作為狀態(tài)空間,即
式中:Splan為聯(lián)合電站跟蹤計(jì)劃;Sbt和Ssoc分別為儲(chǔ)能電站的充放電功率和SOC;Swt和Spv分別為風(fēng)電和光伏的預(yù)測(cè)出力。
(2)動(dòng)作空間A。在強(qiáng)化學(xué)習(xí)中,一般選取模型的決策變量作為系統(tǒng)的動(dòng)作空間,如風(fēng)電、光伏以及儲(chǔ)能的出力。但是考慮到本文中決策變量之間存在時(shí)序耦合特性,直接選取上述設(shè)備出力作為決策變量將難以處理模型中存在的式(2)~(5),因此,為了簡(jiǎn)化模型學(xué)習(xí)的復(fù)雜性和考慮決策變量之間的時(shí)序耦合性,本文選取風(fēng)電、光伏以及儲(chǔ)能的出力增量作為動(dòng)作空間,即
式中:Awt、Apv和Abt分別為風(fēng)電、光伏和儲(chǔ)能的出力增量。
(3)獎(jiǎng)勵(lì)函數(shù)R和折扣因子γ。為了訓(xùn)練智能體學(xué)習(xí)到在聯(lián)合調(diào)度總成本最低下的調(diào)度策略,設(shè)置目標(biāo)函數(shù)的負(fù)值作為獎(jiǎng)勵(lì)函數(shù),即中成本越低,獎(jiǎng)勵(lì)越大,由此鼓勵(lì)智能體學(xué)習(xí)最優(yōu)調(diào)度計(jì)劃,得到即時(shí)獎(jiǎng)勵(lì)rt的計(jì)算式為
式中:rt為智能體在某個(gè)狀態(tài)st=[splan,t, sbt,t, ssoc,t, swt,t, spv,t]下選擇動(dòng)作at=[awt, apv, abt]得到的即時(shí)獎(jiǎng)勵(lì)。而對(duì)于整個(gè)調(diào)度周期T,為了最小化整個(gè)調(diào)度周期內(nèi)的目標(biāo)函數(shù),存在累計(jì)獎(jiǎng)勵(lì)函數(shù)R為
式中:R為智能體基于系統(tǒng)外部狀態(tài)變量得到相應(yīng)的調(diào)度計(jì)劃之后的獲得的累計(jì)獎(jiǎng)勵(lì);γ為折扣因子,表示未來(lái)匯報(bào)相對(duì)于當(dāng)前的重要程度,γ=0時(shí)表示只考慮當(dāng)前即時(shí)匯報(bào)而不考慮未來(lái)的長(zhǎng)期回報(bào),γ=1時(shí)表示未來(lái)的長(zhǎng)期回報(bào)和當(dāng)前的即時(shí)回報(bào)同等重要。
03 基于DDPG算法的風(fēng)光儲(chǔ)聯(lián)合優(yōu)化問(wèn)題求解
3.1 DDPG算法
DDPG是一種無(wú)模型的強(qiáng)化學(xué)習(xí)算法,其由價(jià)值網(wǎng)絡(luò)(Critic)和策略網(wǎng)絡(luò)(Actor)組成,價(jià)值網(wǎng)絡(luò)用以估計(jì)智能體在狀態(tài)s下采取動(dòng)作a之后得到的期望獎(jiǎng)勵(lì)Q值,而策略網(wǎng)絡(luò)基于系統(tǒng)狀態(tài)s得到使得Q值最大化的動(dòng)作a。同時(shí),DDPG引入經(jīng)驗(yàn)回放技術(shù),使得網(wǎng)絡(luò)可以學(xué)習(xí)大量歷史經(jīng)驗(yàn)數(shù)據(jù)并且沿一個(gè)較為穩(wěn)定的方向前進(jìn)。
3.2 模型訓(xùn)練機(jī)制
(1)價(jià)值網(wǎng)絡(luò)的訓(xùn)練。當(dāng)前價(jià)值網(wǎng)絡(luò)通過(guò)最小化的損失函數(shù)來(lái)進(jìn)行參數(shù)更新,即
式中:Q(st, at|θQ)為當(dāng)前網(wǎng)絡(luò)在t時(shí)刻輸出的Q值;yt為目標(biāo)Q值,其計(jì)算公式為
式中:rt為從經(jīng)驗(yàn)池中提取的t時(shí)刻即時(shí)獎(jiǎng)勵(lì);π?(st+1|θπ?)為目標(biāo)策略網(wǎng)絡(luò)在參數(shù)θπ?下輸入狀態(tài)變量st+1時(shí)輸出的動(dòng)作變量;Q?(st+1,π?(st+1|θπ?)|θQ?)為目標(biāo)網(wǎng)絡(luò)在參數(shù)θQ?下輸入狀態(tài)st+1和動(dòng)作變量π?(st+1|θπ?)下的輸入Q值。
根據(jù)梯度更新法則,通過(guò)對(duì)損失函數(shù)L(θQ)求梯度,就可以得到網(wǎng)絡(luò)更新公式為
式中:圖片為第k輪學(xué)習(xí)時(shí)的價(jià)值網(wǎng)絡(luò)參數(shù);μQ為值網(wǎng)絡(luò)的學(xué)習(xí)率;圖片為損失函數(shù)圖片對(duì)參數(shù)圖片的梯度。
(2)策略網(wǎng)絡(luò)的訓(xùn)練。策略網(wǎng)絡(luò)需要學(xué)習(xí)使得價(jià)值網(wǎng)絡(luò)輸出Q值最大,因此價(jià)值網(wǎng)絡(luò)的輸出Q函數(shù)可以作為策略網(wǎng)絡(luò)的損失函數(shù),通過(guò)對(duì)Q函數(shù)求策略梯度,得到策略網(wǎng)絡(luò)的更新公式為
式中:圖片為第k輪學(xué)習(xí)時(shí)的當(dāng)前策略網(wǎng)絡(luò)參數(shù);μπ為策略網(wǎng)絡(luò)的學(xué)習(xí)率;圖片 為策略梯度。
為了確保學(xué)習(xí)過(guò)程的穩(wěn)定性,對(duì)于目標(biāo)網(wǎng)絡(luò)通常采取軟更新技術(shù),目標(biāo)網(wǎng)絡(luò)參數(shù)進(jìn)行緩慢更新為
式中:圖片分別為第k輪學(xué)習(xí)時(shí)的目標(biāo)價(jià)值網(wǎng)絡(luò)和目標(biāo)策略網(wǎng)絡(luò)參數(shù);τ為軟更新系數(shù)。
(3)基于DDPG算法的風(fēng)光儲(chǔ)聯(lián)合調(diào)度模型結(jié)構(gòu)如圖3所示。DDPG算法中策略網(wǎng)絡(luò)的輸入是5維的狀態(tài)變量st=[splan,t, sbt,t, ssoc,t, swt,t, spv,t],輸出是3維的動(dòng)作變量at=[awt,t, apv,t, abt,t],二者分別為狀態(tài)空間S和動(dòng)作空間A下的子集。而價(jià)值網(wǎng)絡(luò)的輸入是狀態(tài)變量和動(dòng)作變量,輸出為評(píng)估在該狀態(tài)下所選擇動(dòng)作效果的值函數(shù)Q(st, at)。網(wǎng)絡(luò)的學(xué)習(xí)機(jī)制為DDPG算法通過(guò)與風(fēng)光儲(chǔ)調(diào)度系統(tǒng)的交互獲得樣本數(shù)據(jù){at, st, rt, st+1},將其存入經(jīng)驗(yàn)池中,然后在學(xué)習(xí)調(diào)度策略時(shí),隨機(jī)從樣本池中采樣m個(gè)樣本數(shù)據(jù)按照如上參數(shù)更新公式進(jìn)行梯度更新。
圖3 基于DDPG算法的強(qiáng)化學(xué)習(xí)框架
Fig.3 Reinforcement learning framework based on DDPG algorithm
通過(guò)離線訓(xùn)練出策略網(wǎng)絡(luò)之后,可以進(jìn)行在線應(yīng)用,通過(guò)日前風(fēng)光預(yù)測(cè)數(shù)據(jù)和調(diào)度計(jì)劃,確定聯(lián)合系統(tǒng)的最優(yōu)調(diào)度計(jì)劃,其調(diào)度流程如圖4所示。
圖4 基于DDPG算法的風(fēng)光儲(chǔ)聯(lián)合系統(tǒng)調(diào)度流程
Fig.4 Scheduling flow chart of wind-photovoltaic-storage hybrid system based on DDPG algorithm
04 仿真算例
4.1 算法參數(shù)設(shè)置
本文以西北某省的風(fēng)光儲(chǔ)聯(lián)合系統(tǒng)為研究對(duì)象,選取該聯(lián)合系統(tǒng)一年的風(fēng)電、光伏的真實(shí)和日前預(yù)測(cè)的歷史出力數(shù)據(jù),而該聯(lián)合系統(tǒng)的跟蹤機(jī)制為通過(guò)儲(chǔ)能配合風(fēng)光場(chǎng)站真實(shí)出力數(shù)據(jù)跟蹤日前預(yù)測(cè)結(jié)果,因此,聯(lián)合系統(tǒng)跟蹤計(jì)劃為風(fēng)光日前預(yù)測(cè)結(jié)果之和。該系統(tǒng)的風(fēng)電場(chǎng)容量為100 MW,光伏電站容量為60 MW,儲(chǔ)能電站為30 MW/60 MW·h。儲(chǔ)能電站的自放電率ρ=0,充放電效率ηc=ηd=0.9,儲(chǔ)能荷電狀態(tài)上限Hsoc,max為0.8,下限Hsoc,min為0.2。
基于本文狀態(tài)空間和動(dòng)作空間的維數(shù),本文設(shè)置Actor和Critic網(wǎng)絡(luò)中隱含層神經(jīng)元個(gè)數(shù)分別為200、50和50,且隱含層均采用ReLU激活函數(shù)。而Actor和Critic網(wǎng)絡(luò)的學(xué)習(xí)率μQ=0.0001,μπ=0.00001,目標(biāo)網(wǎng)絡(luò)的軟更新系數(shù)τ=0.001,mini-batch大小為64,折扣因子為0.95,經(jīng)驗(yàn)回放池容量為106,采用Adam優(yōu)化器更新網(wǎng)絡(luò)參數(shù)。
4.2 模型訓(xùn)練
在上述參數(shù)基礎(chǔ)上,本文采用Python語(yǔ)言,基于Pytorch的框架在硬件條件為Core i7-9700K CPU的計(jì)算機(jī)上進(jìn)行了網(wǎng)絡(luò)的訓(xùn)練??紤]到每次訓(xùn)練提取不同的風(fēng)光數(shù)據(jù)導(dǎo)致總回報(bào)曲線存在一定的振蕩,因此本文進(jìn)行了相應(yīng)的平滑處理,得到總回報(bào)收斂曲線如圖5所示。通過(guò)不斷的學(xué)習(xí)與訓(xùn)練,模型逐漸收斂,形成了可以適應(yīng)不同風(fēng)光出力的智能體。
圖5 總回報(bào)收斂曲線
Fig.5 Total return convergence curve
4.3 算例對(duì)比
為了驗(yàn)證本文所提方法的有效性與優(yōu)勢(shì),設(shè)置了如下的對(duì)比算例進(jìn)行分析。
方案1:采用本文提出的基于DDPG的風(fēng)光儲(chǔ)聯(lián)合優(yōu)化方法,確定在不同風(fēng)光出力下的聯(lián)合系統(tǒng)運(yùn)行計(jì)劃。
方案2:采用風(fēng)光儲(chǔ)聯(lián)合發(fā)電系統(tǒng)儲(chǔ)能控制策略,建立風(fēng)光儲(chǔ)聯(lián)合調(diào)度模型,并且通過(guò)動(dòng)態(tài)粒子群(particle swarm optimization,PSO)算法對(duì)模型進(jìn)行求解,得到聯(lián)合系統(tǒng)的運(yùn)行計(jì)劃。
2種不同的方案下的風(fēng)光儲(chǔ)各自在日內(nèi)(24 h,時(shí)間顆粒度為15 min)的運(yùn)行計(jì)劃以及成本指標(biāo)如圖6和表1所示,其中Pinc是方案1中的各個(gè)指標(biāo)相對(duì)方案2中指標(biāo)的增量百分比。
圖6 不同方案下的調(diào)度計(jì)劃
Fig.6 Scheduling plan under different cases
表1 不同方案下的經(jīng)濟(jì)指標(biāo)
Table 1 Economic indicators under different cases
由圖6和表1可知,為了跟蹤上級(jí)調(diào)度機(jī)構(gòu)給定的運(yùn)行計(jì)劃,聯(lián)合系統(tǒng)需要在棄風(fēng)棄光和儲(chǔ)能的投入之間取得一個(gè)微妙的平衡。而方案2主要通過(guò)頻繁使用儲(chǔ)能來(lái)跟蹤運(yùn)行計(jì)劃,因此其儲(chǔ)能的充放電成本達(dá)到了97350.32元,比方案1高20.85%,方案1則通過(guò)合理的棄風(fēng)棄光和儲(chǔ)能的投入來(lái)跟蹤計(jì)劃,雖然其棄風(fēng)棄光成本比方案2高了33.32%,但是其總成本比方案2低13.05%,并且其跟蹤考核成本也比方案2低44.90%。而DDPG算法的巨大優(yōu)勢(shì)主要有2個(gè)原因,一方面,DDPG通過(guò)動(dòng)作-評(píng)估和經(jīng)驗(yàn)回放學(xué)習(xí)機(jī)制,可以在可行域內(nèi)進(jìn)行充分的探索,學(xué)習(xí)到更優(yōu)的聯(lián)合調(diào)度策略;另一方面,對(duì)于多時(shí)間尺度下的調(diào)度問(wèn)題,DDPG算法每次實(shí)際上只有風(fēng)光儲(chǔ)出力增量3個(gè)決策變量,而粒子群算法卻有288個(gè)決策變量,因此粒子群算法很容易因?yàn)榫S數(shù)災(zāi)而陷入局部最優(yōu)。
同時(shí),在2種方法下聯(lián)合系統(tǒng)的出力計(jì)劃如圖7所示,二者的跟蹤性能指標(biāo)跟蹤偏差平方和Es、最大跟蹤偏差Emax和模型計(jì)算時(shí)間如表2所示。
圖7 聯(lián)合系統(tǒng)追蹤計(jì)劃曲線
Fig.7 Joint system tracking plan curve
表2 不同方案下的性能指標(biāo)
Table 2 Performance indicators under different cases
由圖7和表2可知,相比粒子群算法(方案2),DDPG算法(方案1)具有更好的跟蹤性能,其跟蹤平方和與最大跟蹤偏差分別為209.79 kW2和2.12%,分別比粒子群算法低27.61%和52.88%。在保持良好跟蹤性能的同時(shí),計(jì)算效率也是DDPG算法的巨大優(yōu)勢(shì),其計(jì)算時(shí)間只需要1.02 s,相比常規(guī)的粒子群算法節(jié)約了98.70%的時(shí)間。而由于風(fēng)光存在間歇性和波動(dòng)性,因此在聯(lián)合系統(tǒng)中,快速得到風(fēng)光儲(chǔ)的出力計(jì)劃對(duì)優(yōu)化儲(chǔ)能輸出、跟蹤計(jì)劃以及減少棄風(fēng)棄光具有重大意義。
05 結(jié)論
本文在深度強(qiáng)化學(xué)習(xí)的框架下,提出了一種基于DDPG算法的風(fēng)光儲(chǔ)系統(tǒng)聯(lián)合調(diào)度策略。通過(guò)算例的對(duì)比,驗(yàn)證了本文方法的有效性和優(yōu)勢(shì),得到如下結(jié)論。
(1)通過(guò)學(xué)習(xí)風(fēng)光歷史出力數(shù)據(jù),可以適應(yīng)風(fēng)光出力的不確定性,具有很好的魯棒性。
(2)采用離線訓(xùn)練、在線應(yīng)用的機(jī)制得到的動(dòng)態(tài)經(jīng)濟(jì)模型可以基于風(fēng)光以及跟蹤計(jì)劃等狀態(tài)變量,快速得到聯(lián)合系統(tǒng)的調(diào)度方案。
(3)通過(guò)合理的棄風(fēng)棄光和儲(chǔ)能的充放電,可以較好地跟蹤系統(tǒng)的聯(lián)合運(yùn)行計(jì)劃,實(shí)現(xiàn)風(fēng)光儲(chǔ)聯(lián)合系統(tǒng)的經(jīng)濟(jì)運(yùn)行。