天堂av无码,久久天天躁夜夜躁狠狠,欧美精品性爱,久久久人妻一区二区三区少妇,亚洲中文字幕无码久久综合网,看亚洲无毛,日本精品国产一区二区三区

學(xué)術(shù)信息

首頁

學(xué)術(shù)報(bào)告:穩(wěn)態(tài)方差準(zhǔn)則的馬氏決策過程與強(qiáng)化學(xué)習(xí)

  報(bào)告時(shí)間:2021年5月14日(星期五)15:30-17:30

  報(bào)告地點(diǎn):北辰校區(qū)土木與交通學(xué)院樓二樓216學(xué)術(shù)報(bào)告廳

  報(bào)告題目:穩(wěn)態(tài)方差準(zhǔn)則的馬氏決策過程與強(qiáng)化學(xué)習(xí)

  報(bào)告嘉賓:夏俐 教授

圖片 1.jpg

  嘉賓簡(jiǎn)介:

  夏俐,教授,博士導(dǎo)師,中山大學(xué)。長期從事隨機(jī)動(dòng)態(tài)系統(tǒng)的學(xué)習(xí)優(yōu)化、馬氏決策過程、強(qiáng)化學(xué)習(xí)、排隊(duì)論、博弈論等理論研究,以及在能源系統(tǒng)、智能建筑、金融科技、計(jì)算機(jī)網(wǎng)絡(luò)等領(lǐng)域的應(yīng)用研究工作。分別于2002年和2007年在清華大學(xué)自動(dòng)化系獲得學(xué)士和博士學(xué)位,博士畢業(yè)后分別在IBM中國研究院、沙特國王科技大學(xué)從事科研工作,2011年至2019在清華大學(xué)自動(dòng)化系工作,2019年進(jìn)入中山大學(xué)管理學(xué)院。以訪問學(xué)者身份在香港科技大學(xué)電子與計(jì)算機(jī)工程系、美國斯坦福大學(xué)管理科學(xué)與工程系等從事合作研究。在本領(lǐng)域頂級(jí)期刊發(fā)表論文20余篇,并獲得多項(xiàng)美國和中國專利。擔(dān)任IEEE Transactions on Automation Science and Engineering、Discrete Event Dynamic Systems等期刊編委。


  報(bào)告摘要:

  隨著AlphaGo的成功應(yīng)用,強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)得到了學(xué)術(shù)界和工業(yè)界的日益重視。強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)是馬氏決策過程(Markov Decision Process, MDP)。目前絕大多數(shù)的RL都是研究?jī)?yōu)化折扣累積報(bào)酬值的數(shù)學(xué)期望,無法處理方差等風(fēng)險(xiǎn)指標(biāo)。本報(bào)告將主要介紹作者近幾年在馬氏決策過程的穩(wěn)態(tài)方差最小化優(yōu)化問題的理論研究成果,穩(wěn)態(tài)方差不同于MDP以往文獻(xiàn)中已經(jīng)研究過的折扣累積報(bào)酬值的方差,穩(wěn)態(tài)方差是衡量MDP到達(dá)穩(wěn)態(tài)之后的系統(tǒng)報(bào)酬值的方差,能夠衡量隨機(jī)動(dòng)態(tài)系統(tǒng)的風(fēng)險(xiǎn)、穩(wěn)定性、公平性、可靠性等。由于方差指標(biāo)的二次費(fèi)用函數(shù)形式依賴于具體策略,費(fèi)用函數(shù)不具有馬氏性,優(yōu)化隨機(jī)系統(tǒng)的穩(wěn)態(tài)方差不是一個(gè)標(biāo)準(zhǔn)MDP問題,經(jīng)典動(dòng)態(tài)規(guī)劃原理不再適用。我們從性能靈敏度的新角度研究這一問題,得到了一些新的理論結(jié)果,進(jìn)而將MDP理論研究結(jié)果實(shí)現(xiàn)為數(shù)據(jù)驅(qū)動(dòng)的風(fēng)險(xiǎn)敏感強(qiáng)化學(xué)習(xí)算法,應(yīng)用于風(fēng)電與儲(chǔ)能系統(tǒng)聯(lián)合出力的波動(dòng)性抑制問題,來平滑風(fēng)電出力的波動(dòng)性,提高風(fēng)電利用率。該方法還可應(yīng)用于金融系統(tǒng)風(fēng)險(xiǎn)管理、服務(wù)系統(tǒng)公平性優(yōu)化等領(lǐng)域。