Հիպերպարամետրերի կարգավորում առցանց RL համար

29 հունիսի, 2024 թ.

լուրեր

Հիպերպարամետրերի կարգավորում առցանց RL համար

Հունիսի 28-ին, ՀԱՊՀ Օդային ռոբոտատեխնիկայի ուսումնահետազոտական կենտրոնում, Ալբերտայի համալսարանի մագիստրատուրայի ուսանող Աննա Հախվերդյանը անցկացրեց «Հիպերպարամետրերի կարգավորում առցանց RL համար» թեմայով սեմինար։

RL-ը (Reinforcement Learning) ուսումնասիրում է, թե ինչպես է օբյեկտը սովորում որոշումներ կայացնել՝ փոխազդելով շրջակա միջավայրի հետ։ Գործակալը (օբյեկտը) սովորում է փորձի և սխալի մեթոդովով, որտեղ նպատակն է առավելագույնի հասցնել կուտակային պարգևը։ Առցանց RL-ը վերաբերում է այն գործակալներին, որոնք սովորում են՝ միաժամանակ փոխազդելով շրջակա միջավայրի հետ։ Ցավոք, RL գործակալների մեծ մասի արդյունավետությունը կախված է հիպերպարամետրերից, որոնք շատ են և դժվարությամբ կարգավորելի։ Առցանց RL-ի մեծ մասի աշխատանքներում հիպերպարամետրերը կարգավորվում են օֆլայն փուլում՝ առանց փոխազդեցությունը հաշվի առնելու։ Այս էմպիրիկ մեթոդաբանությունը բավարար է ալգորիթմերի ընդհանուր աշխատանքը գնահատելու համար, բայց սահմանափակ է, երբ գնահատվում են իրական աշխարհում գործնական կիրառման համար նախատեսված ալգորիթմերը։ Շատ ծրագրերում հնարավոր չէ կատարել հիպերպարամետրերի սպառիչ որոնումներ միջավայրում, իսկ տիպիկ գնահատումները չեն բնութագրում, թե որքան տվյալ է անհրաժեշտ նման որոնումների համար։ Այս հետազոտության միջոցով մենք փորձում ենք ուսումնասիրել առցանց կարգավորումը, որի դեպքում գործակալը պետք է ընտրի հիպերպարամետրեր առցանց փոխազդեցության ընթացքում։ Այսպիսով հիպերպարամետրերի կարգավորումը դառնում է գործակալի մի մասը, այլ ոչ թե առանձին (թաքնված) իրականացվող կարգավորման փուլ։ Հաջորդական օպտիմիզացման տեխնիկան շերտերով ավելացվում է ստանդարտ RL ալգորիթմների վրա և գնահատվում է դրանց վարքագիծը հիպերպարամետրերի առցանց կարգավորվման ընթացքում։

Հետաքրքրվա՞ծ եք մեր գործունեությամբ

Միացի՛ր մեր թիմին

ԻՄԱՆԱԼ ԱՎԵԼԻՆ