• Часть 2. Обучение с подкреплением 2-qism. Mustahkamlangan oqitish
  • Часть 2. Обучение с подкреплением 2-qism. Mustahkamlangan o'qitish




    Download 12,38 Mb.
    bet14/20
    Sana05.01.2024
    Hajmi12,38 Mb.
    #130821
    1   ...   10   11   12   13   14   15   16   17   ...   20
    Bog'liq
    1-лекция
    275 21.12.2005, munisa, DIQQAT HAQIDA TUSHUNCHA, 15-22 Turdaliyv Umid - копия, Ariza namuna (pul qaytarish), 145 31.03.2022, 2 MAVZU AMALIY, 5-MAVZU, 2-lab, 1-lab, 8-mavzu Kvant mexanikasi elementlari (2-soat) (1), Ajiniyaz (1), operatsion 2, 1-10

    Часть 2. Обучение с подкреплением 2-qism. Mustahkamlangan o'qitish

    • Robot changyutgichlarning aqlli modellari va o'z-o'zini boshqaradigan mashinalar shu tarzda o'qitiladi: ular virtual shaharni yaratadilar (ko'pincha haqiqiy shaharlarning xaritalari asosida), tasodifiy piyodalar bilan yashaydilar va u erda hech kimni o'ldirmaslikni o'rganish uchun yuboradilar. Robot sun'iy GTA-da o'zini yaxshi his qila boshlaganda, u haqiqiy ko'chalarda sinovdan o'tkaziladi.

    Mashinaning o'zi shaharni eslab qolishi shart emas-bu yondashuv Model-Free deb nomlanadi. Albatta, klassik modelga asoslangan model ham mavjud, ammo unda bizning mashinamiz butun Sayyora modelini, dunyoning barcha chorrahalarida yuzaga kelishi mumkin bo'lgan barcha vaziyatlarni eslab qolishi kerak edi. Bu shunchaki ishlamaydi. Kuchaytirishni o'rganishda mashina har bir harakatni eslamaydi, balki vaziyatlarni maksimal foyda bilan tark etish uchun umumlashtirishga harakat qiladi.

    Часть 2. Обучение с подкреплением 2-qism. Mustahkamlangan o'qitish

    • Robot changyutgichlarning aqlli modellari va o'z-o'zini boshqaradigan mashinalar shu tarzda o'qitiladi: ular virtual shaharni yaratadilar (ko'pincha haqiqiy shaharlarning xaritalari asosida), tasodifiy piyodalar bilan yashaydilar va u erda hech kimni o'ldirmaslikni o'rganish uchun yuboradilar. Robot sun'iy GTA-da o'zini yaxshi his qila boshlaganda, u haqiqiy ko'chalarda sinovdan o'tkaziladi.

    Mashinaning o'zi shaharni eslab qolishi shart emas-bu yondashuv Model-Free deb nomlanadi. Albatta, klassik modelga asoslangan model ham mavjud, ammo unda bizning mashinamiz butun Sayyora modelini, dunyoning barcha chorrahalarida yuzaga kelishi mumkin bo'lgan barcha vaziyatlarni eslab qolishi kerak edi. Bu shunchaki ishlamaydi. Kuchaytirishni o'rganishda mashina har bir harakatni eslamaydi, balki vaziyatlarni maksimal foyda bilan tark etish uchun umumlashtirishga harakat qiladi.

    Часть 2. Обучение с подкреплением 2-qism. Mustahkamlangan o'qitish

    • Bir necha yil oldin mashina Go-da odamni mag'lub etganida yangilikni eslaysizmi? Garchi bundan biroz oldin kombinatsiyalar sonini jismonan hisoblash mumkin emasligi isbotlangan bo'lsa-da, chunki u koinotdagi atomlar sonidan oshib ketadi. Ya'ni, agar shaxmatda mashina haqiqatan ham kelajakdagi barcha kombinatsiyalarni hisoblab chiqsa va g'alaba qozongan bo'lsa, u Go-dan bunday aylanmadi. Shunday qilib, u har bir vaziyatdan chiqishning eng yaxshi yo'lini tanladi va insinni mag'lub etish uchun etarlicha aniq qildi.
    • Ushbu g'oya Q-learning algoritmi va uning hosilalari (SARSA va DQN) asosida yotadi. Ismdagi Q harfi sifat so'zini anglatadi, ya'ni robot har qanday vaziyatda eng samarali harakat qilishni o'rganadi va u barcha vaziyatlarni oddiy Markov jarayoni sifatida eslaydi.

    Download 12,38 Mb.
    1   ...   10   11   12   13   14   15   16   17   ...   20




    Download 12,38 Mb.

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    Часть 2. Обучение с подкреплением 2-qism. Mustahkamlangan o'qitish

    Download 12,38 Mb.