Часть 2. Обучение с подкреплением 2-qism. Mustahkamlangan o'qitish

Download 12,38 Mb.
bet	14/20
Sana	05.01.2024
Hajmi	12,38 Mb.
	#130821

1 ... 10 11 12 13 14 15 16 17 ... 20

Bog'liq
1-лекция

Часть 2. Обучение с подкреплением 2-qism. Mustahkamlangan oqitish

Часть 2. Обучение с подкреплением 2-qism. Mustahkamlangan o'qitish

Robot changyutgichlarning aqlli modellari va o'z-o'zini boshqaradigan mashinalar shu tarzda o'qitiladi: ular virtual shaharni yaratadilar (ko'pincha haqiqiy shaharlarning xaritalari asosida), tasodifiy piyodalar bilan yashaydilar va u erda hech kimni o'ldirmaslikni o'rganish uchun yuboradilar. Robot sun'iy GTA-da o'zini yaxshi his qila boshlaganda, u haqiqiy ko'chalarda sinovdan o'tkaziladi.

Mashinaning o'zi shaharni eslab qolishi shart emas-bu yondashuv Model-Free deb nomlanadi. Albatta, klassik modelga asoslangan model ham mavjud, ammo unda bizning mashinamiz butun Sayyora modelini, dunyoning barcha chorrahalarida yuzaga kelishi mumkin bo'lgan barcha vaziyatlarni eslab qolishi kerak edi. Bu shunchaki ishlamaydi. Kuchaytirishni o'rganishda mashina har bir harakatni eslamaydi, balki vaziyatlarni maksimal foyda bilan tark etish uchun umumlashtirishga harakat qiladi.

Часть 2. Обучение с подкреплением 2-qism. Mustahkamlangan o'qitish

Robot changyutgichlarning aqlli modellari va o'z-o'zini boshqaradigan mashinalar shu tarzda o'qitiladi: ular virtual shaharni yaratadilar (ko'pincha haqiqiy shaharlarning xaritalari asosida), tasodifiy piyodalar bilan yashaydilar va u erda hech kimni o'ldirmaslikni o'rganish uchun yuboradilar. Robot sun'iy GTA-da o'zini yaxshi his qila boshlaganda, u haqiqiy ko'chalarda sinovdan o'tkaziladi.

Часть 2. Обучение с подкреплением 2-qism. Mustahkamlangan o'qitish

Bir necha yil oldin mashina Go-da odamni mag'lub etganida yangilikni eslaysizmi? Garchi bundan biroz oldin kombinatsiyalar sonini jismonan hisoblash mumkin emasligi isbotlangan bo'lsa-da, chunki u koinotdagi atomlar sonidan oshib ketadi. Ya'ni, agar shaxmatda mashina haqiqatan ham kelajakdagi barcha kombinatsiyalarni hisoblab chiqsa va g'alaba qozongan bo'lsa, u Go-dan bunday aylanmadi. Shunday qilib, u har bir vaziyatdan chiqishning eng yaxshi yo'lini tanladi va insinni mag'lub etish uchun etarlicha aniq qildi.
Ushbu g'oya Q-learning algoritmi va uning hosilalari (SARSA va DQN) asosida yotadi. Ismdagi Q harfi sifat so'zini anglatadi, ya'ni robot har qanday vaziyatda eng samarali harakat qilishni o'rganadi va u barcha vaziyatlarni oddiy Markov jarayoni sifatida eslaydi.

Download 12,38 Mb.

1 ... 10 11 12 13 14 15 16 17 ... 20

Download 12,38 Mb.