Oliy va o‘rta ta’lim tizimida pedagogik – psixologik muammolarning zamonaviy yechimlari
Международная научно-техническая конференция «Практическое применение технических и
цифровых технологий и их инновационных решений», ТАТУФФ, Фергана, 4 мая 2023 г.
279
MA’LUMOTNI O‘QITISHDA AGENTLI O‘QITISH USULLARIDAN
FOYDALANISH.
Boynazarov Otabek Murot o‘g‘li
IIV Malaka oshirish instituti, Axborot texnologiyalari sikli o‘qituvchisi
Hozirgi kunda dunyo olimlari qiymatga asoslangan boshqaruv nafaqat
ma’lumotlarni o‘qitish uchun, balki jarayonlar uchun ham tezlik bilan ishlashni
nazarda tutadi. Tizim muvaffaqiyatli ishlashi va vaqt eng asosiy faktir
hisoblanadi. Tezroq ma’lumotlar olish uchun maqsadlariga erishish kalitiga
aylanadi. Shu tufayli olimlar agentli o‘qitish tizimlaridan samarali foydalanishga
qiziqishi paydo bo'ldi. Ushbu boshqaruv usuli yuqori ma’lumootlarni o‘qitishga
qo‘yiladigan talablarni ko‘tarildi va o‘zgartiradi. Qiymatga asoslangan usullarga
biri bu RL texnikasining umumiy qiymatlarga
asoslangan algoritmlar
hisoblanadi. Qiymatga asoslangan algoritmlarda maqsad odatda quyidagicha
tenglamada aniqlangan Q harakat-qiymat funksiyasining bahosini topish
hisoblanadi. Q-learning [1] mashhur qiymatga asoslangan RL algoritmi bo‘lib,
unda qiymat funksiyasi keyingi holatning taxminiy qiymatini yuklash va
foydalanish orqali kutilgan uzoq muddatli mukofotni
optimallashtirish uchun
takroriy ravishda yangilashdan iborat. Xususan, holatidan
ga o‘tgandan
so‘ng harakati orqali Q-learning quyidagi yangilanishni quyidagicha amalga
oshiradi:
Bu yerda - o'rganish darajasi, - chegirma
omili va r - atrof-muhitdan
olingan darhol mukofot. 0 ga yaqin bo'lgan qiymati ma’lumotni uzog‘ini
ko‘rmaydigan agentni yaratadi, ya‘ni darhol mukofot qiymatiga ko‘proq
ahamiyat beradi, 1 ga yaqin qiymatdan foydalanish agentni uzoq muddatli
mukofotlar uchun ko'proq optimallashtirishga majbur qilishdan iborat hisobladi.
Современные решения проблем системы высшего, среднего образования и их решения
Международная научно-техническая конференция «Практическое применение технических и
цифровых технологий и их инновационных решений», ТАТУФФ, Фергана, 4 мая 2023 г.
280
Q-learning amal qilinayotgan siyosatidan qat‘iy nazar,
optimal
harakat-qiymati funksiyasini to‘g‘ridan-to‘g‘ri yaqinlashtirish imkonini beradi,
chunki u keyingi holatning maksimal harakat qiymatidan
foydalangan holda
bilib olishimiz mumkindir.
Bu yerda muhim muammolardan biri agentning o‘rganishni
kuchaytirishda shu paytgacha to‘plangan bilimlaridan foydalanish va potentsial
yuqoriroq mukofotlar beradigan harakat tanlovlarini, ya‘ni qidiruv-
ekspluatatsiya dilemmasini topish uchun tadqiq qilish o‘rtasidagi
kelishuv
hisobladi.
Xususiyat gradienti [2] qiymatga asoslangan usullarda bajarilganidek,
qiymat funktsiyalariga asoslangan xususiyatni bilvosita xulosa qilish o‘rniga
tomonidan parametrlangan
siyosatini to‘g‘ridan-to‘g‘ri o‘rganadigan
mustahkamlovchi o‘rganish algoritmlari oilasi bo‘lib, Xususiyat gradienti
usullari agentning atrof-muhit bilan oʻzaro taʼsir qilish tajribasidan (yaʼni
kuzatilgan
holatlar, harakatlar va mukofotlar) foydalangan holda ga nisbatan
maqsadning
gradientlarini hisoblab chiqadi va ushbu gradient yoʻnalishida
qadam qoʻyish orqali B parametrlarini yangilaydi:
maqsad funksiyasi kutilgan daromad kabi samaradorlik
o‘lchovining ba’zi shakllarini ifodalaydi: [3]dan
uning parametrlari bo‘yicha farqlanadigan bo‘lsa, xususiyatini
qanday parametrlashtirish kerakligi haqida odatda hech qanday cheklovlar yo‘q.
Xususiyat gradient usullari oilasi ichida aktyor-tanqidiy
usullar deb ataladigan
Oliy va o‘rta ta’lim tizimida pedagogik – psixologik muammolarning zamonaviy yechimlari
Международная научно-техническая конференция «Практическое применение технических и
цифровых технологий и их инновационных решений», ТАТУФФ, Фергана, 4 мая 2023 г.
281
yana bir kuchli ta’lim usullari sinfi bor. Ushbu usullar aktyor deb ataladigan
xususiyatni, shuningdek tanqidchi deb ataladigan qiymat funktsiyasini
o‘rgangan. [2]. Xususiyat gradienti usullari shuning uchun faqat aktyorlar uchun
usullar sifatida ham tanilgan. Faqat aktyorlar uchun usullar bilan solishtirganda,
tanqidchidan foydalanish odatda gradientlardagi tafovutni kamaytiradi va
shuning uchun ko‘pincha barqarorroq siyosat yangilanishiga erishadi.
Yagona
maqsadli sozlamalar uchun ikkala sinfda ham bitta, ham ko‘p agentli sozlamalar
uchun mashhur zamonaviy usullar mavjud. jarayon taqsimotining hosilasini
talab qilmasdan, xususiy parametriga nisbatan maqsadning gradientiga
mutanosib bo‘lgan quyidagi analitik ifodani taqdimi quyidagicha:
Bu iboraning birinchi atamasi maqsadli siyosati boʻyicha yuzaga kelgan
holatlar boʻyicha yigʻindini ifodalaydi.