nH
(1.5)
Chuqur o'rganishning tarixiy ko'rinishi
Neyron tarmog'ini o'rgatish J(W) maqsad funktsiyasini minimallashtirish uchun
optimal og'irliklar to'plamini (jumladan, noaniqlik shartlarini)
topishdan iborat
bo'lib , o'quv namunalarining bashorat qilingan natijalari
z imkon qadar
t
maqsadlariga yaqin bo'lishi kerak . 1980-yillarda taklif
qilingan backpropagation
(BP) [120] hali ham neyron tarmoqlarni nazorat ostida o'qitish uchun eng ko'p
qo'llaniladigan usuldir. Bu gradient tushish algoritmidir. Og'irliklar tasodifiy ishga
tushiriladi va ular iterativ ravishda yangilanadi. Har bir iteratsiyada og'irliklar
maqsad funktsiyasini kamaytirish uchun yo'nalishda o'zgartiriladi,
Bu erda
ÿ - o'rganish tezligining giperparametri va ÿJ(W)
- maqsad funktsiyasi
wrt og'irliklarining gradienti .
W ÿÿ
W ÿ ÿÿJ(W),
8
Bunga bir nechta qatlamlarda hisoblangan chiziqli va chiziqli bo'lmagan o'zgarishlar
seriyasi orqali erishiladi.
BP bilan xatolar har bir qatlamga tarqaladi va har bir qatlamdagi og'irlik
gradientlarini hisoblash uchun ishlatiladi. BP algoritmining batafsil tavsifini [46]
da topish mumkin.
ÿ ÿ .
1.2.3 Orqaga tarqalish
Neyron tarmog'ining maqsad funktsiyasining yuzasi odatda 1.4 (b)-rasmda
ko'rsatilganidek, ko'plab mahalliy minimallarga ega bo'lgan juda murakkab.
Global minimal bo'lishi mumkinligiga hech qanday nazariy kafolat yo'q
Oldinga
uzatish bilan, chiqish qatlamida chiqishlar bashorat qilinadi.
(1.4)
diskriminant funktsiyalar to'plamiga ekvivalent
Bashoratdagi xatolar maqsadli qiymatlar bilan solishtirish orqali hisoblanadi.
Xulosa qilish tenglamasi. (1.1) - (1.4),
neyron tarmoqning chiqishi
(1.6)
{wkj} - bu og'irliklar va
{wk0} - qarama-qarshilik shartlari. Chiqish neyron
k
o'zining aniq faollashuvining chiziqli bo'lmagan
faollashuv funktsiyasi orqali zk
chiqaradi , ya'ni
fk(x) ÿ
zk =
g
zk =
g (netk).
ÿ
ÿ
Toÿliq matn: http://dx.doi.org/10.1561/2000000071
i=1
wkjg
j=1
d
wjixi +
wj0 +
wk0
Machine Translated by Google
Bu erda Jp(W) - pth ta'lim namunasidagi bashorat narxi va og'irliklar
sifatida
yangilanadi
ÿJp(W).
J(W) =
(1.8)
umumiy neyron tarmoqlarda BP tomonidan erishilgan. Gradient tushish bo'yicha
mahalliy minimal kirish tarmoq og'irliklarining ishga tushirilishiga bog'liq.
Jp(W),
Biroq, o'quv majmuasi katta bo'lsa, yig'indi gradientini baholash hisoblash
qimmatga tushadi. Stokastik gradient tushish namunalari har bir iteratsiyada yig'indisi
funksiyalarining kichik to'plamini oladi. Bu keng ko'lamli mashinani o'rganish
muammolari uchun juda samarali. Stokastik o'qitishda o'quv to'plami mini-
to'plamlarga bo'linadi va
J(W) ning haqiqiy gradienti namunalarning mini-to'plamida
yaqinlashadi. Gradientni baholash shovqinli va og'irliklar har
bir iteratsiyada gradient
bo'ylab aniq pastga siljimasligi mumkin, lekin to'plamni o'rganishdan ancha tezroq.
Ustida