Bilimlarni distillash asosida akustik model moslashuvi yordamida uchdan uchiga hissiy nutqni aniqlash




Download 1,35 Mb.
Pdf ko'rish
Sana15.05.2024
Hajmi1,35 Mb.
#234324
Bog'liq
s11042-023-14680-y.pdf



Bilimlarni distillash asosida akustik model moslashuvi
yordamida uchdan uchiga hissiy nutqni aniqlash
Xong-In Yun1 & Chon-Sik
bog'i2
https://doi.org/10.1007/s11042-023-
14680-y
Qabul qilingan: 2022-yil 16-mart/Qabul qilingan:2022-yil 28-iyul/Qabul qilingan:2023-yil 3-fevral/
Onlayn nashr: 2023 yil 13 fevral
# Muallif(lar), Springer Nature 2023 dasturining bir qismi bo
ʻ
lgan Springer Science+Business Media, LLC
eksklyuziv litsenziyasi ostida
Abstrak
t
An'anaviy yashirin Markov modeli-chuqur neyron tarmog'iga (HMM-DNN) asoslangan
yondashuv bilan solishtirganda, oxirigacha yondashuv nutqni aniqlashda yaxshiroq
ishlashni ta'minlaydi, ammo baribir g'ayritabiiy nutqda, ayniqsa hissiy nutqda yomon
ishlashni ko'rsatadi. Optimal yechim har bir his-tuyg'u uchun faqat hissiy nutq
ma'lumotlaridan foydalangan holda hissiy nutqni aniqlash uchun mos bo'lgan akustik
modelni yaratishdir, lekin bu mumkin emas, chunki har bir his-tuyg'u uchun etarli
miqdordagi hissiy nutq ma'lumotlarini to'plash qiyin. Ushbu tadqiqotda biz model
parametrlari sonini kamaytirish orqali chuqur o'rganishga asoslangan yondashuvlarning
hisoblash intensivligini kamaytirish uchun dastlab kiritilgan bilimlarni distillash
texnikasidan foydalangan holda hissiy nutqni aniqlash samaradorligini yaxshilash usulini
taklif qilamiz. Modelni siqish sifatida ishlatishdan tashqari, biz ushbu texnikani hissiy
nutqqa model moslashtirish uchun ishlatamiz. Taklif etilayotgan usul oddiy nutq
ma'lumotlari miqdoridan foydalangan holda bir qator model parametrlari bilan asosiy
modelni (o'qituvchi modeli deb ataladi) quradi va keyin kichik modeldan foydalangan
holda kamroq model parametrlari bilan maqsadli modelni (talaba modeli deb ataladi)
quradi. hissiy nutq ma'lumotlarining miqdori (ya'ni, moslashuv ma'lumotlari). Talaba
modeli hissiy nutq ma'lumotlari bilan qurilganligi sababli, u har bir hissiyotning hissiy
xususiyatlarini yaxshi aks ettirishi kutiladi. Emotsional nutqni aniqlash tajribasida, talaba
modeli model parametrlari sonidan qat'i nazar, tanib olish ko'rsatkichlarini saqlab qoldi,
o'qituvchi modeli esa parametrlar sonining kamayishi bilan ishlashni sezilarli darajada
yomonlashtirdi va so'z xatosi darajasida ishlashning 10% gacha pasayishini ko'rsatdi.
Ushbu natija shuni ko'rsatadiki, talaba modeli juda ko'p hissiy nutq ma'lumotlarini talab
qilmasa ham, hissiy nutqni aniqlash uchun mos akustik model bo'lib xizmat qiladi.
*
Jeong-Sik Park
parkjs@hufs.ac.kr
Hong-In Yun
gnlenfn@gmail.com
Xankuk chet tillari universiteti, ingliz tilshunosligi kafedrasi, Seul, Koreya Respublikasi, Xankuk chet
tillari universiteti ingliz tilshunosligi va til texnologiyasi kafedrasi,
Seul, Koreya Respublikasi
1
2
Multimedia vositalari va ilovalari (2023) 82:22759–22776


Kalit so'zlar Emotionalspeechrecognition.Deepneural network.Modeladaptation.Model
siqish. Bilimlarni distillash
Nutqni avtomatik aniqlash (ASR) ikkita asosiy funktsiyani bajaradi: audio signallardan akustik
xususiyatlarni ajratib olish va akustik modellar yordamida ularni tegishli matnga tasniflash.
Naqshlarni aniqlash yondashuvlariga ko'ra ko'plab akustik modellar joriy qilingan, jumladan
dinamik vaqtni o'zgartirish (DTW), vektorni qo'llab-quvvatlash mashinasi (SVM), yashirin
Markov modeli (HMM) va chuqur neyron tarmoq (DNN) [1, 14, 23, 36] . DTW, SVM va HMM
oddiy, ammo klassik usullar bo'lgani uchun ular hozirda faqat cheklangan nutqni aniqlash
sohalarida qo'llaniladi [25, 33].
HMM-ga asoslangan yondashuv nutq signallarining fonetik xususiyatlarini Gauss taqsimoti
bilan statistik o'lchov bilan baholaydi, DNN-ga asoslangan yondashuv esa katta hajmdagi nutq
ma'lumotlaridan foydalangan holda bir nechta qatlamlarning model parametrlarini baholashga
qaratilgan. HMM va DNNni birlashtirgan gibrid yondashuv so'z xatosi darajasiga (WER)
qaraganda ancha pastroq bo'ldi
HMMga asoslangan yondashuv [8].
ASRning eng zamonaviy yondashuvlaridan biri bu uchdan uchga (E2E) nutqni aniqlash bo'lib, u
an'anaviy HMM-DNN gibrid yondashuvidan ustun turadi. E2E yondashuvi an'anaviy yondashuv
bilan tuzilgan alohida akustik va til modellarini birlashtiradi. E2E har bir ASR protsedurasida
aniq vazifalarga e'tibor qaratish o'rniga, protseduralarni bitta jarayonga birlashtiradi.
tizimi. Shuning uchun DNNni o'rgatish uchun juda katta hajmdagi hisoblash talab etiladi.
E2E ASR tizimlari tufayli nutqni aniqlashning eng so'nggi aniqligi 95% dan oshadi. Biroq, ASR
chuqur o'rganish yondashuvlaridagi texnik yutuqlardan sezilarli foyda ko'rgan bo'lsa-da, uning
ishlashi faqat oddiy ma'lumotlarda juda yaxshi,
va g'ayritabiiy nutqda, ayniqsa hissiy nutqda yomonlashadi.
Nutqni aniqlashning odatiy modellari singari, avvalroq hissiy nutqni aniqlashga asoslangan edi
HMM da. Biroq, HMM asosidagi hissiy nutqni tanib olishning so'zni aniqlash darajasi (WRR)
atigi 30% ni tashkil etdi [4]. [28] da WRR 60% ga yaxshilandi, ammo bu ko'rsatkich hali ham
o'sha davrdagi standart nutqni aniqlashdan past edi [13]. Emotsional nutqni aniqlash odatda
standart nutq modellarida zaiflashadi, chunki hissiy holatlar nutq parametrlarida, masalan,
tovush chastotasi kabi mazmunli o'zgarishlarga olib keladi [10].
Ishonchli ishlashga erishish yo'li katta miqdordagi hissiy nutq ma'lumotlarini to'plash va har
bir hissiyot uchun nutqni aniqlash modulini qurishdir [28]. Bu usul tegishli emotsional nutq
ma'lumotlaridan foydalangan holda bir nechta hissiyotlarga bog'liq akustik modellarni qurishni
talab qiladi va 1-rasmda ko'rsatilganidek, his-tuyg'ularni tasniflash va mos modellarga
belgilash uchun oldingi uchida his-tuyg'ularni aniqlash tizimini talab qiladi. His-tuyg'ularga
bog'liq bo'lgan akustik modellarni yaratish qiyin ish, chunki uni tabiiy ravishda olish oson emas
bir nechta ma'ruzachilarning og'zaki hissiy so'zlari.
Yana bir yechim - bu hissiy nutqni aniqlash uchun mos keladigan akustik xususiyatlarni olish.
Bu his-tuyg'ularni to'g'ri ifodalovchi foydali xususiyatlarni olish uchun nutq orqali hissiy ifodani
bilishni talab qiladi. Biroq, nutqdan his-tuyg'u xususiyatlarini aniqlash juda noaniqdir [16, 29].
Ko'pgina tadqiqotlar prosodiya, tovush balandligi va formant kabi nutq xususiyatlarini tahlil
qiladi, ammo hissiy ifodalar (va ba'zan hissiy holatlar) yuz ifodalari yoki boshqa og'zaki
bo'lmagan tillar bilan birga keladi. Tuyg'ularning o'zini tasniflash juda qiyin. Tuyg'ularni
aniqlash bo'yicha ko'plab tadqiqotlar hisoboti
1.Kirish
2276
0
Multimedia vositalari va ilovalari (2023) 82:22759–22776


his-tuyg'ularning ikki toifasi uchun 80% dan yaxshiroq aniqlik, ammo beshdan ortiq hissiyotlar
uchun 50% ga tez pasayish [16, 30].
Nutqni hissiy jihatdan aniqlashning oxirgi usuli - bu xususiyatlarni normallashtirishdir [20].
Hissiy nutq odatiy avtomatik nutqni aniqlashga qaraganda ko'proq ma'lumotni o'z ichiga oladi.
Ushbu qo'shimcha funktsiyalarni normallashtirish tanib olish aniqligini oshirishi mumkin.
Tsepstral parametrlar nutqni aniqlash tizimlarida muhim xususiyatdir, ammo his-tuyg'ular
kirib kelganda murakkab yo'llar bilan farqlanadi.
nutq. Shu sababli, sepstral xususiyatlarni normallashtirish ko'pincha qiyin.
Ushbu tadqiqot moslashish texnikasiga asoslangan hissiy nutqni aniqlashning samarali usulini
taklif qiladi. Turli xil naqshlarni aniqlash muammolari, jumladan, tasvirlarni tasniflash va
nutqni aniqlash uchun bir nechta moslashish usullari muvaffaqiyatli qo'llanilgan bo'lsa-da, ular
domenga yo'naltirilgan noaniqlikka ega bo'lgan hissiy nutqni aniqlash vazifasida ehtiyotkorlik
bilan ishlov berishlari kerak. Ushbu tadqiqotda biz bilim distillashiga asoslangan modelni
moslashtirishni taklif qilamiz
hissiy nutqni aniqlash uchun yondashuv.
Bilimlarni distillash texnikasi dastlab model parametrlari sonini kamaytirish orqali chuqur
o'rganishga asoslangan yondashuvlarning hisoblash intensivligini kamaytirish uchun kiritilgan
[15]. Bu metod bir qancha model parametrlari bilan o‘qituvchi modelini quradi va o‘qituvchi
modeli haqidagi bilimlarni model parametrlari kamroq bo‘lgan talaba modeliga o‘tkazadi.
Shunday qilib, talaba modeli
nisbatan sayoz model tuzilishi bilan ham o‘qituvchi modeliga o‘xshash ishlaydi.
Ushbu tadqiqotda biz mos akustik model bo'lib xizmat qiladigan talaba modelini yaratishga
harakat qilamiz
hissiy nutqni aniqlash uchun. O'qituvchi modeli katta miqdordan qurilgan
1-
rasm
Tuyg'uga bog'liq modelga asoslangan
yondashuv
Multimedia vositalari va ilovalari (2023) 82:22759–22776
2276
1


osonlik bilan to'planishi mumkin bo'lgan oddiy nutq ma'lumotlari, so'ngra bilimlarni distillash
tartibiga muvofiq kichik miqdordagi hissiy nutq ma'lumotlari bilan talaba modeli quriladi.
Talaba modeli emotsional nutqqa moslashtirilgan akustik model xususiyatlariga ega bo'lishi
kutilmoqda, chunki model katta hajmdagi oddiy nutq ma'lumotlari bilan o'qitilgan o'qituvchi
modelining nutqni tanib olishning ajoyib ishlashini va hissiy nutqni aniqlash uchun zarur
bo'lgan hissiy bilimlarni o'z ichiga oladi.
Ushbu tadqiqotning asosiy hissalari quyidagicha umumlashtiriladi:
(1) Emotsional nutqni aniqlashdan oldin samarali yondashuv taklif qilingan.
(2) Bilimli distillash asosidagi yangi modelga moslashish texnikasi taklif qilinmoqda.
(3) Taklif etilayotgan yondashuv modelni siqish va modelni moslashtirishni samarali
bajaradi.
(4) Taklif etilgan moslashish texnikasi katta hajmda olish qiyin bo'lgan g'ayritabiiy nutq
ma'lumotlarini qayta ishlashda turli xil nutqni aniqlash vazifalarida qo'llanilishi mumkin,
masalan,
hissiy nutq va urg'uli nutq.
Nutqni hissiy aniqlash odatiy nutqni aniqlashdan bir muhim jihati bilan farq qiladi: uning kirish
ma'lumotlari hissiy ma'lumotlarni o'z ichiga oladi. Ushbu qo'shimcha ma'lumot nutqni
aniqlashning standart modellarining ish faoliyatini yomonlashtiradi. Ushbu tadqiqot bilim
distillashiga asoslangan model moslashuvidan foydalangan holda akustik modelni hissiy
nutqqa moslashtirish orqali hissiy nutqni aniqlash uchun ASR modelini yaxshilashga harakat
qiladi.
Umuman olganda, model moslashuvi domen moslashuvi bilan bog'liq bo'lib, u bir yoki bir
nechta "manba domenlarida" o'qitilgan modeldan ma'lumotni boshqa, ammo tegishli
"maqsadli domen" ga o'tkazadigan algoritm bo'lib, maqsadga mos modelni yaratish uchun
domen [9, 11, 22]. Manba domenida o'qitilganda, model etarli bo'lmagan yoki mavjud
bo'lmagan maqsadli domendan samarali xulosa chiqarishi mumkin. Misol uchun, domen
moslashuvi sun'iy intellekt uchun diagnostika algoritmlariga qo'llanilgan. Oldingi
kasalliklarning belgilangan maʼlumotlari boʻyicha oʻqitilgan domenga moslashtirilgan
tarmoq COVID-19 kabi yangi kasallik bilan bogʻliq boʻlgan yangi yorliqsiz maʼlumotlarga
qoʻllaniladi.
Domenni moslashtirish so'nggi paytlarda o'rganish ma'lumotlari va real dunyo ma'lumotlari
o'rtasidagi farqlar va taqqoslash sifatining etarli emasligi natijasida hosil bo'lgan ish faoliyatini
pasaytirishni to'xtatuvchi yutuq texnikasi sifatida katta e'tiborga sazovor bo'ldi. Domenni
moslashtirishning ko'plab yondashuvlari domenlarning taqsimlanishi o'rtasidagi farqni
minimallashtirish orqali domen chalkashligini maksimal darajada oshiradi
manba va maqsadli domenlardan olingan xususiyatlar [11, 22].
Domenning raqib neyron tarmog'i (DANN) moslashishning vakillik usuli bo'lib, maqsadli
domen ma'lumotlarini raqib usuli orqali hosil qiladi va uning ishlashini yaxshilash uchun
modelni qayta o'qitadi [9]. Biroq, bu usulda hissiy nutqni aniqlash uchun qo'llanilishi kerak
bo'lgan ba'zi kamchiliklar mavjud. Birinchidan, bu ikki mashg'ulotni talab qiladi. DANN
maqsadli domen ma'lumotlarini ishlab chiqaradi va moslashish uchun qayta o'qitiladi. Bundan
tashqari, tarmoqlarni o'rgatishda giperparametrlarni o'zgartirish qiyin. DANN da generator va
diskriminatorning ishlashi to'g'ridan-to'g'ri ishlab chiqarilgan ma'lumotlar sifatiga bog'liq
bo'lganligi sababli, giperparametrlarni o'zgartirish qimmatga tushadi.
2 Materiallar va usullar
2.1 Emotsional nutqni aniqlash uchun model
moslashuvi
2276
2
Multimedia vositalari va ilovalari (2023) 82:22759–22776


dar
yo
dar
yosi
Va nihoyat, yaratilgan ma'lumotlar kirish maqsadli ma'lumotlar to'plamiga bog'liq bo'lganligi
sababli, DANNga asoslangan usulni umumlashtirish oson emas.
Ushbu tadqiqot bilimlarni distillashga asoslangan domenni moslashtirish yondashuvini taklif
qiladi, bu esa hissiy nutqni aniqlash vazifalarida qarama-qarshi usullarga nisbatan bir qator
afzalliklarni taqdim etadi. Birinchidan, u xarajatlarni kamaytiradigan to'g'ridan-to'g'ri o'qitish
jarayoniga ega. Bundan tashqari, modellar bilimlarni distillash orqali siqilganligi sababli, ushbu
uslubni hissiy nutqni aniqlash uchun samarali qo'llanilishi mumkin, bu noaniq muammolarni
hal qilish uchun juda murakkab model arxitekturasini talab qiladi.
hissiy xususiyatlar.
Ko'p hollarda ikki yoki undan ortiq tarmoqlarni birlashtirgan ansambl modeli yaxshi ishlashni
ta'minlaydi [26]. Ansambl strategiyasi modelning ishlashini sezilarli darajada yaxshilagan
bo'lsa-da, butun ansambl modeli og'ir va ko'p foydalanuvchilar tomonidan foydalanilganda,
ayniqsa, har bir model katta neyron tarmoqdan foydalansa, ortiqcha hisoblash quvvatini talab
qiladi. [15] ansambl-og'ir modelning cheklovlarini engib o'tish uchun bilimlarni distillashni
taklif qildi. Bilimlarni distillash samaradorligi distillangan talaba modelidagi katta o'qituvchi
modeliga deyarli mos keladi, lekin o'qituvchi modeliga qaraganda kamroq parametrlarni talab
qiladi. Xususan, bilimlarni distillash modelni siqishni taklif qiladi.
¼expðziÞ=Tqip ðzÞ ð1Þ∑iexi=T Neyron tarmoqlar odatda (1) da tavsiflanganidek, har bir
sinf uchun hisoblangan logit zi ni qi ehtimollik darajasiga aylantiruvchi softmax chiqish
qatlamida sinf ehtimolini hisoblaydi. Ushbu hisoblashda zi boshqa logitlar bilan
taqqoslanadi. Softmax funksiyasi zi ning sinf topshiriqlarini ko'rsatuvchi bitta issiq ikkilik
vektorni chiqaradi. Ushbu odatiy etiketlash tizimi 2-rasmda ko'rsatilgan qattiq nishon deb
ataladi.
(1) da harorat parametri T yumshoq yorliqni yaratadi (standart softmax funktsiyasi uchun, T =
1). [15] da taʼkidlanganidek, qattiq nishon faqat eng yuqori ehtimollikni qabul qiladi va
qolganlarini tashlab yuboradi. Tashlab ketish ehtimoli transferni o'rganishda ham rol o'ynashi
mumkin.
Odatda, softmax qatlami butun sonni chiqaradi. Biroq, agar T 1 dan katta bo'lsa,
ehtimollik taqsimoti sinflar bo'yicha yumshatiladi. Maqsadli ma'lumotlar to'plamidagi har bir
holatning yumshoq maqsadli taqsimlanishini nazarda tutgan holda, maqsadli ma'lumotlar
to'plami bo'yicha treningdan so'ng, yuqori haroratli o'qituvchi modelining softmax funktsiyasi
ma'lumotni talaba modeliga o'tkazadi. Talaba modeli bir xil yuqori haroratli softmax modelida
o'qitiladi, ammo mashg'ulotdan keyingi sinov bosqichida softmax funksiyasi T = 1 bilan
standart softmaxga qaytariladi. 3-rasm va tenglamalar. (2) dan (5) bilim distillash yo'qotilishini
hisoblash jarayonini ko'rsatadi.
2.2 Bilimlarni distillash asosida akustik modelni moslashtirish
2.2.1 Bilimlarni distillash
C C
Yo'qot
ish
x y
x q
1 −
a C
K
i1q
K
i1q
x;y
Pix Pix
aCsoft x;q
Th
qiyin
d
yumsh
oq
d
¼ ð
Þ ¼
Þ ¼
Þ
qattiql
ik
T h
ð
Þ
ð
Þ
ð
ð2Þ
ð3Þ
ð4Þ
;
;
−∑
−∑
¼
¼
Multimedia vositalari va ilovalari (2023) 82:22759–22776
2276
3


q
i
exp zi x T
¼1exp zi x T
∑K
j
¼
ððÞ=Þ
ððÞ=Þ
ð5Þ
Tarmoqdagi umumiy yo'qotish distillash va talabalar yo'qotishlarining yig'indisidir [15].
Distillashning yo'qolishiga o'qituvchi modelining yumshoq yorlig'i va talaba modelining
yumshoq bashorati yordam beradi va talaba yo'qolishi talaba modelining qattiq prognozi va
maqsadli domen ma'lumotlarining qattiq yorlig'i bilan yordam beradi. O'qituvchi modelidan
yumshoq yorliq va talaba modelidan ikki turdagi bashorat har xil haroratli softmax bo'yicha
olinadi.
Yuqoridagi tenglamalar bilimlarni distillashning matematik tavsiflari. (2) va (3) da
pi(x) - talaba modelining i-sinfining chiqish ehtimoli, qi esa x kirish xususiyatining yumshoq
nishonidir. Shuning uchun Chard(x, y) - softmax qatlami tomonidan bitta issiq vektor chiqishi,
Csoft(x, y) esa softmax ehtimolliklarining yumshoq taqsimlangan bir issiq vektoridir. (4) da a -
o'zaro entropiyani yo'qotishdagi qattiq yoki yumshoq yorliqning og'irligi.
2-
rasm
3-
rasm
Qattiq nishon va yumshoq
nishon
Bilimlarni distillash sxemasi
2276
4
Multimedia vositalari va ilovalari (2023) 82:22759–22776


Yuqorida aytib o'tilganidek, bilimlarni distillash mukammal ishlash bilimini beradi
o'qituvchi modellaridan sayoz talabalar modellariga. O'qituvchining keng ko'lamli bilimlari
bo'yicha treningdan so'ng, talaba modeli o'zining eng yaxshi ishlashini ta'minlaydi. Shunday
qilib, bilimlarni distillash DNN-ga asoslangan nutqni aniqlash vazifalarida modelni siqish
uchun keng qo'llaniladi [7].
Bilimlarni distillash 2.2.1-bo'limda tavsiflanganidek, o'qituvchi modelining bilimlarini ma'lum
bir yo'qotish funktsiyasi orqali talaba modeliga o'tkazadi. Muayyan nuqtai nazardan, yo'qotish
Eq. (4) modelni siqish emas, balki modelga moslashish sifatida talqin qilish mumkin. (4) ning
birinchi hadi standart o'zaro entropiyani yo'qotish funktsiyasidir. Boshqa atamani talaba
modelini o'qituvchi modeliga taqlid qilishni cheklaydigan tartibga solish atamasi sifatida
tushunish mumkin. Shu nuqtai nazardan, biz bilimlarni distillash usulini modelga moslashtirish
uchun qo'llashimiz mumkin.
Emotsional nutqni aniqlashni boshqarish uchun ushbu tadqiqot samarali model moslashuv
tizimini taklif qiladi, unda hissiyotlarga mos keladigan talaba modellari mos ravishda tuziladi
va model moslashuvi bilan birga bilimlarni distillash modelini siqish ko'rib chiqiladi. 4-rasmda
an'anaviy bilimlarni distillash tushunchasi va
modelni siqish va modelni moslashtirishni birlashtirgan taklif qilingan ramka.
Bilimlarni distillashning umumiy kontseptsiyasi 4a-rasmda ko'rsatilganidek, talaba modeli
o'qituvchi modelidan kamroq parametrlarga ega bo'lgan va o'qituvchi va talaba modellari bir
xil kirish ma'lumotlariga ega bo'lgan modelni siqishga qaratilgan. Modelga moslashish nuqtai
nazaridan, talaba modeli o'qituvchi modeli bilan bir xil model tuzilishiga ega va o'qituvchi
modeli manba domen ma'lumotlari bilan va talaba modeli maqsad bilan qurilgan.
4b-rasmda ko'rsatilganidek, domen ma'lumotlari.
Taklif etilayotgan tizimda o'qituvchi modellari katta hajmdagi manba ma'lumotlari (normal
nutq ma'lumotlari) bilan o'qitilgan bir qator parametrlarga ega, talaba modeli esa
Yaqinda o'tkazilgan tadqiqotlar E2E nutqini aniqlash uchun bilimlarni distillashga asoslangan
modelni siqish yondashuvlarini taklif qildi [18, 32, 37]. 1-bo'limda keltirilganidek, E2E
zamonaviy ASR yondashuvi bo'lib, u an'anaviy HMM-DNN gibrid yondashuvidan ustun turadi.
U ikki xil ko'rinishda amalga oshiriladi: ulanish vaqtini tasniflash (CTC) va tinglash, ishtirok
etish va imlo (LAS) [6, 12].
Ikki tur orasida CTC E2E hissiy nutqni aniqlash uchun foydalidir, chunki
u keyingi qayta ishlashga bo'lgan ehtiyojni yo'q qiladi; Buning o'rniga, CTC dekoderi neyron
tarmoq chiqishini yakuniy matnga aylantiradi. Bundan tashqari, u mashg'ulot va transkript
ma'lumotlari o'rtasida to'g'ri moslashishni ta'minlaydi, bu hissiy nutqni aniqlashda juda
muhim, chunki u akustik modelning to'g'riligini ta'minlaydi. Shu sababli, CTC asosidagi ASR
yondashuvi ushbu tadqiqotda hissiy nutqni aniqlash uchun asos sifatida ishlatiladi.
Bilimlarni distillash yondashuvlari odatda o'qituvchi modelidagi sinflarning ehtimollik
qiymatlarini yoki o'qituvchi modelining o'rtasida yashirin qatlamlarni uzatadi. Ushbu tadqiqot
avvalgi yondashuvni qo'llaydi. Kadrning ehtimollik qiymatlarini uzatuvchi tenglama
o'qitish uchun CTC modeliga birliklar (6) bilan berilgan, bu erda xt - umumiy uzunlikdagi T
kirish ketma-ketligidan t-chi ramka [27, 31].
L TCTC−KD
ramka
¼x

Z∑t¼1∑k

KPteacherðk

xtÞlnPstudentðk

xtÞ 6
2.2.2 Emosional nutqni oxirigacha aniqlash uchun bilimlarni distillash
2.2.3 Emotsional nutqni aniqlash uchun bilimlarni distillash orqali modelga
moslashish jarayoni
ð
Þ
−∑
Multimedia vositalari va ilovalari (2023) 82:22759–22776
2276
5


kam sonli maqsadli domen ma'lumotlari (hissiy nutq ma'lumotlari) bilan o'qitilgan kamroq
parametrlarga ega oddiy tarmoq sifatida qaraladi. Biz ushbu qo'shma asos bir vaqtning o'zida
bilimlarni distillashdan ikkita foydalanishni amalga oshirishini kutamiz.
Siqish va moslashish effektlari bir vaqtning o'zida qo'llanilganda, biz maqsadli domenga (hissiy
nutq) moslashadigan kamroq parametrlarga ega modelni olamiz. Shu maqsadda biz talaba
modelining strukturasini o'zgartiramiz va talaba modelining kirish ma'lumotlarini model
moslashuvi uchun maqsadli domen ma'lumotlari sifatida o'rnatamiz, shu bilan biz talaba
modelining parametrlari sonini kamaytiramiz.
talaba modeli (siqilgan modelni olish).
Moslashish jarayoni tasvirlangan bilimlarni distillash yo'qotilishini minimallashtirishga
qaratilgan
(4) ichida. Ushbu tenglamaning birinchi atamasi moslashtirilgan modelning ta'limdan so'ng
domen ma'lumotlarida farqlanishini ta'minlaydi, ikkinchi atama esa modelni manba
modelidan sinfga o'xshashlik ma'lumotlarini o'rgatish orqali umumlashtirishga imkon beradi.
5-rasmda hissiy nutqni aniqlash uchun bilimlarni distillash asosida modelni moslashtirish
jarayoni ko'rsatilgan. O'qituvchi modeli birinchi navbatda manba domen ma'lumotlari bilan
o'qitiladi. U bilimlarni distillash jarayoni uchun yumshoq yorliq tayyorlash uchun ishlatiladi.
Keyin talaba modeli hissiy nutq ma'lumotlari bilan o'qitiladi, shu bilan birga bilimlarni distillash
yo'qotilishi minimallashtiriladi. Yo'qotish 2.2.1-bo'limda tavsiflanganidek, teglar va
bashoratlardan hisoblab chiqiladi. Yumshoq yorliq va
4-shakl, tavsiya etilgan usulda modelni siqish va domenni moslashtirish, va birlashtirilgan ramkaning bilimli
distillash kontseptsiyasi
2276
6
Multimedia vositalari va ilovalari (2023) 82:22759–22776


2.1-bo'limda ta'riflanganidek, domenni moslashtirishning ko'plab usullari turli tadqiqot
sohalarida qo'llanilgan. Domenni moslashtirishning mashhur usuli bo'lgan DANNga erishildi
ikkita bashorat mos ravishda o'qituvchi va talaba modellarining natijalaridir. Qattiq yorliq
maqsadli domen ma'lumotlaridan (masalan, hissiy nutq ma'lumotlari) olinadi.
Modelni moslashtirish vazifasi manba domen modelidan maqsadli domenga mos
moslashtirilgan modelni taqdim etishga harakat qiladi. DNN arxitekturasi nuqtai nazaridan
turli xil model arxitekturalari joriy qilingan va har bir arxitektura tanib olish maqsadli
ma'lumotlari va vazifalariga ko'ra turli xil ishlashni ta'minlaydi. Ushbu tadqiqotda biz RNN
arxitekturasidan foydalanamiz, bu ma'lumotlarni ketma-ket o'zgartirish uchun samarali model
bo'lib, o'qituvchi va o'quvchilarning hissiy nutqi modellarini yaratish uchun. Modellar
konvolyutsion qatlamlardan, takrorlanuvchi qatlamlardan va to'liq bog'langan qatlamlardan
iborat. In
xususan, barcha o'quv jarayonlari E2E nutqni aniqlash tizimi orqali amalga oshiriladi.
Tanib olish jarayonida berilgan hissiy nutq ma'lumotlari har bir talaba modeliga kiritiladi
kirish ma'lumotlari sifatida, so'ngra eng yuqori chiqish ehtimolini ta'minlaydigan model
natijasida tan olinadi. Model berilgan nutq ma'lumotlarining hissiyotiga mos keladigan
maqsadli talaba modeli bo'lishi kutilmoqda.
2.3 Emotsional nutqni aniqlashda bilimlarni distillash asosida modelni
moslashtirishning afzalliklari
5-
rasm
Emotsional nutqni aniqlash uchun bilimlarni distillash asosida modelga moslashish jarayoni
Multimedia vositalari va ilovalari (2023) 82:22759–22776
2276
7


Taklif etilgan yondashuvning samaradorligini tekshirish uchun biz hissiy nutqni aniqlash
bo'yicha bir nechta tajribalar o'tkazdik. Eksperimental sozlash haqida ba'zi ma'lumotlar ushbu
bo'limda ko'rib chiqiladi.
ko'p sohalarda yuqori ishlash, lekin u ba'zi kamchiliklari bor. Usul yangi ma'lumotlarni yaratish
va keyin yaratilgan ma'lumotlar bo'yicha modelni o'rgatishning ikki bosqichli jarayonidir.
Ushbu vazifalarni bajarish uchun ikkita model kerak bo'ladi: maqsadli domen ma'lumotlarini
yaratuvchi generator va yaratilgan ma'lumotlar maqsadli ma'lumotlar yoki yo'qligini ajratuvchi
diskriminator.
Ajoyib ishlashga erishish uchun mustahkam diskriminator zarur. Raqib domenini moslashtirish
uchun mustahkam diskriminatorni yaratish ma'lumotlar to'plamiga bog'liq parametrlarni
optimallashtirishni talab qiladi. Bunday korpusga bog'liq optimallashtirilgan model qimmat va
umumlashtirish qiyin. Shuning uchun, agar modellar ko'p domenlarga moslashtirilishi kerak
bo'lsa yoki domen doimiy ravishda o'zgarib tursa, mos kelmaydi. Ko'p hollarda yoki doimiy
rivojlanayotgan domenlarni qurish juda qimmat. Emotsional nutqni aniqlashda odatda har bir
hissiyot uchun model tuziladi. Murojaat qilinmoqda
DANN hissiy nutqni aniqlash uchun juda katta hisoblash xarajatlarini talab qiladi.
Bilimlarni distillash asosida tavsiya etilgan moslashish yondashuvi qarama-qarshilik usuliga
nisbatan ikkita afzalliklarni taqdim etadi. Birinchidan, bilimlarni distillashga asoslangan usul
faqat bitta o'quv jarayonini talab qiladi. Bilimlarni distillash ikkita modeldan foydalanadi:
o'qituvchi modeli va talaba modeli. Faqat talaba modeli moslashtiriladi va o'qituvchi modelini
tayyorlash domen moslashuv jarayoni bilan bog'liq emas. Vaqt va resurslarni tejash uchun
o'qituvchi modeli oldindan o'rgatilgan model bo'yicha o'qitilishi mumkin. DANNda har bir
tuyg'u uchun model yaratish juda ko'p o'quv jarayonlarini talab qiladi, ammo bilimlarni
distillash mos ravishda qurish xarajatlarini sezilarli darajada kamaytiradi.
hissiyot modellari.
Bilimni distillashning ikkinchi afzalligi - bu o'qitishdagi cheklovlarni yumshatishdir
maqsadli domen. Raqib usuli diskriminatsiya modelini o'rgatishda ma'lumotlar to'plamiga xos
giperparametrni optimallashtirishni talab qiladi. Shunga ko'ra, yaratilgan ma'lumotlar berilgan
maqsadli domen ma'lumotlariga qarama-qarshi bo'lishi mumkin va qo'shimcha maqsadli
domen ma'lumotlari rad etilishi mumkin. Maqsadli domenlar bo'yicha ko'proq ma'lumotlarni
qo'shish ma'lumotni distillashda raqib usuliga qaraganda ancha oson. Bundan tashqari,
moslashuv ma'lumotlar to'plami o'quv to'plamidan kichikroq. Talaba modelini moslashishga
o'rgatish vaqti va narxi bilimlarni distillashda ancha kamayadi.
Baholash uchun biz nutqni aniqlash va his-tuyg'ularni aniqlash sohalarida vakili nutq
ma'lumotlari bo'lgan LibriSpeech va interaktiv diyadik harakatni ta'qib qilish (IEMOCAP) dan
foydalandik [5, 19, 24]. Birinchidan, biz LibriSpeech-da asosiy model sifatida o'qituvchi
modelini yaratdik. Keyin IEMOCAP ma'lumotlari moslashish jarayonida maqsadli ma'lumotlar
va talaba modeli uchun o'quv ma'lumotlari uchun ishlatilgan.
LibriSpeech - bu nutqni aniqlash tizimlarini o'rgatish va baholash uchun mos keladigan ingliz
nutqining korpusidir [24]. U LibriVox loyihasining bir qismi bo'lgan va 1000 soatlik nutqni o'z
ichiga olgan audiokitoblardan olingan. Korpus taxminan o'lchamlari 100, 360 va 500 soat
bo'lgan uchta kichik to'plamga bo'lingan. Korpusdagi ma'ruzachilar Wall Street jurnali (WSJ)
modeli transkriptlarining WER'lari bo'yicha tartiblangan va ikkita taxminan teng qismga
bo'lingan: pastki WER dinamiklari ("toza" guruh) va yuqori WER ma'ruzachilari ("boshqa".
”guruhi). "Toza" hovuzdan tasodifiy tarzda 20 erkak va 20 ayol ma'ruzachilar chizilgan va
2.4 Eksperimental muhitlar
2.4.1
Ma'lumotlar
to'plami
2276
8
Multimedia vositalari va ilovalari (2023) 82:22759–22776


rivojlanish to'plami. Test to'plamini shakllantirish uchun bu jarayon takrorlandi. Rivojlanish va
test to'plamlarida har bir ma'ruzachi uchun biz ~8 daqiqa nutqni ajratdik (har bir guruhda
taxminan umumiy vaqt = 5 soat va 20 min; 1-jadvalga qarang).
"Boshqa" hovuz ham xuddi shunday sinov va ishlab chiqish to'plamlariga va bitta o'quv
to'plamiga bo'lingan
~500 soat. Biroq, "boshqa" hovuz "toza" hovuzga qaraganda ancha qiyin ma'lumotlarga ega
bo'lgan kichik to'plamdan olingan. WSJ modellari tomonidan hisoblangan WER
ma'ruzachilarni tushunarlilik qiyinligini oshirish tartibida tartiblaydi va test va ishlab chiqish
to'plamlaridagi karnaylar ushbu tartiblangan ro'yxatning uchinchi choragidan tasodifiy
tanlangan. 1-jadvalda korpusdagi kichik to'plamlar jamlangan. Ushbu tadqiqotda barcha 1000
soatlik nutqning asosiy darajasi o'rganildi.
IEMOCAP korpusi ko'p modal hissiyotlarni aniqlash uchun mo'ljallangan [5]. U o'z ichiga oladi
diadik seanslarda qayd etilgan 10 ta katta yoshli aktyorlarning ma'lumotlari. Aktyorlardan aniq
hissiy tarkibga ega uchta tanlangan ssenariyni o'qishlari so'ralgan. Aktyorlardan, shuningdek,
o'ziga xos his-tuyg'ularni (quvonch, g'azab, qayg'u, umidsizlik va neytral holat) keltirib
chiqaradigan gipotetik stsenariylarda dialoglarni improvizatsiya qilish so'ralgan. Nutq
ma'lumotlari sub'ektlarning yuzlarini harakatga keltirish ma'lumotlari bilan to'ldiriladi (ushbu
tadqiqotda foydalanilmaydi). Ma'lumotlar bazasi jami ~12 soat ma'lumotlarni o'z ichiga oladi.
Moslashuv ma'lumotlari sifatida biz uchta his-tuyg'u (ya'ni, g'azab, baxt va qayg'u)
ma'lumotlarini vakillik hissiyot turlari sifatida ishlatdik. Nihoyat, moslashuv ma'lumotlari
sifatida jami 5 soat va nutq ma'lumotlarining uchta hissiyotlari ishlatilgan. 2-jadvalda har bir
hissiyot bilan bog'liq nutqlarning umumiy uzunligi va audio fayllarning umumiy soni
ko'rsatilgan.
Kirish xususiyati 128 o'lchovli Mel-Spektrogramma edi va CTC javob yorlig'i alifbo, bo'sh joy va
apostrofni o'z ichiga olgan 28 ta tegdan iborat edi. O'qituvchi va talaba modellari Deep
Speech2 ga asoslangan bo'lib, mashg'ulotlar PyTorch yordamida o'tkazildi. Bilimlarni distillash
Pythonda ham kodlangan.
O'qituvchi modeli (yuqorida aytib o'tilganidek, Deep Speech2 asosida) uchtadan iborat edi
2D konvolyutsion qatlamlar, beshta ikki tomonlama eshikli takrorlanuvchi birlik (Bi-GRU)
qatlamlari va bitta to'liq bog'langan qatlam. 6-rasmda Deep Speech2 tuzilishi ko'rsatilgan.
Oʻqituvchi modeli 10 partiya hajmiga ega 30 davr uchun Titan Xp GPU da oʻqitildi.
Optimallashtirish har 5 davrda asta-sekin kamayib boruvchi 5e-4 boshlangʻich oʻrganish
tezligiga ega Adam optimallashtiruvchisi yordamida amalga oshirildi. O'qituvchi modeli 3-
jadvalda ta'riflanganidek tuzilgan. Dastlabki o'rganish darajasi 0,01, og'irligi 0,03 bo'lgan.
Bilimlarni distillashda harorat 20 ga o'rnatildi. Trening 10 partiya hajmi bilan 20 davr uchun
amalga oshirildi.
2.4.2 Eksperimental
o'rnatish
1-
jadval
Kichik
toʻpla
m
Dev-clean Test-
clean Dev-
boshqa Test-
boshqa Poezd-
toza-100
Poezd-toza-
360 Poyezd-
boshqa-500
5.4
5.4
5.3
5,1
100,
6
363,
6
496,
7
LibriSpeech-dagi ma'lumotlar
to'plamlari [24] Soat
Har bir
spk
daqiqa
8
8
10
10
25
25
30
Ayol
Spkrs
20
20
16
17
125
439
564
Erkak
spkrs
20
20
17
16
126
482
602
Jami
spkr
s
40
40
33
33
251
921
116
6
Multimedia vositalari va ilovalari (2023) 82:22759–22776
2276
9


Bilimlarni distillash bilan modelga moslashish o'qituvchi va talaba modellarining bir xil
tuzilishini talab qiladi. Ikkala model ham uchta konvolyutsion qatlam va beshta Bi-GRU
qatlami bilan qurilgan. Talaba modelini qo'shimcha moslashuv ma'lumotlariga o'rgatish uchun
oldindan tayyorlangan o'qituvchi modeli (asosiy model bilan bir xil) ishlatilgan. Ushbu tajribada
biz asosiy va talaba modellarining WER va CER larini solishtirdik. Ushbu tajriba, shuningdek,
model yoki yo'qligini tasdiqlashga qaratilgan
bilimlarni distillash orqali moslashish hissiy nutqni aniqlash uchun to'g'ri ishlaydi.
Modelni moslashtirish va modelni siqish bir vaqtning o'zida amalga oshirilganda, biz hissiy
nutqni aniqlashning ishlashini qo'shimcha ravishda tekshirdik. Jarayon oldingi protsedura
bilan bir xil edi, lekin parametrlar sonini kamaytirish uchun talaba modelidagi qatlamlar soni
qisqartirildi. Qaysi qatlam siqilish bilan ko'proq bog'liqligini aniqlash uchun konvolyutsion va
takroriy qatlamlarning siqilish tezligini ham taqqosladik. Shu maqsadda talaba modelining har
bir qatlami 2 taga kamaytirildi. Umumiy soni
parametrlari uchdan biriga kamaydi.
2-jadval Moslashuv o'lchami
har bir tuyg'u
Chuqur nutq arxitekturasi2 [3]
G'azab
Baxt
G'amginli
k
Poyezd
(min)
73.103
102.104
80.117
Sinov
(min) 9.86
23.79
19.135
Jami
fayllar
1103
1636
1084
6-
rasm
2277
0
Multimedia vositalari va ilovalari (2023) 82:22759–22776


Biz IEMOCAP korpusining beshta sessiyasining har biri uchun tajribani takrorladik. Har bir
sessiya ikki ma'ruzachi (erkak va ayol) o'rtasidagi suhbatni yozib olishdan iborat. The
test ma'lumotlarining umumiy uzunligi 4-jadvalda ko'rsatilganidek, hissiyot turiga bog'liq.
5-jadvalda emotsional nutqni aniqlash bo'yicha eksperimentlarning bajarilishi ko'rsatilgan.
Chapdagi ikkita ustundagi natijalar shuni ko'rsatadiki, talaba modeli (1) o'qituvchi modelidan
(1) biroz pastroq ishlashni ta'minladi. Ammo bazaviy model hajmi kichraytirilganda, talaba
modeli (2) talaba modeliga (1) o'xshash ko'rsatkichlarni berdi, o'qituvchi modeli (2) esa
o'qituvchi modeli (1) bilan solishtirganda sezilarli darajada yomonlashdi.
Boshlang'ich bosqichdagi eng yaxshi CER ko'rsatkichi (o'qituvchi modeli (1)) g'azab nutqi
ma'lumotlari bo'yicha 24,6% ni tashkil etdi, ammo baxtiyorlik nutqi ma'lumotlari bo'yicha
asosiy ko'rsatkich 39,4% CERga erishdi. Shu bilan birga, WERning eng yaxshi va eng yomon
ko'rsatkichlari mos ravishda 27,8% (g'azab) va 42,7% (baxt) edi. Audio fayllarni
tinglayotganda, biz baxt ma'lumotlaridagi ko'plab kulgi tovushlari tufayli nutqni yaxshi tan
olmadik, bu qisman baxt toifasining tan olinishining past natijasini tushuntiradi.
Xafagarchilikda bir xil darajada yomon ishlash past ovoz amplitudasi bilan bog'liq
qayg'uni ifodalashda.
Shu bilan birga, talaba modeli g'azab bo'yicha eng yaxshi ko'rsatkichga erishdi (CER = 25,9%;
WER = 29,1%) va baxt bo'yicha eng yomon ko'rsatkichga (CER = 41,4%; WER = 44,3%)
erishdi. Biroq, talaba modelida sezilarli ishlash kuzatildi (2). Model hajmi taxminan 40% ga
qisqartirilganda, o'quvchilar modelining ishlashi saqlanib qoldi, o'qituvchi modelining ishlashi
sezilarli darajada yomonlashdi. Talaba modeli (2) o'qituvchi modeli (2) bilan solishtirganda
g'azab, baxt va qayg'uda mos ravishda 25%, 9% va 17% ishlash yaxshilanishiga erishdi.
Xususan, o'qituvchi modeli 24 soatlik mashg'ulot vaqtini talab qilgan bo'lsa, talaba modeli ~
30 daqiqada o'qitildi. Ushbu natijalar shuni ko'rsatadiki, talaba modeli o'qitish vaqti va
unumdorligi bo'yicha asosiy modelga nisbatan aniq afzalliklarga ega, shuningdek, bilimlarni
distillash orqali modelni siqish bilan modelga moslashish.
emotsional nutqni aniqlashda yaxshi ishlaydi.
Keyinchalik, bilimlarni distillash orqali modelni siqish bilan modelga moslashish
samaradorligini batafsilroq o'rganish uchun qo'shimcha tajribalar o'tkazdik. Ushbu ish uchun
biz har bir qatlamni birma-bir o'chirib tashladik, bu modelni siqish effektlarini keltirib
chiqaradigan parametrlarni kamaytirish uchun. 6-jadvalda natijalar ko'rsatilgan. Ushbu
jadvalda solidusdan oldingi va keyingi raqamlar mos ravishda konvolyutsion va Bi-GRU
qatlamlaridagi qatlamlar sonini bildiradi. 7-rasmda uchta his-tuyg'u turi va boshqalar uchun
hissiy nutqni aniqlash natijalarining o'rtacha ishlashi ko'rsatilgan
beshta model tuzilmalari bo'yicha parametrlar soni.
Bi-GRU qatlami modelning siqilishiga kam ta'sir ko'rsatdi. Raqamni kamaytirish
Bi-GRU qatlamlari fayl hajmini yoki modeldagi parametrlar sonini o'zgartirmadi. Aksincha,
konvolyutsion qatlam parametrlar soniga bevosita ta'sir ko'rsatdi. ni kamaytirish
3
Natijalar
3-jadval konfiguratsiyalari
o'qituvchi modeli
Qatlam
nomi Conv1
Bi-GRU FK
Yadro
(3,3)
Chiqish
kanallari 32
512
512
Tashlab
ketish
0,1
0.1
0
3 ni
takrorl
ang
5
1
Multimedia vositalari va ilovalari (2023) 82:22759–22776
2277
1


konvolyutsion qatlamlar soni model hajmini qisqartirdi. Parametrlar soni GRU qatlamlari
sonini kamaytirgandan so'ng kamaymadi, lekin konvolyutsion qatlamni o'chirishdan keyin
tezda kamaydi. Kichkina o'lchamlariga qaramay, bu modellar qisqartirilgan bazadan oshib
ketdi. Aslida, ko'rsatkichlar 5-jadvalda ko'rilgan moslashtirilgan modelga o'xshash edi. U
barcha modellarda 2% p dan kam farqni ko'rsatdi. Siqilgan talaba modeli minimal parametrlar
bilan asl talaba modelining ishlashini saqlab qoldi.
5-jadval - taklif qilingan yondashuvda model moslashuvining to'g'ri ishlashini baholash uchun
o'tkazilgan birinchi tajribaning ishlashi. Ushbu tajribada biz ikkita eksperimental muhitni
o'qituvchi modeli va talaba modelini bir xil o'lchamdagi qilib sozladik. Katta tarmoq hajmi
(taxminan 23,7 million parametr) bo'lgan birinchi muhitda talaba modelining ishlashi
o'qituvchi modelidan bir oz pastroq edi. Boshqa tomondan, kichik o'lchamli (taxminan 9,5
million parametr) bo'lgan ikkinchi muhitda o'qituvchi modelining ishlashi sezilarli darajada
kamaydi, talaba modelining ishlashi saqlanib qoldi, bu esa o'qituvchi modeliga qaraganda
ancha yaxshi ish faoliyatini ko'rsatmoqda.
Taklif etilgan yondashuvda talaba modelini qurishda nisbatan kichik miqdordagi hissiy nutq
ma'lumotlari qo'shildi. Shu sababli, ushbu tajriba natijalari shuni ko'rsatadiki, hissiy nutqning
xususiyatlari, garchi hissiy nutq ma'lumotlari miqdori katta bo'lmasa ham, talaba modelida
yaxshi aks etgan, shuning uchun talaba modeli sifatida to'g'ri ishlagan.
moslashuvchan model.
6-jadval - bilimlarni distillash orqali modelni siqish amalga oshirilganda, model moslashuvi
hali ham ishlaydimi yoki yo'qligini tekshirish uchun o'tkazilgan ikkinchi tajribaning ishlashi.
Ushbu tajribada biz katta tarmoq o'lchamiga ega (taxminan 23,7 million parametr) o'qituvchi
modelini o'rnatdik va talaba modelining tarmoq tuzilishini o'zgartirganda ishlashni tekshirdik.
Eksperimental natijalarda besh turdagi tarmoqlarga ega bo'lgan barcha talaba modellari CER
va WER uchun o'xshash ko'rsatkichlarni ko'rsatdi. Xususan, hatto eng oddiy tuzilishda ham
(ikki konvolyutsion qatlam va ikkita Bi-GRU qatlami) ishlashning pasayishi sezilarli emas edi.
4 Munozara
4-
jadval
Sinov ma'lumotlarining
umumiy uzunligi
Uzunlik (min)
Dinamiklar
5-jadval hissiy nutqni aniqlash modellarining ishlashi O'qituvchi
modeli(1)Talaba modeli(1)
91Mb 91Mb Fayl hajmi 23,705,373 23,705,373 parametrlar
soni CER WER CER WER Angerspeech 24,6 27,8 25,9 29,1
Happinessspeech39,4 42,7 41,1 44,43239. Saq.
G'aza
b
9.86
2
CER
34,6
44,6
50,2
JSST
40,5
49,8
51,8
O'qituvchi modeli
(2) 37Mb
9 506 269
Baxt
23.79
2
CER
26.0
41.4
42.4
JSST
29,9
44,1
41,4
Talaba modeli (2)
37Mb
9 506 269
Qayg'u
19.13
2
2277
2
Multimedia vositalari va ilovalari (2023) 82:22759–22776


Ushbu eksperimental natija shuni ko'rsatadiki, modelni siqish va modelga moslashish hissiy
nutqni aniqlash vazifasida bilimlarni distillash orqali bir vaqtning o'zida yaxshi ishlaydi. Agar
talaba modeli umumiy bilimlarni distillash tartibiga muvofiq modelni siqish maqsadida
qurilgan bo'lsa va talaba modelini qurishda hissiy nutq ma'lumotlari qo'llanilmagan bo'lsa,
talaba modelining ishlashi sezilarli darajada yomonlashgan bo'lishi mumkin. Biroq, tavsiya
etilgan usul bo'yicha qurilgan talaba modeli yaxshi samaradorlikni ko'rsatdi, bu esa talaba
modeli hissiy nutq uchun mos akustik model bo'lib xizmat qilishini ko'rsatadi.
ko'p hissiy nutq ma'lumotlarini talab qilmasa ham, tan olish.
Boshqa tadqiqot ishlari bilan qiyosiy tekshirishga kelsak, ko'p tadqiqotlar mavjud emas
standart nutq bo'yicha nutqni aniqlash bo'yicha tadqiqotlar bilan solishtirganda hissiy nutqni
aniqlash bo'yicha. 2010 yilgacha klassik usul bo'lgan HMM [35] ga asoslangan tadqiqotlar
mavjud edi va yaqinda DNNga asoslangan bir nechta tadqiqotlar nashr etildi [17, 34]. Buning
sabablaridan biri shundaki, standart nutqni aniqlash uchun juda ko'p nutq korpuslari mavjud,
ammo hissiy nutqni tanib olish uchun bir nechta korpus mavjud. [34] da eksperimentlar ushbu
tadqiqotda foydalanilgan IEMOCAP korpusidan foydalangan holda o'tkazildi, ammo unda
7-
rasm
6-jadval moslashuv va siqish modellari
natijalari 3/5
FileSize 91Mb Parametrlar 23,705,373 CER
WER G'azab 25,9 29,1 Baxt 41,1 44,3
G'amginlik 42,3 41,4 Modellar 2/3 FileSize
37Mb Parametrlar 9,525,021 CER WER942d.
Ha842d. 42,3 41,5
3/3
55Mb
14,251,80
5 CER
26.4
42.5
41.4
2/2
37Mb
9,506,269
CER
27.9
42.5
41.4
JSST
30,0
44,4
43,0
JSST
31.1
45.4
42.3
Har bir model tuzilishi uchun o'rtacha ishlash va parametrlar soni
3/2
55Mb
14,233,05
3 CER
26.1
41.2
41.7
JSST
30,3
44,2
41,2
Multimedia vositalari va ilovalari (2023) 82:22759–22776
2277
3


Nutqni hissiy jihatdan aniqlash, o'rganish va bir xil ma'lumotlar bilan baholash kabi g'ayritabiiy
nutqni aniqlash vazifalari aniqlik va ishonchlilik nuqtai nazaridan cheklovlarga ega.
Ushbu tadqiqotning asosiy hissasi katta hajmdagi murakkab tuzilish modelidan (o'qituvchi
modeli) kichik miqdordagi hissiy nutq ma'lumotlari (IEMOCAP) bilan hissiy nutqning
xususiyatlarini aks ettiruvchi oddiy struktura modelini (talaba modeli) qurishdir. standart nutq
ma'lumotlari (LibriSpeech) bilimlarni distillash asosida modelga moslashish texnikasi orqali.
DNN-ga asoslangan hissiy nutqni aniqlashda model moslashuvi bilan bog'liq bir nechta
tadqiqotlar mavjud. [17] da, ma'lum bir modelni moslashtirish texnikasidan foydalangan holda
model emas, balki hissiy nutq ma'lumotlarini kiritish orqali qurilgan akustik model
moslashtirilgan model sifatida tasvirlangan. Shuning uchun, bizning fikrimizcha, ushbu
tadqiqot natijalarini an'anaviy tadqiqot ishlari natijalari bilan intuitiv ravishda solishtirish
ma'nosizdir. Shu bilan birga, 5-jadvalda murakkab neyron tarmoq tuzilishiga ega o'qituvchi
modellari (1) va (2) mavjud DNN-ga asoslangan hissiy nutqni aniqlash yondashuvi bilan
qurilgan akustik modellarni ifodalaydi. Shu sababli, talaba modelining (2) o'qituvchi modeli (2)
bilan solishtirganda yuqori ishlashi uning samaradorligini ko'rsatadi.
taklif qilingan yondashuv.
Tajribalar asosida biz taklif etilayotgan usulning hissiy nutqni aniqlash vazifasida samarali
ishlashini tasdiqladik. Shunga qaramay, emotsional nutqni aniqlash samaradorligi Baidu [3]
tomonidan taklif qilingan Deep Speech2 da 5-8% WER bilan standart nutqni aniqlash
ko'rsatkichidan pastroq edi [3]. Bu odatiy nutq bilan solishtirganda hissiy nutq kabi g'ayritabiiy
nutqni tanib olish qiyinligini tushuntiradi. Ushbu tadqiqotda biz taklif etilayotgan usul to'plash
qiyin bo'lgan g'ayritabiiy ma'lumotlarning xususiyatlarini aks ettiruvchi chuqur o'rganish
modelini yaratishda rol o'ynashi mumkinligini tasdiqladik.
hissiy nutq sifatida.
Bilimlarni distillash uzatish o'rganishga o'xshaydi, chunki u bitta modeldan boshqa modelni
yaratadi, ammo bu ikki usul aniq farq qiladi [2]. So'nggi paytlarda salbiy uzatish transferni
o'rganishda muhim masala sifatida ko'rib chiqilmoqda [21], ammo bilimlarni distillashda
salbiy uzatish muammosi hali aniqlanmagan. Agar bilim distillashda o'qituvchi modelidan
talaba modeliga salbiy tarzda o'tkazilsa, noto'g'ri o'quvchi modelini yaratish imkoniyati mavjud
bo'lib, bu ishlashning pasayishiga olib kelishi mumkin. Shunday qilib, agar bu
yoritilgan bo'lsa, yanada mustahkam va to'g'ri o'quvchi modelini yaratish mumkin bo'ladi.
To'liq modelni yaratish uchun zarur bo'lgan katta hajmdagi ma'lumotlarni olish qiyin bo'lgan
hissiy nutqni aniqlash cheklovlarini bartaraf etish uchun ushbu tadqiqot bilimlarni distillash
asosida samarali hissiy nutqni aniqlash yondashuvini taklif qildi.
Bilimlarni distillash dastlab modelni siqish uchun taklif qilingan. Biz talaba modeli kichik
miqdordagi hissiy nutq ma'lumotlari bilan hissiy nutqqa moslashtirilgan akustik modelning
xususiyatlariga ega bo'lishini kutgan holda, biz ushbu texnikadan hissiy nutqni aniqlash uchun
mos akustik modelni yaratish uchun foydalandik. Ushbu vazifani bajarish uchun biz oddiy
ovozning nutq ma'lumotlari miqdori bilan bir qator model parametrlariga ega bo'lgan
o'qituvchi modelini yaratdik va keyin kamroq model parametrlariga ega bo'lgan tegishli his-
tuyg'ular uchun talaba modellarini qurdik.
oz miqdordagi hissiy nutq ma'lumotlariga ega eters.
Eksperimental natija shuni ko'rsatdiki, o'qituvchi modelining ishlashi siqilishga ko'ra sezilarli
darajada pasaygan, talaba modelining ishlashi esa saqlanib qolgan. Ushbu natija taklif qilingan
yondashuvni samarali qo'llash mumkinligini ko'rsatadi
5 Xulosa
2277
4
Multimedia vositalari va ilovalari (2023) 82:22759–22776


modelni siqish va modelga moslashish nuqtai nazaridan hissiy nutqni aniqlash. Bundan
tashqari, tavsiya etilgan yondashuvda tuzilgan talaba modeli to'plash qiyin bo'lgan g'ayritabiiy
ma'lumotlarning xususiyatlarini aks ettiruvchi chuqur o'rganish modeli sifatida ishlatilishi
mumkin.
Keyingi tadqiqotda biz moslashuv ma'lumotlari sonini ko'paytirib, modelni moslashtirish
samaradorligini o'rganamiz. Xususan, agar etarli miqdordagi hissiy nutq ma'lumotlari taqdim
etilsa, biz taklif qilingan yondashuvning imkoniyatlarini faqat maqsadli hissiy nutq
ma'lumotlari bilan tuzilgan standart modellar bilan taqqoslash orqali tekshirishimiz mumkin.
Bundan tashqari, biz boshqalar bilan gibrid yondashuv bilan ishlashning yaxshilanishini
tekshiramiz
DANN va transformator kabi turli sohalarda qo'llaniladigan moslashtirish usullari.
Minnatdorchilik
Manfaatlar to'qnashuvi / Raqobatdosh
manfaatlar
Mualliflar o'rtasida manfaatlar to'qnashuvi yo'q.
Ushbu tadqiqot Xankuk universitetining chet tillar tadqiqot fondi tomonidan qo'llab-quvvatlandi
Koreya hukumati (MSIT) tomonidan moliyalashtirilgan Koreya Milliy Tadqiqot Jamg'armasi (NRF) granti (NRF-
2020R1A2C1013162).
1. Aida-zadeK,XocayevA,RustamovS(2016)Speechrecognitionusingsupportvektormachines.In:2016 IEEE 10th
International Conference on Application of Axborot-kommunikatsiya texnologiyalari
(AICT), 1–4-betlar
2. Alkhulaifi A, Alsahli F, Ahmad I (2021) Chuqur o'rganishda bilimlarni distillash va uning ilovalari. PeerJ
Comput Sci 7: e474
3. AmodeiD,AnanthanarayananS,AnubhaiRetal(2016)Deepspeech2: Ingliz va Mandarin tillarida uchdan
oxirigacha nutqni aniqlash. In: Mashina o'rganish bo'yicha xalqaro konferentsiya, 173-182-betlar
4. Athanaselis T, Bakamidis S, Dologlou I, Cowie R, Duglas-Cowie E, Cox C (2005) hissiy nutq uchun ASR:
muammolarni aniqlashtirish va ishlashni oshirish. Neyron tarmog'i 18:437–444
5. BussoC,BulutM,LeeCC,KazemzadehA,MowerE,KimS,ChangJN,LeeS,NarayananSS(2008) IEMOCAP: interaktiv
emotsional ikki tomonlama harakatni yozib olish bazasi. Lang Resour Eval 42(4):335–359
6. ChanW,JaitlyN,LeQ,VinyalsO(2016)Tinglang, ishtirok eting va talaffuz qiling: katta soʻz boyligidagi suhbat
nutqini aniqlash uchun anevral tarmoq. In: 2016 IEEE xalqaro konferentsiyasi akustika, nutq va
Signalga ishlov berish, 4960–4964-betlar
7. Chebotar Y, Waters A (2016) Nutqni aniqlash uchun neyron tarmoqlar ansambllaridan bilimlarni distillash. In:
Interspeech, pp 3439–3443
8. DahlGE, YuD, DengL, AceroA(2011)Kontekstga bog'liq, oldindan o'qitilgan chuqur neyrotarmoqlar-
lug'at nutqini aniqlash. IEEE Trans Audio nutq tili jarayoni 20:30–42
9. GaninY,UstinovaE,AjakanHetal(2016)Neyron tarmoqlarning domen-raqobatli treningi.JMachLearn Res
17(1):2096–2030
10. GharavianD,SheyxanM,JanipourM(2010)Pitchinemotionalspeechandemotionalnutqni ohang chastotasi
yordamida aniqlash. Majlesi J Electr Eng 4(1):19
11. GoodfellowI,Pouget-AbadieJ,MirzaMetal(2014)Generative Adversarialnets.AdvNeuralInfProcess Syst
27:2672–2680
12. GravesA,FernándezS,GomezF,SchmidhuberJ(2006)Connectionist temporal klassifikatsiya:
Segmentlanmagan ketma-ketlik ma'lumotlarini takroriy neyron tarmoqlar bilan belgilash. In: Mashina bo'yicha
23-xalqaro konferentsiya
O‘rganish, 369–376-betlar
13. Graves A, Jaitly N, Mohamed A (2013) Chuqur ikki tomonlama LSTM bilan gibrid nutqni aniqlash. In: 2013
IEEE Nutqni avtomatik aniqlash va tushunish boʻyicha seminar, 273–278-betlar
14. HintonG,DengL,YuD,DahlG(2012)Akustikmodellash uchun nutqni aniqlash uchun chuqur neyrotarmoqlar:
To'rt tadqiqot guruhining umumiy fikrlari. IEEE Sig Proc Mag 29(6):82–97
15. HintonG,VinyalsO,DeanJ(2015) Distillingtheknowledgeinaneuralnetwork.ArXivpreprintarXiv;
1503.02531
Deklaratsiy
alar
Ma'lumotn
omalar
Multimedia vositalari va ilovalari (2023) 82:22759–22776
2277
5


16. KimJB,ParkJS(2016)Ko‘p bosqichli ma’lumotlarni tanlashga asoslangan nazoratsiz karnayning
shaxsiylashtirilgan nutq hissiyotlarini aniqlash uchun moslashuvi. Eng Appl Artif Intell 52:126–134
17. Kosaka T, Aizawa Y, Kato M va boshqalar (2018) Twitter-ga asoslangan hissiy nutq korpusi yordamida hissiy
nutqni aniqlash uchun akustik model moslashuvi. In: Osiyo-Tinch okeani signallari va axborotni qayta ishlash
assotsiatsiyasi
yillik sammit va konferentsiya (APSIPA ASC), 1747-1751-betlar
18. Kurata G, Audhkhasi K (2018) Nutqni oxirigacha aniqlash uchun ikki yo'nalishli LSTM CTC dan bir
yo'nalishligacha bilimlarni distillash yaxshilandi. In: SLT, 411–417-betlar
19. LiY, ZhaoT, KawaharaT(2019)Oʻz-oʻzini chayqatish mexanizmi va koʻp vazifali oʻrganish yordamida
nutqdan oxirigacha harakatni aniqlash yaxshilandi. In: Interspeech, 2803–2807-betlar
20. Liu J, Zheng TF, Wu W (2006) Pitch o'rtacha chastotali deformatsiyaga asoslangan. In: Xitoy so‘zlashuv tilini
qayta ishlash bo‘yicha xalqaro simpozium, 87–94-betlar
21. MinoofamSAH,BastanfardA,KeyvanpourMR(2021)TRCLA:atransferlearningappacherkuyuyali o'rganish
avtomatlari uchun salbiy uzatishni kamaytirish. IEEE Trans Neural Netw Learn System
22. NaHJ,ParkJS(2021) Neyron tarmoqlarning uchdan-oxiriga qarama-qarshi ta'limiga asoslangan urg'uli nutqni
aniqlash. Ilmiy Ilmiy 11: 1–13
23. NajkarN, RazzaziF, SametiH (2010) Zarrachalar to'dasini optimallashtirishdan foydalangan holda HMM
asosidagi nutqni aniqlash tizimiga Anovelapproach. Matematik hisoblash modeli 52(11–12):1910–1920
24. PanayotovV,ChenG,PoveyD,KhudanpurS(2015)Librispeech:anASRkorpus jamoat domenidagi audio
kitoblarga asoslangan. In: 2015 Akustika, nutq va signallarni qayta ishlash bo'yicha IEEE xalqaro
konferentsiyasi, pp.
5206–5210
25. Park JS, Na HJ (2020) Ovoz bilan boshqariladigan ko‘p uchuvchisiz uchuvchisiz havo vositalarini boshqarish
uchun avtomobilga o‘rnatilgan nutqni aniqlashning old tomoni. Appl Sci 10(19):6876
26. Sagi O, Rokach L (2018) Ansamblni o'rganish: so'rov. Wiley fanlararo sharhlar: Ma'lumotlarni qidirish va
bilimlarni kashf qilish 8(4):e1249
27. Katta A, Sak H, Quitry FC va boshqalar (2015) CD-CTC-SMBR LSTM RNNs bilan akustik modellashtirish. In:
ASRU, 604-609-betlar
28. Shayxon M, Gharavian D, Ashoftedel F (2012) Emotsional nutqni tanib olishni yaxshilash uchun DTW neyro-
asosidagi MFCC deformatsiyasidan foydalanish. Neyron hisoblash ilovasi 21:1765–1773
29. SinghYB,GoelS(2021) Chuqur o'rganish yordamida notiq va til mustaqil nutqidan his-tuyg'ularni tanib
olishning samarali algoritmi. Multimed Tools Appl 80(9):14001–14018
30. Siriwardhana S, Reis A, Weerasekera R, Nanayakkara S (2020) Multimodal nutq hissiyotlarini aniqlashni
yaxshilash uchun "BERTga o'xshash" o'zini o'zi boshqaradigan modellarni birgalikda nozik sozlash. ArXiv
oldindan chop etish arXiv: 2008.06682
31. TakashimaR,LiS,KawaiH(2018)CTCakustik modellar uchun ma'lum distillash usulini tekshirish. In: ICASSP,
5809–5813-betlar
32. Takashima R, Li S, Kawai H (2019) CTC akustik modellari uchun ketma-ketlik darajasidagi bilimlarni
distillash usullarini o'rganish. In: ICASSP, bet 6156–6160
33. ThiruvengatanadhanR(2018)SVM.IntResJEngTechnol5(9):918–921 yordamida nutqni aniqlash
34. TrinhL, DaoT, LeT, CastelliE(2022) Chuqur neyrotarmoqlar yordamida hissiy nutqni aniqlash. Sensorlar
22(4):1414
35. Ververidis D, Kotropoulos C (2006) Emotsional nutqni aniqlash: resurslar, xususiyatlar va usullar.
Nutq kommunasi 48(9):1162–1181
36. XihaoS,MiyanagaY(2013)Dinamik vaqtni o'zgartirish uchun nutqni tanib olish uchun trening qismi hisobni
qisqartiradi. In: Signallar, sxemalar va tizimlar bo'yicha xalqaro simpozium (ISSCS), 1-bet 4. https://doi.org/
10.1109/ISSCS.2013.6651195
37. YoonJW,LeeH,KimHY,ChoWI,KimNS(2021)TutorNet: nutqni oxirigacha aniqlash uchun moslashuvchan
bilimlarni qayta ishlash. IEEE/ACM Trans audio nutq tili jarayoni 29:1626 1638
-
-
Nashriyotning eslatmasi Springer Nature nashr etilgan xaritalar va institutsional bog'lanishlar bo'yicha
yurisdiksiyaviy da'volarga nisbatan neytral bo'lib qoladi.
Springer Nature yoki uning litsenziri (masalan, jamiyat yoki boshqa hamkor) muallif(lar) yoki boshqa
huquq egasi(lar) bilan tuzilgan nashriyot shartnomasi asosida ushbu maqolaga mutlaq huquqlarga ega;
muallifning ushbu maqolaning qabul qilingan qo'lyozma versiyasini o'z-o'zidan arxivlashi faqat ushbu
nashriyot shartnomasi shartlari va amaldagi qonunchilik bilan tartibga solinadi.
2277
6
Multimedia vositalari va ilovalari (2023) 82:22759–22776

Download 1,35 Mb.




Download 1,35 Mb.
Pdf ko'rish

Bosh sahifa
Aloqalar

    Bosh sahifa



Bilimlarni distillash asosida akustik model moslashuvi yordamida uchdan uchiga hissiy nutqni aniqlash

Download 1,35 Mb.
Pdf ko'rish