Modellar dan ball distillash asoslangan usullarini beqarorlashtiradi




Download 369,66 Kb.
Sana16.11.2023
Hajmi369,66 Kb.
#99810
Bog'liq
Abstrakt


Abstrakt
Matnni 3Dga yaratish so'nggi kunlarda neyron nurlanish maydonini (NeRF) nol tortishish sharoitida optimallashtirish uchun oldindan tayyorlangan matndan 2Dga diffuziya modellaridan foydalanish metodologiyasi paydo bo'lishi bilan tez sur'atlarda o'sishni ko'rsatdi. Biroq, 2D diffuziyasida 3D tushunchasining etishmasligi
modellar dan ball distillash asoslangan usullarini beqarorlashtiradi
ishonchli 3D sahnani qayta qurish. Ushbu muammoni hal qilish uchun biz 3D dan xabardorlikni oldindan tayyorlangan 2D diffuziya modellariga o'z ichiga olgan, ballning mustahkamligi va 3D izchilligini oshiradigan yangi asos bo'lgan 3DFuseni taklif qilamiz.
distillashga asoslangan usullar. Biz buni birinchi navbatda berilgan matn taklifining qo'pol 3D strukturasini qurish orqali tushunamiz
keyin diffuziya modeli uchun shart sifatida prognozlangan, ko'rinishga xos chuqurlik xaritasidan foydalaning. Bundan tashqari, biz a
2D diffuziya modelini o'rganishga imkon beruvchi o'quv strategiyasi
mustahkam yaratish uchun qo'pol 3D tuzilmasidagi xatolar va siyraklikni bartaraf etish, shuningdek, barcha nuqtai nazarlarda semantik izchillikni ta'minlash usuli.
sahna. Bizning ramkamiz oldingi cheklovlardan oshib ketadi
san'at va 2D diffuziya modellarining 3D izchil avlodi uchun muhim ahamiyatga ega. Loyiha sahifasida mavjud
https://ku-cvlab.github.io/3DFuse/.
1.Kirish
Matnni 3Dga aylantirish, realistik yaratish vazifasi
Matnlardan 3D modellar [49, 26, 15] tez sur'atlar bilan o'sdi
so'nggi yillarda kompyuterda muhim muammoga aylandi
ko'rish va grafika. Oxirgi yondashuvlar [38, 59, 25, 36]
neyron nurlanish maydoniga ega generativ modellarni o'z ichiga oladi
(NeRF) [32] yanada ishonchli 3D-sahnalarni tiklash uchun. Ushbu yo'nalish bo'yicha so'nggi ishlar, DreamFusion [38] va
Yakob zanjirini (SJC) baholang [59], NeRFni optimallashtirish uchun avvalo keng miqyosli diffuziya modellaridan [45, 48] foydalaning. Bu
ball distillash deb nomlangan metodologiya [38], 2D ma'lumotlarini birlashtirish imkonini beradi [51]. Bundan tashqari, bu yondashuv foyda keltira olmaydi
diffuziyaning kuchli umumlashtirish imkoniyatlaridan
katta 2D ma'lumotlarga o'rgatilgan modellar. Shu nuqtai nazardan, amaliy
yechim birlashtiradigan o'rta darajadagi yondashuv bo'ladi
har ikki dunyoning eng yaxshisi - oldindan tayyorlangan 2D diffuziya modeli
3D-bardoshli NeRF uchun mos 3D xabardorligi bilan to'ldirilgan
optimallashtirish.
Ushbu maqolada biz nomli yangi asosni taklif qilamiz
Oldindan tayyorlangan 2D diffuziya modellariga 3D xabardorligini samarali kiritadigan 3DFuse. Matn so'rovi berilgan, biz birinchi
ning semantik identifikatorini mustahkamlash uchun semantik kod namunasi
yaratilgan sahna. Semantik kod yaratilgan 2D tasvir va optimallashtirilgan tezkor joylashtirishdan iborat
oldindan tayyorlangan diffuziya modeli. Bizning mustahkamlik in'ektsiyamiz
modul ushbu semantik kodni oladi va ko'rish nuqtasiga xos chuqurlik xaritasini oladi: tomonidan tuzilgan qo'pol 3D geometriya
Chuqurlik xaritasini yaratish uchun yaratilgan tasvirdan tayyor model [35, 41, 61] berilgan nuqtai nazarga proyeksiya qilinadi.
Keyin modul qo'pol chuqurlik xaritasidan va
diffuziyaga 3D ma'lumotni kiritish uchun semantik kod
model. Bashorat qilingan 3D geometriyada xatolar bo'lishi mumkinligi sababli, bizning modulimiz xatolar va qo'pollikni boshqarishga qodir.
chuqurlikdagi xaritalar ichida. Shu maqsadda, biz siyrak joriy
noto'g'ri chuqurlik ma'lumotlarini bilvosita tuzatish uchun chuqurlik injektori va semantikani saqlab qolish uchun LoRA [14] moslashuvi
izchil. Bizning ramkamiz avlod sifati va geometrik mustahkamlik bo'yicha oldingi ishlarga nisbatan sezilarli yaxshilanishga erishadi.
Biz o'z hissalarimizni quyidagicha umumlashtiramiz:
• Biz 3DFuse deb nomlangan yangi tizimni taklif qilamiz
3D xabardorligini oldindan tayyorlangan 2D diffuziyaga kiritadi
asl umumlashtirish qobiliyatini saqlab qolgan model.
• 3D-mos keluvchi tasvirni yaratuvchi diffuziya modeli ballini distillash orqali 3DFuse barqaror optimallashtiradi
Ko'rishga mos keladigan matnni 3Dga yaratish uchun NeRF.
• Biz o'z tuzilmamiz samaradorligini ko'rsatamiz
sifat jihatidan va 3D muvofiqligini miqdoriy baholash uchun yangi ko'rsatkichni joriy qiling.
2. Tegishli ishlar
Diffuziya modellari. Diffuziya modellari [11, 54, 55] mavjud
tufayli generativ modellar sifatida katta e'tibor qozondi
barqarorlik, xilma-xillik va kengayish qobiliyati. Ushbu afzalliklarni hisobga olgan holda,
diffuziya modellari turli sohalarda qo'llanilgan, masalan
tasvir tarjimasi sifatida [45, 56, 53], tasvirni tahrirlash [29, 19],
va shartli avlod [18, 45, 67]. Ayniqsa, matn-tasvir yaratish kirish bilan ta'kidlangan
turli yo'l-yo'riq texnikasi [12, 2, 13]. GLIDE [34]
CLIP [39] ko'rsatmalaridan foydalanib, matndan tasvirga, keyin esa Imagen [48], DALL-E2 [40] va Stable Dif kabi keng ko'lamli matndan tasvirga diffuziya modellari qo'llaniladi.
3. Dastlabki bosqichlar
Diffuziya modellari. Diffuziya modellari - bu Gauss taqsimotidan ma'lumotlarni taqsimlashni o'rganadigan generativ modellar
asta-sekin denozizatsiya jarayoni bilan [11]. Diffuziya modellari shovqinni qo'shadigan deterministik oldinga q(·) jarayonini belgilaydi
shunday qilib, q(xt|x0) := N (xt; atx0, s2
t
I), bu erda xt - a
shovqin darajasi t va x0 bo'lgan shovqinli namuna toza namunadir, masalan, asl tasvir va at va st oldindan belgilangan.
shovqin jadvalini boshqaradigan o'zgaruvchilar. Teskari jarayon asta-sekin olib tashlanuvchi denoising bosqichlaridan iborat
Berilgan x0 ni bashorat qiluvchi th parametrlari bilan µth(xt, t) neyron tarmog‘ini modellashtirish va oldingi jarayondan olingan orqa funktsiyadan namuna olish orqali shovqin.
pth(xt−1|xt) := q(xt−1|xt, x0 = µth(xt, t)). Ko'rsatilgandek
DDPMs [11], shovqinning taxminiy modeli th(xt, t) bo'lishi mumkin
µth(xt, t) oʻrniga quyidagi tarzda ishlatiladi:
th(xt, t) = xt − atµth(xt, t)
st
.
Shartli avlod uchun, masalan, matndan tasvirga
Stabil diffuziya [45] kabi diffuziya modellari matn oladi
qo'shimcha shart sifatida so'rash. Xususan, matn qachon
so'rov c berilgan, xaritalash modeli T(·) taklifni xaritalaydi
c o'rnatishga e = T (c). Keyin, o'rnatish e
diffuziya modeliga kiritiladi. Rasmiy ravishda biz belgilaymiz
th(xt, t, T(c)) sifatida matndan tasvirga diffuziya modeli. Uchun
Qisqalik uchun biz t o'zgaruvchisini qoldirib, unga murojaat qilamiz
th(xt, T(c)) funksiyasi. Bu holda, uchun yo'qotish funktsiyasi
diffuziya modelini o'rgatish quyidagicha aniqlanadi:
Ldiff(th, x) = Et, h
w(t)k th

xt, T(c)



− k
2
2
i
, (2)
Bu erda Gauss shovqini va w(t) - tortish funktsiyasi. Intuitiv ravishda, bu yo'qotish modelni bashorat qilishga o'rgatadi
ma'lumotlarga qo'shilgan Gauss shovqini.
NeRF uchun ball distillash. NeRF ball bilan optimallashtirish
distillash birinchi marta DreamFusion da taklif qilingan [38], qaysi
Download 369,66 Kb.




Download 369,66 Kb.

Bosh sahifa
Aloqalar

    Bosh sahifa



Modellar dan ball distillash asoslangan usullarini beqarorlashtiradi

Download 369,66 Kb.