O'zbekiston respublikasi raqamli texnologiyalar vazirligi muhammad al-xorazmiy nomidagi toshkent axborot texnologiyalari universiteti

Download 1,32 Mb.
bet	1/15
Sana	20.05.2024
Hajmi	1,32 Mb.
	#246844

1 2 3 4 5 6 7 8 9 ... 15

Bog'liq
SHAXZOD (induvidual loyiha 2)

Toshkent 2024 Mundarija

O'ZBEKISTON RESPUBLIKASI RAQAMLI TEXNOLOGIYALAR VAZIRLIGI

MUHAMMAD AL-XORAZMIY NOMIDAGI TOSHKENT AXBOROT TEXNOLOGIYALARI UNIVERSITETI

«Kompyuter injiniring» fakulteti «Sun’iy intelekt» kafedrasi
Individual Loyiha 2
Mavzu: Sun'iy intellekt yordamida tasvirlarni ajratib
olish(klassifikatsiya) dasturiy algoritmini ishlab
chiqish.

Topshirdi:Hamroyev Shaxzod Baxtiyor o’g’li
Guruh: 223-21 (CSP017)
Individual loyiha bali: __________________
Qabul qildi:Qo‘chqarov Muslimjon Adxamjon o‘g‘li
Komissiya a’zolari:
_______________________________________
_______________________________________

Toshkent 2024
Mundarija:
Kirish ………………………………………………………………………………… 2
1. NAZARIY QISM …………………………………………………………………. 4
1.1 Optik belgilarni aniqlash (OCR) haqida tushuncha ...…………………….. 4
1.2 Mavjud kutubxonalar ………………………………..……………………. 7
1.3 Tasvirga oldindan ishlov berish texnikasi …..…………………………… 10
1.4 Tesseract OCR bilan matnni aniqlashni amalga oshirish ………………... 14
1.5 Bir nechta tillar va shriftlar bilan ishlash ………………………………... 16
1.6 OCRda ommabop yo’nalishlar ...………………………………………... 18
2. AMALIY QISM ………………………………………………………………... 23
2.1 Loyihani amalga oshirish uchun dasturlash tillari va muhitini tahlil qilish va tanlash ………………………………………………………………………. 23
2.2 Kerakli modular va kutubxonalarni tahlil qilish va o’rnatish …………... 30
2.3 Asosiy kod qismi ……………………………………………………….. 33
Xulosa ……………………………………………………………………...……… 42
Foydalanilgan adabiyotlar ro'yxati ………………………………………………… 43
Foydalanilgan internet saytlar ……………………………………………………... 44
Ilova ……………………………………………………………………………….. 45

Kirish
Tasvirlardagi matnni aniqlash faol tadqiqot yo'nalishi bo'lib, u rasmlardan matnni avtomatik o'qish qobiliyatiga ega kompyuter dasturini ishlab chiqishga harakat qiladi. Hozirgi vaqtda qog'oz hujjatlarda mavjud bo'lgan ma'lumotlarni keyinchalik foydalanish uchun kompyuterda o'qiladigan shaklda saqlashga talab katta. Ushbu qog'oz hujjatlardagi ma'lumotlarni kompyuter tizimiga saqlashning oddiy usullaridan biri avval hujjatlarni skanerlash va keyin ularni tasvir sifatida saqlashdir. Biroq, bu ma'lumotni qayta ishlatish uchun alohida tarkibni o'qish va ushbu hujjatlarni qatorma-qator va so'zma-so'z mazmunini izlash juda qiyin. Muammolar quyidagilardan iborat: qog'oz hujjatlaridagi belgilarning shrift xususiyatlari va tasvirlarning sifati. Ushbu qiyinchiliklar tufayli kompyuter belgilarni o'qish paytida ularni taniy olmaydi. Shunday qilib, qog'oz formatdagi hujjatlarni elektron formatga o'zgartiradigan hujjat tasvirini tahlil qilish uchun belgilarni aniqlash mexanizmlariga ehtiyoj bor. Ushbu maqolada biz tasvirlardan matnni aniqlashning turli usullarini ko'rib chiqdik va tahlil qildik. Ushbu sharhning maqsadi o'quvchini yaxshiroq tushunish uchun taniqli usullarni umumlashtirishdir.
Hozirgi kunda ma'lumotlar qog'oz hujjatlar orqali skanerlanganda kompyuterdagi belgilarni tanib olish uchun dasturiy ta'minot tizimlariga talab ortib bormoqda, chunki biz bilamizki, bosma formatda bir qancha tarixiy, mifologik kitoblar va gazetalar mavjud. Atmosfera o'zgarishi yoki noto'g'ri ishlash tufayli kundan-kunga ular shikastlanadi. Shu sababli, hozirgi kunda "ushbu qog'oz hujjatlarda mavjud bo'lgan ma'lumotlarni kompyuter xotirasi diskida saqlash va keyinchalik qidiruv jarayoni orqali bu ma'lumotlarni qayta ishlatish" talabi katta. Ushbu qog'oz hujjatlardagi ma'lumotlarni kompyuter tizimiga saqlashning oddiy usullaridan biri avval hujjatlarni skanerlashdir. Hujjatlarni skaner orqali skanerlaganimizda, hujjatlar kompyuter tizimida tasvir sifatida saqlanadi. Ushbu rasmlarda foydalanuvchi tomonidan tahrirlana olmaydigan matn mavjud. Ammo bu ma'lumotni qayta ishlatish kompyuter tizimi uchun alohida tarkibni o'qish va ushbu hujjatlarning mazmunini satr va so'zma-so'z qidirish juda qiyin. Ushbu qiyinchilikning sababi qog'oz hujjatlardagi belgilarning shrift xususiyatlarining kompyuter tizimidagi belgilarning shriftlaridan farq qilishidir. Natijada, kompyuter belgilarni o'qish paytida ularni taniy olmaydi. Qog'oz hujjatlar tarkibini kompyuter saqlash joyida saqlash, so'ngra tarkibni o'qish va qidirish tushunchasi hujjatga ishlov berish deb ataladi. Ba'zan ushbu hujjatni qayta ishlashda biz dunyodagi ingliz tilidan boshqa tillarga tegishli ma'lumotlarni qayta ishlashimiz kerak. Ushbu jarayon Hujjat Tasvirini Tahlil qilish (DIA) deb ham ataladi. So'nggi yillarda DIA bilan shug'ullanish uchun tadqiqotchilar tomonidan ko'plab yondashuvlar taklif qilingan, har bir yondashuvning o'ziga xos afzalliklari va cheklovlari mavjud.

Download 1,32 Mb.

1 2 3 4 5 6 7 8 9 ... 15

Download 1,32 Mb.