|
Ishlab chiqilgan algoritm tavsifi
|
bet | 3/10 | Sana | 13.02.2024 | Hajmi | 1,84 Mb. | | #155943 |
Bog'liq intellektualnyy-algoritm-identifikatsii-destruktivnoy-informatsii-v-tekste (1).ru.uz
Keling, blok diagrammasi shaklda ko'rsatilgan algoritmning ishlashini ko'rib chiqaylik. 1.
Hisoblangan nisbat so'zni belgilash chegarasidan oshib ketadi
yangi haqoratli so'zga
|
|
|
Lug'at yangilash
|
|
|
Guruch. 1. O'zgartirilgan lug'at qidirish uchun aqlli algoritm
Standart foydalanuvchi avtorizatsiyasi va autentifikatsiya qilish tartibi. Agar siz login va/yoki parolni noto'g'ri kiritgan bo'lsangiz, tizim sizga xato haqida xabar beradi.
O'rganilayotgan tarkibni yuklash - matn ma'lumotlarini kiritish (manbani kiritish).
Kirish ma'lumotlarini bosqichma-bosqich normallashtirish (algoritm natijasi uchun muhim bosqichlardan biri).
Tahlil bloki:
Tekshirilayotgan matndagi barcha so'zlar tahlil qilinmaguncha,Tahlil qilinayotgan so‘zning lug‘at so‘zi bilan mos keladigan belgilar yig‘indisining tekshirilayotgan so‘zdagi belgilar soniga nisbati hisoblanadi.
Barcha munosabatlar qiymatlari hisoblab chiqilgandan so'ng, so'zni uyat deb tasniflash ehtimoli hisoblab chiqiladi, agar chegara qiymati oshib ketgan bo'lsa, tizim so'zni uyatsiz deb tasniflaydi.
Bitta halokatli so'zning mavjudligi uni o'z ichiga olgan matnni halokatli deb tasniflash uchun etarli.
Tizimning o'zini o'zi o'rganish birligi: tizim uchun yangi haqoratli so'zlashuv elementi aniqlanganda, lug'at avtomatik ravishda yangilanadi.
Keling, asosiy bloklarni batafsil ko'rib chiqaylik.
O'rganilayotgan tarkibni yuklash bosqichidan so'ng, kirish ma'lumotlarini normallashtirish boshlanadi.
Har qanday tuzilmagan ma'lumotni mashinada tahlil qilish uni dastlabki qayta ishlashni talab qiladi. Matnni tahlil qilishning asosiy muammosi tekshirilayotgan matndagi so'zlarning ko'pligi hisoblanadi, ayniqsa hamma so'zlar kerakli semantikani o'z ichiga olmaydi. Agar kirish ma'lumotlar oqimi "birlashtirilmagan" bo'lsa, muammo sezilarli darajada yomonlashadi: algoritmning vaqtincha ortiqcha bo'lishi va noto'g'ri natijalar paydo bo'ladi [7, 10].
Turli maqsadlar uchun matnli ma'lumotlarni tahlil qilish uchun intellektual tizimlarda asl ketma-ketlikni normallashtirish ko'p hollarda stemming yordamida amalga oshiriladi -berilgan so‘zni o‘zagini topib tahlil qilish imkonini beruvchi protsedura. Matnni oldindan qayta ishlashda quyidagi algoritm turlari qo'llaniladi:
qidiruv algoritmlari (ro'yxat bo'yicha so'z ildizini to'liq qidirish);
tugatishlarni kesish (so'zning o'zagi topiladigan qoidalarning kichik ro'yxati mavjud);
lemmatizatsiya (so'zni kanonik yoki asl holga keltirish).lug'at shakli - lemma);
stokastik algoritmlar (so'zning ildiz shaklini ehtimollik bilan aniqlash);
statik algoritmlar (N-gramm tahlili, mos keladigan algoritmlar). Stemming algoritmlarini amaliy amalga oshirish - stemmer.
Muayyan holatda, kiritilgan matn ma'lumotlarini oldindan normallashtirish jarayonini rasmda ko'rsatilgan bosqichlar ketma-ketligi sifatida taqdim etish tavsiya etiladi. 2.
Guruch. 2. Stemming - buzg'unchi ma'lumotlarning mazmunini tahlil qilish uchun kirish ma'lumotlarini tayyorlash
Shunday qilib, hal qilinayotgan muammo doirasida stemmer topshirilgan vazifaga moslashtirilgan quyidagi asosiy algoritmni amalga oshiradi:
Matndagi barcha harfsiz belgilarni chiqarib tashlaydi. Bularga raqamlar, tinish belgilari va maxsus belgilar kiradi.
Case konvertatsiya. Ushbu uslub barcha belgilarni bitta katta harfga (yuqori yoki pastki) aylantirishga asoslangan. Masalan, har xil imlodagi turli xil so'zlar kabi
“Algoritm”, “ALGORITM”, “Algoritm” kichik harf “algoritm” ga qisqartiriladi.
To'xtash so'zlarini olib tashlash. To'xtash so'zlari - bu tahlil kontekstida semantik yukni ko'tarmaydigan yordamchi so'zlar, bularga nutqning yordamchi qismlari: zarrachalar, yuklamalar, bog'lanishlar, shaxs olmoshlari va kesimlar kiradi. Yordamchi so'zlarning qo'shimcha ro'yxati ularni keyinchalik matnlardan olib tashlash uchun tuziladi.
Belgilarni qidiring va almashtiring. Bu bosqichda so‘zlardagi “e” harfi, birinchidan, vaqtni qisqartirish maqsadida, ikkinchidan, “e” harfi bo‘lgan so‘zlarning lug‘atda uchramasligi uchun “e” harfiga almashtiriladi.
Matn ma'lumotlarini N-grammlarga bo'lish va N-grammlarni tahlil qilish. Muayyan stemmerda unigramlarni tanlash amalga oshiriladi. Ushbu qadam odobsiz tilni aniqlash va qidirish uchun zarurdir, chunki unigramlar yordamida o'zgartirilgan lug'at qidiruvi amalga oshiriladi.
So'zlarning bir qismini kesish - bu mavjud prefikslar ro'yxati bilan so'zlarni har bir belgi bilan taqqoslash orqali matn so'zlaridagi prefikslarni olib tashlash.
Natijalarni talqin qilish. Oxirgi bosqich - natijalarni tabiiy tilda taqdim etish yoki ularni grafik tarzda tasvirlash [10, 11].
Normalizatsiya bosqichidan o'tgandan so'ng, matn to'g'ridan-to'g'ri uyatsiz elementlarning mazmuni uchun tahlil qilishga tayyor.
Tahlil bloki uchun ma'lumotlarni kiritish:
lug'at, uning elementlari nostandart so'zlar;
tahlil qilinadigan normallashtirilgan matn.
Keling, "matn sinfi" tushunchasini kiritaylik. Sinf deganda biz matnni toifaga belgilashni tushunamiz,o'z ichiga olgan (muayyan holatda) yoki haqoratli so'zlarni o'z ichiga olmaydi. Kategoriyalar soni va mazmuni topshirilgan vazifaga qarab farq qilishi mumkin.
Shunday qilib, agar tahlil bo'limining ishi natijasida so'kinish elementlari aniqlansa, matn halokatli sinfga kiradi. Agar aniqlangan so'zlar "yangi" bo'lsa, lug'at avtomatik ravishda yangilanadi. Ikkinchi variant - g'ayritabiiy so'zlarning yo'qligi, matnni buzilmaydigan deb tan olish.
Shunday qilib, tahlil bo'limining yakuniy chiqish ma'lumotlari tizimning kiruvchi matn tarkibini undagi haqoratli so'zlar elementlarini oraliq identifikatsiyalash asosida buzg'unchi (D) yoki buzilmaydigan (nD) deb tasniflash to'g'risidagi qaroridir.
Biz identifikatsiya jarayonini so'zning me'yoriy bo'lmagan so'zlar sinfiga tegishli bo'lish ehtimolini aniqlashga qisqartiramiz.
|
| |