Statistik usullar
DLP tizimlarida statistik, ehtimollik usullaridan foydalanish ba'zi holatlarda qiziqish uyg'otadi. Misol uchun, katta hajmdagi tuzilmagan ma'lumotlarni tahlil qilishda yoki yashirin o'xshashlikni tahlil qilishda. Taxmin qilish mumkinki, bu usullar amalda tobora ko'proq qo'llaniladi, ammo qo'shimcha usullar sifatida.
pros
Ba'zi hollarda, masalan, ibtidoiy qaytariladigan belgilarni almashtirishga qarshi turish uchun noyob samarali.
Minuslar
Faqat kichik stsenariylar sinfiga tegishli.
Ishning noaniq algoritmi.
Potentsial yuqori noto'g'ri ijobiy ko'rsatkich.
"Raqamli barmoq izlari" ni olib tashlash
Bu usul ba'zi manba matn identifikatorini yaratishga asoslangan. Qoida tariqasida, quyidagi avtomatik algoritm amalga oshiriladi:
Tarkibi maxfiy deb hisoblangan hujjatdan matn mazmuni olinadi.
Matn qaysidir ma'noda bo'laklarga bo'lingan.
Har bir bunday fragment uchun tizim ma'lum bir identifikatorni yaratadi, bu "xesh", "barmoq izi" kabi - ko'plab ishlab chiqaruvchilarning hujjatlarida deyilganidek.
Maxfiy hujjat tizimda shunday "barmoq izlari" to'plami bilan ifodalanadi.
Tekshirilayotgan matnni maxfiy hujjatlar to'plami bilan solishtirish uchun unga o'xshash algoritmdan foydalangan holda "barmoq izlari" ning shunga o'xshash to'plami quriladi. Agar barmoq izlarining ikkala to‘plami ham o‘xshashlikni ko‘rsatsa, tizim sizib chiqishga urinish tashxisini qo‘yadi. Qoidaga ko'ra, "raqamlashtirish" algoritmi tizim tomonidan yaratilgan "bosmalardan" asl hujjatni tiklash mumkin bo'lmagan tarzda amalga oshiriladi.
pros
Maxfiy hujjatni aniqlash jarayoni to'liq avtomatlashtirilgan, matnni belgilash uchun maslahatchi talab qilinmaydi.
Yangi hujjatlar uchun tezkor tizimni sozlash.
Hujjatning qoralama va parchalarini kuzatish.
Ma'lumotlar bazalaridan yozuvlarning sizib chiqishini kuzatish.
Chiquvchi hujjatlarni tahlil qilishda minimal kechikish vaqti.
Kam noto'g'ri ijobiy ko'rsatkich.
Minuslar
Raqamli barmoq izlarini saqlash qo'shimcha resurslarni talab qiladi.
Ishonchli ravishda tanib olinadigan fragmentning o'lchami odatda matnning yarim sahifasidan iborat.
|