|
Image Recognition
|
bet | 47/182 | Sana | 19.05.2024 | Hajmi | 5,69 Mb. | | #244351 |
Bog'liq Python sun\'iy intellekt texnologiyasi Dasrlik 2024Tokenizatsiya: NLP tokenlar koʻrinishidagi soʻzlar toʻplamini filtrlaydi.
Sentiment tahlili: Bot foydalanuvchi javoblarini ularning his-tuyg’ulariga moslashtirish uchun izohlaydi.
Normallashtirish: U foydalanuvchi so‘rovining konnotatsiyasini o‘zgartirishi mumkin bo‘lgan matn terish xatolarini tekshiradi.
Entity Recognition: Bot turli toifadagi ma’lumotlarni qidiradi.
Tobelikni tahlil qilish: Chatbot foydalanuvchilar etkazmoqchi bo‘lgan umumiy iboralarni qidiradi.
NLTK bilan chatbotlar bo‘yicha bosqichma-bosqich qo‘llanma
Birinchidan, men NLTK orqali chatbotni yaratishga olib keladigan umumiy asos haqida gapiraman. Keyinchalik ushbu maqolada men Matni ishlab chiqishda foydalangan yondashuvimni alohida aytib o‘taman.
NLTK yuklab olinmoqda: Buyruqni ishga tushirish
pip install nltk
2. Matnga oldindan ishlov berish: Matn ma’lumotlarining asosiy muammosi uning string formatida bo‘lishidir. Mashinali o‘qitish algoritmlari vazifani bajarish uchun raqamli vektorni talab qiladi. Shuning uchun matnni oldindan qayta ishlash kerak. U barcha matnni katta yoki kichik harflarga aylantirishni o‘z ichiga oladi. Bu algoritm g’ayrioddiy xatti-harakatlarni aniqlamasligi va keyin bir xil so‘zlarni turli bosh harflar bilan qarama-qarshi ko‘rsatishi uchun amalga oshiriladi.
3.Tokenizatsiya: Bu haqda yuqorida qisqacha muhokama qilindi, lekin keling, chuqurroq sho‘ng’ib olaylik. Tokenizatsiya chiroyli so‘z kabi ko‘rinishi mumkin, ammo bu oddiy matn satrlarini tokenlar ro‘yxatiga aylantirishdir. Jumla tokenizer va so‘z tokenizer mos ravishda jumlalar va so‘zlar ro‘yxatini aniqlash uchun ishlatilishi mumkin.
4.Shovqinni yo‘q qiling ya’ni, standart raqam yoki harf bo‘lmagan har qanday narsa.
5.Stemming: Bu hosil boʻlgan soʻzlarni asosiy yoki ildiz shakliga keltirish jarayonidir. Masalan, “Kamaytirish”, “Kamaytirish”, “Kamaytirish” so‘zlari faqat “Kamaytirish” ga bo‘linishi mumkin.
6.Lemmatizatsiya: Stemping va lemmatizatsiya o‘rtasida arzimas farq bor. Stemming Reductionary kabi xayoliy so‘zlarni yaratishi mumkin. Boshqa tomondan, lemmalar haqiqiy so‘zlardir. Ba’zi so‘zlar yozilishida o‘xshash emas, lekin bir-biri bilan bog’liq. “Yaxshi”, “yaxshiroq” va “eng yaxshi” deb hisoblang; ularning barchasi bir xil turkumga yoki bir xil lemmaga tegishli. Biroq, ularning oʻxshash imlolari yoʻq.
7.So‘zlar sumkasi: Yuqorida aytib o‘tilgan jarayonlar muvaffaqiyatli yakunlangandan so‘ng, biz matnni vektorga aylantirishimiz kerak. So‘zlar sumkasi - bu hujjatdagi so‘zlarning paydo bo‘lishini tavsiflovchi matnning ko‘rinishi.
5.1.1-rasm.Dastur sxemasi
So‘zlar sumkasi ma’lum so‘zlarning lug’ati va ma’lum so‘zlarning mavjudligi o‘lchovidan iborat. U so‘zlar to‘plami deb ataladi, chunki hujjatda ma’lum so‘zlar mavjud bo‘lgandagina model shifrlashi mumkin. Bu so‘zlarning joylashuvi, tartibi va tuzilishi haqidagi ma’lumotlar rad etiladi. Hujjatning mazmuni haqida uning mazmunidan bilib olishimiz mumkin. Masalan, lug’atimizda {Mathematics, is, an, ajoyib, mavzu} so‘zlari bo‘lsin. Biz “Matematika ajoyib mavzu” deb vektorizatsiya qilmoqchimiz.
|
| |