Matn tahlil qilishning to‘rtta asosiy usuli mavjud

Download 160,21 Kb.
bet	2/2
Sana	15.02.2024
Hajmi	160,21 Kb.
	#157151

1 2

Bog'liq
Matnlarni chuqur tahlil qilish

Bashoratli tahlil (predictive analytics)
Retseptiv tahlil (prescriptive analytics)
Tashxisli tahlil (diagnostic analytics)

Matn tahlil qilishning to‘rtta asosiy usuli mavjud:

Tavsiflovchi tahlil (descriptive analytics) – eng keng tarqalgan usul bo‘lib, u «nima bo‘ldi?» degan savolga javob beradi hamda real vaqtda kelayotgan va tarixiy ma’lumotlarni tahlil qiladi. Asosiy maqsad ma’lum bir sohadagi muvaffaqiyat yoki muvaffaqiyatsizlik sabablari va uning muntazamligini aniqlash hamda ushbu ma’lumotlardan samarali foydalanish.
Bashoratli tahlil (predictive analytics) – mavjud ma’lumotlarga asoslanib, voqealarning eng ehtimoliy rivojlanishini bashorat qilishga yordam beradi. Buning uchun shunga o‘xshash xususiyatlar to‘plamiga ega bo‘lgan har qanday ob’yekt yoki hodisalarga asoslangan tayyor shablonlardan foydalanadi.
Retseptiv tahlil (prescriptive analytics) – bashoratli tahlil bilan solishtirganda undan keyingi daraja. Big Data va zamonaviy texnologiyalar yordamida biznesdagi yoki boshqa faoliyatdagi muammoli nuqtalarni aniqlash va kelajakda qaysi yo‘l bilan ulardan qochish mumkinligini hisoblash mumkin.
Tashxisli tahlil (diagnostic analytics) – sodir bo‘lgan voqea sabablarini tahlil qilish uchun ma’lumotlardan foydalanadi. Bu hodisalar va harakatlar o‘rtasidagi anomaliyalar va tasodifiy aloqalarni aniqlashga yordam beradi.

Ma’lumotlar yangi boylik manbasiga aylangani sayin, katta ma’lumotlar yechimlari kompaniyalarning o‘sishida tobora muhim rol o‘ynashi kutilmoqda. Kompaniyalar har doim ma’lumotlarga kirish huquqiga ega bo‘lgan, ammo mazmunli ma’lumotlarni olish uchun ma’lumotlarga kirish va qayta ishlash imkoniyati cheklangan. «Katta ma’lumotlar» yechimlari kompaniyalarga ushbu qiyinchiliklarni yengish imkonini beradi.«Katta ma’lumotlar» tahlili kompaniyalarning asosini tashkil qilib, real vaqtda katta ma’lumotlar to‘plamini boshqarish, qayta ishlash, optimallashtirishga yordam beradi va qaror qabul qilish qobiliyatini yaxshilaydi. Bundan tashqari, katta ma’lumotlar va biznes-tahlilning asosiy maqsadi kompaniyalarga o‘z mijozlarini yaxshiroq tushunishga yordam berish va marketing kampaniyalarini yaxshilashdir.

Ba’zi tarmoqlar katta ma’lumotlardan foydalanishda katta yutuqlarga erishgan bo‘lsa-da, boshqalari hali ham katta ma’lumotlarga yetarli e’tibor qaratishgani yo‘q. 2025 yilga kelib bank sohasidagi katta ma’lumotlar tahlil bozori 62,10 mlrd dollargacha o‘sishi mumkin. Bank sohasidagi katta ma’lumotlarning statistikasiga ko‘ra, jahon bank sektori infratuzilmasi allaqachon katta ma’lumotlarni tahlil qilishni o‘z ichiga oladi. Masalan, 2013-yil holatiga ko‘ra, jahon moliyaviy sektorning 64 foizi allaqachon katta ma’lumotlarni o‘z infratuzilmasiga kiritgan bo‘lib, 2015-yilda bozor hajmi 12 mlrd dollarga yetgan. 2019-yilga kelib katta ma’lumotlarning bank operatsiyalari tahlili bozori 29,87 mlrd dollarni tashkil etdi. 2020-2025-yillar orasida bank sohasidagi katta ma’lumotlar tahlili bozori o‘rtacha yillik o‘sish sur’ati 12,97 foizni tashkil etishi kutilmoqda. Katta ma’lumotlar bozori 2020-yilda 198,08 mlrd dollarga baholangan bo‘lsa, 2022-yilga kelib 274,3 mlrd dollargacha o‘sadi va yaqin 5 yillikda yillik o‘sish sur’ati 13,2 foizni tashkil qiladi. 2027-yilga kelib 103 mlrd dollargacha o‘sishi va dasturiy ta’minot segmenti 45 foizni tashkil qilishi kutilmoqda. BARC ma’lumotlariga ko‘ra, tashkilotlar «katta ma’lumotlar»dan foyda ko‘rmoqda. Xususan, strategik qarorlar qabul qilish imkoniyati 69 foizga, operatsion jarayonlar ustidan ko‘proq nazoratni qo‘lga kiritish imkoniyati 54 foizga, iste’molchilarni yaxshiroq tushunish imkoniyati 52 foizga va xarajatlarni kamaytirish imkoniyati 47 foizga o‘sgan. Katta ma’lumotlar imkoniyatlaridan foydalanayotgan kompaniyalar daromadlarining o‘rtacha 8 foizga oshgani va xarajatlari 10 foizga kamayganini e’tirof etishgan. Forbes 2025-yilga borib real vaqt rejimida 150 zettabayt yoki 150 trln gigabaytdan ortiq ma’lumotlar tahlil qilinishini bashorat qilgan. Forbes ma’lumotlariga ko‘ra, kompaniyalarning 95 foizdan ortig‘i tuzilmagan ma’lumotlarning bir nechta to‘plamini boshqarishda yordamga muhtoj, kompaniyalarning 40 foizi esa katta ma’lumotlar bilan shug‘ullanish kerakligini aytadi. StrategyMRC ma’lumotlariga ko‘ra, Hadoop va katta ma’lumotlar bozori hozirda 138,9 mlrd dollarga baholanmoqda va o‘rtacha yillik o‘sish sur’ati 28,5 foizni tashkil qilgan holda 2022-yilda 30 mlrd dollarga o‘sishi kutilmoqda. Wikibon ma’lumotlariga ko‘ra, katta ma’lumotlar, tahliliy va amaliy ma’lumotlar bazasi yechimlari hajmi o‘n yil ichida 6 foiz o‘rtacha yillik o‘sish sur’atida 2017-yildagi 6,4 mlrd dollardan 2027-yilga kelib 12 mlrd dollargacha o‘sishi kutilmoqda. Hadoop, Kafka, Spark va TensorFlow kabi katta ma’lumotlar ekotizimidagi ochiq kodli platformalarga bo‘lgan talab uning sun’iy intellekt, mashinani o‘rganish, chuqur o‘rganish yoki ma’lumotlar faniga bevosita murojaat qilishi tufayli kamayishi mumkin. Ammo Hadoop, NoSQL, xotira, oqim va boshqa ko‘plab ma’lumotlar bazalari kabi ma’lumotlarni tahlil qilish platformalarining gibrid o‘rnatilishi ma’lumotlar ko‘lami va ma’lumotlar ishlab chiqarish yechimlari bozor ulushinioshiradi. Bugungi kunda «Big Data» texnologiyalari bozorida AQShning Amazon.com, Inc., IBM, Microsoft, Oracle, Dell Technologies, Cisco Systems, Inc., Cloudera, Inc., Salesforce.com, Inc., Teradata, Tableau Software, Hewlett-Packard, Prolifics, Inc., Xplenty, Clairvoyant, Teradata, EquBot Inc., Dell Technologies, Vmware, Inc. Databrix korporatsiyalari va SAS instituti, Germaniyaning SAP SE va Software AG, Yaponiyaning Fujitsu Limited va CMIC Co., Ltd., Hindistonning Infosys Limited, Xitoyning Huawei Technologies Co., Ltd. va Buyuk Britaniyaning Deloitte Touche Tohmatsu Limited kompaniyalari yetakchilik qilmoqda. 2021-yilda mamlakatlarning global yirik ma’lumotlar va biznes-tahlil bozoridagi ulushi: AQSh – 51%; Yaponiya – 5,7%; Xitoy – 5,5% Buyuk Britaniya – 5,1%; Germaniya – 4,4%; boshqalar – 28,3%.«Katta ma’lumotlar»ning kelajagi tahlilchilarni talab qiladi. Katta ma’lumotlar hajmi o‘sishda davom etar ekan, unga sho‘ng‘ish va amaliy tushunchalarni olish uchun o‘qitilgan ma’lumotlar tahlilchilariga ehtiyoj ortib bormoqda. «Katta ma’lumotlar» tahlili moliya, hukumat va sog‘liqni saqlash kabi sohalarda o‘zgarishlar yaratish uchun ajoyib imkoniyatlarni taqdim etadi, shuningdek, firibgarlikning oldini olish, tabiiy ofat yuz berganda resurslarni taqsimlash yoki sog‘liqni saqlashni yaxshilash orqali odamlar hayotini o‘zgartirishga yordam beradi.
Tabiiy tilni qayta ishlash (NLP)
Ushbu turdagi ma'lumotlar tarkibini tahlil qilish uchun mashinani o'rganish algoritmining bir shakli bo'lgan Natural Language Processing (NLP) ni talab qiladi. NLP bozor tendentsiyalari - joriy yoki prognozlar haqida foydali tushunchalarni ishlab chiqarish uchun innovatsion usullardan foydalangan holda ma'lumot olish uchun katta ma'lumotlardan foydalanish qobiliyatini ta'minlaydigan ma'lumotlar tahlilidagi navbatdagi katta narsa sifatida qaraladi.
NLP bo'yicha tadqiqotlar bir necha o'n yillardan beri olib borilayotgan bo'lsa-da, bu soha faqat so'nggi 3 yil ichida sezilarli yutuqlarga erishdi. NLP-dan foydalanadigan mashinani o'rganish metodologiyalari hozirda katta ma'lumotlar bo'yicha hamkorlar bo'yicha konsalting kompaniyasi orqali korxonalar bo'ylab keng tarqalgan.
NLP statistika va mashinani o'rganish orqali tilshunoslik va semantikani tahlil qilish orqali katta ma'lumotlardagi matn yozuvlarida paydo bo'ladigan naqshlarni o'rganadi va mijozlar o'z postlarida aytmoqchi bo'lgan narsalar kontekstida muhim ob'ektlar va munosabatlarni ajratib oladi. Aslida, bir so'z yoki so'zlar qatoriga e'tibor qaratish o'rniga, NLP jumlalarni maqsad uchun har tomonlama tahlil qiladi. NLP-da qo'llaniladigan eng keng tarqalgan metodologiyalar - bu avtomatik umumlashtirish, noaniqlik, nutqning bir qismini belgilash, munosabatlarni chiqarish va ob'ektni ajratib olish va eng muhimi - tabiiy tilni tushunish va tanib olish.
Qanday qilib NLP tuzilmagan katta ma'lumotlardagi ma'lumotlardan yaxshiroq foydalanishga yordam beradi?
Har bir sohada - tibbiyot, yuridik, farmatsevtika, sport, ta'lim va hokazo, aytaylik, katta hajmdagi ma'lumotlar har kuni hujjatlar, mijozlar ma'lumotlari, savdo ma'lumotlari va boshqalar ko'rinishida arxivlanadi. Bu ma'lumotlar asosan matndir va shuning uchun NLP bo'ladi. Tahlildan samarali natijalarga erishish uchun juda muhim - bu bashoratli, real vaqtda yoki tarixiy.
NLP quyidagi sohalarda yordam berishi mumkin.
O'zaro ta'sirlar
iOS-dagi Siri interaktiv sohada NLP ning ajoyib namunasidir. Onlayn banking va chakana chakana o'z-o'ziga xizmat ko'rsatish vositalari ham avtomatik tarjima ilovalari kabi NLP-dan foydalanadi. NLP-dan foydalangan holda o'zaro aloqalarni boshqarish tajribasi an'anaviy mijozlarni qo'llab-quvvatlash qo'ng'iroqlarini sun'iy intellektni joriy etish orqali samarali hal qilish va hal qilish mumkin bo'lgan darajalarga aylandi.
Biznes razvedkasi
Muayyan ijtimoiy media yorlig'ini kuzatish tahlilchidan mavzuni qamrab oladigan barcha mumkin bo'lgan "hashtaglar" va kalit so'zlarni kiritishni talab qilishi mumkin. NLP tabiiy tilda kiritilgan so'rovlar bo'yicha qidiruv operatsiyalarini amalga oshirishi mumkin, shu bilan barcha mumkin bo'lgan stsenariylarni qamrab oladi va mavzu haqida qancha odam gaplashayotganini aniqlashda statistik xatolarni kamaytiradi.
Hissiyot tahlili
Brendlar endi to'g'ridan-to'g'ri kanallar orqali, ijtimoiy media suhbatlaridan boshlab, mijozlarning rasmiy fikr-mulohazalaridan boshqa ma'lumotlarni to'plashlari mumkin. NLP ma'lum bir mahsulot yoki xizmat bozorning maqsadli segmentlarida
- demografik va/yoki geografik segmentlarda mamnuniyat bilan qabul qilinayotganligi to'g'risida yakuniy rasmni yaratishi mumkin.
Taxminlarga ko'ra, 2020 yilga kelib, har bir Big Data Solution tomonidan taqdim etilgan barcha katta ma'lumotlarni tahlil qilish NLP yordamida amalga oshiriladi, chunki ma'lumotlar hajmi butun dunyo bo'ylab 44 trillion gigabaytdan oshadi, shuning uchun Big Data Analytics uchun NLP ko'lami yanada kengayadi. Katta ma'lumotlar shunchaki shov-shuvli so'z va "bo'lishi mumkin bo'lgan" texnologiya o'rniga, endi korxonalar va startaplar uchun strategiyani amalga oshirishning eng muhim talablaridan biri hisoblanadi. Katta maʼlumotlar – doimiy ravishda turli kanallardan mijozning onlayn xarid qilish harakati, ijtimoiy tarmoqdagi faoliyati va savdo nuqtalari maʼlumotlari kabi ichki maʼlumotlar jurnali kabi maʼlumotlar toʻplanadi. Real vaqt rejimida qayd qilinayotgan maʼlumotlar doimo kirib boradi va saqlanadi. bulutda. Yirik korxonalar petabaytdan ortiq ma'lumotlarga ega bo'lishi mumkin.
Ma'lumotlar kelib chiqishidan "xuddi shunday" holatida olinganligi sababli, u doimiy ravishda o'sib borishi bilan bir qatorda, asosan tuzilmagan. Ushbu katta ma'lumotlarning formati asosan ijtimoiy tarmoqlarda baham ko'rilgan matn yoki mahsulotlar haqida olingan mijozlarning fikr-mulohazalarini bildiradi. Boshqacha qilib aytadigan bo'lsak, katta ma'lumotlar tabiiy tilda, ya'ni oddiy inson real hayotdagi suhbatlarda foydalanishi mumkin bo'lgan so'zlar qatoridir.
Tarjima uchun NLP
Tabiiy tilni qayta ishlashning eng muhim va qimmatli qo'llanilishidan biri bu tarjimalardir. Dunyo bo'ylab tillar bir nechta til oilalaridan kelib chiqqan bo'lsa-da, ular son-sanoqsiz mamlakatlar va madaniyatlarga tarqalib ketgan. Ingliz tili AQSh, Buyuk Britaniya, Osiyo va Yevropada farqlanadi; Ispaniya, Markaziy va Janubiy Amerikada ispan tilining o'z versiyalari mavjud.
Ushbu va boshqa lingvistik muammolar yillar davomida mashina tarjimasi uchun katta to'siq bo'lib kelmoqda. Shuni ta'kidlash kerakki, mashina tarjimasi hissiyotlarni tahlil qilish va hujjatlarni tasniflashdan butunlay farq qiladi.
Bu qiyin vazifa teglar emas, balki so'z ketma-ketligini bashorat qiladigan modelga muhtoj. Mashinani o'rganish, shuningdek, Deep Learning haqidagi barcha nutq va hayajonni ta'kidlaydi, chunki u ketma-ket ma'lumotlarni tahlil qilishda o'yinni o'zgartirdi.
RNN va tarjimaning ilg'or natijalari haqida ko'proq ma'lumotni shu yerda ko'rib chiqishingiz mumkin.
Bundan tashqari, yanada samarali ifodalash va qayta so'zlash zarurati mavjud. Aytaylik, sizga avtomatik matnni umumlashtirish modeli kerak va siz matnni toʻliq va asl maʼnosini saqlab qolgan holda umumlashtirishni xohlaysiz. Diqqat mexanizmlari (oxirgi yechimlarda modul sifatida kiritilgan) bu vazifalarni bajarishda qimmatli ekanligini isbotlaydi, chunki u matnlarning faqat ma'lum segmentlarida ma'no izlash orqali matnlarning butun bloklarini tushunishi mumkin.
Bundan tashqari, hozircha Gollivud darajasidagi sun'iy intellektga yaqin bo'lgan savollarga javob mavjud. Bu algoritm modelidan nafaqat savolni tushunish, balki kontekst va tegishli matnlarni toʻliq tushunish, shuningdek, javoblarni qayerdan izlash kerakligini bilishni ham talab qiladi.
Deep Learning vektorlarda har xil turdagi ma'lumotlarni ifodalaydi. Shunday qilib, turli domenlarga qaratilgan algoritm modellarini osongina yaratish mumkin. Shunday qilib, "vizual savolga javob berish" paydo bo'ldi. Bu bola uchun juda oson vazifa: tasvir haqidagi savolga javob berish.
Biroq, buni hali so'zlar va tasvirlarni tushunishni boshlagan mashinaning konteksti va imkoniyatlari haqida o'ylab ko'ring. Chuqur modellar birinchi bo'lib inson nazoratisiz bu vazifada sezilarli natijalarga erishdilar.

Foydalanilgan adabiyotlar ro’yhati:

1. Дэви Силен, Арно Мейсман, Мохамед Али. Основы Data Science и Big Data. Python и наука о данных. СПб.: Питер, 2017. -336 с.(Серия «Библиотека программиста»).
2.Хенрик, Ричардс Джозеф, Феверолф Марк, Машинное обучение, СПб.: Питер, 2017. -336 с.(Серия «Библиотека программиста»).
3.В. Е. Туманов. Проектирование хранилиш данных для приложений систем деловой осведомленности (Business Intelligence System). изд. ИНТУИТ. 2016г.
4.П.Флах. Наука и искусство построения алгоритмов, которью извлекают знания из данннх. Издание Cambridge Unversity Press, 2012 г.
5.Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И., Методы и модели анализа данных: OLAP и Data Mining. СПб.: БХВ-Петербург, 2004. - 336 с.
6.Елманова Н., Федоров А. Введение в OLAP-технологии Microsoft. СПб.: БХВ-Петербург, 2014.-232 с.
7.Праймесбергер, 2011, “Big data refers to the volume, variety and velocity of structured and unstructured data pouring through networks into processors and storage devices, along with the conversion of such data into business advice for enterprises.”.
8.PwC, 2010, Термин «большие данные» характеризует совокупности данных c возможным экспоненциальным ростом, которые слишком велики, слишком неформатированы или слишком неструктурированы для анализа традиционными методами., с. 42.
9.McKinsey, 2011, “Big data” refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze, p. 1.
10.Майер-Шенбергер, 2014.
http://hozir.org

Download 160,21 Kb.

1 2

Download 160,21 Kb.