Kiritish
Jsoup - bu HTML hujjatlarida saqlangan ma'lumotlarni tahlil qilish, ajratib olish va manipulyatsiya qilish uchun mo'ljallangan ochiq manbali Java kutubxonasi. U eng yaxshi DOM, CSS va jQuery-ga o'xshash usullardan foydalangan holda ma'lumotlarni olish va boshqarish uchun juda qulay API taqdim etadi. Jsoup kutubxonasi HTML5 spetsifikatsiyasini amalga oshiradi va HTML tarkibini zamonaviy brauzerlar bo'yicha bir xil DOMga tahlil qiladi. jsoup bir qator joriy loyihalarda, jumladan, Googlening OpenRefine maʼlumotlar bilan kurashish vositasida qoʻllaniladi. OpenRefine - bu ma'lumotlarni tozalash va boshqa formatlarga o'tkazish uchun ochiq manbali ish stoli ilovasi bo'lib, odatda ma'lumotlarni qayta tiklash yoki ma'lumotlarni o'zgartirish sifatida tanilgan . U elektron jadval ilovalariga oʻxshaydi va CSV kabi elektron jadval fayl formatlari bilan ishlay oladi, lekin u koʻproq maʼlumotlar bazasiga oʻxshaydi.
Jsoup - bu HTML-ga asoslangan kontent bilan ishlash uchun Java-ga asoslangan kutubxona.
jsonp kutubxonasi quyidagi funksiyalarni taqdim etadi.
Bir nechta o'qishni qo'llab-quvvatlash - URL, fayl yoki string yordamida HTMLni o'qiydi va tahlil qiladi.
CSS selektorlari - DOM traversal yoki CSS selektorlari yordamida ma'lumotlarni topishi va chiqarishi mumkin.
DOM Manipulyatsiyasi - U HTML elementlarini, atributlarini va matnni boshqarishi mumkin.
XSS hujumlarini oldini olish - XSS hujumlarini oldini olish uchun foydalanuvchi tomonidan taqdim etilgan kontentni ma'lum bir xavfsiz oq ro'yxatga qarshi tozalashi mumkin.
Tidy - Bu tartibli HTMLni chiqaradi.
Yaroqsiz ma'lumotlarni qayta ishlaydi - jsoup yopilmagan teglar, yashirin teglar bilan ishlay oladi va hujjat strukturasini ishonchli tarzda yaratishi mumkin.
jsoup - Parsing Str111.1 Jsoup - Parsing String va Body
Quyidagi misol HTML satrini document ob'ektiga ajratadi va HTML fragment Stringni Element ob'ektiga html body sifatida ajratishni ko'rsatadi.
Syntax
Document document = Jsoup.parse(html);
Document document = Jsoup.parseBodyFragment(html);
Element body = document.body();
document − document ob'ekti HTML DOM ni ifodalaydi.
Jsoup − berilgan HTML String ni tahlil qilish uchun asosiy class.
html − HTML String.
body − document body elementining bolalar elementini ifodalaydi va document.getElementsByTag("body") ga ekvivalentdir.
Description
Parse(String html) usuli kiritilgan HTMLni yangi documentga ajratadi. Ushbu document ob'ekti html domni kesib o'tish va tafsilotlarini olish uchun ishlatiladi. parseBodyFragment(String html) usuli document ob'ekti html body qismining tafsilotlarini o'tkazish va olish uchun ishlatilishi mumkin.
|