BeautifulSoup, lai piecu minūšu laikā sagrābtu tīmekļa lapu saturu - Semalt Expert

Skaista zupa ir Python pakotne, ko izmanto XML un HTML dokumentu parsēšanai. Tas izveido parsēšanas kokus tīmekļa lapām un ir pieejams Python 2 un Python 3. Ja jums ir vietne, kuru nevar pareizi nokasīt, varat izmantot dažādus BeautifulSoup ietvarus. Iegūtie dati būs visaptveroši, lasāmi un mērogojami, saturot daudz īso un garo asti.

Tāpat kā BeautifulSoup, arī lxml var ērti integrēt ar html.parser moduli. Viena no šīs programmēšanas valodas raksturīgākajām iezīmēm ir tā, ka tā nodrošina aizsardzību pret surogātpastu un labākus rezultātus reāllaika datiem. Gan lxml, gan BeautifulSoup ir viegli iemācāmi un nodrošina trīs galvenās funkcijas: formatēšanu, parsēšanu un koka pārveidi. Šajā apmācībā mēs iemācīsim jums, kā izmantot BeautifulSoup, lai greifers dažādu Web lapu tekstu.

Uzstādīšana

Pirmais solis ir instalēt BeautifulSoup 4, izmantojot pip. Šī pakete darbojas gan Python 2, gan 3. BeautifulSoup ir iesaiņots kā Python 2 kods; un, kad mēs to izmantojam kopā ar Python 3, tas tiek automātiski atjaunināts uz jaunāko versiju, taču kods netiek atjaunināts, ja mēs neinstalējam pilnu Python pakotni.

Parsētāja instalēšana

Varat instalēt piemērotu parsētāju, piemēram, html5lib, lxml un html.parser. Ja esat instalējis pip, jums būs jāimportē no bs4. Lejupielādējot avotu, jums būs jāimportē no Python bibliotēkas. Lūdzu, atcerieties, ka lxml parsētājs ir divās dažādās versijās: XML parsētājs un HTML parsētājs. HTML parsētājs nedarbojas pareizi ar vecajām Python versijām; tāpēc XML parsētāju var instalēt, ja HTML parsētājs nereaģē vai tas netiek instalēts pareizi. Lxml parsētājs ir salīdzinoši ātrs un uzticams, un tas dod precīzus rezultātus.

Izmantojiet BeautifulSoup, lai piekļūtu komentāriem

Izmantojot BeautifulSoup, jūs varat piekļūt vēlamās Web lapas komentāriem. Komentāri parasti tiek glabāti sadaļā Komentāru objekts un tiek izmantoti, lai pareizi attēlotu tīmekļa lapas saturu.

Virsraksti, saites un virsraksti

Izmantojot BeautifulSoup, varat viegli iegūt lapu nosaukumus, saites un virsrakstus. Jums vienkārši jāsaņem lapas marķējums ar noteiktu kodu. Kad iezīme ir iegūta, varat arī nokasīt datus no virsrakstiem un apakšpozīcijām.

Pārvietojieties DOM

Mēs varam pārvietoties pa DOM kokiem, izmantojot BeautifulSoup. Tagu ķēdēšana palīdzēs mums iegūt datus SEO vajadzībām.

Secinājums:

Kad būsit izpildījis iepriekš aprakstītās darbības, varēsit ērti satvert tīmekļa lapas tekstu. Viss process neaizņems vairāk kā piecas minūtes un sola kvalitatīvus rezultātus. Ja jūs vēlaties iegūt datus no HTML dokumentiem vai PDF failiem, tad ne BeautifulSoup, ne Python jums nepalīdzēs. Šādos gadījumos jums vajadzētu izmēģināt HTML skrāpi un viegli analizēt savus tīmekļa dokumentus. Jums vajadzētu pilnībā izmantot BeautifulSoup funkcijas, lai nokasītu datus SEO vajadzībām. Pat ja mēs dodam priekšroku lxml HTML parseriem, mēs joprojām varam izmantot BeautifulSoup atbalsta sistēmas priekšrocības un dažu minūšu laikā iegūt kvalitatīvus rezultātus.