Semalt - Si të Shkruaj faqet e Uebit?

Supë e bukur është një bibliotekë e Python e përdorur gjerësisht për të gërvishtur faqet në internet duke krijuar një pemë analize nga dokumentet XML dhe HTML. Skrapimi i uebit, një teknikë e nxjerrjes së të dhënave nga faqet e internetit dhe faqet, përdoret gjerësisht në fushën e analizës së të dhënave dhe menaxhimit. Në shumicën e rasteve, gjuha e programimit Python është një parakusht në shkencën e të dhënave.

Python 3 ka mjete scraping dhe module që mund të aplikoni në projektin tuaj të menaxhimit të të dhënave. Aktualisht funksionon si Supa e Bukur 4, ky modul është në përputhje me të dy Python 3 dhe Python 2.7. Moduli Beautiful Supa 4 është gjithashtu i aftë të krijojë një pemë majdanoz për supë me etiketa jo të mbyllura. Në këtë tutorial, ju do të mësoni se si të copëtoni faqen dhe të shkruani të dhënat e shkruara në një skedar CSV.

Fillimi

Për të filluar, vendosni një server ose mjedis të kodimit Python me bazë lokale në PC tuaj. Ju gjithashtu duhet të instaloni modulin Supë të Bukur dhe Kërkon në makinën tuaj. Njohuria për të punuar me të dy modulet është gjithashtu një parakusht i domosdoshëm. Familjariteti me etiketimin dhe strukturën HTML është gjithashtu një avantazh i shtuar.

Kuptimi i të dhënave tuaja

Në këtë kontekst, të dhënat reale nga Galeria Kombëtare e Arteve do të përdoren për t'ju ndihmuar të kuptoni se si të përdorni Supën e Bukur 4. Galeria Kombëtare e Arteve përbëhet nga 120,000 copa që janë bërë nga një përafërsisht prej 13,000 artistësh. Arti është i bazuar në Washington DC, Shtetet e Bashkuara.

Nxjerrja e të dhënave në internet me Supë të Bukur nuk është aq e ndërlikuar. Për shembull, nëse përqendroheni në shkronjën Z, shënoni dhe shënoni emrin e parë në listë. Në këtë rast, emri i parë është Zabaglia, Niccola. Për qëndrueshmëri, tregoni numrin e faqeve dhe emrin e artistit të fundit në atë faqe.

Si të importoni kërkesa dhe bibliotekë të bukur të supave

Për të importuar biblioteka, aktivizoni mjedisin tuaj të programimit Python 3. Kontrolloni për t'u siguruar që jeni në të njëjtin drejtori me mjedisin tuaj të programimit. Run komandën e mëposhtme për të filluar. my_env / bin / aktivizuar.

Krijoni një skedar të ri dhe filloni të importoni Biblioteka të Supave të Bukura dhe Kërkon. Biblioteka e kërkesave do t'ju lejojë të përdorni HTTP brenda programeve tuaja Python në formate të lexueshme. Supë e bukur, nga ana tjetër, punon për të prishur faqet shpejt. Përdorni bs4 për të importuar Supë të Bukur.

Si të mblidhni dhe të analizoni një faqe në internet

Duke përdorur Kërkesat mbledhni URL-në e faqes tuaj të parë. URL e faqes së parë do t'i caktohet faqes së ndryshueshme. Ndërtoni një objekt të BeautifulSoup nga Kërkesat dhe analizoni objektin nga parseri i Python.

Në këtë tutorial, qëllimi është të mblidhen linqe dhe emrat e artistëve. Për shembull, ju mund të mblidhni datat dhe kombësitë e artistëve. Për përdoruesit e Windows, klikoni me të djathtën në emrin e parë të artistit. Në këtë rast, përdorni Zabaglia, Niccola. Për përdoruesit e Mac OS, trokitni lehtë mbi "CTRL" dhe klikoni mbi emrin. Klikoni në menunë "Inspect Element" që shfaqen në ekranin tuaj për të hyrë në mjetet e zhvilluesve të uebit. Shtypni emrat e artistëve për të bërë që Supa e bukur të copëtojë një pemë shpejt.

Heqja e lidhjeve të poshtme

Për të hequr lidhjet e poshtme në faqen tuaj të internetit, inspektoni DOM duke klikuar me të djathtën e elementit. Do të identifikoni që lidhjet janë nën një tabelë HTML. Duke përdorur Supë të Bukur, përdorni "metodën e dekompozimit" për të hequr etiketat nga pema e farës.

Si të tërheqni përmbajtjen nga një etiketë

Ju nuk keni nevojë të shtypni të gjithë etiketën e lidhjes, përdorni Supë të bukur për të hequr materialin nga një etiketë. Ju gjithashtu mund të kapni URL-të të lidhura me artistët duke përdorur Soup Beautiful 4.

Kapja e të dhënave të skrapuara në një skedar CSV

Skedari CSV do t'ju lejojë të ruani të dhëna të strukturuara në një tekst të thjeshtë, një format që përdoret më së shumti për të dhënat e të dhënave. Rekomandohen njohuri mbi trajtimin e skedarëve të teksteve të thjeshta në Python.

Nxjerrja e të dhënave në internet përdoret për të fshirë faqet dhe për të marrë informacion. Jini të kujdesshëm të faqeve në internet nga të cilat jeni informacione për nxjerrjen. Disa uebfaqe dinamike kufizojnë nxjerrjen e të dhënave në internet në faqet e tyre. Të shkruash faqe me Supë të Bukur dhe Python 3 është kaq e thjeshtë.