Back to Question Center
0

Semalt - Hvernig á að skafa vefsíðum?

1 answers:

Fallegt súpa er Python bókasafn víða notað til að skafa vefsíðum með því að búa til flokka frá XML og HTML skjölum. Vefskrapun, tækni til að vinna úr gögnum frá vefsíðum og síðum, er mikið notaður í gagnagreiningu og stjórnunarsvæðum. Í flestum tilvikum er Python forritunarmál forsenda gagnageirans.

Python 3 hefur ruslverkfæri og einingar sem þú getur sótt um gagnastjórnun. Sem stendur hlaupandi sem Beautiful Soup 4, þessi eining er samhæft bæði Python 3 og Python 2. 7 - . Falleg súpa 4 mát er einnig hægt að búa til flokka tré fyrir ólokið merkisúpa. Í þessari einkatími lærirðu hvernig á að skafa blaðið og skrifa gögnin sem eru skrædd í CSV-skrá.

Hafist handa

Til að byrja skaltu setja upp miðlara eða staðbundið Python kóða umhverfi á tölvunni þinni. Þú ættir einnig að setja upp fallegan súpa og beiðni mát á vélinni þinni. Þekking á að vinna með báðum einingum er einnig nauðsynleg forsenda. Þekking á HTML merkingu og uppbyggingu er einnig til viðbótar.

Skilningur á gögnum þínum

Í þessu samhengi verða raunveruleg gögn frá Listasafni Listasafnsins notaðar til að hjálpa þér að skilja hvernig nota má falleg súpa 4. Listasafn Listasafnsins samanstendur af 120.000 stykki sem eru gerðar með um það bil 13.000 listamenn. Listin er byggð í Washington D. C, Bandaríkin.

Vefuruppdráttur með fallegum súpu er ekki svo flókið. Til dæmis, ef þú leggur áherslu á staf Z, merkið og smelltu á Fornafnið á listanum. Í þessu tilviki er fornafnið Zabaglia, Niccola. Til að sýna samræmi skaltu tilgreina fjölda síðna og nafn síðasta listamannsins á þeirri síðu.

Hvernig á að flytja inn beiðni og falleg súpa bókasafn

Til að flytja inn bókasöfn skaltu virkja Python 3 forritunarmálið þitt. Athugaðu hvort þú sért í sömu möppu með forritunarsamfélaginu þínu. Hlaupa eftirfarandi skipun til að byrja. my_env / bin / virkja.

Búðu til nýjan skrá og byrjaðu að flytja inn fallegar súpa og óskir bókasafna. Beiðnir bókasafn leyfir þér að nota HTTP í Python forritunum þínum í læsilegum sniðum. Falleg súpa, hins vegar, vinnur að því að skrapa síður fljótt. Notaðu bs4 til að flytja inn falleg súpa.

Hvernig á að safna og flokka vefsíðu

Að nota beiðnir safna vefslóð fyrstu síðu þíns. Vefslóð fyrstu síðu verður úthlutað á breytilegu síðunni. Búðu til BeautifulSoup mótmæla frá Beiðnir og flokka hlutinn úr parser Python.

Í þessari einkatími er markmiðið að safna tenglum og nöfnum listamanna. Til dæmis getur þú safnað dagsetningum og þjóðernum listamanna. Fyrir Windows notendur skaltu hægrismella á fornafn listamannsins. Í þessu tilviki skaltu nota Zabaglia, Niccola. Fyrir notendur Mac OS, pikkaðu á "CTRL" og smelltu á nafnið. Smelltu á "Skoðaðu Element" valmyndina sem sprettiglugga á skjánum til að fá aðgang að verkfærum vefhönnuða. Prenta nöfn listamannsins til að gera Beautiful Soup fljótt tré.

Fjarlægðu neðstengla tengin

Til að fjarlægja botninn á vefsíðunni skaltu skoða DOM með því að hægrismella á þáttinn. Þú kemst að því að tenglarnar eru undir HTML töflu. Notaðu fallega súpuna með því að nota "niðurbrotsefnið" til að fjarlægja merkin úr flokka trénu.

Hvernig á að draga efni úr merkinu

Þú þarft ekki að prenta allt tengiliðaliðið, nota Fallegt súpa til að fjarlægja efni úr merki. Þú getur einnig handtaka slóðir sem tengjast listamönnum með því að nota Beautiful Soup 4.

Handtaka skrapað gögn í CSV skrá

CSV skrá leyfir þér að geyma skipulögð gögn í látlausri texta, sniði sem aðallega er notað fyrir gagnablöð. Þekking á meðhöndlun texta skrár í Python er mælt með.

Vefurauppvinnsla er notaður til að skafa síður og fá upplýsingar. Vertu í huga að vefsíðum sem þú ert að vinna úr upplýsingum frá. Sumir dynamic vefsíður takmarka vefgagnavinnslu á vefsvæðum sínum. Til að skafa síðu með fallegum súpu og Python 3 er svo einfalt.

December 22, 2017