Semalt: Извлекување URL адреси од веб-страници со убава супа

Убава супа е пакет на високо ниво Python кој се користи за анализирање на XML и HTML документи. Библиотеката убава супа Пајтон создава едно парче дрво, кое се користи за вадење корисни информации од јазик за обележување на HyperText (HTML). Оваа библиотека е достапна и за верзиите Python 2 и Python 3.

Во повеќето случаи, сметате дека до вашите целни податоци може да се пристапат и да се користат само како дел од веб-страница. Во таков случај, треба да користите таква техника на веб-стружење што може да извлече податоци во форматите што можат да се анализираат. Овде влегува библиотеката Прекрасна супа.

Барања

Потребни ви се вистински модули за да користите убава библиотека со супи. За да започнете, треба да инсталирате јазик за програмирање Python 2.7 на вашата машина. Во овој пост, ќе научите како да кренете веб-страница и да ги извлечете сите УРЛ-адреси користејќи Барања и убава супа 4. Размислувањето на HTML е задача сами, особено со техничка помош на убава супа.

Зошто да користите убава супа?

Убава супа е врвен пакет на Пајтон, кој се користи за да се уништат веб-страниците и да се анализираат HTML-ознаки од 2004 година. Неодамна, убавата супа 4 ја замени убавата супа 3 во индустријата. Забележете дека BS4 работи на двете Python верзии, додека BS3 работи само на Python 2.7. Библиотеката се состои од следниве вградени карактеристики:

  • Способност за шифрирање - Не мора да паничите за кодирање откако ќе ги инсталирате потребните убави модули за супи на вашата машина. Библиотеката е автоматизирана за конвертирање на влезовите во Уникод и излезите во UTF-8.
  • Способност за навигација - Убава супа нуди лесни за употреба методи за пребарување, навигација и модификација на парсирано дрво.

Како да се користи убава супа библиотека?

Откако ќе инсталирате убава супа на вашата машина, можете да започнете да ја користите библиотеката. За да започнете, увезете библиотека bs4 на почетокот на вашиот код на Python. Пренесете содржина или URL-то на Убава супа за да создадете предмет на супа. Како и да е, библиотеката не ја привлекува целната веб-страница сама по себе. Тука, треба да ја завршите таа задача рачно. Можете исто така лесно да ги пренесете посакуваните веб-страници користејќи комбинација на Пајтон и убава супа.

Улоги на барање библиотека

За да избришете страница, прво треба да ја преземете. Можете да преземате веб-страници користејќи библиотека за барање. Бара библиотечни дела со барање „ГЕТ“ до веб-серверите, што, пак, ќе ја преземе HTML содржината на претпочитаната веб-страница.

Извлекување УРЛ-адреси од веб-страници

Сега имате детални информации во врска со библиотеката на убава супа. Комбинација на библиотека BS4 и Пајтон ќе ви помогне да превземете веб-страница многу брзо. За да ги извадите сите УРЛ-адреси од вашата целна веб-страница, користете го методот „најдете ги сите“. Овој метод ќе ви даде компилација на елементи со ознаката. Од bs4, увезете и Убава супа и барања. Извршете го вашиот код и внесете веб-страница или веб-страница за да ги извлечете URL-то од.

mass gmail