Semalt: Как да използвате Python за изстъргване на уебсайт?

Данните играят критична роля в разследванията, нали? Това може да доведе до нов начин на поглед върху нещата и да развие други прозрения. Най-жалко е, че данните, които търсите, обикновено не са лесно достъпни. Можете да го намерите в Интернет, но може да не е във формат, който може да се изтегля. В такъв случай можете да използвате уеб техниката за изстъргване, за да програмирате и събирате необходимите данни.

Има няколко подхода за изстъргване и езици за програмиране, които могат да бъдат от полза за този процес. Тази статия ще ви насочи как да използвате езика python за бракуване на сайт. Ще спечелите много информация за работата на уеб страниците. Ще разберете и как разработчиците структурират данни на всеки уебсайт.

Най-добрата отправна точка е да изтеглите и инсталирате Anaconda Python Distribution на вашата компютърна машина. Можете също да вземете някои уроци по основите на този език за програмиране. Най-доброто място да започнете е Codecademy, особено ако нямате идея в тази област.

Това ръководство ще използва сайта на текущия списък на Полк за лишените от свобода. Ще ви напътстваме как да използвате Python скрипт, за да извлечете списък на затворниците и да получите някои данни като град на пребиваване и раса за всеки затворник. Целият сценарий, през който ще ви преведем, се съхранява и отваря в GitHub. Това е една от популярните онлайн платформи, които позволяват споделяне на компютърни кодове. Кодовете имат дълъг списък от коментари, които могат да ви бъдат от голяма полза.

Когато бракувате някой сайт, първият инструмент, който трябва да търсите, е уеб браузър. Повечето от браузърите ще предоставят на потребителите инструменти за инспекция на HTML, които помагат за повдигане на люка на двигателя и разбиране на структурата на страницата. Начинът на достъп до всеки инструмент варира от един браузър до друг. Основният елемент обаче е „изглед на източника на страницата и можете да го получите, като щракнете с десния бутон върху страницата директно.

Докато преглеждате HTML източника на страницата, препоръчително е да изброите подробно данните за връзките към затворника в редовете на таблицата. Следващата стъпка е да напишем скрипт, който ще използваме за извличане на тази информация. Двата пакета Python, които ще използваме в процеса на тежко повдигане, са Beautiful Soup and Requests. Уверете се, че сте ги инсталирали, преди да започнете да стартирате кода.

Скриптът за изтриване в мрежата ще направи три неща. Те включват зареждане на страниците с листи и извличане на връзки към страниците с подробности, зареждане на всяка страница с подробности и извличане на данни и отпечатване на извлечените данни в зависимост от това как се филтрира, като градът на пребиваване и расата. След като разберете това, следващата стъпка е да започнете процеса на кодиране, като използвате Beautiful Soup and Requests.

Първо, логично заредете страницата с списъка с затворници, използвайки URL адреса на request.get, а след това използвайте красивата супа, за да я изтриете. След това извличаме връзката към страниците с подробности, преглеждайки всеки ред. След анализиране на подробностите за затворника следващата стъпка е да извлечете в речника стойностите за пол, възраст, раса, време за резервация и име. Всеки затворник ще получи своя речник, а всички речници ще бъдат добавени към списъка на затворника. И накрая, прегледайте стойностите на състезанието и града, преди най-накрая разпечатате списъка си.

send email