Semalt - Wie kratzt man Webseiten?

Beautiful Soup ist eine Python-Bibliothek, die häufig zum Scrapen von Webseiten verwendet wird, indem ein Analysebaum aus XML- und HTML-Dokumenten erstellt wird. Web Scraping, eine Technik zum Extrahieren von Daten von Websites und Seiten, wird häufig in den Bereichen Datenanalyse und -verwaltung eingesetzt. In den meisten Fällen ist die Programmiersprache Python eine Voraussetzung für die Datenwissenschaft.

Python 3 verfügt über Scraping-Tools und -Module, die Sie auf Ihr Datenverwaltungsprojekt anwenden können. Dieses Modul wird derzeit als Beautiful Soup 4 ausgeführt und ist sowohl mit Python 3 als auch mit Python 2.7 kompatibel. Das Modul Beautiful Soup 4 kann auch einen Analysebaum für nicht geschlossene Tag-Suppen erstellen. In diesem Tutorial erfahren Sie, wie Sie die Seite kratzen und die kratzenden Daten in eine CSV-Datei schreiben.

Loslegen

Richten Sie zunächst einen Server oder eine lokale Python-Codierungsumgebung auf Ihrem PC ein. Sie sollten auch das Modul Beautiful Soup and Requests auf Ihrem Computer installieren. Kenntnisse in der Arbeit mit beiden Modulen sind ebenfalls eine notwendige Voraussetzung. Die Vertrautheit mit HTML-Tagging und -Struktur ist ebenfalls ein zusätzlicher Vorteil.

Ihre Daten verstehen

In diesem Zusammenhang werden reale Daten aus der National Gallery of Art verwendet, um Ihnen das Verständnis für die Verwendung von Beautiful Soup 4 zu erleichtern. Die National Gallery of Art besteht aus 120.000 Werken, die von ungefähr 13.000 Künstlern erstellt wurden. Die Kunst hat ihren Sitz in Washington DC, USA.

Die Extraktion von Webdaten mit Beautiful Soup ist nicht so kompliziert. Wenn Sie sich beispielsweise auf den Buchstaben Z konzentrieren, markieren Sie den Vornamen in der Liste und notieren Sie ihn. In diesem Fall ist der Vorname Zabaglia, Niccola. Geben Sie aus Gründen der Konsistenz die Anzahl der Seiten und den Namen des letzten Künstlers auf dieser Seite an.

So importieren Sie die Bibliothek "Requests and Beautiful Soup"

Aktivieren Sie zum Importieren von Bibliotheken Ihre Python 3-Programmierumgebung. Stellen Sie sicher, dass Sie sich mit Ihrer Programmierumgebung im selben Verzeichnis befinden. Führen Sie den folgenden Befehl aus, um zu beginnen. my_env / bin / enable.

Erstellen Sie eine neue Datei und importieren Sie die Bibliotheken Beautiful Soup und Requests. Mit der Anforderungsbibliothek können Sie HTTP in Ihren Python-Programmen in lesbaren Formaten verwenden. Schöne Suppe hingegen kratzt Seiten schnell. Verwenden Sie bs4, um Beautiful Soup zu importieren.

So sammeln und analysieren Sie eine Webseite

Mit Requests sammeln Sie die URL Ihrer ersten Seite. Die URL der ersten Seite wird der variablen Seite zugewiesen. Erstellen Sie ein BeautifulSoup-Objekt aus Requests und analysieren Sie das Objekt aus Pythons Parser.

In diesem Tutorial sollen Links und Künstlernamen gesammelt werden. Sie können beispielsweise Künstlerdaten und Nationalitäten sammeln. Klicken Sie für Windows-Benutzer mit der rechten Maustaste auf den Vornamen des Künstlers. Verwenden Sie in diesem Fall Zabaglia, Niccola. Tippen Sie für Mac OS-Benutzer auf "STRG" und klicken Sie auf den Namen. Klicken Sie auf das Menü "Element überprüfen", das auf Ihrem Bildschirm angezeigt wird, um auf die Tools der Webentwickler zuzugreifen. Drucken Sie die Namen der Künstler aus, damit Beautiful Soup schnell einen Baum analysiert.

Entfernen der unteren Links

Überprüfen Sie das DOM, indem Sie mit der rechten Maustaste auf das Element klicken, um die unteren Links auf Ihrer Webseite zu entfernen. Sie werden feststellen, dass sich die Links unter einer HTML-Tabelle befinden. Verwenden Sie mit Beautiful Soup die "Zerlegungsmethode", um Tags aus dem Analysebaum zu entfernen.

So ziehen Sie Inhalte aus einem Tag

Sie müssen nicht das gesamte Link-Tag drucken. Verwenden Sie Beautiful Soup, um Material von einem Tag zu entfernen. Sie können auch URLs erfassen, die den Künstlern zugeordnet sind, indem Sie Beautiful Soup 4 verwenden.

Erfassen von Scraped-Daten in einer CSV-Datei

Mit der CSV-Datei können Sie strukturierte Daten in einem einfachen Text speichern, einem Format, das hauptsächlich für Datenblätter verwendet wird. Kenntnisse im Umgang mit Nur-Text-Dateien in Python werden empfohlen.

Die Webdatenextraktion wird verwendet, um Seiten zu kratzen und Informationen zu erhalten. Berücksichtigen Sie die Websites, von denen Sie Informationen extrahieren. Einige dynamische Websites beschränken die Extraktion von Webdaten auf ihren Websites. So einfach ist es, eine Seite mit Beautiful Soup und Python 3 zu kratzen.