Web Scraping und Data Extraction mit Apify, Teil 1
10.05.2022, 00:00 Uhr
Erntehelfer
Die auf Web Scraping spezialisierte Cloud-Plattform Apify ermöglicht das massenhafte automatisierte Auslesen von Daten aus Websites.
Daten sind unerlässlich für den IT-Alltag und die darauf aufbauenden Anwendungsszenarien. Allerdings stehen nicht immer Schnittstellen zur Verfügung, über die sich wertvolle Daten abfragen lassen. Das ist häufig bei Websites der Fall, die interessante Informationen bereitstellen. Dort ist selten eine Schnittstelle vorhanden, einfach weil es nie vorgesehen war. Andererseits ist eine Website aber auch eine gute Schnittstelle an sich, denn die Informationen wurden bereits zum Client übertragen, um sie dort anzuzeigen. Hier setzt das Web Scraping an, das genau dafür vorgesehen ist, Daten von Websites auszulesen und sie abzuspeichern. In der Regel massenhaft, da selten nur kleine Teile einer Website notwendig sind, sondern meist viele Daten von zahlreichen Seiten.
Web Scraping ist der Kern dieser zweiteiligen Artikelserie, die einen speziellen Fokus auf die Cloud-Plattform Apify [1] richtet. Damit lassen sich sogenannte Aktoren starten, die laufend Daten auslesen und in der Cloud abspeichern. Alternativ bietet Apify SDKs an, wenn diese Aktoren lokal ausgeführt werden sollen. Welche Möglichkeiten und Features von Apify das Web Scraping komfortabler machen, beleuchtet dieser erste Teil der Serie. Ein Folgeartikel wird dann ein Web-Scraping-Beispiel vorstellen, das erfolgreich in einem Forschungskontext zum Einsatz kam.
Jetzt 1 Monat kostenlos testen!
Sie wollen zukünftig auch von den Vorteilen eines plus-Abos profitieren? Werden Sie jetzt dotnetpro-plus-Kunde.
- + Digitales Kundenkonto,
- + Zugriff auf das digitale Heft,
- + Zugang zum digitalen Heftarchiv,
- + Auf Wunsch: Weekly Newsletter,
- + Sämtliche Codebeispiele im digitalen Heftarchiv verfügbar