Testautomatisierung für .NET-Apps, Teil 3
13.11.2023, 00:00 Uhr
Scraping, Harvesting und Analyse
Playwright unterstützt programmgesteuerte Interaktionen mit Webseiten und Web-Apps zur Informationsgewinnung durch Scraping und Harvesting.
Das Testing-Framework Playwright von Microsoft [1] eignet sich nicht nur für die Automatisierung von Tests, sondern auch für die Realisierung von Web-Scraping beziehungsweise Harvesting. Diese Softwaretechnik erkundet automatisch Websites oder Web-Apps, um aus ihnen Daten für nachgelagerte Auswertungszwecke zu extrahieren. Spezielle Features von Playwright führen Interaktionen aus oder stellen passende Daten bereit, um einen Zugriff auf die gewünschte Website oder Web-App zu erhalten. Beispielsweise zählen dazu die Klasse FormData oder die verschiedenen Methoden des Locator-Objekts wie FillAsync(), TypeAsync() oder DragToAsync().
Im Unterschied zu Webcrawlern oder Spidern umgehen selbst programmierte Scraper beziehungsweise Harvester auch vorgegebene Einschränkungen der Betreiber von Websites und Web-Apps (siehe auch den Kasten Rechtliche Einstufung von Scraping/Harvesting). Prinzipiell werten Crawler nur Inhalte von Webseiten aus, die sie über einfache Links erreichen. Hält sich der Crawler an den Robots-Exclusion-Standard, so indexiert er nur in der Datei robots.txt referenzierte Webseiten. Auch Meta-Informationen im HTML-Quelltext einer Webseite können das Indexieren eines Crawlers verhindern. Ferner erschweren massive Verzögerungen der Antwortzeiten des Servers beziehungsweise der App oder Captcha-Dienste den Zugriff auf eine Website.
Jetzt 1 Monat kostenlos testen!
Sie wollen zukünftig auch von den Vorteilen eines plus-Abos profitieren? Werden Sie jetzt dotnetpro-plus-Kunde.
- + Digitales Kundenkonto,
- + Zugriff auf das digitale Heft,
- + Zugang zum digitalen Heftarchiv,
- + Auf Wunsch: Weekly Newsletter,
- + Sämtliche Codebeispiele im digitalen Heftarchiv verfügbar