Selenium

Selenium Headless mit Chrome laufen lassen

Selenium Headless mit Chrome laufen lassen
Wenn Sie Selenium-Webautomatisierung oder Web-Scraping mit dem Chrome-Webbrowser durchführen möchten, wird standardmäßig die grafische Version des Chrome-Webbrowsers ausgeführt. Es ist kein Problem, wenn Sie Ihr Selenium-Skript von einer grafischen Linux-Desktop-Umgebung aus ausführen (i.e., GNOME 3, KDE, XFCE4). Wenn Sie Ihr Selenium-Skript jedoch in einer Headless-Umgebung ausführen möchten (i.e., Ubuntu Server, CentOS/RHEL Server), auf denen keine grafische Desktop-Umgebung installiert ist, funktioniert dies nicht.

Glücklicherweise können Sie Selenium so konfigurieren, dass der Chrome-Webbrowser im Headless-Modus ausgeführt wird. In diesem Modus läuft der Chrome-Webbrowser ohne grafische Benutzeroberfläche run. Selenium kann also Web-Automatisierung, Web-Scraping, Browser-Tests usw. durchführen. Verwenden des Chrome-Webbrowsers auf Linux-Servern, auf denen keine grafische Desktopumgebung installiert ist.

In diesem Artikel zeige ich Ihnen, wie Sie Selenium mit dem Chrome-Webbrowser im Headless-Modus ausführen. Ich werde die Selenium Python-Bibliothek verwenden und die Selenium-Skripte mit der Programmiersprache Python 3 schreiben. Also lasst uns anfangen.

Voraussetzungen:

Um die Befehle und Beispiele aus diesem Artikel auszuprobieren, müssen Sie,

1) Eine auf Ihrem Computer installierte Linux-Distribution (vorzugsweise Ubuntu).
2) Python 3 auf Ihrem Computer installiert.
3) PIP 3 auf Ihrem Computer installiert.
4) Google Chrome auf Ihrem Computer installiert.

Viele Artikel zu diesen Themen finden Sie auf LinuxHint.com. Schauen Sie sie sich an, wenn Sie Hilfe benötigen.

Vorbereiten der virtuellen Python 3-Umgebung für das Projekt:

Python Virtual Environment wird verwendet, um ein isoliertes Python-Projektverzeichnis zu erstellen. Die Python-Module, die Sie mit PIP installieren, werden nur im Projektverzeichnis installiert, nicht global.

Python virtuelle Umgebung -Modul wird verwendet, um virtuelle Python-Umgebungen zu verwalten.

Sie können Python installieren virtuelle Umgebung Modul global mit PIP 3 wie folgt:

$ sudo pip3 install virtualenv

Python virtuelle Umgebung sollte installiert werden.

Erstellen Sie ein Projektverzeichnis chrom-kopflos/ in Ihrem aktuellen Arbeitsverzeichnis wie folgt:

$ mkdir -pv chrome-headless/drivers

Navigieren Sie zu Ihrem neu erstellten Projektverzeichnis chrom-kopflos/ wie folgt:

$ cd chrom-kopflos /

Erstellen Sie mit dem folgenden Befehl eine virtuelle Python-Umgebung in Ihrem Projektverzeichnis:

$ virtualenv .venv

Die virtuelle Python-Umgebung sollte im . erstellt werden .venv/ Verzeichnis in Ihrem Projektverzeichnis.

Aktivieren Sie die virtuelle Python-Umgebung Ihres Projektverzeichnisses mit dem folgenden Befehl:

$ Quelle .venv/bin/aktivieren

Installieren der Selenium-Python-Bibliothek:

Die Selenium-Bibliothek ist im offiziellen Python PyPI-Repository verfügbar.

Sie können die Selenium Python-Bibliothek mit PIP 3 wie folgt installieren:

$ pip3 Selen installieren

Selenium Python Bibliothek sollte installiert sein.

Installieren des Chrome-Webtreibers:

Mit Chrome Web Driver können Sie den Google Chrome-Webbrowser von Selenium aus steuern oder automatisieren.

In diesem Abschnitt zeige ich Ihnen, wie Sie den Chrome Web Driver installieren.

Öffnen Sie zuerst Google Chrome und besuchen Sie chrome://settings/help.

Sobald die Seite geladen ist, sollten Sie die Versionsnummer von Google Chrome im Über Chrome Sektion. Beachten Sie die ersten 3 Abschnitte der Versionsnummer, wie im Screenshot unten markiert.

Um den Chrome Web Driver herunterzuladen, besuchen Sie die offizielle Downloadseite für den Chrome-Treiber.

In dem Aktuelle Veröffentlichungen Abschnitt sollte Chrome Web Driver für die aktuellsten Versionen des Google Chrome Webbrowsers verfügbar sein, wie Sie im Screenshot unten sehen können. Eine der aktuellen Chrome Web Driver-Versionen sollte eine mit Ihrem Google Chrome-Webbrowser übereinstimmende Versionsnummer haben. Die ersten 3 Abschnitte der Versionsnummer von Chrome Web Driver und Google Chrome Webbrowser müssen übereinstimmen.

Wenn die gesuchte Version nicht in der Aktuelle Veröffentlichungen Abschnitt, scrollen Sie ein wenig nach unten, und Sie sollten es finden können.

Sobald Sie auf die Versionsnummer von Chrome Web Driver klicken, sollte die Download-Seite angezeigt werden. Klick auf das chromedriver_linux64.Postleitzahl Datei von hier.

Das Chrome Web Driver-Archiv sollte heruntergeladen werden.

Das heruntergeladene chromedriver_linux64.Postleitzahl Datei sollte in Ihrem ~/Downloads Verzeichnis.

$ls -lh ~/Downloads

Extrahieren Sie die chromedriver_linux64.Postleitzahl Archiv aus dem ~/Downloads Verzeichnis zum Fahrer/ Verzeichnis Ihres Projekts wie folgt:

$ entpacken ~/Downloads/chromedriver_linux64.zip -d Treiber/

Eine neue Datei Chromtreiber sollte im erstellt werden Fahrer/ Verzeichnis Ihres Projekts, sobald das Chrome Web Driver-Archiv extrahiert wurde, wie Sie im Screenshot unten sehen können.

Testen des Chrome-Webtreibers im Headless-Modus:

In diesem Abschnitt zeige ich Ihnen, wie Sie Selenium mit dem Chrome-Treiber im Headless-Modus ausführen.

Erstellen Sie zuerst ein neues Python-Skript ex01.py in Ihrem Projektverzeichnis und geben Sie die folgenden Codezeilen ein.

vom Selen-Import-Webtreiber
aus Selen.Webtreiber.verbreitet.Schlüsselimport Schlüssel
aus Selen.Webtreiber.Chrom.Optionen importieren Optionen
chromeOptions = Optionen()
chromeOptionen.kopflos = wahr
Browser = Webtreiber.Chrome(executable_path="./drivers/chromedriver", options=chromeOptions)
Browser.get("http://linuxhint.com")
print("Titel: %s" % browser.Titel)
Browser.Verlassen()

Wenn Sie fertig sind, speichern Sie die ex01.py Python-Skript.

Diese Zeilen importieren alle erforderlichen Dinge aus dem Selen Bibliothek.

Wie ich bereits sagte, versucht der Chrome-Treiber standardmäßig, Google Chrome im grafischen Modus auszuführen. Um Google Chrome im Headless-Modus auszuführen, müssen wir den Chrome-Treiber anweisen, einige zusätzliche Optionen zu übergeben. Diese Zeile erzeugt ein Optionen Objekt, das wir später an den Chrome-Webtreiber weitergeben können.

Sie können Google Chrome im Headless-Modus ausführen, indem Sie einfach die kopflos Eigentum der chromeOptionen widersprechen Wahr.

Oder Sie können die add_argument() Methode der chromeOptionen Objekt hinzufügen -kopflos Befehlszeilenargument zum Ausführen von Google Chrome im Headless-Modus mit dem Selenium Chrome-Webtreiber.

Sie können a . verwenden Webtreiber.Chrom() Methode zum Initialisieren/Ausführen eines Google Chrome-Webbrowsers von Selenium. Das ausführbarer_Pfad Argument wird verwendet, um Selenium anzuweisen, das Chromtreiber binär aus dem Fahrer/ Verzeichnis des Projekts. Das Optionen Argument weist Selenium an, unsere benutzerdefinierten Optionen zu verwenden chromeOptionen.

Sobald Selenium einen Google Chrome-Webbrowser mit dem Selenium Chrome-Webtreiber ausführt, gibt er a Browser Objekt. Wir können damit später die Google Chrome-Instanz steuern.

Das Browser.erhalten() Methode lädt die linuxhint.com Website im Webbrowser Google Chrome im Hintergrund (im Headless-Modus).

Sobald die Seite geladen ist, Browser.Titel Eigentum wird den Titel der Website haben. Die Python drucken() Methode druckt den Titel der Website auf der Konsole.

Dann ist die Browser.Verlassen() Methode schließt den Google Chrome-Webbrowser.

Um zu testen, ob Selenium im Headless-Modus funktioniert, führen Sie das Python-Skript aus ex01.py wie folgt:

$ python3 ex01.py

Es sollte den Titel der Website auf der Konsole drucken, ohne den Google Chrome-Webbrowser im grafischen Modus zu öffnen.

Nur um Ihnen zu zeigen, dass es von Linux-Headless-Servern aus funktioniert (auf denen keine grafische Benutzeroberfläche installiert ist), habe ich das Python-Skript ausgeführt ex01.py auf Ubuntu Server 20.04 LTS. Wie Sie sehen, funktioniert das Skript einwandfrei.

Web Scraping mit Selenium im Headless-Modus mit dem Chrome Web Driver:

In diesem Abschnitt zeige ich Ihnen ein Beispiel für Web-Scraping in Selenium mit dem Chrome-Webtreiber im Headless-Modus.

Besuchen Sie zuerst den Zufallsnamen-Generator.Informationen von Google Chrome oder einem anderen Webbrowser. Diese Website generiert jedes Mal 10 zufällige Namen, wenn Sie die Seite neu laden, wie Sie im Screenshot unten sehen können. Unser Ziel ist es, diese zufälligen Namen mit Selenium im Headless-Modus zu extrahieren.

Um die HTML-Struktur der Liste herauszufinden, müssen Sie das Chrome-Entwicklertool. Drücken Sie dazu die rechte Maustaste (RMB) auf der Seite und klicken Sie auf Prüfen oder drücke + + ich.

Chrome-Entwicklertool sollte geöffnet werden. Klick auf das Prüfsymbol () wie im Screenshot unten markiert.

Bewegen Sie dann den Mauszeiger über die Liste der Zufällige Namen. Die Liste sollte wie im Screenshot unten markiert markiert sein. Drücken Sie dann die linke Maustaste (LMB), um die Liste auszuwählen.

Der HTML-Code der Liste sollte im Elemente Registerkarte des Chrome-Entwicklertool. Hier befindet sich die Liste der zufälligen Namen in a div Element. Das div Element hat die Klasse Name Ergebnisse. Darin haben wir ein ol Element mit dem Klasse Name Namensliste. Innerhalb der ol Element, jeder der Namen ist in a li Element.

Daraus können wir sagen, dass um zum zu gelangen li Tags, wir müssen folgen div.Ergebnisse > ol.Namensliste > li

Unser CSS-Selektor wird also sein div.Ergebnisse ol.Namensliste li (ersetzen Sie einfach die > Zeichen mit Leerzeichen)

Um diese zufälligen Namen zu extrahieren, erstellen Sie ein neues Python-Skript ex02.py und geben Sie die folgenden Codezeilen ein.

vom Selen-Import-Webtreiber
aus Selen.Webtreiber.verbreitet.Schlüsselimport Schlüssel
aus Selen.Webtreiber.Chrom.Optionen importieren Optionen
chromeOptions = Optionen()
chromeOptionen.kopflos = wahr
Browser = Webtreiber.Chrome(executable_path="./drivers/chromedriver", options=chromeOptions)
Browser.get("http://zufalls-name-generator.die Info/")
Namensliste = Browser.find_elements_by_css_selector('div.Ergebnisse ol.Namensliste li')
für Namen in Namensliste:
drucken (Name.Text)
Browser.Verlassen()

Wenn Sie fertig sind, speichern Sie die ex02.py Python-Skript.

Ich habe die Zeilen 1-8 im vorherigen Abschnitt dieses Artikels erklärt. Dies sind die gleichen wie in ex01.py.

Zeile 10 lädt die Website des Zufallsnamengenerators mit dem Browser.erhalten() Methode.

Zeile 11 wählt die Namensliste mit der Browser.find_elements_by_css_selector() Methode. Diese Methode verwendet den CSS-Selektor div.Ergebnisse ol.Namensliste li um die Namensliste zu finden. Anschließend wird die Namensliste im Namensliste Variable.

In den Zeilen 13 und 14, a zum Schleife wird verwendet, um durch die Namensliste Liste von li Elemente. In jeder Iteration wird der Inhalt der li Element wird auf der Konsole gedruckt.

Führen Sie nun das Python-Skript aus ex02.py wie folgt:

$ python3 ex02.py

Wie Sie sehen können, ist das Python-Skript ex02.py habe alle zufälligen Namen von der Webseite geholt.

Wenn Sie das Skript ein zweites Mal ausführen, sollte es eine neue Liste mit zufälligen Namen zurückgeben, wie Sie im Screenshot unten sehen können.

Probleme, denen Sie beim Ausführen von Selenium im Headless-Modus begegnen können:

Sie haben bereits gesehen, dass die Ausführung von Selenium im Headless-Modus mit dem Chrome-Treiber so einfach ist wie das Einstellen der chromeOptionen.kopflos Flagge zu Wahr.

Diese Lösung funktioniert bei einigen Linux-Distributionen möglicherweise nicht. In diesem Abschnitt werde ich über einige der Probleme sprechen, die beim Ausführen von Selenium im Headless-Modus mit dem Chrome-Webtreiber auftreten können.

Standardmäßig führt der Google Chrome-Webbrowser viel Sandboxing durch (führt viele Dinge in einer isolierten Umgebung aus). Dies kann zu Problemen führen, wenn Selenium im Headless-Modus mit dem Chrome-Webtreiber ausgeführt wird. Sie können Sandboxing für Google Chrome deaktivieren, indem Sie das -kein Sandkasten Flagge.

Um das hinzuzufügen -kein Sandkasten Flag, fügen Sie die folgende Zeile hinzu, bevor Sie den Selenium Chrome-Treiber mit driver initialisieren Webtreiber.Chrom() Methode (Zeile 8 im ex01.py Python-Skript).

chromeOptionen.add_argument("--no-sandbox")

Möglicherweise haben Sie Probleme, bestimmte Dinge im Google Chrome-Webbrowser von Selenium aus auszuführen, z. B. Screenshots der Website zu erstellen und so weiter. Dies kann passieren, weil Google Chrome im Headless-Modus möglicherweise eine falsche virtuelle Bildschirmauflösung einstellt. Ihre Website sieht also möglicherweise nicht richtig aus. Sie können Ihre gewünschte virtuelle Bildschirmauflösung für den Google Chrome-Webbrowser im Headless-Modus mit dem -Fenstergröße Befehlszeilenoption.

Um beispielsweise die virtuelle Bildschirmbreite auf set einzustellen 1280 px und Höhe zu 720 Pixel, Ergänzen Sie die -Fenstergröße Befehlszeilenoption vor der Initialisierung des Selenium Chrome-Treibers mit Webtreiber.Chrom() Methode (Zeile 8 im ex01.py Python-Skript) wie folgt:

chromeOptionen.add_argument("--window-size=1280,720")

Auf Ihrem Server ist möglicherweise keine GPU installiert, oder er hat eine GPU, die der Google Chrome-Webbrowser nicht verwenden kann. Standardmäßig sollte Google Chrome die GPU-Beschleunigung automatisch deaktivieren, wenn eine GPU nicht verfügbar ist oder wenn eine nicht unterstützte GPU verfügbar ist. In einigen Fällen kann dies fehlschlagen. In diesem Fall kann Selenium den Google Chrome-Webbrowser möglicherweise nicht im Headless-Modus ausführen. Um dieses Problem zu lösen, müssen Sie die GPU-Beschleunigung mit dem deaktivieren -deaktivieren-gpu Flagge.

Um das hinzuzufügen -deaktivieren-gpu Flag, fügen Sie die folgende Zeile hinzu, bevor Sie den Selenium Chrome-Treiber mit driver initialisieren Webtreiber.Chrom() Methode (Zeile 8 im ex01.py Python-Skript).

chromeOptionen.add_argument("-disable-gpu")

Fazit:

In diesem Artikel habe ich Ihnen gezeigt, wie Sie Selenium im Headless-Modus mit dem Chrome-Webtreiber einrichten. Ich habe die Grundlagen behandelt, die Ihnen den Einstieg in die kopflose Selenium-Browserautomatisierung, Webtests und Web-Scraping erleichtern.

Ich habe auch einige der Google Chrome-Befehlszeilenargumente / -Flags behandelt, mit denen Sie einige der Probleme lösen können, die beim Ausführen von Selenium im Headless-Modus mit dem Chrome-Webtreiber auftreten können.

Es stehen noch viele weitere Google Chrome-Befehlszeilenoptionen zur Verfügung, die ich in diesem Artikel nicht behandelt habe. Diese Befehlszeilenoptionen können für Ihr Projekt nützlich sein. Sie finden alle unterstützten Google Chrome-Befehlszeilenoptionen auf der Seite Liste der Chromium-Befehlszeilenschalter von Peter Beverloo.

Top 5 Karten zur Spielaufnahme
Wir alle haben Streaming-Gameplays auf YouTube gesehen und geliebt. PewDiePie, Jakesepticye und Markiplier sind nur einige der Top-Gamer, die Millione...
So entwickeln Sie ein Spiel unter Linux
Vor einem Jahrzehnt hätten nicht viele Linux-Benutzer vorhergesagt, dass ihr Lieblingsbetriebssystem eines Tages eine beliebte Spieleplattform für kom...
Open-Source-Ports kommerzieller Spiele-Engines
Kostenlose, quelloffene und plattformübergreifende Spiel-Engine-Nachbildungen können verwendet werden, um sowohl alte als auch einige der relativ neue...