PDF

So extrahieren Sie Tabellen aus PDF-Dokumenten

So extrahieren Sie Tabellen aus PDF-Dokumenten

Dieser Artikel zeigt Ihnen, wie es geht Tabellen aus PDF-Dokumenten extrahieren. Möglicherweise haben Sie viele PDF-Dateien, die mehrere Tabellen enthalten, die Sie separat verwenden möchten. Das Kopieren und Einfügen dieser Tabellen ist keine gute Option, da es möglicherweise nicht die erwartete Ausgabe liefert. Daher benötigen Sie einige andere einfache Optionen, die Tabellen aus einer PDF-Datei extrahieren und diese Tabellen als separate Dateien speichern können.

Die meisten von diesen Tools zum Extrahieren von PDF-Tabellen kann nicht helfen, wenn die PDF-Tabelle gescannt wird. In einem solchen Fall sollten Sie die PDF zuerst durchsuchbar machen und dann diese Optionen ausprobieren.

Tabellen aus PDF-Dokumenten extrahieren

In diesem Beitrag haben wir 2 kostenlose Online-Dienste und 3 kostenlose Software zum Extrahieren von Tabellen aus einer PDF-Datei hinzugefügt:

  1. PDF zu XLS
  2. PDFtoExcel.com
  3. Tabula
  4. ByteScout PDF-Multitool
  5. Sejda PDF-Desktop.

1] PDF zu XLS

PDF to XLS ist eine der besten Optionen zum Extrahieren von Tabellen aus PDF. Es hat zwei Funktionen, die es praktisch machen. Sie können Tabellen holen von 20 PDF Dokumente zusammen. Außerdem erfolgt die Extraktion der PDF-Tabelle automatisch. Es erzeugt die Ausgabe als an XLSX Datei. Wenn eine PDF-Datei mehrere Tabellen enthält, wird jede Tabelle separat in verschiedenen Blättern der XLSX-Ausgabedatei gespeichert.

Öffnen Sie die Homepage dieses Dienstes. Ziehen Sie danach PDF-Dateien per Drag & Drop oder verwenden Sie DATEN HOCHLADEN Taste. Jedes hochgeladene PDF wird automatisch in eine XLSX-Datei konvertiert. Wenn die Ausgabedateien fertig sind, können Sie sie einzeln herunterladen oder eine ZIP-Datei herunterladen, die alle Ausgabedateien enthält.

2] PDFtoExcel.com

PDFtoExcel.com-Dienst kann Tabellen aus einer PDF-Datei gleichzeitig extrahieren, unterstützt jedoch mehrere Plattformen zum Hochladen von PDF-Dateien. Es unterstützt Eine Fahrt, Desktop, Google Drive, und Dropbox Plattformen, um ein PDF hochzuladen. Außerdem ist der Konvertierungsprozess automatisch.

Diese Service-Homepage ist da. Wählen Sie dort eine Upload-Option aus, um PDF hinzuzufügen. Danach wird die PDF-Datei automatisch in eine Excel-Datei (XLSX) hochgeladen und konvertiert. Wenn die Ausgabe fertig ist, erhalten Sie den Download-Link zum Speichern der Ausgabedatei mit PDF-Tabelle(n).

Hinweis: Obwohl dieser Dienst erwähnt, dass er auch Tabellen aus gescannten PDF-Dateien extrahieren kann, hat es bei mir nicht funktioniert. Sie können es immer noch für gescannte PDFs versuchen.

3] Tabula

Tabula ist eine leistungsstarke Software, die in einem PDF vorhandene Tabellen automatisch erkennt und diese Tabellen dann als TSV, JSON, oder CSV Datei. Sie können die Option zum Speichern separater CSV-Dateien für jede PDF-Tabelle auswählen oder alle Tabellen in einer einzigen CSV-Datei speichern.

Um dies herunterzuladen Open Source PDF-Tabellenextraktor, klicken Sie hier. Es auch erfordert Java um es erfolgreich auszuführen und zu verwenden.

Extrahieren Sie die heruntergeladene ZIP-Datei und führen Sie sie aus tabula.exe Datei. Es öffnet sich eine Seite in Ihrem Standardbrowser. Wenn die Seite nicht geöffnet ist, fügen Sie http://localhost:8080 in Ihrem Browser hinzu und drücken Sie Eingeben.

Jetzt sehen Sie die Benutzeroberfläche, in der Sie die Durchsuche Option zum Hinzufügen einer PDF. Drücken Sie danach Importieren Taste. Wenn das PDF hinzugefügt wird, können Sie PDF-Seiten auf der Benutzeroberfläche sehen.

Benutzen Tabellen automatisch erkennen Schaltfläche und es werden alle Tabellen in diesem PDF automatisch hervorgehoben. Sie können eine Tabelle auch manuell hervorheben, indem Sie eine bestimmte Tabelle auswählen. Wenn du willst, kannst du auch Ausgewählte Tabellen entfernen Ihrer Wahl.

Auf diese Weise können Sie nur die Tabellen speichern, die Sie möchten. Wenn PDF-Tabellen markiert sind, klicken Sie auf das Vorschau und Export extrahierter Daten Taste.

Verwenden Sie schließlich das Dropdown-Menü im oberen Teil, um ein Ausgabeformat auszuwählen, und drücken Sie Export Taste. Dadurch werden PDF-Tabellen in der von Ihnen ausgewählten Ausgabeformatdatei gespeichert.

4] ByteScout PDF-Multitool

Wie der Name schon sagt, wird diese Software mit mehreren Tools geliefert. Es hat Werkzeuge wie PDF in mehrseitiges TIFF konvertieren, PDF-Dokument drehen, PDF nicht durchsuchbar machen, PDF optimieren, Bild zu PDF hinzufügen image, und mehr. Die PDF-Tabellendetektorfunktion ist ebenfalls vorhanden, was ziemlich großartig ist pretty. Der Vorteil dieses Tools ist, dass Sie Tabellen aus gescanntem PDF extrahieren auch. Sie können Tabellen auf mehreren Seiten erkennen und diese Tabellen dann als CSV, XLS, XML, TXT, oder JSON Datei formatieren. Vor der Extraktion können Sie auch a also SeitenReichweite um Tabellen nur von bestimmten Seiten zu extrahieren.

Sie können diese Software hier herunterladen. Es ist kostenlos für nicht-kommerzielle Nutzung nur. Führen Sie nach der Installation diese Software aus und verwenden Sie Dokument öffnen Option zum Hinzufügen einer PDF. Klicken Sie danach auf das Tabellen erkennen Werkzeug wie im Bild oben hervorgehoben. Dieses Tool ist vorhanden unter Datenextraktion Kategorie.

Es öffnet sich ein Feld, in dem Sie Bedingungen zum Erkennen von Tabellen festlegen können detect. Sie können beispielsweise eine Mindestanzahl von Spalten, Zeilen, minimalen Zeilenumbrüchen zwischen Tabellen festlegen, den Tabellenerkennungsmodus auf umrandete oder randlose Tabelle setzen usw. Verwenden Sie Optionen oder behalten Sie die Standardeinstellungen bei.

Drücken Sie danach Nächsten Tisch erkennen Knopf in diesem Feld. Es identifiziert und wählt eine Tabelle auf der aktuellen Seite select. Auf diese Weise können Sie zu einer anderen Seite wechseln und weitere Tabellen erkennen.

Wenn Sie fertig sind, verwenden Sie Weiter zur Extraktion -Taste und wählen Sie das Ausgabeformat. Schließlich können Sie mit Optionen die Tabellen der aktuellen Seite speichern oder einen Seitenbereich definieren und die Ausgabe speichern.

Das Tool liefert eine zufriedenstellende Ausgabe. Manchmal erkennt es jedoch andere Inhalte in PDF und kann möglicherweise keine Tabellen aus mehreren Seiten extrahieren. In diesem Fall sollten Sie es verwenden, um Tabellen einzeln abzurufen und zu speichern.

5] Sejda PDF-Desktop

Sejda PDF Desktop ist auch eine Mehrzwecksoftware. Es kann optimieren oder PDF komprimieren, Wasserzeichen zu PDF hinzufügen, Einschränkungen aus PDF entfernen, PDF-Dokument bearbeiten usw. Der kostenlose Plan hat jedoch Einschränkungen. Im kostenlosen Plan können nur 3 Aufgaben pro Tag erledigt werden. Außerdem ist die PDF-Größenbeschränkung 50 MB oder 10 Seiten.

Sie können es verwenden PDF zu Excel Konvertierungstool zum Extrahieren von PDF-Tabellen. Es erkennt automatisch die Tabellen in PDF-Seiten und lässt Sie diese Tabellen als XLSX oder CSV speichern.

Der Download-Link ist hier. Verwenden Sie nach der Installation das PDF-zu-Excel-Tool über die Hauptschnittstelle. Nachdem Sie dieses Werkzeug ausgewählt haben, verwenden Sie Wählen Sie PDF-Dateien Taste. Dem kostenlosen Plan kann nur ein PDF hinzugefügt werden.

Wenn das PDF hinzugefügt wird, bietet es PDF in CSV konvertieren und PDF in Excel konvertieren PDF Tasten. Über eine Schaltfläche können Sie die Ausgabe an der gewünschten Stelle auf Ihrem PC speichern.

Das Tool zur Erkennung von PDF-Tabellen ist gut. Sie müssen Tabellen nicht manuell erkennen. Trotzdem kann es manchmal andere Textinhalte als PDF-Tabelle enthalten und in der Ausgabe speichern. Aber das Gesamtergebnis ist gut.

Das ist alles.

Dies sind einige gute Tools zum Extrahieren von Tabellen aus PDF. Die Tabula-Software ist effektiver als andere Tools. Sie können jedoch alle Tools ausprobieren und überprüfen, welche helfen.

Ähnliches liest sich:

So installieren und spielen Sie Doom unter Linux
Einführung in Doom Die Doom-Serie entstand in den 90er Jahren nach der Veröffentlichung des ursprünglichen Doom. Es war sofort ein Hit und seitdem hat...
Vulkan für Linux-Benutzer
Mit jeder neuen Grafikkartengeneration stoßen Spieleentwickler an die Grenzen der grafischen Wiedergabetreue und kommen dem Fotorealismus einen Schrit...
OpenTTD vs. Simutrans
Das Erstellen einer eigenen Transportsimulation kann Spaß machen, entspannend und äußerst verlockend sein. Deshalb sollten Sie so viele Spiele wie mög...