Texterkennung unter Linux
Zur Navigation springen
Zur Suche springen
Tesseract OCR
- Tesseract ist eine der beliebtesten Open-Source-OCR-Engines.
- Sie können es in Kombination mit anderen Tools verwenden, um Text aus Bildern zu extrahieren.
- Um Tesseract unter Ubuntu zu installieren, können Sie folgenden Befehl verwenden:
- sudo apt-get install tesseract-ocr
OCRmyPDF
- Dieses Tool spezialisiert sich auf die Texterkennung in PDF-Dateien.
- Es nutzt Tesseract unter der Haube, um Text aus eingescannten Dokumenten zu extrahieren und PDF-Dateien durchsuchbar zu machen.
- Sie können OCRmyPDF mit pip installieren:
- pip install ocrmypdf
gImageReader
- Ein benutzerfreundlicher OCR-Client für Tesseract.
- Es ermöglicht die Texterkennung aus Bildern und PDF-Dateien über eine grafische Benutzeroberfläche.
- Sie können es über den Paketmanager Ihrer Linux-Distribution installieren.
OCRFeeder
- Dies ist eine weitere GUI-Anwendung, die auf Tesseract basiert.
- OCRFeeder ermöglicht das Scannen von Dokumenten und die Extraktion von Text.
- Installieren Sie es je nach Distribution über den Paketmanager.