Texterkennung unter Linux

Aus xinux.net
Zur Navigation springen Zur Suche springen

Tesseract OCR

  • Tesseract ist eine der beliebtesten Open-Source-OCR-Engines.
  • Sie können es in Kombination mit anderen Tools verwenden, um Text aus Bildern zu extrahieren.
  • Um Tesseract unter Ubuntu zu installieren, können Sie folgenden Befehl verwenden:
  • sudo apt-get install tesseract-ocr

OCRmyPDF

  • Dieses Tool spezialisiert sich auf die Texterkennung in PDF-Dateien.
  • Es nutzt Tesseract unter der Haube, um Text aus eingescannten Dokumenten zu extrahieren und PDF-Dateien durchsuchbar zu machen.
  • Sie können OCRmyPDF mit pip installieren:
  • pip install ocrmypdf

gImageReader

  • Ein benutzerfreundlicher OCR-Client für Tesseract.
  • Es ermöglicht die Texterkennung aus Bildern und PDF-Dateien über eine grafische Benutzeroberfläche.
  • Sie können es über den Paketmanager Ihrer Linux-Distribution installieren.

OCRFeeder

  • Dies ist eine weitere GUI-Anwendung, die auf Tesseract basiert.
  • OCRFeeder ermöglicht das Scannen von Dokumenten und die Extraktion von Text.
  • Installieren Sie es je nach Distribution über den Paketmanager.