Peter Blancke
2024-10-21 07:46:04 UTC
Guten Tag,
ich habe hier (aktuelles Archlinux) eine Menge (> 500K) PDF per OCR
(ocrmypdf/tesseract) zu behandeln, allerdings nur dann, wenn die
PDF-Files nicht ohnehin schon indizierbaren Text enthalten.
Die anschließende Indizierung zu Zwecken der Durchsuchbarkeit
erfolgt wahlweise durch recollindex bzw. DocFetcher.
Nun kann ocrmypdf/tesseract dieses bereits von Haus aus und
überspringt solche PDF, die bereits indizierbaren Text enthalten.
Der Vorgang dauert aber sehr lange.
Zur Zeit löse ich in Bash das Problem mit folgender Schleife, die
ich um ocrmypdf herumbastele:
,----
| for i in *pdf; do
| test 0 -eq $(pdftotext "$i" - | wc -l) && ocrmypdf...
| done
`----
Auch das kostet Zeit, aber deutlich weniger.
Hat jemand noch eine andere bessere Idee?
Gruß,
Peter Blancke
ich habe hier (aktuelles Archlinux) eine Menge (> 500K) PDF per OCR
(ocrmypdf/tesseract) zu behandeln, allerdings nur dann, wenn die
PDF-Files nicht ohnehin schon indizierbaren Text enthalten.
Die anschließende Indizierung zu Zwecken der Durchsuchbarkeit
erfolgt wahlweise durch recollindex bzw. DocFetcher.
Nun kann ocrmypdf/tesseract dieses bereits von Haus aus und
überspringt solche PDF, die bereits indizierbaren Text enthalten.
Der Vorgang dauert aber sehr lange.
Zur Zeit löse ich in Bash das Problem mit folgender Schleife, die
ich um ocrmypdf herumbastele:
,----
| for i in *pdf; do
| test 0 -eq $(pdftotext "$i" - | wc -l) && ocrmypdf...
| done
`----
Auch das kostet Zeit, aber deutlich weniger.
Hat jemand noch eine andere bessere Idee?
Gruß,
Peter Blancke
--
Hoc est enim verbum meum!
Hoc est enim verbum meum!