[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Erzeugen von durchsuchbaren PDF Dokumenten



hi,

Am 11. Februar 2010 15:20 schrieb Michael Ebner <linux-me@rosinak.at>:
> Hallo,
>
> das ist zwar kein alleiniges Debian Thema aber meine Hoffnung ist das hier
> Leute mitlesen die das wissen koennen.
>
> Ich soll aus einer grossen Menge Scanns die als JPG oder TIF vorliegen,
> PDF Dokumente erzeugen.
>
> Das geht ja mit dem Befehl:
> gm - GraphicsMagick command-line utilities to create, edit, or convert
> images
>
> soweit so gut.
>
> Aber in diesem Dokument kann man anschliessend noch nicht nach Text suchen.
> Gibt es da auch was unter Linux das diese PDF Dokumente anschliessend
> durchsuchbar nach Text macht.
>
> Kann mir bitte jemand einen Hinweis geben.
>
> mfg
>
> Michael Ebner

Ich verstehe ehrlich gesagt nicht warum Menschen immer irgend etwas um
Bilder wrappen müssen. Ich bekam häufig Word-Dateien in denen
Screenshots waren, äußerst unpraktisch sowas. Wenn du das Bild dann
tatsächlich brauchst musst du sie erst wieder ausschneiden etc. Ich
habe meine User das abgewöhnt. Zumal TIF im PDF? Kein Wunder, dass
immer mehr Plattenplatz verlangt wird bei 25MB pro PDF.

Zu deinem Problem. Ich habe für dich nicht DIE Lösung, aber ich sage
dir, wie ich es machen würde:
- Lass die Bilder Bilder sein. Such dir ein DMS oder einen Suchserver
und vergib für die Bilder Schlagworte. Ansonsten kauf ein
professionelles OCR. Sowas sollte man eh zu jedem Dokumentenscanner
hinzufügen und schul die Leute.
- In Zukunft solltest die die User dazu bewegen Dokumente dann auch
als Textdokumente zu scannen und dieses als PDF zu speichern. Wir
haben dafür einen ps2pdf-printer mit Samba, damit wir nicht überall
diese unsäglichen PDF-Kreatoren installieren müssen.

Nur mein Tipp.

Gruß,
Björn


Reply to: