Bei gescannten Dokumenten erfolgt in aller Regel eine Texterkennung (OCR), damit die Inhalte über die Freitextabfrage verfügbar sind. Bei nicht gescannten Dokumenten wird für die Ansicht der Inhalte (fast) immer eine PDF-Datei erstellt, um den darin enthaltenen Text für die Freitextabfrage herauszulesen, d.h. es kommt keine Texterkennung zur Anwendung. Dies ist ebenfalls der Fall, falls direkt durchsuchbare PDF-Dateien vorliegen. Dabei wird bei der ArchivistaBox auf das Tool 'pdftotext' zurückgegriffen. Überlicherweise wird der Text möglichst entsprechend der Darstellung in der PDF-Datei aufbereitet. In Fällen, wo beim Publizieren die Inhalte nicht nach dem visuellen Lesefluss in der PDF-Datei vorzufinden sind, kann es notwendig sein, den Text mit anderen (zusätzlichen) Optionen zu extrahieren. Diese können in diesem Feld angegeben werden. Dabei stehen die folgenden Optionen von pdftotext zur Verfügung:
Besonders erwähnt an dieser Stelle sei der Wert
-f <int> : first page to convert
-l <int> : last page to convert
-r <fp> : resolution, in DPI (default is 72)
-x <int> : x-coordinate of the crop area top left corner
-y <int> : y-coordinate of the crop area top left corner
-W <int> : width of crop area in pixels (default is 0)
-H <int> : height of crop area in pixels (default is 0)
-layout : maintain original physical layout
-fixed <fp> : assume fixed-pitch (or tabular) text
-raw : keep strings in content stream order
-nodiag : discard diagonal text
-htmlmeta : generate a simple HTML file, including the meta information
-tsv : generate a simple TSV file, including the meta information for bounding boxes
-enc <string> : output text encoding name
-listenc : list available encodings
-eol <string> : output end-of-line convention (unix, dos, or mac)
-nopgbrk : don't insert page breaks between pages
-bbox : output bounding box for each word and page size to html. Sets -htmlmeta
-bbox-layout : like -bbox but with extra layout bounding box data. Sets -htmlmeta
-cropbox : use the crop box rather than media box
-colspacing <fp> : how much spacing we allow after a word before considering adjacent text to be a
new column, as a fraction of the font size (default is 0.7, old releases had a 0.3 default)
-opw <string> : owner password (for encrypted files)
-upw <string> : user password (for encrypted files)
-raw
. Mit diesem können z.B. spaltenbasierte PDF-Dateien so aufbereitet werden, dass der Textfluss entlang der Spalten erfolgt.