{"id":1630,"date":"2015-10-07T23:48:08","date_gmt":"2015-10-07T21:48:08","guid":{"rendered":"http:\/\/archivista.ch\/cms\/?page_id=1630"},"modified":"2017-06-14T15:37:49","modified_gmt":"2017-06-14T13:37:49","slug":"ocr-speed-pdf","status":"publish","type":"page","link":"https:\/\/archivista.ch\/cms\/de\/aktuell-blog\/jahre-2008-2019\/blogs-2015\/ocr-speed-pdf\/","title":{"rendered":"OCR, Speed &#038; PDF"},"content":{"rendered":"<h1>\n\tArchivistaBox 2015\/X: Texterkennung, durchsuchbare PDF-Dateien und Optimierungen um den Faktor 2.x<br \/>\n<\/h1>\n<p>\n\t<em><strong>Egg, 7. Oktober 2015:<\/strong> Mit dem Release 2015\/X stehen Neuerungen zur Verf&uuml;gung, welche die Verarbeitungszeiten f&uuml;r viele Jobs um den Faktor 1:2 oder noch h&ouml;her verbessern. So kann die Verarbeitung in ArchivistaDMS &uuml;ber s&auml;mtliche CPU-Kerne nach Bedarf verteilt werden. Dies ergibt neben einer h&ouml;heren Verarbeitungsgeschwindigkeit beim Einlesen von neuen Dokumenten eine deutlich h&ouml;here Geschwindikgeit bei der Texterkennung (OCR). Dabei erstellte PDF-Dokumente k&ouml;nnen neu direkt in einen externen Windows-Ordner erstellt werden, womit die ArchivistaBox zur vollautomatischen Erstellung von durchsuchbaren PDF-Dateien verwendet werden kann. Selbstragende Archivie k&ouml;nnen nun auch von den ARM-basierten ArchivistaBox-Systemen erstellt werden, die dazu notwendige ISO-Datei ist noch 80 MByte gross.<\/em>\n<\/p>\n<p>\n\t<em><img decoding=\"async\" alt=\"\" src=\"https:\/\/archivista.ch\/cms\/wp-content\/uploads\/image\/gipfel.jpg\" style=\"width: 600px; height: 450px;\" \/><\/em>\n<\/p>\n<h2>\n\tVerarbeitung mit beliebig vielen CPU-Kernen<br \/>\n<\/h2>\n<p>\n\tSeit einigen Jahren werden Computer vermehrt mit mehreren Prozessoren (CPUs) ausgeliefert. Davon profitieren Programme aber nur, wenn sie daf&uuml;r optimiert wurden. Bei der ArchivistaBox war dies bislang einzig bei der Texterkennung der Fall, und auch da nur, wenn hintereinander viele Dokumente zur Bearbeitung anstanden. Mit dem aktuellen <strong>Release 2015\/X werden die Dokumente &uuml;ber die vorhandenen Prozessoren parallel verarbeitet. Bei acht Prozessoren kann z.B. ein 200 seitiges Dokument in einem Achtel der bisherigen Zeit verarbeitet werden, wenn s&auml;mtliche Prozessoren gleichzeitig angeworfen werden.<\/strong> Klingt einigermassen banal, ist es aber nicht. Denn wenn die gesamte Rechenzeit f&uuml;r einen Job freigegeben wird, kann an anderer Stelle ein Engpass entstehen.\n<\/p>\n<p>\n\tNun &uuml;berwacht das Betriebssystem die laufenden Programme dahingehend, dass nicht ein Job s&auml;mtliche Ressourcen erh&auml;lt. Vielmehr wird die verf&uuml;gbare Kapazit&auml;t geteilt. Trotzdem ist es nicht zwingend eine gute Idee, gleichzeitig zuviele Programme zu starten. Kleines Beispiel: Wenn gleichzeitig 1000 Jobs f&uuml;r die Texterkennung gestartet werden, werden s&auml;mtliche Dokumente zwar alle gleichzeitig abgearbeitet, dies freilich um den Preis, das kein Job bevorzugt beendet werden kann. Im d&uuml;mmsten Fall steht f&uuml;r die 1000 Jobs zuwenig Speicher (RAM) zur Verf&uuml;gung, womit zumindest ein Teil der Dokumente in der Vearbeitung &quot;h&auml;ngen&quot; bleibt.\n<\/p>\n<p>\n\t<img decoding=\"async\" alt=\"\" src=\"https:\/\/archivista.ch\/cms\/wp-content\/uploads\/image\/wegweiser.jpg\" style=\"margin: 5px 10px; float: right; width: 293px; height: 519px;\" \/>Als Grundregel gilt: Anzahl der verf&uuml;gbaren CPU-Kerne gleich Anzahl der gleichzeitig laufenden Programme. Damit ist sichergestellt, dass die Jobs mit hoher Priorit&auml;t abgearbeitet werden k&ouml;nnen. Genau hier setzt die neue <strong>Version 2015\/X an. Je nach Einsatzzweck k&ouml;nnen die CPU-Kerne pro Kunde individualisiert eingesetzt werden.<\/strong> Beispiel A: Es greifen viele Benutzer gleichzeitig auf das Archiv zu, das Volumen der neu zu erfassenden Dokumente ist eher niedrig. L&ouml;sung A: F&uuml;r die Verarbeitung werden nur 1 oder 2 CPU-Kerne reserviert. Beispiel B: Es gibt sehr viele gescannte Dokumente, die m&ouml;glichst schnell in durchsuchbare PDF-Dateien konvertiert werden m&uuml;ssen. L&ouml;sung B: F&uuml;r die Verarbeitung werden s&auml;mtliche CPU-Kerne freigegeben. Die Zugriffsgeschwindigkeit auf das Archiv leidet darunter ein wenig, daf&uuml;r werden die Dokumente um den Faktox X schneller abgearbeitet.\n<\/p>\n<p>\n\tZum Abschluss ein zwei Messungen aus der Praxis: Das Einlesen des deutschen und englischen ArchivistaBox-Handbuches (PDF-Dateien mit 205 bzw. 204 Seiten) inklusive der Texterkennung mit Tesseract ben&ouml;tigt neu auf der ArchivistaBox Matterhorn rund 7 Minuten 30 Sekunden. Dies ergibt eine Leistung von knapp 1 Seite pro Sekunde, bzw. eine Tagesleistung von ca. 80&#39;000 Seiten. Geht es darum, bereits digital vorliegende Dokumente zu verarbeiten, so k&ouml;nnen die <strong>409 Seiten in ca. 50 Sekunden abgearbeitet werden; dies entspricht einer Tagesleistung von &uuml;ber 700&#39;000 Seiten.<\/strong>\n<\/p>\n<p>\n\tIm Vergleich dazu ben&ouml;tigt der &#39;alte&#39; Code ca. 19 Minuten f&uuml;r den Job mit der Texterkennung und ca. 1 Minute 50 Sekunden f&uuml;r das reine Importieren der Handb&uuml;cher. Dies bedeutet, dass mit dem aktuellen neuen Code eine Optimierung zwischen dem Faktor 2,2 und 2,5 erreicht werden kann. Selbstverst&auml;ndlich kann diese Leistung durch den Einsatz von schnelleren CPUs um den Faktor vier bis sechs weiter erh&ouml;ht werden, ebenso k&ouml;nnte mit einem Cluster die Leistung fast beliebig nach oben skaliert werden. <strong>Unter dem Strich bleibt jedoch, dass mit dem aktuellen Code die Hardware weniger als halb so schnell sein muss, um die gleiche Leistung zu erzielen.<\/strong>\n<\/p>\n<h2>\n\tErstellen von durchsuchbaren PDF-Dokumenten<br \/>\n<\/h2>\n<p>\n\tWie obenstehend ausgef&uuml;hrt wurde, werden mit den aktuellen ArchivistaBox-Systemen insbesondere bei der Texterkennung sehr gute Werte erreicht. Die ArchivistaBox eignet sich daher nicht nur als DMS-System, sondern auch als &quot;Durchlauferhitzer&quot; zum Erstellen von durchsuchbaren PDF-Dateien. Bislang mussten die erstellten Dateien mit einem Skript oder &uuml;ber das Application Programming Interface (API) weiterverarbeitet werden. Neu k&ouml;nnen die erstellten durchsuchbaren PDF-Dateien jederzeit direkt in ein anderes Netzlaufwerk kopiert werden.\n<\/p>\n<p>\n\tDie dazu notwendigen <strong>Einstellungen k&ouml;nnen in WebAdmin,<\/strong> dort unter <strong>&#39;OCR-Definitionen&#39;<\/strong> sowie <strong>&#39;Optionen Texterkennung (OCR)&#39;,<\/strong> festgelegt werden:\n<\/p>\n<p>\n\t<img decoding=\"async\" alt=\"\" src=\"https:\/\/archivista.ch\/cms\/wp-content\/uploads\/image\/ocrpdf.png\" style=\"width: 395px; height: 231px;\" \/>\n<\/p>\n<p>\n\tEinmal aktiviert werden nach der Texterkennung die generierten PDF-Dateien direkt in den zuvor in WebAdmin festgelegten Freigabepfad gespeichert. Sofern kein Netzwerklaufwerk zur Verf&uuml;gung steht, werden die generierten PDF-Dateien in die archivista-Freigabe im Verzeichnis &#39;temp&#39; gespeichert.\n<\/p>\n<h2>\n\tSelbsttragende Archive f&uuml;r Alle<br \/>\n<\/h2>\n<p>\n\tNeu k&ouml;nnen selbsttragende Archive auf allen ArchivistaBoxen (bisher Intel\/AMD) erstellt werden. Sowohl auf den ARM- als auch den Intel\/AMD basierten Modellen steht neu eine &#39;kleine&#39; 80 MByte grosse ISO-Datei zur Verf&uuml;gung, mit der selbsttragende Archive erstellt werden k&ouml;nnen. Diese ISO-Datei &#39;archivista_cd1.iso&#39; ist bei den ARM-basierten Modellen in den ftp\/smb-Ordner &#39;temp&#39; zu legen. Bei den Intel\/AMD-Boxen kann Sie &uuml;ber den Home-Button von ArchivistaVM in den Ordner \/var\/lib\/vz\/template\/iso hochgeladen werden. Die Datei findet sich im Download-Ordner unter dem Namen &#39;selfrun.zip&#39;; das Passwort f&uuml;r das Entpacken bleibt f&uuml;r s&auml;mtliche OS-Dateien das gleiche.\n<\/p>\n<p>\n\tWeiter k&ouml;nnen in WebAdmin Optionen festgelegt werden, um die Archive platzoptimiert auszulagern. Es k&ouml;nnen sowohl die Bilddateien &#39;geschrumpft&#39; werden, ebenso ist eine h&ouml;here Komprimierung bei JPEG-Bilder m&ouml;glich und weiter k&ouml;nnen die Quell- bzw. durchsuchbaren PDF-Dateien vom Export ausgeschlossen werden. Dadurch k&ouml;nnen Archivista-Archive bis zu 50 GByte (bis in den Millionenbereich an Seiten) in eine ISO-Datei geschrieben werden und bequem auf einem Intel\/AMD-Rechner hochgefahren werden. Die selbsttragenden Archive laufen dabei komplett im Hauptspeicher (RAM), wobei gilt: Gr&ouml;sse der ISO-Datei plus minimal 600 MByte RAM werden f&uuml;r das Arbeiten ben&ouml;tigt.\n<\/p>\n<h2>\n\tBereit f&uuml;r den produktiven Einsatz<br \/>\n<\/h2>\n<p>\n\tDie <strong>ArchivistaBox 2015\/X steht ab sofort zum produktiven Einsatz bereit,<\/strong> Kunden mit g&uuml;ltigem Wartungsvertrag k&ouml;nnen per Mail\/Telefon jederzeit eine aktualisierte Version beauftragen, das Update l&auml;sst sich anschliessend bequem &uuml;ber WebConfig einspielen. Dank den <strong>neuen ARM-basierten ArchivistaBoxen, die <a href=\"https:\/\/archivista.ch\/cms\/de\/aktuell-blog\/acht-kerne\/\">acht Kerne im Grundumfang<\/a> beinhalten, steht z.B. mit der <a href=\"https:\/\/archivista.ch\/cms\/de\/aktuell-blog\/acht-kerne\/\">ArchivistaBox Dolder<\/a> eine L&ouml;sung bereit, mit der ab sFr. 360.&#8211; beliebig oft und unlimitiert pro Tag mehrere zehntausend Seiten durchsuchbare PDF-Dateien erstellt werden k&ouml;nnen.<\/strong><\/p>\n\n\n\n\t<div class=\"dkpdf-button-container\" style=\"            text-align:right \">\n\n\t\t<a class=\"dkpdf-button\" href=\"\/cms\/wp-json\/wp\/v2\/pages\/1630?pdf=1630\" target=\"_blank\"><span class=\"dkpdf-button-icon\"><i class=\"fa fa-file-pdf-o\"><\/i><\/span> PDF Button<\/a>\n\n\t<\/div>\n\n\n\n\n\n","protected":false},"excerpt":{"rendered":"<p>ArchivistaBox 2015\/X: Texterkennung, durchsuchbare PDF-Dateien und Optimierungen um den Faktor 2.x Egg, 7. Oktober 2015: Mit dem Release 2015\/X stehen Neuerungen zur Verf&uuml;gung, welche die Verarbeitungszeiten f&uuml;r viele Jobs um den Faktor 1:2 oder noch h&ouml;her verbessern. So kann die Verarbeitung in ArchivistaDMS &uuml;ber s&auml;mtliche CPU-Kerne nach Bedarf verteilt werden. Dies ergibt neben einer h&ouml;heren [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":1709,"menu_order":277,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_acf_changed":false,"footnotes":""},"class_list":["post-1630","page","type-page","status-publish","hentry"],"acf":[],"_links":{"self":[{"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages\/1630","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/comments?post=1630"}],"version-history":[{"count":22,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages\/1630\/revisions"}],"predecessor-version":[{"id":2575,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages\/1630\/revisions\/2575"}],"up":[{"embeddable":true,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages\/1709"}],"wp:attachment":[{"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/media?parent=1630"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}