{"id":1660,"date":"2015-11-19T20:27:24","date_gmt":"2015-11-19T19:27:24","guid":{"rendered":"http:\/\/archivista.ch\/cms\/?page_id=1660"},"modified":"2016-01-17T22:07:48","modified_gmt":"2016-01-17T21:07:48","slug":"1920-cpus-fuer-die-ocr","status":"publish","type":"page","link":"https:\/\/archivista.ch\/cms\/de\/aktuell-blog\/jahre-2008-2019\/blogs-2015\/1920-cpus-fuer-die-ocr\/","title":{"rendered":"1920 CPUs f\u00fcr die OCR"},"content":{"rendered":"<h1>\n\tBis zu 10 Millionen\/Seiten Texterkennung pro Tag mit dem ArchivistaBox OCR-Cluster<br \/>\n<\/h1>\n<p>\n\t<em><strong>Egg, 20. November 2015:<\/strong> Mit dem ArchivistaBox OCR-Cluster (Rechnerverbund) k&ouml;nnen Bilddaten vollautomatisiert mit Texterkennung (OCR) in durchsuchbare PDF- bzw. Text-Dateien umgewandelt werden. Dank skalierbarer Cluster-Technologie von 24 bis 1920 Prozessoren (CPU-Kerne) ist der ArchivistaBox OCR-Cluster in der Lage, zwischen 120&#39;000 und 10 Millionen Bild-Dateien pro Tag in durchsuchbare Textdaten (OCR) umzuwandeln.<\/em><img decoding=\"async\" alt=\"\" src=\"https:\/\/archivista.ch\/cms\/wp-content\/uploads\/image\/archivistabox_ocrcluster1.jpg\" style=\"width: 600px; height: 540px;\" \/>\n<\/p>\n<p>\n\tDer OCR-Cluster wird durch stromsparende ARM-Prozessoren (CPUs) angetrieben. So findet ein <strong>48-CPU-Cluster Platz in einem 3-Liter mITX-Geh&auml;use und ben&ouml;tigt unter Last in etwa 75 Watt<\/strong> an Energie. Dabei werden pro Minute 180 Seiten verarbeitet. Dies ergibt eine <strong>Tagesleistung von 250&#39;000 Seiten.<\/strong> Die Verwaltung des OCR-Clusters erfolgt webbasiert. Bei der Auslieferung sind die notwendigen IP-Adressen der Knoten bereits eingetragen, die weitere Konfiguration wie gew&uuml;nschte Sprachen, Textlayout, Scan-Profile und Netzlaufwerke werden ebenfalls per Web-Interface vorgenommen.\n<\/p>\n<p>\n\t<img decoding=\"async\" alt=\"\" src=\"https:\/\/archivista.ch\/cms\/wp-content\/uploads\/image\/archivistabox_ocrcluster2.jpg\" style=\"width: 600px; height: 142px;\" \/>\n<\/p>\n<p>\n\tUm die Erkennung zu steuern, steht optional ein API (Application Programming Interface) mit HTTP-Aufrufen zur Verf&uuml;gung. Ferner kann die Texterkennung direkt auf der Konsole gestartet und &uuml;berwacht werden. Die zu verarbeitenden Dokumente k&ouml;nnen per FTP (Datei-Upload), SMB (Netzlaufwerk), HTTP bzw. HTTPS (Web) oder mittels angeschlossener Dokumenten-Scanner zur Verarbeitung herangezogen werden.\n<\/p>\n<p>\n\tBei der Texterkennung, die auf Tesseract 3.0x basiert, stehen mehr als <strong>50 Sprachen zur Verf&uuml;gung, darunter alte Zeichens&auml;tze wie Fraktur und\/oder Gothik.<\/strong> Zus&auml;tzliche Sprachen und\/oder spezielle Zeichens&auml;tze lassen sich jederzeit integrieren. Die Auslieferung der erkannten Texte erfolgt &uuml;ber das integrierte Dokumenten-Management-System ArchivistaDMS. Optional k&ouml;nnen durchsuchbare PDF-Dateien direkt auf externe Laufwerke exportiert werden.\n<\/p>\n<p>\n\t<img decoding=\"async\" alt=\"\" src=\"https:\/\/archivista.ch\/cms\/wp-content\/uploads\/image\/archivistabox_ocrcluster3.jpg\" style=\"width: 601px; height: 185px;\" \/>\n<\/p>\n<p>\n\tAusgeliefert werden die OCR-Cluster in Form von Mini-Rechnern (je ca. 100 Gramm schwer) oder (optional) montiert in klassichen Geh&auml;usen bis hin zur Rack-Bauweise. Die Preisstruktur des OCR-Clusters richtet sich nach der Anzahl CPU-Kerne. Ein einzelner Knoten enth&auml;lt acht CPU (Prozessoren) und entspricht einer ArchivistaBox mit dem gew&uuml;nschten Leistungsumfang. So kostet z.B. ein <strong>OCR-Cluster mit 24 CPU-Kernen und einer Tagesleistung von 120&#39;000 Seiten 981,18 EURO (3 x ArchivistaBox Dolder).<\/strong> Die f&uuml;r den OCR-Cluster notwendigen Knoten (ArchivistaBoxen) k&ouml;nnen unter <strong><a href=\"http:\/\/shop.archivista.ch\/oscommunity\/catalog\/product_info.php?products_id=120&amp;language=de\">shop.archivista.ch <\/a><\/strong>bestellt werden.\n<\/p>\n<p>\n\t<em><strong>Hinweis:<\/strong> Der ArchivistaBox OCR-Cluster wurde am 21.11.2015 anl&auml;sslich des linuxday.at-Vortrages <strong><a href=\"https:\/\/archivista.ch\/cms\/wp-content\/uploads\/file\/arm_desktop_archivistabox.pdf\">&#39;ARM-Plattform reif f&uuml;r den Alltag?&#39;<\/a><\/strong> der &Ouml;ffentlichkeit vorgestellt.<\/em><\/p>\n\n\n\n\t<div class=\"dkpdf-button-container\" style=\"            text-align:right \">\n\n\t\t<a class=\"dkpdf-button\" href=\"\/cms\/wp-json\/wp\/v2\/pages\/1660?pdf=1660\" target=\"_blank\"><span class=\"dkpdf-button-icon\"><i class=\"fa fa-file-pdf-o\"><\/i><\/span> PDF Button<\/a>\n\n\t<\/div>\n\n\n\n\n\n","protected":false},"excerpt":{"rendered":"<p>Bis zu 10 Millionen\/Seiten Texterkennung pro Tag mit dem ArchivistaBox OCR-Cluster Egg, 20. November 2015: Mit dem ArchivistaBox OCR-Cluster (Rechnerverbund) k&ouml;nnen Bilddaten vollautomatisiert mit Texterkennung (OCR) in durchsuchbare PDF- bzw. Text-Dateien umgewandelt werden. Dank skalierbarer Cluster-Technologie von 24 bis 1920 Prozessoren (CPU-Kerne) ist der ArchivistaBox OCR-Cluster in der Lage, zwischen 120&#39;000 und 10 Millionen Bild-Dateien [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":1709,"menu_order":284,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_acf_changed":false,"footnotes":""},"class_list":["post-1660","page","type-page","status-publish","hentry"],"acf":[],"_links":{"self":[{"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages\/1660","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/comments?post=1660"}],"version-history":[{"count":15,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages\/1660\/revisions"}],"predecessor-version":[{"id":1794,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages\/1660\/revisions\/1794"}],"up":[{"embeddable":true,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages\/1709"}],"wp:attachment":[{"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/media?parent=1660"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}