{"id":49,"date":"2013-04-12T20:08:47","date_gmt":"2013-04-12T18:08:47","guid":{"rendered":"http:\/\/schulenwegg.ch\/cms\/?page_id=49"},"modified":"2016-11-04T00:24:41","modified_gmt":"2016-11-03T23:24:41","slug":"durchsuchbare-pdfs","status":"publish","type":"page","link":"https:\/\/archivista.ch\/cms\/de\/aktuell-blog\/jahre-2008-2019\/blogs-2008\/durchsuchbare-pdfs\/","title":{"rendered":"Durchsuchbare PDFs"},"content":{"rendered":"<h1>\n\t<img loading=\"lazy\" decoding=\"async\" align=\"right\" alt=\"\" height=\"197\" hspace=\"5\" src=\"\/de\/media\/ocr.jpg\" vspace=\"5\" width=\"224\" \/>Weltweit erste OpenSource-Texterkennung mit durchsuchbaren PDF-Dateien<br \/>\n<\/h1>\n<p>\n\t<strong>Pfaffhausen, 19. September 2008:<\/strong> Die Schweizer OpenSource-Firma Archivista ver&ouml;ffentlicht mit der ArchivistaBox 2008\/IX die weltweit erste OpenSource-Texterkennung, welche durchsuchbare PDF-Dateien erstellen kann.\n<\/p>\n<p>\n\tG&auml;ngige Texterkennungsprogramme (OCR) laufen derzeit fast ausschliesslich unter Windows und sind ab Preisen von ca. 100 Euro an aufw&auml;rts k&auml;uflich zu erwerben. Geht es darum Tausende oder Millionen von Seiten zu verarbeiten, so fallen kostspielige Volumenlizenzen an, d.h. bezahlt wird pro erkannte Seite.\n<\/p>\n<p>\n\tDie ArchivistaBox ist ein webbasiertes DMS-System (Dokumenten-Management), das auf jedem handels&uuml;blichen Rechner installiert werden kann. Je nach Hardware k&ouml;nnen dabei <strong>Seitenvolumen von einigen Tausend Seiten bis in den Millionenbereich pro Tag<\/strong> verarbeitet werden.\n<\/p>\n<p>\n\tDas neue Release 2008\/IX beinhaltet die <strong>weltweit erste OpenSource-Texterkennung, welche direkt aus gescannten Seiten durchsuchbare PDF-Dateien<\/strong> erstellen kann. Dabei stehen mehr als 20 Sprachen zur Verf&uuml;gung. Die Erkennungsqualit&auml;t ist mit kommerziellen OCR-Programmen gut und gerne vergleichbar (&gt;99 Prozent).\n<\/p>\n<p>\n\tMit der ArchivistaBox erstellte PDF-Dateien werden direkt in einer Archivista-Datenbank abgelegt und automatisch beschlagwortet, d.h. es kann &uuml;ber den gesamten Dokumentenbestand recherchiert werden. Einmal erfasste Dokumente sind jederzeit mit einem Webbrowser abrufbar. Sensitive Daten k&ouml;nnen verschl&uuml;sselt zur Verf&uuml;gung gestellt werden. Bei Bedarf erstellt die ArchivistaBox fertige DVD-Publikationen (selbsttragende Archive).\n<\/p>\n<p>\n\tDie Quellen vonr ArchivistaDMS liegen zu 100 Prozent in der GPLv2-Lizenz vor. F&uuml;r die <strong>Texterkennung stehen Tesseract (inkl. Frakturerkennung) und der Linux-Port von Cuneiform<\/strong> (BSD-Lizenz) zur Verf&uuml;gung. Die durchsuchbaren PDF-Dateien werden mit dem Hilfsprogramm hocr2pdf erstellt (siehe <a href=\"http:\/\/www.exactcode.de\">www.exactcode.de<\/a>).\n<\/p>\n<p>\n\tDie aktuelle ArchivistaBox 2008\/IX wird am am <strong>24.\/25. September 2008 auf der <a href=\"http:\/\/www.openexpo.ch\">OpenExpo<\/a><\/strong> in Winterthur (Archivista-Stand) pr&auml;sentiert.<\/p>\n\n\n\n\t<div class=\"dkpdf-button-container\" style=\"            text-align:right \">\n\n\t\t<a class=\"dkpdf-button\" href=\"\/cms\/wp-json\/wp\/v2\/pages\/49?pdf=49\" target=\"_blank\"><span class=\"dkpdf-button-icon\"><i class=\"fa fa-file-pdf-o\"><\/i><\/span> PDF Button<\/a>\n\n\t<\/div>\n\n\n\n\n\n","protected":false},"excerpt":{"rendered":"<p>Weltweit erste OpenSource-Texterkennung mit durchsuchbaren PDF-Dateien Pfaffhausen, 19. September 2008: Die Schweizer OpenSource-Firma Archivista ver&ouml;ffentlicht mit der ArchivistaBox 2008\/IX die weltweit erste OpenSource-Texterkennung, welche durchsuchbare PDF-Dateien erstellen kann. G&auml;ngige Texterkennungsprogramme (OCR) laufen derzeit fast ausschliesslich unter Windows und sind ab Preisen von ca. 100 Euro an aufw&auml;rts k&auml;uflich zu erwerben. Geht es darum Tausende oder [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":56,"menu_order":363,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_acf_changed":false,"footnotes":""},"class_list":["post-49","page","type-page","status-publish","hentry"],"acf":[],"_links":{"self":[{"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages\/49","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/comments?post=49"}],"version-history":[{"count":2,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages\/49\/revisions"}],"predecessor-version":[{"id":2022,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages\/49\/revisions\/2022"}],"up":[{"embeddable":true,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages\/56"}],"wp:attachment":[{"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/media?parent=49"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}