{"id":9091,"date":"2021-05-24T23:35:19","date_gmt":"2021-05-24T21:35:19","guid":{"rendered":"https:\/\/archivista.ch\/cms\/?page_id=9091"},"modified":"2021-12-17T00:20:39","modified_gmt":"2021-12-16T23:20:39","slug":"spracherkennung-mit-2021-v","status":"publish","type":"page","link":"https:\/\/archivista.ch\/cms\/de\/aktuell-blog\/blogs-2021\/spracherkennung-mit-2021-v\/","title":{"rendered":"Spracherkennung mit 2021\/V"},"content":{"rendered":"<h1>Hey ArchivistaBox, wer hat was, wann und wo gesagt?<\/h1>\n<p><em><strong>Egg, 25. Mai 2021:<\/strong> Mit der Integration der Spracherkennung in die ArchivistaBox 2021\/V kann neu von beliebigen Ton- und Video-Dateien der gesprochene Text extrahiert werden. In nachfolgendem Blog geht es darum aufzuzeigen, warum die Spracherkennung f\u00fcr die ArchivistaBox viel Sinn ergibt und wie einfach diese funktioniert.<\/em><\/p>\n<h1><a href=\"https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zeurich.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-9095\" src=\"https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zeurich.jpg\" alt=\"\" width=\"1920\" height=\"1080\" srcset=\"https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zeurich.jpg 1920w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zeurich-300x169.jpg 300w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zeurich-1024x576.jpg 1024w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zeurich-768x432.jpg 768w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zeurich-600x338.jpg 600w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zeurich-1536x864.jpg 1536w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zeurich-624x351.jpg 624w\" sizes=\"auto, (max-width: 1920px) 100vw, 1920px\" \/><\/a><\/h1>\n<h2>Open Source Spracherkennungen <strong><a href=\"https:\/\/alphacephei.com\/vosk\/\">Vosk<\/a><\/strong> und <strong><a href=\"http:\/\/kaldi-asr.org\/doc\/\">Kaldi<\/a><\/strong><\/h2>\n<p>Bisher konnten erfasste Ton- und Video-Dateien nur rudiment\u00e4r automatisiert beschlagwortet werden. Dank der Integration der Spracherkennung Vosk ist es neu m\u00f6glich, gesprochene Passagen aus den multimedialen Dateien in Text umzuwandeln und diesen f\u00fcr die Folltextrecherche der ArchivistaBox aufzubereiten. Dabei werden aktuell die Sprachen Englisch, Deutsch, Franz\u00f6sisch, Italienisch, Spanisch, Portugiesisch und Holl\u00e4ndisch unterst\u00fctzt.<\/p>\n<p>Dank der Technologien der Open Source Spracherkennungen <strong><a href=\"https:\/\/alphacephei.com\/vosk\/\">Vosk<\/a><\/strong> und <strong><a href=\"http:\/\/kaldi-asr.org\/doc\/\">Kaldi<\/a><\/strong> k\u00f6nnen jederzeit weitere Sprachen hinzugef\u00fcgt werden. Ebenfalls w\u00e4re es m\u00f6glich, eigene (neue) Sprachdateien zu erstellen und in die ArchivistaBox zu integrieren. In den meisten F\u00e4llen wird dies nicht notwendig sein, stehen im Grundumfang bereits ca. 10 GByte (entpackt) f\u00fcr die obigen Sprachen an Vokabular zur Verf\u00fcgung.<\/p>\n<p>An dieser Stelle darf angef\u00fcgt werden, dass die Integration der Spracherkennung \u00fcber Python und das entsprechende Vosk-Modul erfolgt. <strong><a href=\"https:\/\/alphacephei.com\/vosk\/\">Vosk<\/a><\/strong> wiederum basiert auf <strong><a href=\"http:\/\/kaldi-asr.org\/doc\/\">Kaldi.<\/a><\/strong> Dabei gilt es anzumerken, dass Kaldi die eigentliche Grundlage bildet, Vosk hingegen den Job deutlich vereinfacht. Ohne Vosk m\u00fcsste Kaldi erst mit Sprachsequenzen trainiert werden. Dank Vosk wird Kaldi letztlich so aufgerufen, dass aus den Video- und Audio-Dateien der Text automatisiert extrahiert werden kann.<\/p>\n<h1><a href=\"https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zuerich0.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-9093\" src=\"https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zuerich0.jpg\" alt=\"\" width=\"1920\" height=\"1029\" srcset=\"https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zuerich0.jpg 1920w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zuerich0-300x161.jpg 300w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zuerich0-1024x549.jpg 1024w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zuerich0-768x412.jpg 768w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zuerich0-600x322.jpg 600w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zuerich0-1536x823.jpg 1536w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zuerich0-624x334.jpg 624w\" sizes=\"auto, (max-width: 1920px) 100vw, 1920px\" \/><\/a><\/h1>\n<h2>Zwei Beispiele mit erkanntem Text<\/h2>\n<p>Um die Qualit\u00e4t der Spracherkennung zu veranschaulichen, sei an dieser Stelle eine Auszug aus der Tagesschau von <strong><a href=\"https:\/\/www.srf.ch\/play\/tv\/tagesschau\/video\/tagesschau-vom-23-05-2021-hauptausgabe?urn=urn:srf:video:fb5adb77-ef6a-4050-a99c-4974df320c47\">SRF vom 23. Mail 2021<\/a><\/strong> publiziert (es geht um den Vulkanausbruch im Kongo vom gleichen Tag): <em>&#8222;<strong>Noch in der nacht verlassen tausende das gebiet um die gro\u00dfstadt goma in richtung grenze nach ruanda das nachbarland hat die grenzen f\u00fcr die vulkan fl\u00fcchtlinge ge\u00f6ffnet und stellt notunterk\u00fcnfte zur verf\u00fcgung.&#8220;<\/strong><\/em><\/p>\n<p>Die Qualit\u00e4t der Erkennung darf sich (es wurde absolut kein Trainingsaufwand betrieben) sehen lassen. Normale W\u00f6rter werden fast immer fehlerfrei erkannt, Gross- und Kleinschreibung dagegen nicht und bei Ortsbezeichnungen kann es zu Fehlern kommen (Gleiche Sendung, Seilbahn-Ungl\u00fcck in Italien): <strong><em>&#8222;Zuerst nach italien im norden des landes ist eine seilbahn kabine abgest\u00fcrzt dabei sind dreizehn menschen ums leben gekommen das ungl\u00fcck ereignete sich nahe der schweizer grenze auf der fahrt vom ferienort strehla am ufer des lago maggiore auf den monte matrone&#8230;&#8220; <\/em><\/strong>Anstelle von &#8218;Strehla&#8216; m\u00fcsste &#8218;Stresa&#8216; stehen und der Monte Mattarone wurde in Matrone umbenannt. Dagegen konnte der Lago Maggiore korrekt erkannt werden.<\/p>\n<h1><a href=\"https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zeurich2.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-9094\" src=\"https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zeurich2.jpg\" alt=\"\" width=\"1920\" height=\"1102\" srcset=\"https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zeurich2.jpg 1920w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zeurich2-300x172.jpg 300w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zeurich2-1024x588.jpg 1024w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zeurich2-768x441.jpg 768w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zeurich2-600x344.jpg 600w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zeurich2-1536x882.jpg 1536w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/zeurich2-624x358.jpg 624w\" sizes=\"auto, (max-width: 1920px) 100vw, 1920px\" \/><\/a><\/h1>\n<h2>Installation von Vosk und Kaldi<\/h2>\n<p>Eine gute Spracherkennung ben\u00f6tigt relativ viel Platz f\u00fcr die Sprachdateien. Daher befindet sich Vosk bzw. Kaldi nicht direkt auf der ISO-Datei der ArchivistaBox. Der entsprechende Download-Link der Datei &#8218;vosk.os&#8216; wird Kunden aber gerne kommuniziert. Diese Datei ist nach &#8218;\/home\/data&#8216; zu kopieren. Danach ist die ArchivistaBox 2021\/V neu zu starten. Damit wird die Spracherkennung aktiviert.<\/p>\n<p>Beim Hinzuf\u00fcgen von Inhalten wird die Spracherkennung direkt nach der Texterkennung durchgef\u00fchrt. Die gew\u00fcnschte Sprache ist dabei \u00fcber die Scan-Definition festzulegen. Grunds\u00e4tzlich arbeitet die Spracherkennung auf s\u00e4mtlichen ArchivistaBox-Systemen. Allerdings gilt es zu bedenken, dass die Modelle Dolder, Rigi und S\u00e4ntis etwas langsamer arbeiten werden als die \u00fcbrigen Modelle.<\/p>\n<p>Die Spracherkennung erfolgt im Rahmen der Texterkennung (OCR). Wird diese parallel abgearbeitet, erfolgt auch die Spracherkennung mit mehreren Instanzen. Die Erkennungsgeschwindigkeit (pro Prozessor) betr\u00e4gt ca. 5 bis 10 Minuten f\u00fcr eine Stunde Ton. Mit der ArchivistaBox MediaVM Everest k\u00f6nnen dabei pro Tag bis zu 2400 Stunden bzw. 100 Tage \u00e0 24 Stunden Ton verarbeitet werden. Der gesammte Prozess der Spracherkennung erfolgt dabei direkt auf der lokalen Instanz, womit Vertraulichkeit \u00fcber die Daten zu 100 Prozent gew\u00e4hrleistet ist.<\/p>\n<h1><a href=\"https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/klosterfahr.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-9096\" src=\"https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/klosterfahr.jpg\" alt=\"\" width=\"1920\" height=\"1093\" srcset=\"https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/klosterfahr.jpg 1920w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/klosterfahr-300x171.jpg 300w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/klosterfahr-1024x583.jpg 1024w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/klosterfahr-768x437.jpg 768w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/klosterfahr-600x342.jpg 600w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/klosterfahr-1536x874.jpg 1536w, https:\/\/archivista.ch\/cms\/wp-content\/uploads\/2021\/05\/klosterfahr-624x355.jpg 624w\" sizes=\"auto, (max-width: 1920px) 100vw, 1920px\" \/><\/a><\/h1>\n<h2>Spracherkennung steht allen Kunden zur Verf\u00fcgung<\/h2>\n<p>Die neue Technologie ist zwar bei der Auslieferung nicht aktiviert, sie steht aber f\u00fcr alle ArchivistaBox-Systeme im Grundumfang zur Verf\u00fcgung. Voraussetzung ist einzig, dass minimal die aktuelle Version 2021\/V verwendet wird bzw. dass die Datei &#8218;vosk.os&#8216; im Ordner &#8218;\/home\/data&#8216; vorhanden ist.<\/p>\n<p>Vosk und Kaldi k\u00f6nnen auf Wunsch auch bei Kunden installiert und an kundenspezifische Bed\u00fcrfnisse angepasst werden. Dabei gilt wie immer im ArchivistaBox-Kosmos. Erweiterungen, die im Rahmen eines Auftrages entstehen, stehen (sofern nicht explizit das Gegenteil vereinbart wird) sp\u00e4ter allen Kunden zur Verf\u00fcgung. In diesem Sinne viel Spass mit der neuen Spracherkennung auf der ArchivistaBox.<\/p>\n\n\n\n\t<div class=\"dkpdf-button-container\" style=\"            text-align:right \">\n\n\t\t<a class=\"dkpdf-button\" href=\"\/cms\/wp-json\/wp\/v2\/pages\/9091?pdf=9091\" target=\"_blank\"><span class=\"dkpdf-button-icon\"><i class=\"fa fa-file-pdf-o\"><\/i><\/span> PDF Button<\/a>\n\n\t<\/div>\n\n\n\n\n\n","protected":false},"excerpt":{"rendered":"<p>Hey ArchivistaBox, wer hat was, wann und wo gesagt? Egg, 25. Mai 2021: Mit der Integration der Spracherkennung in die ArchivistaBox 2021\/V kann neu von beliebigen Ton- und Video-Dateien der gesprochene Text extrahiert werden. In nachfolgendem Blog geht es darum aufzuzeigen, warum die Spracherkennung f\u00fcr die ArchivistaBox viel Sinn ergibt und wie einfach diese funktioniert. [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":9255,"menu_order":73,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_acf_changed":false,"footnotes":""},"class_list":["post-9091","page","type-page","status-publish","hentry"],"acf":[],"_links":{"self":[{"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages\/9091","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/comments?post=9091"}],"version-history":[{"count":8,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages\/9091\/revisions"}],"predecessor-version":[{"id":9110,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages\/9091\/revisions\/9110"}],"up":[{"embeddable":true,"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/pages\/9255"}],"wp:attachment":[{"href":"https:\/\/archivista.ch\/cms\/wp-json\/wp\/v2\/media?parent=9091"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}