Die ArchivistaBox enthält ab Version 2021/V optional eine Spracherkennung (Vosk und Kaldi), um aus Audio- und Video-Dateien die gesprochenen Inhalte als Text zu extrahieren. Optional ist die Spracherkennung deshalb, weil sie nicht direkt auf der ArchivistaBox ausgeliefert wird.
Vielmehr ist diese über einen separaten Download zu beziehen. Aufgrund der Grösse von aktuell mehr als 5 GByte (entpackt 10 GByte) wird der Download-Link gerne auf Anfrage zur Verfügung gestellt. Beim Download entsteht die Datei vosk.os
. Diese Datei ist (mit root-Rechten!) nach /home/data
zu kopieren. Danach muss die ArchivistaBox neu gestartet werden.
Damit ist die Spracherkennung für die ArchivistaBox aktiviert. Beim Verarbeiten von Audio- und Video-Dateien wird bei aktivierter Spracherkennung bei jedem Texterkennungsvorgang (OCR) immer auch der Text extrahiert und im Feld 'Seitentext' möglichst passend zu den Vorschauseiten dargestellt. Dazu ein Beispiel: 111.45: erkannter Text
. Die Zahl 111.45
entspricht dabei der entsprechenden Stelle des Dokumentes in Sekunden und hinter dem Doppelpunkt befindet sich der extrahierte Text (hier erkannter Text
).
Bitte beachten: Für eine Minute Sprache werden je nach Hardware zwischen 10 und 60 Sekunden benötigt. Die erkannten Textfragmente erscheinen nach der Erkennung im Seitentext nach dem Fragment -----speech recognition-----
.