Mit SingleFile können viele Webseiten recht gut archiviert werden, jedoch nicht alle. Einige Homepages sind derart dynamisch, dass die Inhalte nicht statisch aufgezeichnet werden kann. Hier hilft das von der Archivista GmbH entwickelte Tool capt2pdf
.
Das Tool zeichnet alle x-gewünschten Sekunden ein Abbild des Bildschirmes auf und überführt die erstellten Kopien an die Texterkennung Tesseract. Mittels optischer Zeichenerkennung (OCR) wird die Bildschirmkopie lesbar gemacht. Danach werden die Bildschirmkopie und der erkannte Text in eine PDF-Datei überführt. Mit dieser Methode lassen sich in einer Art 'Daumenkino' alle Web-Inhalte recht gut aufzeichnen.
Das Programm erfordert einen einigermassen modernen Linux-Desktop. Per Defalt enthalten ist es auf dem Archivista-Desktop und bei AVMultimedia. Für (fast) alle anderen Linux-Distributionen kann es hier bezogen werden:
https://archivista.ch/cms/wp-content/uploads/2024/06/capt2pdf.zip
Die Zip-Datei ist zu entpacken. Danach kann das Programm über ein Terminal mit 'perl capt2pdf' gestartet werden. Mit 'perl capt2pdf 5' z.B. wird alle fünf Sekunden eine Bildschirmkopie aufgezeichnet und zwar solange, bis diese mit 'perl cpat2pdf 0' wieder deaktiviert wird.
Auf dem ArchivistaBox-Desktop bzw. bei AVMultimedia kann
cpat2pdf
auch über Funktionstasten aufgerufen werden. Ctrl+PrintScreen startet die Aufzeichnit, Shift+Ctrl+PrintScreen beendet die Aufzeichnung. Ebenso wird dabei direkt die PDF-Datei geöffnet.
So erstellte PDF-Dateien lassen sich sehr einfach in ArchivistaDMS archivieren.