HowTo: Internetseiten speichern mit allen Unterstrukturen
Ihr habt eine tolle Internetseite im Web gefunden, welche Informationen enthält die ihr nicht mehr missen wollt? So könnt ihr diese Seite mit kostenlosen Tools lokal auf dem Rechner speichern. Dies macht natürlich nur Sinn, wenn auch alle Navigationselemente und Unterseiten einer Webseite sauber gespeichert werden. Wie dies funktioniert möchte ich Euch nun kurz anhand von zwei Tools zeigen.
Anleitung: Internetseiten herunter laden
Um dies zu realisieren sind gleich zwei Tools in meiner Toolbox zu finden, welche ich Euch nun hier vorstellen werde. Mein Lieblingstool nennt sich HTTrack und funktioniert in vielen Fällen mit den Grundeinstellungen super und erzeugt eine wirklich gute Kopie von Internetseiten auf dem lokalen PC. Zudem bietet HTTrack noch zahlreiche Einstellungen über welche genau definiert werden kann, welche Files gespeichert werden sollen. So ist es z.B. auch möglich von einer Webseite nur alle Bilder und / oder Videos zu grabben. Zudem ist es auch möglich lokal gespiegelte Internetseiten immer wieder auf den aktuellsten Stand zu bringen! HTTrack gibt es für alle gängigen Betriebssysteme wie z.B. Windows, Linux, Sun Solaris und weitere Unix Systeme. Zusätzlich steht auch noch eine portable Version für Windowssysteme zur Verfügung.
Schritt 1: HTTrack herunter laden
kostenloser Download von HTTrack
Schritt 2: HTTrack starten
Schritt 3: Basisdaten hinterlegen
Zuerst werdet ihr hier nun gefragt, welchen Namen das Projekt bekommen soll und wo die Internetseite auf Eurem PC gespeichert werden soll.
URL der zu speichernden Webseite angeben und falls diese einen Passwortschutz hat, die Zugangsseiten der Internetseite hinterlegen.
Mit dem Button “Einstellungen” kommt ihr in ein Untermenü, in welchem ihr die Details für den Download festlegen könnt. Ob alles gesichert werden soll, nur bestimmte Verzeichnisse oder nur z.B. max. 5 Unterseiten in die Tiefe einer Webseite.
Hier könnt ihr Zeitfenster definieren, wann und wie lange der Downstream ausgeführt werden soll.
Jetzt arbeitet HTTrack und zieht die hinterlegte Webadresse auf Euren Rechner.
Je nach Webseitengröße und Verbindung ins Internet kann dies auch etwas länger dauern. Wobei HTTrack auch abgebrochene Aufträge zu einem späteren Zeitpunkt wieder aufnehmen kann.
So sieht nach dem Download das Verzeichnis aus in welchem sich die Daten befinden! Hier müsst ihr nun einfach einen Doppelklick auf die index.html ausführen und schon wird die lokale Kopie der Webseite geladen!
So einfach ist es Webseiten zu rippen und diese für eigene Zwecke zu archivieren! Wer mit diesem Tool nicht klar kommen sollte, der kann sich auch noch meinen zweiten Tool-Tipp etwas näher ansehen!
Anleitung: Webseiten kopieren mit dem Xaldon WebSpider:
Im Prinzip ist die Bedienung dieses Crawlers genau so einfach wie die des oben vorgestellten Tools. Jedoch habe ich bemerkt, dass das HTTrack bessere Ergebnisse liefert als der Xaldon WebSpider! Jedoch bietet dieses Tool eine Option welche für bestimmte Personengruppen vielleicht ganz nützlich ist! Der WebSpider besitzt auch die Funktion Links und Emailadressen zu grabben und diese getrennt auszugeben. Gut, was man mit solchen Informationen anstellen kann, hat nichts mit dem speichern einer Webseite zu tun! Daher möchte ich auch hier nicht näher darauf eingehen! Kommen mir also zur Anleitung….
Schritt 1: Xaldon WebSpider herunter laden und installieren
kostenloser Download Xaldon WebSpider
Schritt 2: WebSpider starten
Schritt 3: Basisdaten hinterlegen
Im Fenster 1, wird nun die URL und der Projektname hinterlegt.
Fall die Webseite geschützt ist, muss dieses Fenster aktiviert werden. Danach könnt ihr die Zugangsdaten eingeben.
Hier könnt ihr nun einstellen, ob ihr die Emailadressen auf der Webseite speichern wollt und Euch der Spider auch alle fehlerhaften Links auflisten soll.
Speicherort für die Files angeben.
Hier könnt ihr nun die Ebenen definieren, wie Tief der Crawler noch die Webseiten auslesen soll und darf. Mittels Auswahlfenster wird dann festgelegt, welche Dateien geladen werden dürfen und wie das Programm vorgehen soll.
Hier wird hinterlegt, wo sich die Dateien befinden dürfen, welche geladen werden sollen. Manchmal werden z.B. die Bilder oder größere Files nicht auf dem gleichen Webspace abgelegt auf welchem auch die Webseite läuft! Dann müssen hier die Einstellungen geändert werden.
Kurze Übersicht der Einstellungen!
Gerade eingestellte Daten speichern? Dies würde ich empfehlen! Man kann ja nie wissen!
Speicherort für die Konfiguration auswählen und speichern!
Der Download beginnt und ist je nach Größe der Internetpräsenz schneller oder langsamer abgeschlossen.
Das Projekt liegt nun auch hier am gewählten Speicherort und kann über die index.html gestartet werden!
Tags:
- websites offline speichern
- alle downloaddateien einer internetseite herunterladen
- alle links einer webseite herunterladen
- website komplett herunterladen
- alle dateien einer website downloaden
Funktioniert das auch mit Forensystemen (BB, SMF, IPB, phpBB,…)?
Schätze jetzt mal nein, oder?
Klar, man damit alles abbilden! Warum sollte ein Forensystem nicht funktionieren? Das System nimmt einfach alle Seiten und baut damit eine HTML Seite. Fertig!
Nutze HTTrack gerade selbst.
Gerade wenn man eine Seite hat, die nicht durch google und co. indiziert wird, und diese Seite selbst auch keine Suche anbietet, ist sowas echt praktisch.
Ganz toll finde ich die Möglichkeit, die robots.txt zu ignorieren ;)
Das herausfiltern von bestimmten Dateitypen spart Speicher.
So kann man z.B. ganz einfach angeben, das keine Bilder geladen werden.
Wobei man allerdings den Dateityp selbst angeben muss.
Das finde ich etwas schade. Schöner wäre es, wenn man generell Grafiken filtern könnte.
Naja, vieleicht habe ich diese Option noch bnicht gefunden ;)
Auf jeden Fall nettes TUT, und geiles Programm.
Hallo, lade gerade ein php-Forum mit Xaldon runter, warum dauert das denn tagelang?
Ja.. das mit den Foren ist so eine Sache. Ich habe auch schon Foren runtergeladen. Da kommen ganz schnell mal einige GiB an Daten zusammen. Das Teil folgt halt allen Links.. so kann es Passieren, dass man zum Schluss das Forum in allen Möglichen stilen und Sprachen auf der Platte hat ;-)
ist es legal eine internetseite wie ein fan gemachtes wiki zu speichern?
Heutzutage völlig sinnlos, da 99% der Seiten https nutzen und das Xaldonding das nicht kann.
Scheinbar wird HTTrack nicht mehr weiterentwickelt und der will immer, dass ich einen vorgeschlagenen Proxy einstelle, das Problem ist, dass der eine IPv6 statt der IPv4 anzeigt und bei den Proxy-Einstellungen übernimmt der die kopierte IP nicht…
Scheinbar ist das Programm inzwischen eher für’s Museum, da vermutlich, „SSL“ damit nicht funktioniert…
WebSpider unterstützt kein HTTPS, nur HTTP, und ist damit für 99% aller Server unbrauchbar.
Außerdem kann er keine Umlaute in URLs, er nimmt diese aufgelöst, was dann beim Ziel zu einem not found führt.