Webseiten in PDF-Dateien verwandeln mit PDFmyurl.com

Will man Internetseiten lokal archivieren, ist man schlecht beraten, sie einfach als HTM bzw. HTML-Datei abzuspeichern: Nahezu alle HTML-Dateien müssen für Inhalte, die auf der Seite dargestellt werden, auf weitere Dateien zurückgreifen – Bilder, Style-Sheets usw. Die müssen zusätzlich zum eigentlichen Text mit aufbewahrt werden. Das ist äußerst unpraktisch, da es schnell unübersichtlich und chaotisch werden kann. Und immer mal wieder wird selbst eine komplett lokal gesicherte HTML-Datei aus (für Laien) unerfindlichen Gründen anschließend nicht mehr so dargestellt, wie sie ursprünglich im Browser ausgesehen hat.

Um Web-Inhalte kompakt zu archivieren, bieten sich verschiedene Alternativen an. Eine davon ist es, die Seite einfach in eine PDF-Datei umzuwandeln. Um beliebige Dateien (zumindest solche, die man auch ausdrucken kann – Videos oder Musik natürlich nicht! ;) ), so auch HTML-Inhalte, in PDF umzuwandeln gibt es inzwischen zahlreiche Möglichkeiten. Die komfortabelste dürfte es wohl sein, einen “virtuellen Druckertreiber” zu installieren, der die Daten anstatt an einen “echten” an einen “virtuellen” Drucker sendet, der sie dann in eine PDF-Datei schreibt, anstatt sie mit Tinte auf Papier zu drucken. Ein solcher Druckertreiber ist z.B. der PDFCreator. Allerdings hat er einen gravierenden Nachteil: Will man eine Seite archivieren, die eigentlich nicht zum Ausdrucken vorgesehen ist (und das betrifft etwa die Artikel vieler Zeitungen), kommt es oft zu Problemen – sei es, dass das Layout komplett verrutscht; sei es, dass Text einfach “abgeschnitten” wird.

An dieser Stelle kommt der Dienst PDFmyurl.com ins Spiel. Die Adresse erklärt eigentlich schon, worum es hier geht: “PDF my URL” heißt frei übersetzt nichts anderes als “Mache eine PDF aus meiner Internetadresse”. Der große Vorteil des Dienstes ist, dass die Seite tatsächlich immer 1:1 so in eine PDF-Datei verwandelt wird, wie sie am Bildschirm zu sehen ist. Die Handhabung ist (mit einer Einschränkung – siehe unten) denkbar einfach. Es gibt verschiedene Möglichkeiten:

1. Möglichkeit: Eingabe der gewünschten URL direkt auf PDFmyurl.com – siehe Screenshot:

2. Die zweite Möglichkeit: Ohne PDFmyURL.com aufzurufen, kann man in der Adresszeile des Browsers der aktuellen URL, die man aufrufen möchte, einfach folgenden Text voranstellen: http://pdfmyurl.com?url=
Also so, wie im folgenden Screenshot:

Dazu muss man die als PDF “zu druckende” Seite übrigens nicht erst aufrufen – man kann ihre Adresse auch manuell eingeben.

(Übrigens kann man diese Methode auch benutzen, um direkt auf der eigenen Seite einen Link anzubringen, mit dem sich die Seite direkt als PDF herunterladen lässt. Einfach einen Link mit dem folgendem Code setzen:
Diese Seite als PDF herunterladen

Am Beispiel dieser Seite sieht das dann so aus: Diese Seite als PDF herunterladen. )

3. Die dritte und wohl komfortabelste Möglichkeit: Aufruf mit Hilfe eines “Bookmarklets”. Bookmarklets sind nichts anderes als ganz normale Bookmarks (auch als “Lesezeichen”, “Favoriten” usw. bekannt) – mit dem Unterschied, dass sie nicht eine Internetadresse enthalten, sondern einen Code in einer Art Programmiersprache (namens JavaScript), der eine komplette Anweisung enthält. In diesem Fall lautet die Anweisung “Nimm die URL der geladenen Seite und sende sie an PDFmyurl.com”. Wie kommt man nun an dieses Booklet? Ganz einfach – nämlich indem man das im folgenden Screenshot gezeigte Schaltfeld mit dem Text “PDFmyURL” an die gewünschte Stelle in der Lesezeichen-Symbolleiste im eigenen Browser zieht.

Selbstverständlich kann man das ganze auch manuell machen. Einfach ein Lesezeichen anlegen und als Adresse den folgenden Code eingeben: javascript:pdf_url=location.href;location.href='http://pdfmyurl.com?url='+escape(pdf_url)
Muss man als normaler “Mausschubser” natürlich nicht. Warum ich es trotzdem erwähne? Weil man diesen Code nicht unbedingt als Lesezeichen speichern muss. Man kann ihn mit entsprechenden Programmen auch als Textbaustein speichern, den man dann systemweit – also in jedem Browser – mit einem entsprechenden Kürzel aufrufen lassen kann. Was sind das für Programme? Z.B. AutoHotkey (AHK) – eigentlich eine eigene, mächtige Skriptsprache, mit der man alles mögliche machen kann. Ein gutes Paket mit zahlreichen nützlichen AHK-Skripten ist z.B. das von der Zeitschrift c’t angebotene “ac’tivAid” (offizielle Seite hier, inoffizielle aktuelle Beta-Version hier; gute Übersichten über das Programm hier und hier.) Oder auch das von Lifehacker.com angebotene Programm “Texter”. Mit diesen Helfern können Tastatur-orientierte Nutzer schnell in die Adresszeile des Browsers springen (normalerweise mit Strg+L), dort das selbst gewählte Kürzel (“Hotstring”) triggern (etwa “pdf#“) und schon steht dort javascript:pdf_url=location.href;location.href='http://pdfmyurl.com?url='+escape(pdf_url) . Dann Return gedrückt und los geht’s.

Was passiert denn nun genau: Je nach Einstellung im Browser landet die PDF-Datei im festeingestellten Download-Ordner, oder es erscheint einfach ein Speichern-Dialog – ganz so, als hätte man einfach mit Strg+S versucht, die aktuell angezeigte Seite auf der eigenen Platte zu speichern. Sofern nicht noch der gewünschte Speicherort vom letzten Mal vorausgewählt ist, wählt man diesen jetzt aus. In der Regel wird man dabei gleich noch einen aussagekräftigen Dateinamen wählen wollen, ansonsten verwendet man einfach den vorgeschlagenen Namen, den PDFmyurl.com automatisch aus der Adresse der Seite erzeugt hat.

Ein wichtiger Hinweis noch: Standardmäßig wandelt der Dienst die Internetseiten inzwischen im Querformat (Landscape, “Landschaft”) um. Auf Rückfrage hieß es, das wäre für die meisten Seiten besser. Will man die Seite stattdessen im Hochformat (Portrait), muss man dies extra angeben. Verwendet man ein Bookmarklet (per Maus) oder einen Textbaustein (per Tastatur, siehe oben), muss in den oben gezeigten Code das Element -O=Portrait& eingefügt werden. Der gesamte Code lautet also:
javascript:pdf_url=location.href;location.href='http://pdfmyurl.com?-O=Portrait&url='+escape(pdf_url)
Darüber hinaus gibt es zahlreiche weitere Einstellungsmöglichkeiten, die jedoch die wenigsten jemals brauchen werden – Hinweise unter “Advanced Options”.

Keine Vorteile ohne Nachteile. Daher sei hier auf zwei drei Nachteile von PDFmyurl.com hingewiesen, die miteinander zusammenhängen. Man muss sich bewusst sein, dass man nicht einfach lokal bereits vorhandene Daten einfach in einem bestimmten Format abspeichert, sondern zunächst an Dritte übermittelt, die diese Daten in ein bestimmtes Format verwandeln und einem dann zurückschicken. Das kostet erstens Zeit: Normalerweise ist der Dienst sehr schnell. Nachdem man die Adresse der Seite übergeben hat, dauert es in der Regel kaum mehr als eine Sekunde, bis der Speichern-Dialog erscheint. Es kann aber auch schon mal etwas länger dauern – wahrscheinlich hängt das vom aktuellen Traffic ab, den die Seite bewältigen muss. Abends dauert es meistens länger als vormittags, wenn Amerika noch schläft. Zweitens kostet das natürlich Privatsphäre: Wenn man nicht gerade seine IP-Adresse verschleiert (und wer macht das schon), ist es theoretisch möglich, über diese identifiziert zu werden, wodurch dem Anbieter (oder jedem, der den Datenverkehr zwischen Nutzer und Anbieter “abhört”) bekannt werden kann, welche Seiten man besucht und abspeichert. Das sich irgendwer dafür interessieren könnte, ist natürlich hochgradig unwahrscheinlich. Ich erwähne es nur, um nicht als Datenschutz-Ignorant dazustehen. ;)

[Ergänzung 24.06.2010]

Drittens platziert der Anbieter ein kleines Logo und den Text “PDFmyurl.com” unten rechts auf jeder Seite einer PDF-Datei. Das ganze ist aber so unaufdringlich, dass ich selbst ganz vergessen hatte, es überhaupt zu erwähnen (bis Leser Wolfgang es heute in einem Kommentar erwähnte).  Es dürfte für die wenigsten ein Problem darstellen, aber der Vollständigkeit halber sei es erwähnt.

2 Gedanken zu “Webseiten in PDF-Dateien verwandeln mit PDFmyurl.com

  1. Hallo zusammen,

    besten Dank an den Autor / die Autorin des obigen Beitrags!

    Dank seiner / ihrer Hilfe habe ich es geschafft, in meinem Opera-Browser die Suchmaschine ‘pdfmyurl’ so anzupassen, dass sie wieder – wie wohl bis vor kurzem – DIN-A-4-Hochformat und nicht -Querformat erzeugt.

    Laut obiger Erläuterungen fügt man also in der Adresszeile – statt der einfachen Homepageadresse von pdfmyurl – die angebotene Veränderung an:

    javascript:pdf_url=location.href;location.href=’http://pdfmyurl.com?-O=Portrait&url=’+escape(pdf_url)

    Abspeichern und Suchmaschine wie gewohnt benutzen. Hab’s probiert und es funktioniert!
    Einzige Einschränkung: Das ‘pdfmyurl’-Logo ist durch ein neutrales ersetzt, da die ursprüngliche Internetadresse verändert wurde. Lässt sich wohl verschmerzen, denk ich.

    Das A-4-Hochformat spart nebenbei auch Platz bzw. Papier, falls man das Resultat doch mal ausdrucken möchte / muss.

    Ich hatte das Programm einige Wochen lang nicht in Benutzung und war daher erstaunt, auf einmal nur noch DIN-A-4-Querformate erzeugt zu bekommen. Zunächst dachte ich, ich müsste bei meinen Einstellungen (im Browser bzw. seinem pdf-Plugin) etwas ändern und bin daher doppelt froh über die angebotene und erfolgreiche Lösung!

    Wolfgang :-)

    • Danke für den Kommentar und die Ergänzungen. Schön, wenn man weiß, dass die “Mühe” zu etwas nützlich war. :) Zum Logo – eben noch mal ausprobiert, bei mir erscheint nach wie vor das selbe braun/beige Logo. Am liebsten wäre mir natürlich gar kein Logo, aber einem geschenkten Gaul schaut man nicht ins Maul. ;) Das Logo ist jedenfalls so dezent und unauffällig platziert, dass ich nicht mal daran gedacht habe, es als Nachteil zu erwähnen.

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Log Out / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Log Out / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Log Out / Ändern )

Verbinde mit %s