Massenphänomen

Wie oben schon beschrieben handelt es sich offensichtlich nicht um Einzelfälle. Das wirkliche Ausmaß der (illegalen) Bilderkopiererei hat mich dann aber doch interessiert, also musste ein systematischer Ansatz her. Und da ich ja hin und wieder gerne mal ein wenig programmiere, habe ich die Entwicklungsumgebung (Visual Basic Express 2010) mal wieder angeworfen und das ganze Automatisiert.

Zuerst galt es die URLs der (kopierten) Bilder von der Seite zu ermitteln. Hierfür braucht es nur eine ganz einfache Routine, welche den Index der Seite (fish_1.html - fish_17.html) nach Links durchsucht und dann aus den jeweiligen Seiten die src-Angabe aus den Image-Tags extrahiert. Am Ende hat man dann eine Liste mit URL der entsprechenden Seite und URLs der gefundenen Bilder.

...

http://houseaqua.ru/1333-polypterus-delhezi.html;http://houseaqua.ru/uploads/posts/2014-08/thumbs/1409145423_pareutropius-debauwi-1.jpg
http://houseaqua.ru/1333-polypterus-delhezi.html;http://houseaqua.ru/uploads/posts/2014-04/thumbs/1397328525_angel-arabskiy-1.jpg
http://houseaqua.ru/1332-cyprichromis-leptosoma.html;http://houseaqua.ru/uploads/posts/2015-01/thumbs/1422129766_cyprichromis-leptosoma-2.jpg
http://houseaqua.ru/1332-cyprichromis-leptosoma.html;http://houseaqua.ru/uploads/posts/2015-01/thumbs/1422129718_cyprichromis-leptosoma-3.jpg

...

Mit diesen Bildern muss man dann "nur" noch die Google Bildersuche automatisiert füttern. Das gestaltet sich allerdings nicht ganz so einfach. Erstens bietet Google für die Reverse Bilder-Suche anhand eines Bildes keine API-Schnittstelle an, so dass man hier die Ergebnisse der Bildersuche aus dem HTML-Code extrahieren muss, zweitens möchte man offensichtlich eben das auf Seiten von Google dadurch verhindern, dass die Treffer in der Ergebnisausgabe erst im Browser per Javascript befüllt werden. Somit fällt ein einfacher HTTP-Request mit zugehörigem Parameter (URL des Bildes) und anschließende Auswertung der Antwort aus.

Gut, aber auch das ist nicht wirklich ein Problem, gibt es doch das allseits beliebte Webbrowser-Control. Diesem übergibt man einfach die entsprechende URL der Bildsuche, wartet bis die Ergebnisseite geladen ist (inkl. Ausführung aller Scripte) und wertet den dann dargestellten HTML-Code aus. Hierbei muss man sich dann auch nicht weiter mit der HTML-Struktur beschäftigen, einfach reguläre Ausdrücke tun es auch, da Google dankenswerterweise die entsprechenden Tags eindeutig kennzeichnet. Nun hat man für eine ganze Reihe Bilder weitere Fundstellen im Netz.

Spiegel-Spielchen

Leider gehen einem dabei aber eine ganze Reihe von Bildern durch die Lappen. Eine sehr verbreitete Methode bei den Bild-Kopierern ist das Spiegeln der Bilder. So ganz kann man die Google-Bildersuche zwar nicht austricksen, das Original wird meist unter den "ähnlichen Bildern" angezeigt. Für eine automatische Auswertung ist das aber unbefriedigend, da man die wirkliche Ähnlichkeit nicht feststellen kann. An dieser Stelle musste ich dann erst einmal ein wenig überlegen, wie man ohne Herunterladen und manuelle Bearbeitung der Bilder zu eindeutigen Ergebnissen kommt.

Die Lösung war dann aber ganz einfach: Ein kleines php-Skript auf dieser Seite, welches ein Bild mit der übergebenen URL spiegelt und dann das gespiegelte Bild zurückgibt, reichte vollkommen aus. So wurde die Bildersuche mit jedem Bild aus obiger Liste zwei Mal gefüttert, einmal mit dem "Original" und einmal mit einer gespiegelten Version.

Crenicichla regani

Crenicichla regani - gespiegelt

Das dauerte dann natürlich erst einmal ein wenig, die Bildersuche mit knapp 2000 Bilder zu füttern und das dann noch bei einer Internetverbindung hier auf dem Dorf, die eher an Modemzeiten erinnert, kann die Geduld schon ein wenig strapazieren. Zum Glück hat man ja einen Keller, in dem man die Zeit sinnvoll verbringen kann. Am Ende hat man dann eine lange Liste mit Fundstellen, welche dann nur noch optisch aufzubereiten ist.

HTML-Paket zum Download

Für die Darstellung habe ich mich dann für einen einfachen Template-basierenden HTML-Generator entschieden. Derartiges habe ich früher schon mehrfach beruflich implementiert (Dokumentation von Programmcode), daher geht es schnell von der Hand. So war es dann auch möglich die Bilder direkt von den Quell-URLs einzubinden. Und da ich nicht über die Bildrechte verfüge (und es ja nun nicht unseren osteuropäischen Kollegen gleichtun wollte), habe ich generierten Seiten hier nicht in die Seite integriert, sondern zu einem Paket geschnürt, welches jeder Interessierte auf seinem Rechner Nutzen kann. Das Ganze enthält keinerlei Skripte, es beinhaltet nur guten alten HTML-Quellcode, welche in einem Frameset angezeigt wird (sowas macht ja heute auch keiner mehr). Ist nicht sonderlich hübsch, erfüllt aber - so denke ich - seinen Zweck.

Und hier ist das erste Ergebnis von A.R.I.S. (Automatic Reverse Image Search). Einfach herunterladen, in ein Verzeichnis entpacken und die Datei index.html im Browser aufrufen. Vielleicht findet man die eigenen Bilder ja im Index.

aris_houseaqua_ru.zip

aris_houseaqua_ru.zip (5.4 MB)

Diese Datei darf natürlich gerne weitergegeben und auch an anderer Stelle zum Download angeboten werden. Und wenn Ihr jemanden kennt, der von der Kopiererei betroffen ist, dann könnt Ihr ja mal einen dezenten Hinweis geben. Evtl. hilft leichter Druck von verschiedenen Seiten dann ja doch. Weitere Domains werden sicher folgen, sollte jemand einen Vorschlag für eine besonders kopierfreudige Seite haben, dann nehme ich diesen für den nächsten Durchlauf natürlich gerne.