Posts mit dem Label IMDb werden angezeigt. Alle Posts anzeigen
Posts mit dem Label IMDb werden angezeigt. Alle Posts anzeigen

Montag, 4. September 2017

Zeitenwende bei der IMDb

Von der breiten Nutzerschar weitgehend unbemerkt, steht bei der IMDb eine drastische Änderung bevor. Doch zunächst die Entwarnung: Die sprichwörtlichen 99 Prozent der Benutzer sind auch nicht davon betroffen und werden überhaupt nichts bemerken. Doch für mich und viele andere sind die Ankündigungen äußerst ärgerlich.

Die meisten Anwender kennen ja nur den WWW-Zugang. Doch seit jeher gab es die meisten Daten der IMDb auch in Form von Listen in gepackten Textdateien, die auf drei FTP-Servern lagen und einmal wöchentlich aktualisiert wurden. Diese Listen enthalten nicht alle Informationen der IMDb, beispielsweise fehlen die Daten zu Oscars und Preisen bei Filmfestivals, doch die meisten und wichtigsten Daten zu Filmen und Personen sind vorhanden. Aus den Listen kann man mit geeigneten Programmen Datenbanken (im technischen Sinn) für beispielsweise MySQL oder PostgreSQL erstellen und dann offline nutzen - völlig werbefrei und mit aufgeräumter, klar strukturierter Oberfläche, also angenehmer für das Auge als die überladene Web-Version, und schneller in der Bedienung. Und man kann mit der Datenbanksprache SQL sehr komplexe Abfragen durchführen und Statistiken erstellen, was online überhaupt nicht möglich ist. Ich habe diese Möglichkeiten seit mehr als 15 Jahren genutzt - tatsächlich vergeht kaum ein Tag, an dem ich zuhause bin und nicht die lokalen IMDb-Daten benutze. Weitaus am häufigsten geht es dabei um einfache Abfragen von Filmen oder Fernsehsendungen, aber was für interessante und komplexe Dinge damit auch möglich sind, habe ich in meinem Artikel über die kulturell bedeutendsten Filme gezeigt - und das ist nur ein sehr kleiner Bruchteil der Möglichkeiten. Ich habe beispielsweise auch alle Filmtitel, die ich auf DVD und Blu-ray habe, mit einem Script direkt in die lokalen IMDb-Daten importiert. Damit kann ich nicht nur Fragen beantworten wie "von welchen Regisseuren habe ich die meisten Spielfilme auf DVD" (es führt Akira Kurosawa mit 21 vor Renoir (17), Mizoguchi (16) und Hitchcock (15)), sondern beispielsweise "aus welcher Dekade und welchem Land habe ich die meisten Spielfilme" (und die Antwort ist "1960-1969 Japan 36"), ohne dass ich Daten zu Regisseuren, Ländern und Erscheinungsjahren selbst hätte eingeben müssen - diese Informationen stecken ja in der IMDb.

Mit all diesen schönen Dingen ist nun Schluss - jedenfalls mit aktuellen Daten. Schon vor einigen Wochen waren auf dem FTP-Server der FU Berlin, den ich zum Download der Listen benutze, diese plötzlich nicht mehr am gewohnten Ort. Stattdessen fand sich dort dieses README, aus dem hervorgeht, dass der FTP-Zugang zu den Daten abgeschafft und durch einen Zugang über die Amazon-Cloud S3 ersetzt wird. Immerhin wurden die Listendateien noch nicht gelöscht, sondern in ein anderes Verzeichnis verschoben - doch nur bis zum 10. September, dann sollen die Daten tatsächlich gelöscht werden. Wörtlich steht im README: "This more robust and reliable solution will replace the IMDb FTP sites, which will be retired on 2017-09-10." Nun ist FTP altbewährt, simpel, robust und auf den Transport größerer Dateien als bei HTTP optimiert. Es ist sozusagen der VW-Bus unter den Internetprotokollen. Die proprietäre Cloud eines Internetkonzerns als robuster und verlässlicher zu erklären, ist doch etwas fragwürdig. Es beginnt schon damit, dass S3 nur mit Anmeldung funktioniert, während der FTP-Zugang natürlich völlig anonym ist. Und der Download von Daten aus S3 ist auch nicht umsonst. Kleine Datenmengen kosten wohl auch nur sehr wenig, aber trotzdem - bisher war es völlig umsonst.

Die IMDb wurde 1998 von Amazon gekauft. Als es damals Befürchtungen wegen einer bevorstehenden Kommerzialisierung gab, versprachen Amazon und die Leute von der IMDb, dass sich für die Nutzer nichts ändern werde. Dieses Versprechen wurde weitgehend gehalten - bis jetzt. In diesem Diskussionsforum der IMDb wurden die Änderungen ausführlicher angekündigt. Wie zu erwarten, war die Reaktion der User weitgehend negativ (ich habe auch meinen Senf dazugegeben). Daraufhin hat IMDb-Gründer und Chef (CEO) Col Needham in einem Posting vor zwei Wochen ein kleines bisschen zurückgerudert und die Gründe für den Umbau erläutert, die teilweise nachvollziehbar sind (schwere Wartbarkeit der Listen). Es soll jetzt wohl auch einen Zugang über HTTP geben, der keine Anmeldung bei S3 erfordert und keine Gebühren kostet. Soweit die gute Nachricht, auch wenn das vorerst noch vage bleibt und nach der Abschaltung von FTP erst mal nur die Cloud bleibt (wenn sich nicht in den nächsten Tagen noch etwas tut). Und auch dafür soll immerhin ein IMDb-Account nötig sein, was bisher auch nicht der Fall war. Doch das viel größere Ärgernis ist ohnehin, dass es nur noch einen Bruchteil der bisherigen Daten zum Download geben wird: "The sets of data we provide are updated to only include the essential ones that help with matching and linking to an IMDb title or name." Das soll wohl auch heißen, dass man sich von der Maßnahme noch mehr Hits auf www.imdb.com erhofft, als ob die prozentual sehr wenigen Nutzer der FTP-Daten da bisher eine nennenswerte Lücke gerissen hätten. Nebenbei sind natürlich auch bei den bisherigen Daten klickbare Links zur Online-Version vorhanden, wenn man ein passendes Programm wie AMDbFront verwendet. Welche wenigen Daten der ursprünglichen Planung nach zur Verfügung stehen sollten, kann man detailliert hier lesen. Wie Col Needham im erwähnten Posting schreibt, sollen daneben nun auch die fremdsprachigen AKA-Titel zugänglich bleiben. Das ist nur ein dürres Zugeständnis, ansonsten heißt es nur sehr vage: "Longer term, we are looking at the possibility of daily diff files for at least some of the data in the basic set."

Wie gesagt - all die oben erwähnten schönen Dinge werden dann mit neuen Daten nicht mehr möglich sein. Wie aus den Kommentaren im Diskussionsforum hervorgeht, bin ich keineswegs der einzige, der sich solche Programme oder Scripts rund um die Listen gebastelt hat. Ich werde jedenfalls am nächsten Wochenende, wenn es zum letzten Mal aktualisierte Daten in der alten Form gibt, meine Installation "einfrieren" und weiter betreiben, weil das für mich einfach unverzichtbar ist. Dass die Daten dann langsam veralten, muss ich in Kauf nehmen. Ob ich zusätzlich auch auf den neuen Zugang zugreife, weiß ich noch nicht. Da muss ich erst sehen, wie sich das entwickelt. Bei der Amazon-Cloud werde ich mich jedenfalls nicht anmelden. Wer selbst eine lokale IMDb betreibt, aber noch nichts von der Änderung mitbekommen hat, weil er die Daten nur selten aktualisiert (oder wer jetzt noch damit anfangen will), der sollte noch schnell aktuelle Listen herunterladen. In ein paar Tagen sind sie weg, vermutlich für immer, wenn nicht noch im letzten Moment ein Umdenken kommt.

UPDATE, 8. September: Gerade wurde bekanntgegeben, dass weger der Bemühungen, die (nach wie vor arg geschrumpften) Daten auch über HTTP ohne einen S3-Account zur Verfügung zu stellen, die Abschaltung der FTP-Server auf den 7. November 2017 verschoben wurde.

Dienstag, 17. Februar 2015

Die kulturell bedeutendsten Filme - objektiv und automatisch ermittelt

Funktioniert sowas überhaupt? Nun ja, wie man's nimmt. Zumindest für US-amerikanische Filme ist das Ergebnis recht brauchbar (sofern man einem solchen Kanon überhaupt etwas abgewinnen kann), für andere Länder eher nicht. Es geht um Folgendes: Eine Gruppe von Forschern, die meisten von der Northwestern University in Evanston (Illinois), nicht weit von Chicago, hat sich Gedanken darüber gemacht, ob und wie man eben die kulturelle Signifikanz von Filmen automatisiert ermitteln kann. Ihre Ergebnisse haben sie letztes Jahr und in diesem Januar in zwei Artikeln veröffentlicht, die man vollständig und kostenlos online lesen kann (aber Vorsicht: trockener Stoff mit viel Statistik). Frühere Versuche auf diesem Gebiet orientierten sich vorwiegend an finanziellen Parametern (z.B. Herstellungskosten, gesamtes Einspielergebnis, größtes wöchentliches Einspielergebnis) und erbrachten keine überzeugenden Resultate. Die Autoren um Max Wasserman und Luís A. N. Amaral kamen nun auf die Idee, ein Maß aus der Welt der Wissenschaft auf Filme zu übertragen. Die Bedeutung eines wissenschaftlichen Artikels wird üblicherweise daran gemessen, wie oft er von anderen Forschern in ihren eigenen Arbeiten zitiert wird. Übertragen auf Filme heißt das: Je öfter Elemente eines Films in späteren Filmen zitiert werden, desto bedeutender ist er. Da solche Zitate im Gegensatz zu wissenschaftlichen Artikeln bei Filmen nicht explizit annonciert werden, ersannen die Forscher ein Verfahren, die Daten aus der IMDb zu extrahieren (mehr zu der Technik weiter unten). Dann verglichen sie die damit erzielten Ergebnisse mit Verfahren, die auf den Bewertungen professioneller Filmkritiker sowie auf der "Schwarmintelligenz" vieler Amateur-Rezensenten beruhen. Um das Ergebnis vorwegzunehmen: Eine Variante der IMDb-Technik erzielte das beste Ergebnis.

Zunächst aber untersuchten die Forscher mit statistischen Verfahren, wie verschiedene in der IMDb gespeicherte Größen voneinander abhängen. Im Mai 2014 veröffentlichten sie diese Zwischenergebnisse im Journal of the Association for Information Science and Technology in einer Arbeit mit dem Titel "Correlations between user voting data, budget, and box office for films in the internet movie database". In der IMDb gibt es die Sektion Connections. Von den acht Kategorien, wie hier zwei Filme miteinander verknüpft sein können, berücksichtigten die Autoren nur drei, nämlich references, spoofs und features. References bedeutet, dass ein Film Handlungs- oder Stilelemente eines anderen Films zitiert. Spoofs ist ähnlich, nur wird hier der frühere Film karikiert (man denke etwa an die Hitchcock-Veräppelungen in HÖHENKOLLER). Features schließlich bedeutet, dass Ausschnitte des älteren Films im neueren zu sehen sind, z.B. als "Film im Film" auf einem Fernsehschirm oder einer Kinoleinwand. Die Forscher ermittelten einen Fundus von über 32.000 Filmen, die auf eine dieser drei Arten aufeinander verweisen. Davon verwendeten sie das größte direkt zusammenhängende Netzwerk, fast 29.000 Filme mit über 74.000 Verbindungen, für die weitere Analyse. Dieser Korpus wurde daraufhin auf drei Gruppen verteilt: US-Filme, englischsprachige Filme, die nicht aus den USA kommen, und alle anderen Filme. Damit wurde dann untersucht, ob und in welcher Form es zu systematischen, von der Sprache oder dem Herkunftsland abhängigen Verzerrungen bei den User-Votings und bei den Connections in der IMDb kommt. Und tatsächlich fanden die Forscher, dass sowohl US-Filme als auch sonstige englischsprachige Filme stärker repräsentiert sind, als zu erwarten wäre, wenn Sprache oder Land keine Rolle spielen würden. Um systematische Fehler durch sprach- und länderübergreifende Vergleiche zu vermeiden, betrachteten die Forscher im Folgenden nur noch rein amerikanische Filme. Von internationalen Coproduktionen mit amerikanischer Beteiligung berücksichtigten sie nur solche, die in den USA gedreht wurden (so ist etwa DR. STRANGELOVE noch dabei, A CLOCKWORK ORANGE dagegen nicht, obwohl beide britisch-amerikanische Produktionen sind). Das betrachtete Netzwerk reduzierte sich dadurch auf 15.425 Filme mit 42.794 Verknüpfungen. Mit diesem endgültigen Korpus führten die Forscher dann die im Titel der Arbeit schon genannten Untersuchungen über den statistischen Zusammenhang von User-Votes in der IMDb, Produktionskosten und Einspielergebnissen durch. Dieser Aspekt hat mich weniger interessiert (außerdem gibt es hier Statistik auf einem Niveau, das mir zu hoch ist), deshalb hier nur kurz das Hauptergebnis: Sowohl das Einspielergebnis als auch (noch etwas stärker) die Produktionskosten eines Films korrelieren stark mit der Zahl der abgegebenen Stimmen bei den User-Votes. Das kommt nicht wirklich überraschend, aber jetzt ist es auch bewiesen, zumindest für die USA (sofern die Autoren die statistischen Werkzeuge korrekt angewendet haben, was ich nicht beurteilen kann). Die Höhe der durchschnittlichen Bewertung bei den Votes hängt dagegen nicht von den beiden finanziellen Größen ab. Das Fazit des Artikels ist so schön, dass ich es wörtlich wiedergeben muss: "Therefore, budget is overwhelmingly the most relevant factor in determining a film's ultimate prominence. To make a film more notable, Hollywood does not need to spend more money on making it better; Hollywood just needs to spend more money."

Drei der ursprünglichen sechs Autoren legten dann im zweiten Artikel nach, erschienen letzten Januar unter dem Titel "Cross-evaluation of metrics to estimate the significance of creative works" in den Proceedings of the National Academy of Sciences of the USA (PNAS). Vielleicht, weil die PNAS ein bekannteres Journal sind, oder auch, weil sich das Kernergebnis der zweiten Arbeit griffiger formulieren lässt als die Ergebnisse des ersten Artikels, wurde diese Arbeit nun auch außerhalb der Wissenschaftskreise wahrgenommen, und die Presse berichtete (auf Deutsch u.a. hier und hier). Nachdem die Autoren Max Wasserman, Xiao Han T. Zeng und Luís A. Nunes Amaral noch einmal rekapitulieren, wie sie zu ihrem Netzwerk aus über 15.000 Filmen mit fast 43.000 Verbindungen gekommen sind, geht es dann ans Eingemachte. Wenn man ermitteln will, wie gut eine Methode die kulturelle Bedeutung von Filmen erfassen kann, muss man bereits wissen bzw. definieren, was ein kulturell bedeutsamer Film sein soll. Die Autoren griffen dabei auf die Liste der Filme zurück, die in der National Film Registry (NFR) versammelt sind, die vom National Film Preservation Board für die Library of Congress nach einem sorgfältigen Auswahlverfahren erstellt wird. Zum Zeitpunkt der Untersuchung waren das 625 Filme, momentan sind es 650. Nun wurde also gemessen, wie gut verschiedene Verfahren die Liste der NFR reproduzieren können. Als Beispiel für professionelle Kritiker wurde Roger Ebert ausgewählt - weniger, weil er (beim breiten Publikum) der bekannteste amerikanische Kritiker war, sondern weil er über viele Jahre hinweg zahlreiche Filme mit einem einheitlichen und übersichtlichen Sterne-System bewertet hat, so dass sich seine Meinung gut in Statistik übersetzen ließ. Außerdem wurde die Website Metacritic ausgewertet, die viele verschiedene Quellen berücksichtigt und daraus einen Durchschnittswert bildet. Als Vertreter der "wisdom of the crowd" wurde einerseits die Zahl der abgegebenen Stimmen und andererseits die Durchschnittswertung bei den IMDb User-Votes herangezogen. Und schließlich wurden zwei automatische Verfahren getestet: das schon beschriebene mit den Movie Links, wobei zunächst alle Referenzen gezählt wurden, die in die genannten drei Kategorien fallen (in der Studie total citation count genannt), sowie schließlich ein PageRank-Algorithmus ähnlich dem, der von Google verwendet wird.

Und das Ergebnis: Roger Ebert schneidet schlecht darin ab, die NFR zu reproduzieren, die beiden Varianten der Schwarmintelligenz besser, und Metacritic noch besser. Die beiden automatisierten Verfahren sind ungefähr so gut wie Metacritic, und untereinander hat mal der total citation count und mal PageRank die Nase vorn, je nach der verwendeten statistischen Analysemethode. Doch es geht noch besser. Die beste Trefferquote erzielt der citation count, jedoch mit einer Modifikation: Es werden nicht mehr alle Referenzen gezählt, sondern nur noch die, bei denen zwischen dem referenzierten und dem referenzierenden Film mindestens 25 Jahre liegen. Durch diesen long-gap citation count werden die Effekte von kurzfristigen Hypes eliminiert und dadurch insgesamt die Qualität der Daten verbessert. Es bleiben dann sozusagen die zeitlosen Klassiker übrig. Die Lücke von 25 Jahren mag groß erscheinen, aber die Autoren haben mit ihren statistischen Analysen ermittelt, dass sich erst nach ungefähr dieser Zeit die Effekte kurzfristiger Überbewertung von Filmen verlieren. Die Autoren beschäftigen sich dann noch damit, ob eher ein Film als Ganzes oder eher einzelne ikonische Szenen referenziert werden. Diese Frage untersuchen sie zunächst an 15 ausgewählten Filmen und versuchen dann, das Ergebnis auf die Gesamtheit zu übertragen, gestehen dabei aber Schwierigkeiten ein, so dass sie zu keinen allgemeinen Aussagen fähig sind.

Und wie kamen die Forscher nun an die Daten für ihre Untersuchung? Die meisten Internet-affinen Filmfreunde kennen die IMDb. Weit weniger bekannt ist aber, dass es neben dem Web-Interface noch einen weiteren Zugang gibt. (Früher gab es noch einen bandbreitenschonenden dritten, nämlich per Mail, aber der scheint inzwischen abgeschafft worden zu sein.) Nicht alle, aber die meisten und wichtigsten Daten werden auch in Form von Listen in komprimierten Textdateien zur Verfügung gestellt. Diese Listen liegen auf drei frei zugänglichen FTP-Servern, einer in Schweden, einer in Finnland, und ein Server der Freien Universität Berlin, wo sie einmal wöchentlich (normalerweise in der Nacht von Freitag auf Samstag) aktualisiert werden. Entpackt haben alle Listen zusammen eine Größe von derzeit ca. fünfeinhalb Gigabyte (der Umfang wächst langsam, aber stetig). Die Informationen über die Connections stecken in der Liste movie-links.list. Mit diesen Listen kann man dann am heimischen PC oder Notebook arbeiten. Dafür gibt es verschiedene und unterschiedlich leistungsfähige Programme, die entweder direkt mit den Listen arbeiten oder daraus eine Datenbank (im technischen Sinn) erstellen, was deutlich flexiblere Abfragen erlaubt. Die Autoren der Studie arbeiteten permanent mit einer im Oktober 2012 heruntergeladenen Version der Daten, und sie benutzten zur Auswertung selbst geschriebene Python-Programme. Ich selbst benutze die Offline-Version der IMDb seit ungefähr 15 Jahren, und die längste Zeit davon mit dem Programm AMDbFront, das die Daten in eine MySQL-Datenbank überführt. Neben den leistungsfähigen Recherche-Möglichkeiten, die mit dem Online-Zugang überhaupt nicht möglich sind, erfreut auch eine übersichtliche und werbefreie Oberfläche das Auge. Leider wird AMDbFront seit vielen Jahren nicht mehr weiterentwickelt, und es ist inzwischen fast komplett aus dem Internet verschwunden (nur bei www.archive.org findet man es noch). Als Alternative mag JMDB dienen, das ich aber selbst nie getestet habe, und dessen Entwicklung inzwischen auch etwas zu stagnieren scheint. Leider haben die Maintainer der IMDb vor einigen Monaten das Format von movie-links.list geändert. Die Liste enthält jetzt nur noch die Link-Kategorien version of, follows und das passive Gegenstück followed by. References, spoofs und features (bzw. die passiven Gegenstücke dazu) sind nicht mehr enthalten, und damit sind die hier beschriebenen Untersuchungen überhaupt nicht mehr möglich. Ich hatte aber zum Glück ein Backup vom März 2013, auf das ich zurückgreifen konnte. Und damit ist es mir gelungen, ein Ergebnis der Studie, nämlich die Erstellung einer Liste mit Hilfe des long-gap citation count, weitgehend zu reproduzieren. [UPDATE: Seit Mitte Dezember 2015 ist die movie-links.list wieder in ihrer ursprünglichen Form verfügbar. Damit lassen sich die geschilderten Untersuchungen wieder mit aktuellen und konsistenten Datensätzen durchführen!]

Einfache Anfragen erledigt man in AMDbFront per GUI, aber für komplexere Probleme kann man die Datenbank-Sprache SQL verwenden. Hier nun ohne weitere Vorwarnung mein SQL-Statement:

select movie1.title, count(movie1.title) as LGC
from movies as movie1, movies as movie2, movielinks, ml, moviecountries as mc1,
     moviecountries as mc2, countries as country1, countries as country2
where movie1.title_id = mc1.title_id
  and mc1.country_id = country1.country_id
  and country1.country = 'USA'
  and movie2.title_id = mc2.title_id
  and mc2.country_id = country2.country_id
  and country2.country = 'USA'
  and movie2.date < 2012
  and movie2.date - movie1.date > 24
  and movie1.title_id = movielinks.title_id
  and movielinks.title_ref = movie2.title_id
  and movielinks.ml_id = ml.ml_id
  and (ml.description = 'referenced in' or
       ml.description = 'featured in' or
       ml.description = 'spoofed in')
  and movie1.title not like '"%'
  and movie1.title not like '%(TV)'
  and movie1.title not like '%(V)'
  and movie1.title not like '%(VG)'
  and movie2.title not like '"%'
  and movie2.title not like '%(TV)'
  and movie2.title not like '%(V)'
  and movie2.title not like '%(VG)'
group by movie1.title
order by LGC desc
limit 50;

Ich bin kein SQL-Experte, und vielleicht kann man das noch eleganter oder performanter formulieren, aber so funktioniert es auch. Die Erstellung der Liste benötigt auf meinem alten PC (AMD Athlon XP 3000+, 1,5 GB RAM, keine SSD) beim ersten Mal ca. dreieinhalb Minuten. Bei wiederholter Ausführung, auch mit veränderten Parametern (z.B. einem anderen Land als den USA), geht es etwa viermal so schnell, weil ein Teil der Daten schon in einem Cache von MySQL (also im RAM) liegt und nicht mehr von der Platte geholt werden muss. Das lässt Luft zum Experimentieren, und das habe ich genutzt.


Listen, Listen und nochmal Listen


Die Liste nach dem long-gap citation count, genauer gesagt die ersten 41 Einträge (alle, die einen LGC von über 50 haben), findet sich im Supplement S1 zum Artikel (Tabelle S3). Hier der direkte Vergleich der "offiziellen" und meiner eigenen Liste:

USA - links Wasserman et al., rechts meine Liste
Titel LGC Titel LGC
The Wizard of Oz (1939) 565 The Wizard of Oz (1939) 607
Star Wars (1977) 297 Star Wars (1977) 324
Psycho (1960) 241 Psycho (1960) 278
Casablanca (1942) 212 Casablanca (1942) 234
Gone with the Wind (1939) 198 Gone with the Wind (1939) 214
King Kong (1933) 191 King Kong (1933) 206
Frankenstein (1931) 170 Frankenstein (1931) 186
The Godfather (1972) 162 The Godfather (1972) 183
2001: A Space Odyssey (1968) 143 2001: A Space Odyssey (1968) 162
Citizen Kane (1941) 143 Citizen Kane (1941) 161
Jaws (1975) 129 Jaws (1975) 139
Night of the Living Dead (1968) 122 Night of the Living Dead (1968) 126
It's a Wonderful Life (1946) 109 It's a Wonderful Life (1946) 120
The Graduate (1967)   97 The Graduate (1967) 114
Vertigo (1958)   92 Vertigo (1958) 103
Dr. Strangelove or: How I Learned ... (1964)   91 Dr. Strangelove or: How I Learned ... (1964) 100
Snow White and the Seven Dwarfs (1937)   91 Snow White and the Seven Dwarfs (1937) 97
Dracula (1931)   90 Dracula (1931) 95
  --- A Clockwork Orange (1971) 94
  --- Il buono, il brutto, il cattivo. (1966) 91
The Maltese Falcon (1941)   80 The Exorcist (1973) 84
Bambi (1942)   79 Bambi (1942) 83
The Exorcist (1973)   78 The Maltese Falcon (1941) 82
Taxi Driver (1976)   71 Sunset Blvd. (1950) 80
Sunset Blvd. (1950)   70 Taxi Driver (1976) 77
Planet of the Apes (1968)   69 Singin' in the Rain (1952) 72
Deliverance (1972)   66 Deliverance (1972) 70
The Sound of Music (1965)   61 Planet of the Apes (1968) 69
Bride of Frankenstein (1935)   58 Bride of Frankenstein (1935) 67
Singin' in the Rain (1952)   57 The Sound of Music (1965) 66
The Texas Chain Saw Massacre (1974)   57 The Texas Chain Saw Massacre (1974) 65
Apocalypse Now (1979)   57 Apocalypse Now (1979) 64
Rebel Without a Cause (1955)   57 Rebel Without a Cause (1955) 64
Star Wars: Episode V - The Empire ... (1980)   56 Star Wars: Episode V - The Empire ... (1980) 62
Mary Poppins (1964)   54 Mary Poppins (1964) 62
Rear Window (1954)   54 The Seven Year Itch (1955) 60
North by Northwest (1959)   54 North by Northwest (1959) 59
Pinocchio (1940)   53 Dirty Harry (1971) 59
Willy Wonka & the Chocolate Factory (1971)   52 Rear Window (1954) 59
The Seven Year Itch (1955)   51 Pinocchio (1940) 57
Rosemary's Baby (1968)   51 Rosemary's Baby (1968) 57
Dirty Harry (1971)   51 The Wolf Man (1941) 57
West Side Story (1961)   51 West Side Story (1961) 57

Wie oben schon erwähnt, sind in der offiziellen Liste außerhalb der USA entstandene Produktionen nicht vertreten, bei mir sind sie dagegen aufgrund der verwendeten SQL-Query drin. Das betrifft hier A CLOCKWORK ORANGE und IL BUONO, IL BRUTTO, IL CATTIVO. Ich habe darauf verzichtet, diese Titel nachträglich aus der Liste zu löschen, stattdessen habe ich in der offiziellen Liste zwei Leerzeilen eingefügt, um die Übersichtlichkeit beim Vergleich zu wahren. Wie man sieht, reproduziert mein Verfahren die Reihenfolge der offiziellen Liste recht gut. Dass meine Zahlen etwas höher sind, hat wahrscheinlich mehrere Gründe. Erstens sind meine Daten etwas neuer (März 2013 vs. Okt. 2012), und in der Zwischenzeit können neue Verknüpfungen in die IMDb eingetragen worden sein. Zweitens berücksichtige ich, wie eben erwähnt, etwas mehr Filme, und das betrifft nicht nur die referenzierten, sondern auch die referenzierenden Filme, so dass sich dadurch die Zahl der erfassten Verknüpfungen erhöhen kann. Weitere Abweichungen können sich dadurch ergeben, dass ich in meiner Liste Fernsehserien (sowohl ganze Serien als auch einzelne Folgen davon), TV-Filme und Shows, Videos und Videospiele ausgeschlossen habe, während ich nicht weiß, wie das die Autoren der Studie genau gehandhabt haben (sie erwähnen in dieser Hinsicht nur, dass sie Kurz- und Dokumentarfilme nicht ausgeschlossen haben). Klar ist aber immerhin, dass in der offiziellen Liste TV-Serien nicht berücksichtigt sind, denn ansonsten würde STAR TREK (die Original-Serie) auf Platz 3 landen, und weitere Serien wie SESAME STREET, THE FLINTSTONES, BATMAN und THE TWILIGHT ZONE wären vorne mit dabei. - Von den 41 ersten Filmen auf der offiziellen Liste waren zum Zeitpunkt der Untersuchung gerade mal vier nicht in der NFR vertreten, und zwei davon, nämlich ROSEMARY'S BABY und WILLY WONKA & THE CHOCOLATE FACTORY, wurden bei der letzten Erweiterung im Dezember 2014 aufgenommen, gerade mal zwei Wochen nachdem die Studie zur Veröffentlichung angenommen wurde. Die beiden verbleibenden Filme, die es (noch) nicht in die NFR geschafft haben, sind THE SEVEN YEAR ITCH und THE TEXAS CHAIN SAW MASSACRE.

Nachdem ich mich also davon überzeugt hatte, dass meine Methode im Prinzip funktioniert, wollte ich sehen, ob ich einen weiteren "offiziellen" Kanon ähnlich der NFR reproduzieren kann. Dazu wählte ich Dänemark, denn es gibt seit 2006 einen Dänischen Kulturkanon, der jeweils zwölf Werke aus verschiedenen Kategorien enthält, darunter auch zwölf Filme. Zwar ist dieser Kanon nicht unumstritten, aber darum soll es hier nicht gehen. Die zwölf Filme sind (in chronologischer Ordnung):

Dänischer Kulturkanon:
Du skal ære din hustru (Carl Th. Dreyer, 1925)
Vredens Dag (Carl Th. Dreyer, 1943)
Ditte Menneskebarn (Bjarne Henning-Jensen, 1946)
Soldaten og Jenny (Johan Jacobsen, 1947)
Sult (Henning Carlsen, 1966)
Bennys Badekar (Jannik Hastrup, Flemming Quist Møller, 1971)
Matador (Erik Balling, 1978-1982)
Kundskabens træ (Nils Malmros, 1981)
Babettes gæstebud (Gabriel Axel, 1987)
Pelle Erobreren (Bille August, 1987)
Festen (Thomas Vinterberg, 1998)
Idioterne (Lars von Trier, 1998)

Mein Versuch, diese Liste halbwegs zu reproduzieren, schlug komplett fehl:

Dänemark:
Titel LGC
Afgrunden (1910) 4
Engelein (1914) 3
Afsporet (1942) 2
Café Paradis (1950) 2
De nåede færgen (1948) 2
Den sorte drøm (1911) 2
Det perfekte menneske (1967) 2
Dilemma (1962/II) 2
Far til fire (1953) 2
Gertrud (1964) 2
Mød mig paa Cassiopeia (1951) 2

Danach folgen noch ca. 40 Filme mit jeweils einem Punkt, von denen wenigstens vier im Kanon vertreten sind. Das Schlimmste an diesem kläglichen Ergebnis sind die mickrig kleinen Zahlen, die die ganze Liste von vornherein wertlos machen. Um es vorwegzunehmen: Mit anderen Ländern sieht es nicht viel besser aus. Immer werden die Zahlen schnell sehr klein, so dass keine wirklich brauchbaren Listen zustandekommen. Deshalb mein schon am Anfang verkündetes Fazit, dass die Methode nur für die USA brauchbar ist, aber nicht für andere Länder. Die Forscher diskutieren dieses Problem nicht - sie beschränkten sich ja eben auf amerikanische Filme, wo die Zahlen groß genug sind.

Doch ich ließ mich nicht entmutigen, sondern ich habe unverdrossen weitere Listen erstellt, aus reiner Neugier. Zunächst hat mich natürlich Deutschland interessiert. Hier wird es etwas kompliziert. Deutschland ist in der IMDb als "Germany", "West Germany" und "East Germany" vertreten. "West" und "East Germany" bezeichnen die BRD (bis 1990) bzw. die DDR, dagegen sind die westlichen und die sowjetische Besatzungszone bis 1949 einfach "Germany", ebenso wie Deutschland bis 1945 und das wiedervereinigte Deutschland. Man muss sich also überlegen, welche Liste man genau haben will und wie man daran kommt. Es hätte beispielsweise wenig Sinn, eine Liste bis 1949 zu erstellen und dafür sowohl für die referenzierten als auch die referenzierenden Filme (movie1 und movie2 im SQL-Statement) nur solche bis 1949 zuzulassen, denn durch den time gap von 25 Jahren könnten dann überhaupt nur Filme bis 1924 auf der Liste landen, was nicht Sinn der Sache wäre. Deshalb habe ich eine Liste bis 1949 erstellt, aber bei den referenzierenden Filmen solche aus allen Zeiträumen und allen deutschen Staaten zugelassen.

Deutschland bis 1949:
Titel LGC
Der blaue Engel (1930) 13
Nosferatu, eine Symphonie des Grauens (1922) 13
Triumph des Willens (1935) 13
Metropolis (1927) 12
M (1931) 11
Olympia 1. Teil - Fest der Völker (1938) 8
Dr. Mabuse, der Spieler - Ein Bild der Zeit (1922) 6
Der ewige Jude (1940) 5
Kolberg (1945) 5
Olympia 2. Teil - Fest der Schönheit (1938) 5
Die Büchse der Pandora (1929) 4
Die Nibelungen: Siegfried (1924) 4
Der Golem (1915) 3
Die 3 Groschen-Oper (1931) 3
Die Drei von der Tankstelle (1930) 3
Die Mörder sind unter uns (1946) 3
Die Nibelungen: Kriemhilds Rache (1924) 3
Die große Liebe (1942) 3
Jud Süß (1940) 3
Ohm Krüger (1941) 3
Sumurun (1920) 3

Auch bei BRD und DDR habe ich alle späteren deutschen Filme als Referenz zugelassen. Es sei daran erinnert, dass auch internationale Coproduktionen auf den Listen auftauchen können, ungeachtet der "gefühlten" Herkunft der Filme.

BRD (bis 1990):
Titel LGC
Il buono, il brutto, il cattivo. (1966) 11
Per un pugno di dollari (1964) 5
Angst essen Seele auf (1974) 4
Abschied von gestern - (Anita G.) (1966) 3
Aguirre, der Zorn Gottes (1972) 3
La caduta degli dei (Götterdämmerung) (1969) 3
Alice in den Städten (1974) 2
Der Schatz im Silbersee (1962) 2
Der Zinker (1963) 2
Die Brücke (1959) 2
Fontane Effi Briest (1974) 2
Les parapluies de Cherbourg (1964) 2
Liebe ist kälter als der Tod (1969) 2
Lola Montès (1955) 2
Tiefland (1954) 2
Warnung vor einer heiligen Nutte (1971) 2
Winnetou - 3. Teil (1965) 2
Winnetou und das Halbblut Apanatschi (1966) 2

DDR:
Titel LGC
Die Legende von Paul und Paula (1973) 2
Geliebte Weiße Maus (1964) 2
Solo Sunny (1980) 2
Spur der Steine (1966) 2
Berlin - Ecke Schönhauser (1957) 1
Berlin um die Ecke (1965) 1
Das Kaninchen bin ich (1965) 1
Der geteilte Himmel (1964) 1
Die Antike Münze (1965) 1
Eine Handvoll Noten (1961) 1
Ernst Thälmann - Führer seiner Klasse (1955) 1
Ernst Thälmann - Sohn seiner Klasse (1954) 1
Heißer Sommer (1968) 1
Ich war neunzehn (1968) 1
Jahrgang '45 (1965) 1
Karla (1965) 1
Kocicí princ (1979) 1
Meine Frau macht Musik (1958) 1
Revue um Mitternacht (1962) 1
Sterne (1959) 1

Beim wiedervereinigten Deutschland kann die Forderung nach einer Lücke von 25 Jahren aus naheliegenden Gründen nicht aufrechterhalten werden. Ich habe deshalb hier den Wert willkürlich auf 10 Jahre herabgesetzt. Trotzdem fiel die Liste recht mickrig aus.

Wiedervereinigtes Deutschland:
Titel LGC
Fight Club (1999) 2
Kein Pardon (1993) 2
Amjad's Village (1991) 1
Beruf Neonazi (1993) 1
Bis ans Ende der Welt (1991) 1
Das Leben ist eine Baustelle. (1997) 1
Das Versprechen (1995) 1
Der Totmacher (1995) 1
Europa (1991) 1
Ich bin meine eigene Frau (1992) 1
La cérémonie (1995) 1
La vie de bohème (1992) 1
Lola rennt (1998) 1
Malina (1991) 1
Poussières d'amour - Abfallprodukte der Liebe (1996) 1
Prinz in Hölleland (1993) 1
Resident Evil (2002) 1
Schattenboxer (1992) 1
The Hudsucker Proxy (1994) 1
Werner - Beinhart! (1990) 1

Und schließlich eine gesamtdeutsche Schau, über alle Zeiten und Systeme hinweg.

Deutschland (gesamt):
Titel LGC
Der blaue Engel (1930) 13
Nosferatu, eine Symphonie des Grauens (1922) 13
Triumph des Willens (1935) 13
Metropolis (1927) 12
Il buono, il brutto, il cattivo. (1966) 11
M (1931) 11
Olympia 1. Teil - Fest der Völker (1938) 8
Dr. Mabuse, der Spieler - Ein Bild der Zeit (1922) 6
Der ewige Jude (1940) 5
Kolberg (1945) 5
Olympia 2. Teil - Fest der Schönheit (1938) 5
Per un pugno di dollari (1964) 5
Angst essen Seele auf (1974) 4
Die Büchse der Pandora (1929) 4
Die Nibelungen: Siegfried (1924) 4
Abschied von gestern - (Anita G.) (1966) 3
Aguirre, der Zorn Gottes (1972) 3
Der Golem (1915) 3
Die 3 Groschen-Oper (1931) 3
Die Drei von der Tankstelle (1930) 3
Die Mörder sind unter uns (1946) 3
Die Nibelungen: Kriemhilds Rache (1924) 3
Die große Liebe (1942) 3
Jud Süß (1940) 3
La caduta degli dei (Götterdämmerung) (1969) 3
Ohm Krüger (1941) 3
Sumurun (1920) 3

Deutschlands südliche Nachbarn agieren auf sehr niedrigem Niveau.

Österreich:
Titel LGC
Sissi (1955) 2
Die große Liebe (1931) 1
Jugendspiele (1907) 1
Mozart (1955) 1
Schleiertanz (1907) 1
Sissi - Die junge Kaiserin (1956) 1
Sissi - Schicksalsjahre einer Kaiserin (1957) 1
Sklavenraub (1907) 1

Schweiz:
Titel LGC
La salamandre (1971) 1
Polizischt Wäckerli (1956) 1
Polizist Wäckerli in Gefahr (1967) 1
Uli, der Knecht (1954) 1
Wachtmeister Studer (1939) 1

Am erfreulichsten sind die Zahlen noch bei Großbritannien. Vielleicht, weil es für das britische Publikum, das die Links ja in erster Linie erkennen und eintragen muss, keine Sprachbarriere bei der Bedienung der IMDb gibt. Und natürlich heben britisch-amerikanische Coproduktionen mit vielen Verknüpfungen den Schnitt.

Großbritannien:
Titel LGC
2001: A Space Odyssey (1968) 35
A Clockwork Orange (1971) 31
Dr. Strangelove or: How I Learned ... (1964) 18
Goldfinger (1964) 14
The Shining (1980) 14
Alien (1979) 12
Brief Encounter (1945) 11
Lawrence of Arabia (1962) 11
Monty Python and the Holy Grail (1975) 11
The Third Man (1949) 11
A Matter of Life and Death (1946) 8
Dr. No (1962) 7
A Hard Day's Night (1964) 6
Barry Lyndon (1975) 6
Blade Runner (1982) 6
The Italian Job (1969) 6
Don't Look Now (1973) 5
From Russia with Love (1963) 5
Lolita (1962) 5
Straw Dogs (1971) 5
Superman (1978) 5
The Bridge on the River Kwai (1957) 5
The Dam Busters (1955) 5
The Omen (1976) 5
The Red Shoes (1948) 5
The Spy Who Loved Me (1977) 5
Doctor Zhivago (1965) 4
Get Carter (1971) 4
On Her Majesty's Secret Service (1969) 4
Peeping Tom (1960) 4
Repulsion (1965) 4
The 39 Steps (1935) 4
The African Queen (1951) 4
The Chronicle History of King Henry the Fift ... (1944) 4
The Ipcress File (1965) 4
The Man with the Golden Gun (1974) 4
The Terminator (1984) 4

Einige weitere europäische Länder.

Frankreich:
Titel LGC
Les quatre cents coups (1959) 15
L'Atalante (1934) 13
Jules et Jim (1962) 12
Un chien andalou (1929) 12
Le mépris (1963) 10
À bout de souffle (1960) 10
8½ (1963) 9
Les enfants du paradis (1945) 9
Zéro de conduite: Jeunes diables au collège (1933) 9
La dolce vita (1960) 7
Les vacances de Monsieur Hulot (1953) 7
Belle de jour (1967) 6
Jour de fête (1949) 6
Le samouraï (1967) 6
Le voyage dans la lune (1902) 6
Les parapluies de Cherbourg (1964) 6
Bande à part (1964) 5
L'année dernière à Marienbad (1961) 5
L'âge d'or (1930) 5
La nuit américaine (1973) 5
La passion de Jeanne d'Arc (1928) 5
La règle du jeu (1939) 5
Le quai des brumes (1938) 5
Lola (1961) 5
Nanook of the North (1922) 5
Pierrot le fou (1965) 5
Hôtel du Nord (1938) 4
L'arrivée d'un train à La Ciotat (1896) 4
La grande illusion (1937) 4
La notte (1961) 4
Le jour se lève (1939) 4
Les demoiselles de Rochefort (1967) 4
Pickpocket (1959) 4
Un homme et une femme (1966) 4
Vivre sa vie: Film en douze tableaux (1962) 4

Italien:
Titel LGC
8½ (1963) 8
La dolce vita (1960) 8
Ladri di biciclette (1948) 8
Paisà (1946) 8
I vitelloni (1953) 6
Il buono, il brutto, il cattivo. (1966) 6
Per un pugno di dollari (1964) 5
Rocco e i suoi fratelli (1960) 5
Amarcord (1973) 4
Le mani sulla città (1963) 4
C'era una volta il West (1968) 3
Catene (1949) 3
Diabolik (1968) 3
Divorzio all'italiana (1961) 3
Fellini - Satyricon (1969) 3
Il gattopardo (1963) 3
Il sorpasso (1962) 3
L'oro di Napoli (1954) 3
La cena delle beffe (1942) 3
La grande guerra (1959) 3
Le samouraï (1967) 3
Lo sceicco bianco (1952) 3
Miracolo a Milano (1951) 3
Ro.Go.Pa.G. (1963) 3
Stromboli (1950) 3
Suspiria (1977) 3

Spanien:
Titel LGC
Viridiana (1961) 4
Bienvenido Mister Marshall (1953) 3
Il buono, il brutto, il cattivo. (1966) 3
Lo verde empieza en los Pirineos (1973) 3
Tristana (1970) 3
Adiós, cigüeña, adiós (1971) 2
El espíritu de la colmena (1973) 2
Esa mujer (1969) 2
La Lola se va a los puertos (1947) 2
Sor Citroen (1967) 2

Schweden:
Titel LGC
Det sjunde inseglet (1957) 6
Körkarlen (1921) 6
Elvira Madigan (1967/I) 5
Viskningar och rop (1972) 4
Flickorna (1968) 3
Sommaren med Monika (1953) 3
Att angöra en brygga (1965) 2
Dom kallar oss mods (1968) 2
Fängelse (1949) 2
Gösta Berlings saga (1924) 2
Karin Ingmarsdotter (1920) 2
Kvarteret Korpen (1963) 2
Persona (1966) 2
Sången om den eldröda blomman (1919) 2
Änglar, finns dom? (1961) 2

Bei der Sowjetunion bin ich ähnlich verfahren wie mit Deutschland: Bei den referenzierenden Filmen habe ich auch das postsowjetische Russland berücksichtigt (jedoch keine weiteren früheren Sowjetrepubliken, das war mir zu aufwändig). Die Liste ist trotzdem ziemlich dürftig ausgefallen.

Sowjetunion:
Titel LGC
Aleksandr Nevskiy (1938) 3
Vesyolye rebyata (1934) 3
Chapaev (1934) 2
Protsess o tryokh millionakh (1926) 2
Traktoristy (1939) 2

Nun zu Asien.

Indien:
Titel LGC
Sholay (1975) 24
Mughal-E-Azam (1960) 14
Mother India (1957) 9
Shree 420 (1955) 9
Deewaar (1975) 8
Bobby (1973) 6
Dil Apna Aur Preet Parai (1960) 6
Zanjeer (1973) 6
Amar Akbar Anthony (1977) 5
Sangam (1964/I) 5
Awaara (1951) 4
Gol Maal (1979) 4
Guide (1965) 4
Haré Raama Haré Krishna (1971) 4
Madhumati (1958) 4
Ram Aur Shyam (1967) 4
Apna Desh (1972) 3
Don (1978) 3
Hum Kisise Kum Naheen (1977) 3
Johny Mera Naam (1970) 3
Junglee (1961) 3
Muqaddar Ka Sikandar (1978) 3
Pyaasa (1957) 3

Japan:
Titel LGC
Gojira (1954) 16
Shichinin no samurai (1954) 8
Sora no daikaijû Radon (1956) 6
Kumonosu-jô (1957) 4
Mosura (1961) 4
Yôjinbô (1961) 4
Tôkyô monogatari (1953) 3
Banshun (1949) 2
Gojira no gyakushû (1955) 2
Gojira tai Mekagojira (1974) 2
Kaidan (1964) 2
Kaijûtô no kessen: Gojira no musuko (1967) 2
Karumen kokyo ni kaeru (1951) 2
Kingu Kongu tai Gojira (1962) 2
Mosura tai Gojira (1964) 2
Muhomatsu no issho (1943) 2
Rashômon (1950) 2
Todake no kyodai (1941) 2
Yôsei Gorasu (1962) 2
Zatôichi monogatari (1962) 2

Südkorea:
Titel LGC
Beongeoli Sam-ryong (1964) 1
Gaetmaeul (1965) 1
Hanyo (1960) 1
Kim yakgukjib daldeul (1963) 1
Mabu (1961) 1
Maenbaleui cheongchun (1964) 1
Man chu (1966) 1
Obaltan (1961) 1
Park Sa-bang (1960) 1
Seong Chunhyang (1961) 1
Taekoesu Yonggary (1967) 1
Toraoji annun haebyong (1963) 1
Uisa Ahn Jung-geun (1972) 1
Yeonsangun (1961) 1

Als einzigen Vertreter Lateinamerikas habe ich Brasilien betrachtet.

Brasilien:
Titel LGC
Deus e o Diabo na Terra do Sol (1964) 4
Alô Alô Carnaval (1936) 2
Banana-da-Terra (1939) 2
Bang Bang (1971) 2
Limite (1931) 2
O Dragão da Maldade contra o Santo Guerreiro (1969) 2
O Ébrio (1946) 2
Orfeu Negro (1959) 2
Terra em Transe (1967) 2

Und zu guter Letzt Afrika, vertreten durch zwei der wichtigsten Filmnationen des Kontinents, mit Regisseuren wie Youssef Chahine und Ousmane Sembène.

Ägypten:
Titel LGC
Bab el hadid (1958) 1

Senegal:
Titel LGC

O weh, war das etwa alles? Ja, leider. Ein bzw. gar kein Eintrag. *seufz*


Das soll es erst mal gewesen sein. Wer aber eine Liste für sein Lieblingsland haben will, der möge jetzt vortreten oder für immer schweigen!