Das Panini-Sammelalbum zur Fußball-EM war in den letzten Tagen Thema auf mehreren Internetseiten deutscher Medien, z.B. bei n-tv.

Darin wird auf eine ausführliche Meldung auf Wales Online verwiesen.

Dort, so wird behauptet, wird von einem „Mathe-Genie“ (Zitat Wales Online) erklärt, wieviel es kostet, ein Panini-Sammelalbum zur Fußball-EM vollständig zu füllen.

Das Sammelbildproblem (englisch „coupon collector’s problem“) ist ein lange bekanntes und gut untersuchtes populärwissenschaftlich-mathematisches Problem, das alle zwei Jahre vor einer Fußball-EM oder -WM von den Medien ausgegraben wird. Umso erstaunlicher ist, dass die auf Wales Online dargestellte Lösung des „Mathe-Genies“ hochgradig falsch ist.

Das aktuelle Panini-Sammelbildproblem sieht wie folgt aus. Es gibt 680 verschiedene Bilder, die in blickdichten Päckchen zu je 5 Stück verkauft werden. Die 5 Bilder in einem Päckchen sind stets verschieden, sonst weiß man nicht viel. Eine naheliegende Frage ist, wie viele Päckchen man kaufen muss, bis man alle 680 Bilder mindestens einmal vorliegen hat. Offenbar ist das eine Zufallsvariable; wir könnten vereinfacht nach dem Erwartungswert fragen, also: wenn ganz viele Personen so lange Päckchen kaufen, bis jeder alle Bilder hat (ohne zu tauschen), wie viele Päckchen müssen dann die Personen im Durchschnitt kaufen?

Um das Problem mathematisch zu lösen, muss man Annahmen treffen. Die üblichen Annahmen sind:

  1. Alle Bilder kommen gleich oft vor.
  2. Alle Kombinationen von 5 verschiedenen Bildern kommen als Päckchen gleich häufig vor. (Diese Annahme ist stärker als Annahme 1!)
  3. Inhalte verschiedener Päckchen sind unabhängig.
  4. Diese drei Annahmen gelten auch „lokal“, also im Umfeld eines bestimmten Käufers.


Setzt man diese Annahmen voraus, kann man das Sammelbildproblem relativ einfach lösen. Um ein Gefühl für die Größenordnung der Lösung zu bekommen, empfiehlt sich eine Simulation. Mit R könnte die z.B. so aussehen:

sim = 10000  # Anzahl Simulationsläufe
N = 680   # Anzahl Motive
k = 5     # Anzahl Bilder pro Päckchen
ergebnisse = rep(NA, sim)
for (i in 1:sim){
  pakete = 0
  zahlen = numeric()
  while (length(zahlen) < N){
     pakete = pakete + 1
     zahlen = unique(c(zahlen, sample(N,k)))
  }
  ergebnisse[i] = pakete
}
print(mean(ergebnisse))

Das Ergebnis der Simulation liegt im Bereich von rund 960; hier sieht man schon, dass die von Wales Online präsentierte Lösung (747 Päckchen) falsch sein muss.

Strategien für die exakte Bestimmung des gesuchten Erwartungswerts sind z.B. die Einschluss-Ausschluss-Formel oder die Darstellung als Markov-Kette (was auf ein lineares Gleichungssystem mit rund 680 Gleichungen und 680 Unbekannten führt, das aber schon in Zeilenstufenform vorliegt und deshalb sehr einfach zu lösen ist). In allen Fällen ergibt sich als gesuchter Erwartungswert (gerundet) 963. Es wird also viel teurer, als Wales Online uns glauben machen will.

Journalisten, die hier mitlesen, empfehle ich: fragen Sie doch bei mathematischen Meldungen in Zukunft immer jemanden aus der DMV, bevor Sie Meldungen aus obskuren Quellen (speziell von „Mathe-Genies“) ungeprüft weiterverbreiten.

Man sollte hier aber noch nicht aufhören nachzudenken. Zum einen kann man das Problem verändern oder erweitern: was ist, wenn man schon bei 630 Bildern zu sammeln aufhört, weil man den Rest der Bilder einfach beim Anbieter kaufen kann? Wie kann man Tauschmöglichkeiten berücksichtigen? Und was ist mit den kleineren Päckchen, die zur Zeit in Supermärkten kostenlos verteilt werden? Natürlich wurde das in der Literatur auch schon behandelt (Google liefert dazu viele interessante Artikel).

Weniger wurden bisher die Annahmen (1) bis (4) hinterfragt.

Annahme (1) -alle Bilder gleich häufig- wird von Panini und anderen Sammelbild-Anbietern stets beteuert. Es gibt aber immer wieder Zweifler, z.B. Holger Dambeck.

Annahme (3) – Unabhängigkeit – ist natürlich nicht erfüllt: es gibt nur eine endliche Anzahl an Päckchen; wenn man ein Päckchen kauft, verändert man also die Gesamtheit, so dass beim nächsten Kauf andere Päckcheninhalte wahrscheinlicher werden. Der Effekt ist aber sicher so klein, dass man ihn ignorieren kann.

Annahme (4) – lokal gelten dieselben Bedingungen – ist dagegen eine harte Annahme: es hilft nichts, wenn alle Päckchen gleich häufig vorkommen, wenn bestimmte Päckchen absichtlich nur in Bremen und andere nur in Bayern ausgeliefert werden. Außerdem werden die Päckchen ja in größeren Kartons an die Händler geliefert. Werden die Päckchen wirklich völlig zufällig auf die Kartons verteilt? Macht es einen Unterschied, ob man mehrere Päckchen pro Karton oder je ein Päckchen aus mehreren Kartons kauft? Theoretisch denkbar, empirische Daten gibt es dazu kaum.

Annahme (2) – alle Kombinationen sind als Päckchen gleich häufig – kann übrigens gar nicht zutreffen. Es gibt ungefähr 1,2 * 10^12 (= „5 aus 680“) mögliche Päckcheninhalte, so viele Päckchen werden aber natürlich gar nicht produziert. Welchen Effekt das auf die oben skizzierte Rechnung hat, ist nicht so recht klar. Ein aktuelles Projekt von Jugend forscht hat sich dieser Fragestellung angenommen. Sonja, Niklas und Malte Braband haben sich genauer damit auseinandergesetzt, wie denn Druck und Verpackung der Panini-Päckchen genau vonstatten gehen, was das für die möglichen Päckcheninhalte bedeutet und welchen Einfluss das auf die Zahl der zu kaufenden Päckchen hat.

Ein Appell an unsere Journalisten: seht lieber öfter in die Jugend-forscht-Datenbank; Mathe-Genies findet man da häufiger als auf irgendwelchen obskuren News-Seiten!

hakiesl