Theoretisches

Dieser Abschnitt beschreibt Interna des Tipp-Generators und wie er zu seinen Empfehlungen kommt. Er richtet sich an eine mathematisch interessierte Zielgruppe. Begriffe wie Konvergenz oder Korrelation oder die Berechnung von Binomialkoeffizienten werden hier als bekannt vorausgesetzt.

Die Basis für die Empfehlungen des Generators bilden die geschätzten Tipphäufigkeiten der 49 über 6, also 13.983.816 möglichen Lottotipps (ohne Superzahl). Aus ihnen berechnen sich durch Summieren der mit den jeweiligen Gewinnklassen korrelierenden Häufigkeitswerte, sowie Einbeziehung der Superzahl und des Verteilungsschlüssels der Ausschüttungsbeträge auf die verschiedenen Gewinnklassen die Gewinnerwartungswerte der einzelnen Tippkombinationen.

Die Ermittlung besagter Tipphäufigkeiten ist gleichzeitig auch der anspruchsvollste Teil der Anwendung. Denn es stehen als Datenquelle lediglich die historischen Ziehungsergebnisse seit 1955, also gezogene Gewinnzahlen zusammen mit den Anzahlen der Gewinner je Gewinnklasse und (indirekt) der Gesamtzahl der Spieler zur Verfügung. Das sind die Informationen, die die Veranstalter der Ziehungen freiwillig preisgegeben haben und vermutlich weiterhin preisgeben werden. Sie könnten wesentlich exaktere und auch aktuellere Tipphäufigkeiten benennen, als sie unser Generator verwendet. Wenn sie denn wollten. Macht aber aus ihrer Sicht wenig Sinn, denn würden sie sie verraten, würde das das Tippverhalten der Spieler so verändern, dass die Bekanntgabe unmittelbar ab dem Moment der Bekanntgabe schon nicht mehr stimmt. Sozusagen das Gegenteil einer selbsterfüllenden Prophezeiung: Eine selbstwiderlegende Statistik. (Diese Webseite hätte übrigens genau das gleiche Problem, wenn sie von einem sehr großen Teil der Lottospieler genutzt werden würde. Bei Nutzung durch mehr als die Hälfte der Lottospieler würden sich die Größenverhältnisse der Tipphäufigkeiten tendenziell sogar umkehren.)

Aufbau und Motivation der Datenstruktur

Es stehen also einer Menge von grob 5.300 Datensätzen (Stand Mitte 2019) 13.983.816 zu berechnende Tipphäufigkeiten gegenüber. Der Generator ist somit zwangsläufig stark unterdefiniert, er kann diese Vielzahl freier Parameter nicht exakt annähern. Um nun dennoch eine möglichst gute Näherung zu erreichen, werden die zu kalibrierenden Parameter stufenweise zu 6 unterschiedlichen Hierarchieebenen verdichtet. Der Teil der Software, der für die Berechnung der geschätzten Tipphäufigkeiten zuständig ist, im Folgenden kurz Kalibrierer genannt, verwendet dafür 6 miteinander verschränkte Tabellen, die die Tipphäufigkeiten für 6 aus 49, 5 aus 49, 4 aus 49, 3 aus 49, 2 aus 49 und 1 aus 49 Kombinationen von Lottozahlen abbilden.

Die unterste Hierarchieebene, hier im Folgenden als Ebene 1 bezeichnet, enthält also genau 49 Parameter, die die isolierten Tipphäufigkeiten der 49 Lottozahlen abbilden. Ebene 2 bildet die 49 über 2 Tipphäufigkeiten aller Paare von Lottozahlen ab, und so weiter. Die Tabellen werden zueinander konsistent gehalten: Die Parameter auf Ebene 1 sind proportional zur Summe aller korrelierenden Parameter auf Ebene 2. Jeder Parameter auf Ebene 1 korreliert mit 48 Parametern auf Ebene 2 und umgekehrt korreliert jeder Parameter auf Ebene 2 mit 2 Parametern auf Ebene 1. Diese Korrelationen und ihre Konsistenzbedingung ziehen sich durch alle Hierarchieebenen bis hinauf zu Ebene 6.

Dieser Verdichtungsansatz harmoniert ausgezeichnet mit der Menge der vorliegenden Messproben, den historischen Ziehungsergebnissen. Über die Anzahlen der Gewinner je Gewinnklasse und die Gesamtzahl der Teilnehmer einer Ziehung werden nach geeigneter Verrechnung Sollwerte für bestimmte Bereiche der verschränkten Tabellen vorgegeben. Diese Bereiche werden durch die jeweils gezogenen Gewinnzahlen bestimmt. Über Gewinnklassen mit 3 Treffern wird beispielsweise je Ziehungsergebnis ein Sollwert für Hierarchieebene 3 dieser Tabellen vorgegeben. Dieser Sollwert korreliert mit 20 (6 über 3) der 18.424 (49 über 3) Parameter der Tabelle auf Ebene 3. Die Summe dieser 20 Parameter ist also an genau diesen berechneten Sollwert anzunähern.

Durch Überlappungen der jeweiligen Bereiche in unterschiedlichen Ziehungsergebnissen und die zusätzliche Verschränkung der Hierarchieebenen lassen sich die zu kalibrierenden Parameter einzeln zu einem gewissen Genauigkeitsgrad bestimmen.

Konvergenzverfahren

Wer bis hierhin folgen konnte, hat es vielleicht schon vermutet: Ein Konvergenzverfahren muss her. Dieses verfährt hier in mehreren Stufen. Zunächst wird Hierarchieebene 1 kalibriert, denn das geht mit den vorliegenden Messproben mit hoher Genauigkeit und auch mit vergleichsweise wenigen, zeitnahen Ziehungsergebnissen. Danach wird Ebene 1 fixiert und mit Ebene 2 fortgefahren, welche dabei wiederholt mit Ebene 1 konsistent gemacht wird. Und so ginge es weiter bis Ebene 6, wenn nicht... dazu später. Beginnen wir mit Ebene 1.

Gestartet wird mit der Annahme gleichverteilter Tipphäufigkeiten für alle 49 Lottozahlen. Diese werden hier wie gesagt isoliert betrachtet, Tippmuster höherer Ordnung werden auf Ebene 1 noch nicht berücksichtigt.

Nun gibt es aber gar keine Gewinnklassen mit nur einem Treffer und somit auch keine direkt vorgegebenen Sollwerte für diese Hierarchieebene. Über einen Umweg lässt sich aber auch Ebene 1 kalibrieren, und dieser Umweg hat sich auch bei der Kalibrierung anderer Hierarchieebenen experimentell als ergiebigster Ansatz erwiesen: Während der Kalibrierung wird immer wieder die Hierarchieebene gewechselt zur Ebene der Gewinnklasse, die gerade den größten Beitrag zur Verbesserung der zu kalibrierenden Parameter leisten kann. Die Parameter werden dann in einer Konvergenzrunde angenähert und anschließend wieder verdichtet auf die aktuell zu kalibrierende Ebene.

Auf Hierarchieebene 1 werden beispielsweise 9 Konvergenzrunden mit den letzten 867 Ziehungsergebnissen für Gewinnklassen mit 3 Treffern durchgeführt und anschließend eine Konvergenzrunde mit den letzten 427 Ziehungsergebnissen für die Gewinnklasse mit 2 Treffern. Klingt willkürlich, ist aber für die vorliegende Probenmenge annähernd optimal. Dazu weiter unten mehr.

Vorher ist noch zu klären, was hierbei unter Konvergenzrunde zu verstehen ist. In einer solchen werden eine Gewinnklasse und ein Zeitfenster für die jüngsten historischen Ziehungsergebnisse vorgegeben, deren Sollwerte angenähert werden sollen. Die Istwerte sind die Parameter der zur vorgegebenen Gewinnklasse gehörenden Hierarchieebene, genauer gesagt je Ziehung die Summe der mit dieser Ziehung korrelierenden Parameter. Jetzt wird je Ziehung der Quotient aus Soll- und Istwerten berechnet und den jeweils korrelierenden Parametern zugeordnet. Abschließend werden alle Parameter mit dem geometrischen Mittelwert der zugeordneten Quotienten multipliziert und die Gesamtsumme aller Parameter der Ebene auf 1 normalisiert.

Etwas anschaulicher (aber auch sehr ungenau) formuliert: Die zu kalibrierenden Parameter werden schrittweise so verändert, dass sich mit ihnen die Anzahl der Gewinner aus historischen Ziehungen in einer vorgegebenen Gewinnklasse besser reproduzieren lässt.

Auch der Hierarchiewechsel nach oben ist erklärungsbedürftig: Während die Umkehrung, der Schritt nach unten, ein simples Aufsummieren korrelierender Parameter ist, ist der Schritt nach oben alles andere als eindeutig, denn die nächst höhere Hierarchieebene hat jeweils eine Vielzahl an freien Parametern im Vergleich zur tieferen Ebene. Um diese Parameter möglichst gleichmäßig und „harmonisch“ zu befüllen, kommt auch hier ein Konvergenzverfahren zum Einsatz: Dieses geht erneut von gleichverteilten Tipphäufigkeiten aus und nähert diese schrittweise an die vorgegebenen Sollwerte an. Die Sollwerte sind in dem Fall die Parameter der nächst tieferen Ebene, die jeweils Summen vielfach überlappender Bereiche der Ist-Werte der höheren Hierarchieebene entsprechen. Glücklicherweise konvergiert das Verfahren mit negierter logarithmischer Komplexität bezüglich einer vorgegebenen Fehlertoleranz, es berechnet also schnell sehr genaue und harmonisch verteilte Ergebnisse.

Kalibrierung von Hierarchieebenen höherer Ordnung und Finden geeigneter Konvergenzparameter

Zur Kalibrierung von Hierarchieebene 2, die die Tipphäufigkeiten von Paaren von Lottozahlen abbildet, wird zunächst die zuvor berechnete Ebene 1 mit dem gerade beschriebenen Konvergenzverfahren auf Ebene 2 erweitert. Dann geht es ähnlich weiter, wie bei Ebene 1 beschrieben, nur dass hier bereits wesentlich mehr Konvergenzrunden durchgeführt werden, in 23 unterschiedlichen Kombinationen von Gewinnklassen und Zeitfenstern und unter wiederholter Konsistenzherstellung zu Ebene 1. Die Konsistenzherstellung erledigt dabei wieder das Konvergenzverfahren für den Hierarchieschritt nach oben, nur diesmal ohne Initialisierung mit gleichverteilten Tipphäufigkeiten.

Ab der dritten Hierarchieebene verschärft sich massiv ein bereits erwähntes Problem: Hier gibt es 49 über 3, also 18.424‬ zu kalibrierende Parameter und somit bereits deutlich mehr, als Datensätze historischer Ziehungen. Diese Ebene ist somit unterdefiniert, die exakte Kalibrierung jedes einzelnen Parameters ist schon aufgrund der zu geringen Anzahl an Messproben schlicht nicht mehr möglich. Ab hier besteht die Gefahr, dass die Ziehungsergebnisse stur über ein sinnvolles Maß hinaus „auswendig gelernt“ werden. Es können dann zwar Ziehungsergebnisse der Vergangenheit ziemlich exakt reproduziert werden, aber für die Qualität der Einschätzungen der Tipphäufigkeiten für noch nie gezogene Zahlenkombinationen ist man möglicherweise beim Konvergenzprozess übers Ziel hinausgeschossen. (Das Problem existiert in ziemlich ähnlicher Form auch beim Training neuronaler Netze und es erklärt den enormen Datenhunger von Unternehmen, die im KI-Bereich forschen und entwickeln.)

Weiterhin bietet es sich an, ab hier angesichts der schlechten Datenverfügbarkeit zusätzliche Informationen aus der Geometrie des Tippfelds einzubeziehen, also sich stärker auf die relativen Positionen der Tippzahlen zueinander zu fokussieren, um bewusst oder unbewusst bevorzugte geometrische Tippmuster der Lottospieler besser zu erfassen. Erreichen kann man das, indem man simulierte Ziehungsergebnisse mit in die Kalibrierung einbezieht, die sich aus geometrischen Verschiebungen, Spiegelungen und Drehungen tatsächlich gezogener Zahlenkombinationen ergeben und dafür die gleichen Gewinnquoten wie für die ursprüngliche Ziehung annimmt. Die Berücksichtigung absoluter Positionsinformationen bleibt dabei durch Fixierung von Ebene 2 und wiederholte Konsistenzherstellung mit dieser weiterhin gewährleistet. Ebene 2 dient hierbei als Korrektiv, das einen Großteil der Fehleinschätzungen wieder herausrechnet, die man sich durch die Einbeziehung geometrischer Transformationen der historischen Ziehungsergebnisse zwangsläufig einhandelt.

Diese neu geschaffene potenzielle Fehlerquelle wirft aber zunächst mal die Frage auf, wie man überhaupt wissen kann, ob die Einbeziehung hypothetischer Ziehungsergebnisse auch tatsächlich zu einer Verbesserung der Schätzgenauigkeit für noch nie gezogene Tippkombinationen führt. Selbst wenn man davon ausgeht, stellt sich die Frage, wie man diese hypothetischen Ziehungsergebnisse gegenüber den realen zu gewichten hat, um möglichst genaue Hochrechnungen zu erhalten. Ähnliche Fragestellungen ergeben sich auch hinsichtlich anderer Metaparameter für den Kalibriervorgang, wie Reihenfolgen zu berücksichtigender Gewinnklassen, zugehörige Anzahlen von Iterationen für den Konvergenzprozess oder geeignete Zeitfenster.

Derartige Metaparameter können nur experimentell ermittelt werden. Ein gängiger Ansatz aus der experimentellen Forschung dafür ist, mit Experimental- und Kontrollgruppen zu arbeiten. Im vorliegenden Fall bedeutet das, die historischen Ziehungsergebnisse zu unterteilen in eine Gruppe von Datensätzen, anhand derer die Kalibrierung nach bisherigem Stand der Kenntnisse vorgenommen wird, und eine Gruppe von Kontrolldatensätzen, anhand derer die Genauigkeit des Ergebnisses der Kalibrierung bewertet wird. Wobei die Kontrollgruppe sinnvollerweise die aktuelleren Ziehungsergebnisse umfasst, denn das Tippverhalten der Lotto-Spieler unterliegt auch leichten zeitlichen Veränderungen. (Daher auch die unterschiedlich großen Zeitfenster.) Auf diese Weise lässt sich durch Ausprobieren und schrittweise Näherung eine gut geeignete Kombination von Parametern für die Kalibrierung des Kalibrierers finden.

Dieser Prozess wurde in einer frühen Version der Software noch von Hand begonnen, hat sich aber schnell als extrem zeitaufwendig erwiesen. Also wurde er größtenteils mittels eines eigenständigen Meta-Kalibrierers automatisiert. Diesen nun aber im Detail zu beschreiben würde hier den Rahmen sprengen. Die Kurzfassung: Der Meta-Kalibrierer probiert und approximiert viele Tage mit mehreren Kontrollgruppen autark vor sich hin und wirft dann eine optimierte Kalibrierstrategie für jede Hierarchieebene aus. Viel genauer, als es von Hand in Jahren möglich wäre.

Vor dem kurzen Exkurs waren wir bei Hierarchieebene 3 angelangt, also eigentlich auf halber Strecke. Dummerweise aber lassen sich die oberen 3 Hierarchieebenen mit der vorliegenden Anzahl von Messproben nicht mehr sinnvoll kalibrieren. Zumindest nicht die auf dieser Webseite öffentlich gemachte Version des Generators. Verbesserungen bei der Einschätzung der Tipphäufigkeit finden auf Ebene 4 nur noch in einzelnen kleinen Regionen statt, auf Ebene 5 sogar nur noch extrem punktuell. Für Ebene 6 schließlich gibt es schlicht keine öffentlich verfügbaren repräsentativen Daten, dazu ist die Anzahl der Gewinner in den zugehörigen Gewinnklassen zu gering. Ein auf einer dieser Ebenen kalibrierter Generator tendiert zu Tippvorschlägen, die sich sehr stark an einzelnen historischen Ziehungen mit außergewöhnlich hohen Gewinnquoten orientieren. Es wäre kontraproduktiv, diese Tipps einer breiteren Öffentlichkeit zu empfehlen, der zu erwartenden Effekt wurde weiter oben als „selbstwiderlegende Statistik“ bezeichnet. Also werden Ebene 4 bis 6 einfach nur noch mit dem Konvergenzverfahren für Hierarchiewechsel aus den Parametern von Ebene 3 approximiert.

Von Tipphäufigkeiten zu Gewinnerwartungswerten

Der schwierigste Teil ist an dieser Stelle geschafft: Der Generator kennt näherungsweise die Tipphäufigkeiten aller 49 über 6 Tipp-Kombinationen von Lottozahlen und ist somit kalibriert. Aber seine Empfehlungen beruhen auf den Gewinnerwartungswerten dieser Tipps und nicht auf ihren blanken Tipphäufigkeiten.

Wie sich der Gewinnerwartungswert berechnet, wurde im Bereich Strategie grob erläutert. Es sind noch die Tipphäufigkeiten der Superzahl und je Gewinnklasse die Gewinnwahrscheinlichkeiten, sowie die Verteilungsschlüssel der Ausschüttungsbeträge auf die unterschiedlichen Gewinnklassen einzurechnen. All das ist nicht schwer herzuleiten und wird an dieser Stelle nicht näher ausgeführt. Aber es gibt noch eine weitere Hürde, und die hat es nochmal in sich.

Bei einem Gewinn in Gewinnklassen mit 6 Treffern, also Klasse 1 oder 2, ist die Sachlage klar: Man muss sich mit genau den Spielern den Ausschüttungsbetrag teilen, die exakt die gleichen Lottozahlen wie man selbst getippt haben. Deren Anzahl ergibt sich statistisch aus der Tipphäufigkeit für die getippte Zahlenkombination multipliziert mit der Anzahl der insgesamt an der Ziehung teilnehmenden Spieler plus 1. Die 1 muss hier addiert werden, weil man selbst per Annahme ja ebenfalls zu den Gewinnern in der entsprechenden Gewinnklasse zählt. Statistisch gewinnt man also niemals die vollen 100% des Jackpots, obwohl das in der Praxis durch die unvermeidliche Rundung auf ganzzahlige Gewinneranzahlen ein häufiger Fall ist.

Bei Gewinnklassen mit 5 Treffern wird es komplizierter. Es gibt genau 258 ((6 über 5) * (43 über 1)) Tippmöglichkeiten mit 5 Übereinstimmungen mit dem eigenen Tipp. Nun reicht es zur Berechnung des Gewinnerwartungswerts in Gewinnklassen mit 5 Treffern aber nicht, die Tipphäufigkeiten dieser 258 Tippmöglichkeiten zu addieren. Deren Summe stände uns verführerischerweise in Form von 6 Teilsummen in Hierarchieebene 5 unserer Häufigkeitstabellen bereits servierfertig zur Verfügung.

Aber anders als bei der Abschätzung von Gewinnquoten sind bei der Berechnung des Gewinnerwartungswerts nicht zwei, sondern drei Größen involviert: Der eigene Tipp, das noch unbekannte Ziehungsergebnis und die Tippgewohnheiten der Mitspieler. Es gibt 258 mögliche Ziehungsergebnisse, bei denen man mit dem eigenen Tipp genau 5 Treffer landen würde und alle sind gleich wahrscheinlich, also auch gleich zu gewichten. Für jedes einzelne dieser 258 potenziellen Ziehungsergebnisse gibt es wiederum 258 Tippmöglichkeiten mit genau 5 Übereinstimmungen, von denen eine der eigene Tipp ist. Mit diesen 258 * 258 Tippmöglichkeiten konkurriert man um den Ausschüttungsbetrag für Gewinnklassen mit 5 Treffern. Der eigene Gewinnerwartungswert in diesen Gewinnklassen ist also umgekehrt proportional zur Summe der Tipphäufigkeiten dieser 258 * 258 Tippmöglichkeiten. Wobei das keine Menge eindeutiger Elemente ist: Viele Tippmöglichkeiten sind mehrfach enthalten, der eigene Tipp sogar 258 mal.

Bei Gewinnklassen mit 4 bzw. 3 Treffern verhält es sich genauso, nur dass man es dann mit 13.545 * 13.545 bzw. 246.820 * 246.820 konkurrierenden Tippmöglichkeiten zu tun hat.

Bei der Gewinnklasse mit 2 Treffern gibt es eine fixe Gewinnquote von 5 €. Dennoch kommt man auch um die Berechnung der Summe dieser 1.851.150 * 1.851.150 Tipphäufigkeiten nicht herum, wenn man möglichst exakte Ergebnisse möchte. Denn die Anzahl der Gewinner in dieser Klasse beeinflusst die Höhe der Ausschüttungsbeträge für die anderen Gewinnklassen, wenn auch nur geringfügig.

Die vielen Summen sehr vieler Tipphäufigkeiten kann man erneut durch hierarchische Verdichtung, also Speicherung von Teilsummen in Tabellen effizient vorausberechnen. Die Beschreibung dieses Verfahrens im Detail wird hier ausgelassen. Es handelt sich gewissermaßen um eine transitive Erweiterung der Abschätzung von Gewinneranzahlen je Gewinnklasse einer Ziehung. Wer das Hierarchiesystem der Tipphäufigkeiten verstanden hat, weiß bereits ungefähr, wie der Hase läuft.

So, das war’s. Es gäbe noch einiges mehr zu sagen, z. B. über die um eine ganze Größenordnung auskunftsfreudigeren einstigen Lotto-Ziehungen mit Zusatzzahl oder zur Motivation des gewählten Konvergenzverfahrens für Hierarchieschritte nach oben oder zu den Suchstrategien des Meta-Kalibrierers. An vielen anderen Stellen wurde stark verkürzt und vereinfacht. Aber was hier bereits steht, ist sperrig genug. Was natürlich in erster Linie dem mangelhaften Ausdrucksvermögen des Autors geschuldet ist, aber vielleicht auch ein wenig der Komplexität des Themas. Wer bis hierhin durchgehalten hat und all das ungefähr nachvollziehen konnte, alle Achtung. Der Autor selbst hatte lange daran zu knabbern.