Probabilistische Algorithmen SS11
Aus ProgrammingWiki
Inhaltsverzeichnis[Verbergen] |
Einleitung
Probabilistische Algorithmen werden auch randomisierte oder stochastische Algorithmen genannt. Das Ergebnis dieser Art von Algorithmen ist vom Zufall abhängig. Sie bringen oft eine Effiziensverbesserung mit sich, da Entscheidungsfragen zufällig beantwortet werden, bei denen die Zeit zur Berechnung des korrekten Resultates untragbar lang wäre. Probabilistische Algorithmen können sich, mehrfach auf ein und dasselbe Problem angewandt, unterschiedlich verhalten. Die Ausführungszeiten und die Ergebnisse können teilweise deutlich voneinander abweichen.
Um probabilistische Algorithmen zu erstellen werden Zufallszahlen benötigt. Diese werden mit Hilfe von Generatoren erstellt.
Pseudozufallszahlen
Definition von Zufallszahlen:
Spricht man von Zufallszahlen so meint man in diesen Sinne eine Zahl die man nicht vorhersehen kann und die keinem Bildungsgesetz unterliegt. Im Duden findet man daher auch folgende Definition: Eine Zahl, die rein statistisch(zufällig) aus einer Menge von Zahlen herausgegriffen wird. Eine (unendliche) Folge von Zahlen ohne (algorithmisches) Bildungsgesetz heißt Zufallszahlenfolge.
Als kleines Beispiel dafür kann man eine Münze als sehr einfachen Zufallsgenerator sehen der entweder Kopf = 1 oder Zahl = 0 ausgibt.
20 Münzwürfe hintereinander:
(1) hierbei ist kein Bildungsgesetz zu erkennen
Somit hat man eine Reihe von "echten Zufallszahlen" erschaffen.
Im Gegensatz zur echten Zufallszahlen sind Pseudozufallszahlen deterministisch erzeugte Zahlen die den Anschein erwecken sollen sie seien rein zufällig gewählt worden. Da in einem deterministischen Algorithmus jeder Schritt fest bestimmt ist, kann die Zahl von vornherein bestimmt werden und ist somit nicht zufällig.
Bei probabilistischen Algorithmen spielen Zufallszahlen eine besondere Rolle. Höhere Programmiersprachen verfügen über Sprachelemente für Zufallszahlen. In Java gibt es beispielsweise die Klasse Random. Es wird eine natürliche Zahl als Argument erwartet. Die Ausgabe ist eine natürliche Zahl mit . Die Transformation in ein abgeschlossenes Intervall natürlicher Zahlen lässt sich leicht bewerkstelligen. Wie folgendes Beispiel zeigt.
Die Erzeugnung von Zahlen nach obigen Beispiel erfolgt jedoch nicht rein zufällig. Sie werden deterministisch berechnet d.h. es gibt Prozeduren, die in der Lage sind, lange Folgen von Werten zu generieren, die scheinbar die Eigenschaften zufälliger Folgen haben.
Ein Verfahren zum Erzeugen von Zufallszahlen ist die Kongruenzmethode, die 1948 von D. H. Lehmer entwickelt wurde. Ausgehend von einem Startwert, dem sogenannten Seed wird folgende rekursive Vorschrift angewand.
dabei sind
- ein Multiplikator, der eine möglichst große Primzahl sein sollte
- eine Konstante (im Fall von spricht man von multiplikativer Kongruenz)
- ist das Argument der Modulo Funktion und sollte möglichst einen hohen Wert besitzen, da es die Länge der Zahlenfolge angibt
Dabei ist zu beachten, dass der selbe Seed immer die selbe Zahlenfolge liefert. Um unterschiedliche Folgen zu erhalten ist es notwendig unterschieliche Seeds zu wählen. Oftmals wird der Seed in Abhängigkeit der Systemzeit gewält.
Numerische probabilistische Algorithmen
Algorithmen dieser Art produzieren eine Näherungslösung mit wählbarer Genauigkeit.
Ein Beispiel für diese Klasse von Algorithmen ist die Bestimmung einer Näherung für die Zahl durch "Zufallsregen". Dabei werden Regentropfen auf eine quadratische Fläche fallen gelassen, in der sich ein Kreis befindet. Anschließend werden die Regentropfen gezählt, die innerhalb des Kreises gefallen sind.
Es wird angenommen, dass jeder Punkt im Quadrat exakt dieselbe Wahrscheinlichkeit hat, von einem Tropfen getroffen zu werden. Ist der Radius des Kreises , so ist seine Fläche , wobei die Fläche des Quadrats ist. Somit ist der durchschnittliche Anteil der Tropfen, die innerhalb des Kreises landen, . Damit kann mit geschätzt werden.
Codebeispiel eines Algorithmus, der mit "Zufallsregen" arbeitet. Je höher gewählt wird umso genauer lässt sich abschätzen.
Ein weiteres bekanntes Beispiel für diese Klasse von Algorithmen, die "Zufallsregen" verwenden ist die numerische Integration.
Las Vegas Algorithmus
Grundlage
Ein solcher Algorithmus (randomisierter Algorithmus) folgt dem einfachen Prinzip immer ein richtiges Ergebnis auszugeben. So erklärt sich der Name des Las Vegas Algorithmus aus der Tatsache das Casinos immer gewinnen (bezogen auf ein korrektes Ergebnis). Es kann jedoch der Fall eintreten das die Zufallssteuerungen in Sackgassen (nicht zulässige Ergebnissen) landen. In diesen Fall gibt es kein Ergebnis. Durch mehrfaches Ausführen des Algorithmuses kann jedoch ein richtiges Ergebnis gefunden werden. Beispiel:
Das n-Damen Problem ist eines der bekanntesten in der Mathematik und besteht darin auf einen Schachbrett mit n*n Feldern eine Anzahl von n Damen so zu verteilen das sich niemals zwei Damen schlagen können. In der Informatik wurde dieses Problem auf mehrere Arten gelöst wie beispielsweise mit Backtracking. Dieses Problem kann man jedoch auch mithilfe der probabilistischen Algorithmen lösen.
Lösung des Problems mit Las Vegas Algorithmen (Pseudocode):
1.for i = 1 to n: Wenn in Reihe i alle Felder bedroht sind, Abbruch. Anderenfalls wähle zufällig eines der nicht bedrohten Felder. 2.Wiederhole (1), bis eine Lösung gefunden ist.
Dieser Algorithmus terminiert nicht immer. Wird aber eine Lösung gefunden ist diese mit Wahrscheinlichkeit 1 richtig.
Analyse des Aufwands:
Gehen wir davon aus es gibt einen Las Vegas Algorithmus der eine Eingabe nimmt und als Ausgabe ein Scheme-paar gibt. Dabei kann Erfolg entweder "Ergebnis wird gefunden", oder "Berechnung landet in Sackgasse" und gibt nach (vorher vereinbarten) Anzahl von erfolglosen versuchen aus. Das ist der Wert der bei der erfolgreichen Suche rauskommt.
Um nun eine Aufwandsanalyse durchzuführen, benötigt man eine Prozedur () bei der solange ausgeführt wird bis ein Ergebnis herauskommt(hartnäckiger Algorithmus).
Code:
(define LV-loop (lambda (x) (let* ((resultat (LV x)) (y(car resultat)) (Erfolg (cdr resultat))) (if Erfolg y (LV-loop)))))
Im Fall der Las Vegas Algorithmen muss man von der Möglichkeit ausgehen das eine Anzahl n von Versuchen benötigt wird um ein richtiges Ergebnis auszugeben. Um nun den Zeitaufwand t(x) zu berechnen, brach man die Variablen im Fall des erfolgreichen Findens eines Ausgabewertes und im Fall keines erfolgreichen Ergebnisses. Des weiteren muss noch die Zeit eingerechnet werden, die gebraucht wird um aus einer Sackgasse wieder raus zukommen, bezeichnet mit der Variable . Man geht bei von aus. Gleichung:
Beispiel:
Sherwood-Algorithmen
Sherwood-Algorithmen sind eine spezielle Form der Las-Vegas Algorithmen, welche immer ein richtiges Ergebnis ausgeben. Das Bedeute es gibt keine Berechnungen die in Sackgassen führen. Sherwood-Algorithmen sind deterministisch (das bedeutet das determinstische Algorithmen zu probabilistischen Algorithmen umgeformt werden).
Dieser Algorithmus wird besonders gern bei Problemen mit großer Aufwandsdifferenz zwischen den best- ,average-, und worst-case genutzt, da er die besondere Eigenschaft besitzt die großen Aufwandsdifferenzen so "abzufedern" das immer ein mittlerer Aufwand entsteht. Das bedeutet zwar nicht das der best-case oder der worst-case völlig ausgeschlossen sind, jedoch sind diese durch den zufälligen Faktor sehr unwahrscheinlich. Diese Negation der Aufwandsdifferenz wird auch als "Robin Hood Effekt" bezeichnet, da dieser von den Reichen nahm und den Armen gab. In diesen Fall bedeutet das von dem hohen Aufwand genommen und dem niedrigen Aufwand gegeben. Somit hebt sich die Aufwandsdifferenz auf. Daher kommt auch der Name der Sherwood-Algorithmen, da Robin Hood im Sherwood Forrest lebte.
Beispiel:
Ein Beispiel für die Nutzung der Sherwood-Algorithmen ist ein "randomisiertes" Quicksort.
Das ist in dem Sinne zu verstehen, dass beim Quicksort der Fall des Worst case eintreten kann und somit eine Zeitkomplexität von entsteht.
Um dies zu verhindern gibt es zwei Möglichkeiten. Entweder man bringt die zu ordnenden Elemente "durcheinander", was bedeutet das unsortierte Listen besser zu ordnen sind als sortierte. Es gibt aber auch die Möglichkeit das Pivotelement "zufällig" auswählen zulassen indem man bei der Programmierung immer das Zufallselement für die Bestimmung vom Pivotelement nimmt. So kann man mit hoher Sicherheit, aber nicht vollkommen, davon ausgehen das immer eine Zeitkomplexität von besteht.
Monte-Carlo-Algorithmen
Algorithmen dieser Art geben mit hoher Wahrscheinlichkeit das korrekte Ergebnis aus. Können sich jedoch gelegentlich irren. Irren bedeutet hier das Ergebnis ist falsch und nicht "knapp daneben". Im Falle eines Fehlers liefert der Algorithmus ülicherweise keine Warnung. Dies nimmt man jedoch in Kauf um Probleme zu lösen, die sonst nur schwer oder in keiner angemessenen Zeit gelöst werden könnten.
Ein Monte-Carlo-Algorithmus wird p-korrekt genannt, wenn er eine richtige Lösung mit einer Wahrscheinlichkeit nicht kleiner als liefer. Dabei ist eine reele Zahl mit . Desweiteren wird von einem konsistenten Algorithmus gesprochen, wenn er nie zwei verschiedene richtige Lösungen für dasselbe Problem liefert.
Es gibt auch Monte-Carlo-Algorithmen, welche nicht nur den zu lösenden Fall als Argument akzeptieren, sondern auch eine obere Schranke für die zulässige Wahrscheinlichkeit eines Fehlers. Die benötigte Rechenzeit lässt sich dann als Funktion der Größe des zu bearbeitenden Falls und des Kehrwerts der zulässigen Fehlerwahrscheinlichkeit ausdrücken.
Um die Erfolgswahrscheinlichkeit eines Monte-Carlo-Algorithmuses heraufzusetzen muss er nur mehrmals ausgeführt werden und anschließend das häufigste Ergebnis ausgewählt werden.
Äquivalenz zweier Multimengen
Ein Beispiel für einen Monte-Carlo-Algorithmus ist der Test zweier Multimengen auf Äquivalenz. In Multimengen können mehrere gleiche Elemente enthalten sein. Im Beispiel werden Multimengen betrachtet, deren Elemente natürliche Zahlen aus (mit ) sind.
zum Beispiel:
Der klassische Weg eine Entscheidung über die Äquivalenz der Multimengen zu treffen, wäre sie zu sortieren und anschließend elementweise zu vergleichen. Dies kostet jedoch im Mittel . Mit einem probabilistischen Algorithmus ist man in der Lage das Problem in zu lösen.
Dazu wird der Multimenge
ein Polynom mit und
der Multimenge ein Polynom mit zugeordnet.
Die (evtl. mehrfachen) Nullstellen von heißen und die von sind . Diese Darstellung ist für jede ganzrationale Funktion eindeutig. Demzufolge gilt genau dann wenn .
Mit folgendem Code kann der Polynomwert einer Multimenge bestimmt werden.
Berechnet und vergleicht man nun die Polynomwerte zweier Multimengen mit einer beliebiegen Testzahl und erhält verschiedene Werte für und so weiß man definitiv das .
Wie die Abbildung rechts zeigt haben die unterschiedlichen Polynome und an mehreren Stellen die gleichen Funktionswerte. Trifft man mit einem zufällig gewählten x eine dieser Stellen erhält man möglicherweise ein falsches Ergebnis.
Um das zu vermeiden wiederholt man den Test bei Erfolg mehrere Male. Somit ist es möglich, dass richtige Ergebnis mit einer hohen Wahrscheinlichkeit zu erhalten.
Primzahltest nach FERMAT
Algemein:
Unter einer Primzahl versteht man eine Zahl die nur durch 1 und sich selbst teilbar ist. Mit Probeteilern ist es natürlich möglich herauszufinden ob eine Zahl als Primzahl gedeutet werden kann oder nicht. Diese Form der Primzahlfindung bringt jedoch bei Zahlen mit hoher Stelligkeit sehr wenig und würde sehr zeitaufwändig werden.
Eine viel effizientere Lösung bringt der "Primzahltest nach Fermat". Diesen Test kann man durch einfügen von Zufallszahlen (randomisieren) zu einem Monte-Carlo-Algorithmus umwandeln. Um die Basis dafür zu schaffen benötigt man den "Satz von EULER"
Satz von Euler
Für alle natürlichen Zahlen und mit und , wobei , gilt
Auf diesen Satz kann man nun den "kleinen Satz von Fermat " anwenden.
kleiner Satz von Fermat
Wenn eine Primzahl ist, dann gilt für alle natürlichen Zahlen (mit
Hat man diese beiden Sätze kann man folgenden Satz daraus bilden:
Bei dem "Primzahltest von Fermat" gibt es jedoch auch Zahlen, die die Eigenschaften des Satzes haben, aber trotdem keine Primzahlen sind.
Diese Arten von Zahlen teilen sich auf in Pseudoprimzahlen und Carmichel Zahlen.
Pseudoprimzahlen
Eine Fermatsche Pseudoprimzahl ist eine zusammengesetzte, natürliche Zahl n, zu der mindestens eine natürliche Zahl a mit ggT(a, n) = 1 und a > 1 existiert, so das:
(1) gilt.
Man sagt zu diesen Zahlen auch: "n ist pseudoprim zur Basis a".
Beispiel:
Die Zahl 341 ist eine zusammengesetzte Zahl aus 11*31 und dennoch bestimmt der "Primzahltest von Fermat" sie als Primzahl.
Pseudoprimzahlen für Basen 2,3,und 5:
Basis 2
341, 561, 645, 1105, 1387, 1729, 1905, …
Basis 3
91, 121, 286, 671, 703, 949, 1105, 1541, 1729, …
Basis 5
Carmichael Zahlen
Diese Zahlen wurden nach dem Mathematiker Robert Daniel Carmichael benannt. Eine natürliche Zahl heißt Carmichael-Zahl, wenn sie eine fermatsche Pseudoprimzahl bezüglich aller zu ihr teilerfremden Basen ist.
Definition:
Eine zusammengesetzte natürliche Zahl n heißt Carmichael-Zahl, falls für alle zu n teilerfremden Zahlen a die folgende Kongruenz erfüllt ist:
Beispiel:
Die kleinste Carmichael Zahl ist 561 . Diese kann man leicht aus Primzahlen zusammensetzen 561= 3·11·17 . Für alle Basen a, die keinen Primfaktor mit 561 gemeinsam haben, gilt nämlich a^560 ≡ 1 mod 561.
561 ist durch 3, 11, 17, 33, 51 und 187 teilbar.
Für diese Teiler gilt die Kongruenz jedoch nicht:
usw.
Probabilistischer Primzahltest:
Bei dem probabilistischen Primzahltest wird davon ausgegangen das die Basis zufällig gewählt wird. Dadurch wird die Zeitkomplexität sehr stark verbessert, jedoch kann es vorkommen das falsche Ergebnisse herauskommen. Diese Möglichkeit kann man verringern indem man den Primzahltest mehrmals laufen lässt.
Primzahltest von Solovay und Strassen
Dieser Test wurde 1977 entwickelt und findet heute vor allem in der Kryptographie Anwendung, da er Geschwindigkeitsvorteile gegenüber derterministischen Tests mit sich bringt. Bis 2002 existierte kein deterministischer Algorithmus der in der Lage war in polynominellem Zeitaufwand eine Zahl auf ihre Primzahleigenschaften zu testen.
Es wird zuerst zufällig ein mit gewählt. Anschließend berechnt man die Jacobi-Funktion, die wie folgt definiert ist.
Wie das Beispiel zeigt kann die Jacobi-Funktion nur die Werte +1 oder -1 annehmen.
Nun gilt folgender Satz:
Wenn eine Primzahl ist, dann gilt für alle (mit und ):
.
Falls eine Primzahl ist liefert der Test definitiv das korrekte Ergebnis. Andernfalls mit einer Wahrscheinlichkeit von ein falsches Ergebnis. Durch mehrfaches Ausführen lässt sich die Fehlerwahrscheinlichkeit bei Versuchen auf reduzieren.
Übungen:
Quellen
- Christian Wagenknecht: Algorithmen und Komplexität, Fachbuchverlag Leipzig, 2003,
- Brassard, Gilles; Bratley, Paul: Algorithmik: Theorie und Praxis, Attenkirchen: Wolfram, 1993
- Sebastian, Rick; Jörg, Wiesner: Studienarbeit: Probabilistische Algorithmen, Görlitz 2008