Probabilistische Algorithmen SS11

Aus ProgrammingWiki

Autoren:

Inhaltsverzeichnis

1 Einleitung
2 Pseudozufallszahlen
3 Numerische probabilistische Algorithmen
4 Las Vegas Algorithmus
5 Monte-Carlo-Algorithmen
6 Übungen:
7 Quellen

Einleitung

Probabilistische Algorithmen werden auch randomisierte oder stochastische Algorithmen genannt. Das Ergebnis dieser Art von Algorithmen ist vom Zufall abhängig. Sie bringen oft eine Effiziensverbesserung mit sich, da Entscheidungsfragen zufällig beantwortet werden, bei denen die Zeit zur Berechnung des korrekten Resultates untragbar lang wäre. Probabilistische Algorithmen können sich, mehrfach auf ein und dasselbe Problem angewandt, unterschiedlich verhalten. Die Ausführungszeiten und die Ergebnisse können teilweise deutlich voneinander abweichen.

Um probabilistische Algorithmen zu erstellen werden Zufallszahlen benötigt. Diese werden mit Hilfe von Generatoren erstellt.

Pseudozufallszahlen

Definition von Zufallszahlen:

Spricht man von Zufallszahlen so meint man in diesen Sinne eine Zahl die man nicht vorhersehen kann und die keinem Bildungsgesetz unterliegt. Im Duden findet man daher auch folgende Definition: Eine Zahl, die rein statistisch(zufällig) aus einer Menge von Zahlen herausgegriffen wird. Eine (unendliche) Folge von Zahlen ohne (algorithmisches) Bildungsgesetz heißt Zufallszahlenfolge.

Als kleines Beispiel dafür kann man eine Münze als sehr einfachen Zufallsgenerator sehen der entweder Kopf = 1 oder Zahl = 0 ausgibt.

20 Münzwürfe hintereinander:

(1) $1.1.1.1.1.1.0.0.1.0.0.1.1.0.0.0.0.1.1.0$ hierbei ist kein Bildungsgesetz zu erkennen

Somit hat man eine Reihe von "echten Zufallszahlen" erschaffen.

Im Gegensatz zur echten Zufallszahlen sind Pseudozufallszahlen deterministisch erzeugte Zahlen die den Anschein erwecken sollen sie seien rein zufällig gewählt worden. Da in einem deterministischen Algorithmus jeder Schritt fest bestimmt ist, kann die Zahl von vornherein bestimmt werden und ist somit nicht zufällig.

Bei probabilistischen Algorithmen spielen Zufallszahlen eine besondere Rolle. Höhere Programmiersprachen verfügen über Sprachelemente für Zufallszahlen. In Java gibt es beispielsweise die Klasse Random. Es wird eine natürliche Zahl $n$ als Argument erwartet. Die Ausgabe ist eine natürliche Zahl $r$ mit $0 \le r < n$ . Die Transformation in ein abgeschlossenes Intervall $[a,b]$ natürlicher Zahlen lässt sich leicht bewerkstelligen. Wie folgendes Beispiel zeigt.

public static int intervall(int a, int b){ Random randomGenerator = new Random(); return (a + randomGenerator.nextInt((b - a) + 1)); }

intervall(1, 7);

Die Erzeugnung von Zahlen nach obigen Beispiel erfolgt jedoch nicht rein zufällig. Sie werden deterministisch berechnet d.h. es gibt Prozeduren, die in der Lage sind, lange Folgen von Werten zu generieren, die scheinbar die Eigenschaften zufälliger Folgen haben.

Ein Verfahren zum Erzeugen von Zufallszahlen ist die Kongruenzmethode, die 1948 von D. H. Lehmer entwickelt wurde. Ausgehend von einem Startwert, dem sogenannten Seed wird folgende rekursive Vorschrift angewand.

$z_{n} = (a * z_{n-1} + b)$ $mod$ $c$

dabei sind

$a$ ein Multiplikator, der eine möglichst große Primzahl sein sollte
$b$ eine Konstante (im Fall von $c = 0$ spricht man von multiplikativer Kongruenz)
$c$ ist das Argument der Modulo Funktion und sollte möglichst einen hohen Wert besitzen, da es die Länge der Zahlenfolge angibt

Dabei ist zu beachten, dass der selbe Seed immer die selbe Zahlenfolge liefert. Um unterschiedliche Folgen zu erhalten ist es notwendig unterschieliche Seeds zu wählen. Oftmals wird der Seed in Abhängigkeit der Systemzeit gewält.

Numerische probabilistische Algorithmen

Algorithmen dieser Art produzieren eine Näherungslösung mit wählbarer Genauigkeit.

Ein Beispiel für diese Klasse von Algorithmen ist die Bestimmung einer Näherung für die Zahl $\pi$ durch "Zufallsregen". Dabei werden $n$ Regentropfen auf eine quadratische Fläche fallen gelassen, in der sich ein Kreis befindet. Anschließend werden die Regentropfen gezählt, die innerhalb des Kreises gefallen sind.

Es wird angenommen, dass jeder Punkt im Quadrat exakt dieselbe Wahrscheinlichkeit hat, von einem Tropfen getroffen zu werden. Ist der Radius des Kreises $r$ , so ist seine Fläche $\pi r^2$ , wobei die Fläche des Quadrats $4r^2$ ist. Somit ist der durchschnittliche Anteil der Tropfen, die innerhalb des Kreises landen, $\frac{\pi r^2}{4r^2} = \frac{\pi}{4}$ . Damit kann $\pi$ mit $\pi \approx \frac{4 k} {n}$ geschätzt werden.

Codebeispiel eines Algorithmus, der mit "Zufallsregen" arbeitet. Je höher $n$ gewählt wird umso genauer lässt sich $\pi$ abschätzen.

double rain(int n){ int k = 0; for(int i = 0; i < n; i++){ double x = Math.random(); double y = Math.random(); if(x*x + y*y <= 1){ k = k+ 1; } } double pi = new Double (4) *k/n; return pi; }

rain(100);

Ein weiteres bekanntes Beispiel für diese Klasse von Algorithmen, die "Zufallsregen" verwenden ist die numerische Integration.

Las Vegas Algorithmus

Grundlage

Ein solcher Algorithmus (randomisierter Algorithmus) folgt dem einfachen Prinzip immer ein richtiges Ergebnis auszugeben. So erklärt sich der Name des Las Vegas Algorithmus aus der Tatsache das Casinos immer gewinnen (bezogen auf ein korrektes Ergebnis). Es kann jedoch der Fall eintreten das die Zufallssteuerungen in Sackgassen (nicht zulässige Ergebnissen) landen. In diesen Fall gibt es kein Ergebnis. Durch mehrfaches Ausführen des Algorithmuses kann jedoch ein richtiges Ergebnis gefunden werden. Beispiel:

Das n-Damen Problem ist eines der bekanntesten in der Mathematik und besteht darin auf einen Schachbrett mit n*n Feldern eine Anzahl von n Damen so zu verteilen das sich niemals zwei Damen schlagen können. In der Informatik wurde dieses Problem auf mehrere Arten gelöst wie beispielsweise mit Backtracking. Dieses Problem kann man jedoch auch mithilfe der probabilistischen Algorithmen lösen.

Lösung des Problems mit Las Vegas Algorithmen (Pseudocode):

1.for i = 1 to n:
Wenn in Reihe i alle Felder bedroht sind, Abbruch.
Anderenfalls wähle zufällig eines der nicht bedrohten Felder.
2.Wiederhole (1), bis eine Lösung gefunden ist.

Dieser Algorithmus terminiert nicht immer. Wird aber eine Lösung gefunden ist diese mit Wahrscheinlichkeit 1 richtig.

Analyse des Aufwands:

Gehen wir davon aus es gibt einen Las Vegas Algorithmus $LV(x)$ der eine Eingabe $x$ nimmt und als Ausgabe ein Scheme-paar $(y , Erfolg )$ gibt. Dabei kann Erfolg entweder $true$ "Ergebnis wird gefunden", oder $false$ "Berechnung landet in Sackgasse" und gibt nach (vorher vereinbarten) Anzahl von erfolglosen versuchen $false$ aus. Das $y$ ist der Wert der bei der erfolgreichen Suche rauskommt.

Um nun eine Aufwandsanalyse durchzuführen, benötigt man eine Prozedur ( $LV-loop$ ) bei der $LV(x)$ solange ausgeführt wird bis ein Ergebnis herauskommt(hartnäckiger Algorithmus).

Code:

(define LV-loop
(lambda (x)
 (let* ((resultat (LV x))
       (y(car resultat))
       (Erfolg (cdr resultat)))
   (if Erfolg
    y
     (LV-loop)))))

Im Fall der Las Vegas Algorithmen muss man von der Möglichkeit ausgehen das eine Anzahl n von Versuchen benötigt wird um ein richtiges Ergebnis auszugeben. Um nun den Zeitaufwand t(x) zu berechnen, brach man die Variablen $success(x)$ im Fall des erfolgreichen Findens eines Ausgabewertes und $failure(x)$ im Fall keines erfolgreichen Ergebnisses. Des weiteren muss noch die Zeit eingerechnet werden, die gebraucht wird um aus einer Sackgasse wieder raus zukommen, bezeichnet mit der Variable $p(x)$ . Man geht bei $p(x)$ von $0 < p(x) < 1$ aus. Gleichung:

$t(x)=p(x) \cdot success(x)+(1-p(x)) \cdot (failure(x)+t(x))$

$t(x) = success(x) + (1- p(x)) / p(x) * failure(x)$

$t(x)=success(x)+ \left( \frac{1}{p(x)} - 1 \right) \cdot failure(x)$

Beispiel:

$success(x) = 10$

$failure(x) = 13$

$p(x) = 0,25$

$t(x) = 10 + ((1/ 0,25) - 1) * 13$

$t(x) = 10 + ( 4 - 1 ) * 13 = 49$

Sherwood-Algorithmen

Sherwood-Algorithmen sind eine spezielle Form der Las-Vegas Algorithmen, welche immer ein richtiges Ergebnis ausgeben. Das Bedeute es gibt keine Berechnungen die in Sackgassen führen. Sherwood-Algorithmen sind deterministisch (das bedeutet das determinstische Algorithmen zu probabilistischen Algorithmen umgeformt werden).

Dieser Algorithmus wird besonders gern bei Problemen mit großer Aufwandsdifferenz zwischen den best- ,average-, und worst-case genutzt, da er die besondere Eigenschaft besitzt die großen Aufwandsdifferenzen so "abzufedern" das immer ein mittlerer Aufwand entsteht. Das bedeutet zwar nicht das der best-case oder der worst-case völlig ausgeschlossen sind, jedoch sind diese durch den zufälligen Faktor sehr unwahrscheinlich. Diese Negation der Aufwandsdifferenz wird auch als "Robin Hood Effekt" bezeichnet, da dieser von den Reichen nahm und den Armen gab. In diesen Fall bedeutet das von dem hohen Aufwand genommen und dem niedrigen Aufwand gegeben. Somit hebt sich die Aufwandsdifferenz auf. Daher kommt auch der Name der Sherwood-Algorithmen, da Robin Hood im Sherwood Forrest lebte.

Beispiel:

Ein Beispiel für die Nutzung der Sherwood-Algorithmen ist ein "randomisiertes" Quicksort. Das ist in dem Sinne zu verstehen, dass beim Quicksort der Fall des Worst case eintreten kann und somit eine Zeitkomplexität von $O(n^2)$ entsteht. Um dies zu verhindern gibt es zwei Möglichkeiten. Entweder man bringt die zu ordnenden Elemente "durcheinander", was bedeutet das unsortierte Listen besser zu ordnen sind als sortierte. Es gibt aber auch die Möglichkeit das Pivotelement "zufällig" auswählen zulassen indem man bei der Programmierung immer das Zufallselement für die Bestimmung vom Pivotelement nimmt. So kann man mit hoher Sicherheit, aber nicht vollkommen, davon ausgehen das immer eine Zeitkomplexität von $O(n*(log(n))$ besteht.

Monte-Carlo-Algorithmen

Algorithmen dieser Art geben mit hoher Wahrscheinlichkeit das korrekte Ergebnis aus. Können sich jedoch gelegentlich irren. Irren bedeutet hier das Ergebnis ist falsch und nicht "knapp daneben". Im Falle eines Fehlers liefert der Algorithmus ülicherweise keine Warnung. Dies nimmt man jedoch in Kauf um Probleme zu lösen, die sonst nur schwer oder in keiner angemessenen Zeit gelöst werden könnten.

Ein Monte-Carlo-Algorithmus wird p-korrekt genannt, wenn er eine richtige Lösung mit einer Wahrscheinlichkeit nicht kleiner als $p$ liefer. Dabei ist $p$ eine reele Zahl mit $1/2 < p < 1$ . Desweiteren wird von einem konsistenten Algorithmus gesprochen, wenn er nie zwei verschiedene richtige Lösungen für dasselbe Problem liefert.

Es gibt auch Monte-Carlo-Algorithmen, welche nicht nur den zu lösenden Fall als Argument akzeptieren, sondern auch eine obere Schranke für die zulässige Wahrscheinlichkeit eines Fehlers. Die benötigte Rechenzeit lässt sich dann als Funktion der Größe des zu bearbeitenden Falls und des Kehrwerts der zulässigen Fehlerwahrscheinlichkeit ausdrücken.

Um die Erfolgswahrscheinlichkeit eines Monte-Carlo-Algorithmuses heraufzusetzen muss er nur mehrmals ausgeführt werden und anschließend das häufigste Ergebnis ausgewählt werden.

Äquivalenz zweier Multimengen

Ein Beispiel für einen Monte-Carlo-Algorithmus ist der Test zweier Multimengen auf Äquivalenz. In Multimengen können mehrere gleiche Elemente enthalten sein. Im Beispiel werden Multimengen betrachtet, deren Elemente natürliche Zahlen aus $[1, k]$ (mit $k \in N$ ) sind.

zum Beispiel:

$M_1 = \lbrace 2,3,4,2,2,3 \rbrace$
$M_2 = \lbrace 3,4,2,3,2,2 \rbrace$
$M_3 = \lbrace 3,4,2,3,3,2 \rbrace$

Der klassische Weg eine Entscheidung über die Äquivalenz der Multimengen zu treffen, wäre sie zu sortieren und anschließend elementweise zu vergleichen. Dies kostet jedoch im Mittel $O~(n~log~n)$ . Mit einem probabilistischen Algorithmus ist man in der Lage das Problem in $\theta~(n)$ zu lösen.

Dazu wird der Multimenge $M_1~=~(x_1,x_2,~...~,x_n)$ ein Polynom $p_m_1$ mit $p_m_1(x)~=~(x~-~x_1)(x~-~x_2)~...~(x~-~x_n)$ und

der Multimenge $M_2~=~(y_1,y_2,~...~,y_n)$ ein Polynom $p_m_2$ mit $p_m_2(x)~=~(x~-~y_1)(x~-~y_2)~...~(x~-~y_n)$ zugeordnet.

Die (evtl. mehrfachen) Nullstellen von $p_m_1~(x)$ heißen $x_1,x_2,~...~,x_n$ und die von $p_m_2~(x)$ sind $y_1,y_2,~...~,y_n$ . Diese Darstellung ist für jede ganzrationale Funktion eindeutig. Demzufolge gilt $M_1~\equiv~M_2$ genau dann wenn $p_m_1~(x)~=~p_m_2(x)$ .

Mit folgendem Code kann der Polynomwert einer Multimenge bestimmt werden.

int[] m1 = {2,3,4,2,2,3}; int[] m2 = {3,4,2,3,2,2}; int[] m3 = {3,4,2,3,3,2}; static int polynomWert(int[] menge, int x){ int i = menge.length; int wert = 1; if(i == 0) return 1; else for(i = menge.length; i > 0; i--){ wert = wert * (x - menge[i-1]); } return wert; }

System.out.println("Das Polynom hat den Wert " + polynomWert(m1,9));

Berechnet und vergleicht man nun die Polynomwerte zweier Multimengen mit einer beliebiegen Testzahl $x'$ und erhält verschiedene Werte für $p_m_1~(x')$ und $p_m_1~(x')$ so weiß man definitiv das $M_1~\not\equiv~M_2$ .

Graphen der Polynome $pm_1(x)$ und $pm_3(x)$

Wie die Abbildung rechts zeigt haben die unterschiedlichen Polynome $pm_1(x)$ und $pm_2(x)$ an mehreren Stellen die gleichen Funktionswerte. Trifft man mit einem zufällig gewählten x eine dieser Stellen erhält man möglicherweise ein falsches Ergebnis.

Um das zu vermeiden wiederholt man den Test bei Erfolg mehrere Male. Somit ist es möglich, dass richtige Ergebnis mit einer hohen Wahrscheinlichkeit zu erhalten.

java.util.Random random = new java.util.Random(); boolean aequiv (int r, int[] a, int[] b, int wdh){ int x = random.nextInt(r); if(polynomWert(a,x) == polynomWert(b,x)){ if(wdh >= 0){ this.aequiv (r, a, b, wdh - 1); } return true; } else {return false;} }

System.out.println(aequiv (100, m1, m2, 10))

Primzahltest nach FERMAT

Algemein:

Unter einer Primzahl versteht man eine Zahl die nur durch 1 und sich selbst teilbar ist. Mit Probeteilern ist es natürlich möglich herauszufinden ob eine Zahl als Primzahl gedeutet werden kann oder nicht. Diese Form der Primzahlfindung bringt jedoch bei Zahlen mit hoher Stelligkeit sehr wenig und würde sehr zeitaufwändig werden.

Eine viel effizientere Lösung bringt der "Primzahltest nach Fermat". Diesen Test kann man durch einfügen von Zufallszahlen (randomisieren) zu einem Monte-Carlo-Algorithmus umwandeln. Um die Basis dafür zu schaffen benötigt man den "Satz von EULER"

Satz von Euler

Für alle natürlichen Zahlen $n$ und $a$ mit $n \geq 2$ und $1 \leq a < n$ , wobei $ggt(a,n)=1$ , gilt $a^{\varphi(n)}\equiv 1\ mod\ n$

Auf diesen Satz kann man nun den "kleinen Satz von Fermat " anwenden.

kleiner Satz von Fermat

Wenn $n$ eine Primzahl ist, dann gilt für alle natürlichen Zahlen $a$ (mit $1\geq a \geq n - 1)$ $a^{primzahl}\equiv a (mod\ prim)$

Hat man diese beiden Sätze kann man folgenden Satz daraus bilden:

$a^{primzahl-1}\equiv 1 (mod\ prim)$

Bei dem "Primzahltest von Fermat" gibt es jedoch auch Zahlen, die die Eigenschaften des Satzes haben, aber trotdem keine Primzahlen sind. Diese Arten von Zahlen teilen sich auf in Pseudoprimzahlen und Carmichel Zahlen.

Pseudoprimzahlen

Eine Fermatsche Pseudoprimzahl ist eine zusammengesetzte, natürliche Zahl n, zu der mindestens eine natürliche Zahl a mit ggT(a, n) = 1 und a > 1 existiert, so das:

(1) $a^{n-1} \equiv 1 mod n$ gilt.

Man sagt zu diesen Zahlen auch: "n ist pseudoprim zur Basis a".

Beispiel:

Die Zahl 341 ist eine zusammengesetzte Zahl aus 11*31 und dennoch bestimmt der "Primzahltest von Fermat" sie als Primzahl.

$2^{340} \equiv 1\mod\ 341$

Pseudoprimzahlen für Basen 2,3,und 5:

Basis 2

341, 561, 645, 1105, 1387, 1729, 1905, …

Basis 3

91, 121, 286, 671, 703, 949, 1105, 1541, 1729, …

Basis 5

Carmichael Zahlen

Diese Zahlen wurden nach dem Mathematiker Robert Daniel Carmichael benannt. Eine natürliche Zahl heißt Carmichael-Zahl, wenn sie eine fermatsche Pseudoprimzahl bezüglich aller zu ihr teilerfremden Basen ist.

Definition:

Eine zusammengesetzte natürliche Zahl n heißt Carmichael-Zahl, falls für alle zu n teilerfremden Zahlen a die folgende Kongruenz erfüllt ist:

Beispiel:

Die kleinste Carmichael Zahl ist 561 . Diese kann man leicht aus Primzahlen zusammensetzen 561= 3·11·17 . Für alle Basen a, die keinen Primfaktor mit 561 gemeinsam haben, gilt nämlich a^560 ≡ 1 mod 561.

561 ist durch 3, 11, 17, 33, 51 und 187 teilbar.

Für diese Teiler gilt die Kongruenz jedoch nicht:

$3^{560} \equiv 375\ (mod\ 561),$

$11^{560} \equiv 154\ (mod\ 561),$

$17^{560} \equiv 34\ (mod\ 561),$

usw.

Probabilistischer Primzahltest:

Bei dem probabilistischen Primzahltest wird davon ausgegangen das die Basis zufällig gewählt wird. Dadurch wird die Zeitkomplexität sehr stark verbessert, jedoch kann es vorkommen das falsche Ergebnisse herauskommen. Diese Möglichkeit kann man verringern indem man den Primzahltest mehrmals laufen lässt.

Primzahltest von Solovay und Strassen

Dieser Test wurde 1977 entwickelt und findet heute vor allem in der Kryptographie Anwendung, da er Geschwindigkeitsvorteile gegenüber derterministischen Tests mit sich bringt. Bis 2002 existierte kein deterministischer Algorithmus der in der Lage war in polynominellem Zeitaufwand eine Zahl auf ihre Primzahleigenschaften zu testen.

Es wird zuerst zufällig ein $a < n$ mit $ggt(a,n) = 1$ gewählt. Anschließend berechnt man die Jacobi-Funktion, die wie folgt definiert ist.

$J(a,n)=\begin{cases}1,& ,falls~a = 1 \\ J(\frac{a}{2},n)*(-1)\frac{n^2-1}{8} & ,falls~a= gerade \\ J(rest(n,a)*(-1)^(a-1)^\frac{n-1}{4} & ,sonst\end{cases}$

Wie das Beispiel zeigt kann die Jacobi-Funktion nur die Werte +1 oder -1 annehmen.

double ggt(double x, double y){ double g; if(x<0) x = -x; if(y<0) y = -y; g = y; while (x>0) { g = x; x = y % x; y = g; } return g; }

boolean TestKongruenz(double a, double n){ double myNumber = a; double myExponent = ((n-1)); double myTotal; myTotal = Math.pow(myNumber, myExponent/2); if(myTotal % n == (((JacobiSymbol(a, n)) % n) + n) %n){ return true; } else return false; }

vollständigen Java Code anzeigen

System.out.println(JacobiSymbol(3, 7))

Nun gilt folgender Satz:

Wenn $n$ eine Primzahl ist, dann gilt für alle $a \in N$ (mit $1 < a \le n - 1$ und $ggT(a,n) = 1$ ):

$J(a,n) \equiv a \frac{n-1}{2} mod~n$ .

java.util.Random random = new java.util.Random(); int definea(int n){ int a; do{ a = random.nextInt(n) + 2; } while(ggt(a, n) != 1 && a % 2== 0); return a; }

void TestPrim(int n){ if(TestKongruenz(definea(n), n) == true) System.out.println(n + " ist eine Primzahl"); else System.out.println(n + " ist keine Primzahl"); }

TestPrim(7);

Falls $n$ eine Primzahl ist liefert der Test definitiv das korrekte Ergebnis. Andernfalls mit einer Wahrscheinlichkeit von $<~\frac{1}{2}$ ein falsches Ergebnis. Durch mehrfaches Ausführen lässt sich die Fehlerwahrscheinlichkeit bei $k$ Versuchen auf $\frac{1}{2^k}$ reduzieren.

Übungen:

Übungsaufgaben

Quellen

Christian Wagenknecht: Algorithmen und Komplexität, Fachbuchverlag Leipzig, 2003,
Brassard, Gilles; Bratley, Paul: Algorithmik: Theorie und Praxis, Attenkirchen: Wolfram, 1993
Sebastian, Rick; Jörg, Wiesner: Studienarbeit: Probabilistische Algorithmen, Görlitz 2008

Probabilistische Algorithmen SS11

Aus ProgrammingWiki

Inhaltsverzeichnis

Einleitung

Pseudozufallszahlen

Numerische probabilistische Algorithmen

Las Vegas Algorithmus

Grundlage

Analyse des Aufwands:

Sherwood-Algorithmen

Monte-Carlo-Algorithmen

Äquivalenz zweier Multimengen

Primzahltest nach FERMAT

Algemein:

Satz von Euler

kleiner Satz von Fermat

Pseudoprimzahlen

Carmichael Zahlen

Probabilistischer Primzahltest:

Primzahltest von Solovay und Strassen

Übungen:

Quellen

Ansichten

Persönliche Werkzeuge

Navigation

Suche

Werkzeuge