Mergesort

Mergesort (von englisch merge ‚verschmelzen‘ und sort ‚sortieren‘) ist ein stabiler Sortieralgorithmus, der nach dem Prinzip teile und herrsche (divide and conquer) arbeitet. Er wurde erstmals 1945 durch John von Neumann vorgestellt.^[1]

Funktionsweise

Mergesort betrachtet die zu sortierenden Daten als Liste und zerlegt sie in kleinere Listen, die jede für sich sortiert werden. Die kleinen sortierten Listen werden dann im Reißverschlussverfahren zu größeren sortierten Listen zusammengefügt (engl. (to) merge), bis eine sortierte Gesamtliste erreicht ist. Das Verfahren arbeitet bei Arrays in der Regel nicht in-place, es sind dafür aber (trickreiche) Implementierungen bekannt, in welchen die Teil-Arrays üblicherweise rekursiv zusammengeführt werden.^[2] Verkettete Listen sind besonders geeignet zur Implementierung von Mergesort, dabei ergibt sich die in-place-Sortierung fast von selbst.

Veranschaulichung der Funktionsweise

Funktionsweise

Das Bild veranschaulicht die drei wesentlichen Schritte eines Teile-und-herrsche-Verfahrens, wie sie im Rahmen von Mergesort umgesetzt werden. Der Teile-Schritt ist ersichtlich trivial (die Daten werden einfach in zwei Hälften aufgeteilt). Die wesentliche Arbeit wird beim Verschmelzen (merge) geleistet – daher rührt auch der Name des Algorithmus. Bei Quicksort ist hingegen der Teile-Schritt aufwendig und der Merge-Schritt einfacher (nämlich eine Konkatenierung).

Bei der Betrachtung des in der Grafik dargestellten Verfahrens sollte man sich allerdings bewusst machen, dass es sich hier nur um eine von mehreren Rekursionsebenen handelt. So könnte etwa die Sortierfunktion, welche die beiden Teile 1 und 2 sortieren soll, zu dem Ergebnis kommen, dass diese Teile immer noch zu groß für die Sortierung sind. Beide Teile würden dann wiederum aufgeteilt und der Sortierfunktion rekursiv übergeben, so dass eine weitere Rekursionsebene geöffnet wird, welche dieselben Schritte abarbeitet. Im Extremfall (der bei Mergesort sogar der Regelfall ist) wird das Aufteilen so weit fortgesetzt, bis die beiden Teile nur noch aus einzelnen Datenelementen bestehen und damit automatisch sortiert sind.

Implementierung

Der folgende Pseudocode illustriert die Arbeitsweise des Algorithmus, wobei liste die zu sortierenden Elemente enthält.

funktion mergesort(liste);
  falls (Größe von liste <= 1) dann antworte liste
  sonst
     halbiere die liste in linkeListe, rechteListe
     linkeListe = mergesort(linkeListe)
     rechteListe = mergesort(rechteListe)
     antworte merge(linkeListe, rechteListe)

funktion merge(linkeListe, rechteListe);
  neueListe
  solange (linkeListe und rechteListe nicht leer)
       falls (erstes Element der linkeListe <= erstes Element der rechteListe)
       dann füge erstes Element linkeListe in die neueListe hinten ein und entferne es aus linkeListe
       sonst füge erstes Element rechteListe in die neueListe hinten ein und entferne es aus rechteListe
  solange_ende
  solange (linkeListe nicht leer)
       füge erstes Element linkeListe in die neueListe hinten ein und entferne es aus linkeListe
  solange_ende
  solange (rechteListe nicht leer)
       füge erstes Element rechteListe in die neueListe hinten ein und entferne es aus rechteListe
  solange_ende
  antworte neueListe

Beispiel

Im letzten Verschmelzungsschritt ist das Reißverschlussverfahren beim Verschmelzen (in der Abb. „Mischen:“) angedeutet. Blaue Pfeile verdeutlichen den Aufteilungsschritt, grüne Pfeile die Verschmelzungsschritte.

Es folgt ein Beispielcode analog zum obigen Abschnitt „Implementierung“ für den rekursiven Sortieralgorithmus. Er teilt rekursiv absteigend die Eingabe in 2 kleinere Listen, bis diese trivialerweise sortiert sind, und verschmilzt sie auf dem rekursiven Rückweg, wodurch sie sortiert werden.

function merge_sort(list x)
    if length(x) ≤ 1 then
        return x      // Kurzes x ist trivialerweise sortiert.
    var l := empty list
    var r := empty list
    var nx := length(x)−1
    // Teile x in die zwei Hälften l und r ...
    for i := 0 to floor(nx/2) do
        append x[i] to l
    for i := floor(nx/2)+1 to nx do
        append x[i] to r
    // ... und sortiere beide (einzeln).
    l := merge_sort(l)
    r := merge_sort(r)
    // Verschmelze die sortierten Hälften.
    return merge(l, r)

Beispielcode zum Verschmelzen zweier sortierter Listen.

function merge(list l, list r)
    var y := empty list    // Ergebnisliste
    var nl := length(l)−1
    var nr := length(r)−1
    var il := 0
    for i := 0 to nl+nr+1 do
        if il > nl then
            append r[i−il] to y
            continue
        if il < i−nr then
            append l[il] to y
            il := il+1
            continue
        // Jetzt ist 0 ≤ il ≤ nl und 0 ≤ i−il ≤ nr.
        if l[il] ≤ r[i−il] then
            append l[il] to y
            il := il+1
        else
            append r[i−il] to y
    return y

Java-Implementation

Eine iterative Implementation in der Programmiersprache Java unter Verwendung von verketteten Listen könnte folgendermaßen aussehen:

(Es wird eine merge()-Funktion zum Verschmelzen zweier Listen verwendet, die im Absatz darunter erläutert wird.)

void mergeSort(List<Integer> l) {
	int n = l.size();
	//Erstelle n Teillisten. (1 Element pro Liste) (Divide)
	LinkedList<LinkedList<Integer>> groups = new LinkedList<LinkedList<Integer>>();
	for (int i = 0; i < n; i++) {
		LinkedList<Integer> list = new LinkedList<>();
		list.add(l.get(i));
		groups.add(list);
	}
	//Solange mehrere Gruppen existieren:
	while (groups.size() > 1) {
	    //Merge die ersten beiden Listen im Vorrat und hänge die verbundene Liste hinten an.
		groups.addLast(merge(groups.removeFirst(), groups.removeFirst()));
	}
	//Überschreibe die unsortierte Liste mit der sortierten Version
	list = groups.getFirst();
}

Der Merge-Schritt im Detail

Gegeben sind zwei in sich sortierte Listen $A$ und $B$ , die zu einer sortierten Liste $C$ zusammengefügt werden sollen.

Man vergleicht nun die beiden kleinsten Elemente (am Anfang der Listen $A$ und $B$ ), fügt das kleinere zu $C$ hinzu und nimmt es aus der jeweiligen Liste $A$ oder $B$ heraus.

Dies wird so lange wiederholt, bis eine der beiden Listen A oder B leer ist, danach wird der Rest aus der anderen Liste $A$ oder $B$ (in der noch Einträge vorhanden sind) ans Ende von $C$ gehängt.

Der Mergeschritt braucht genau immer $|A|+|B|$ Operationen, da jedes Element aus beiden Listen in konstanter Zeit gelöscht und hinzugefügt werden kann. Die Laufzeit beträgt folglich: ${\mathcal {O}}(|A|+|B|)$

LinkedList<Integer> merge(LinkedList<Integer> linkeListe, LinkedList<Integer> rechteListe) {
	LinkedList<Integer> temp = new LinkedList<>();
	// Solange noch nicht beide Listen hinzugefügt worden
	while (!linkeListe.isEmpty() && !rechteListe.isEmpty()) {
		if (linkeListe.getFirst() <= rechteListe.getFirst()) {
			temp.addLast(linkeListe.removeFirst());
		} else {
			temp.addLast(rechteListe.removeFirst());
		}
	}
	// Füge Rest hinzu, falls etwas übrig ist.
	temp.addAll(linkeListe);
	temp.addAll(rechteListe);
	return temp;
}

Komplexität

Mergesort ist ein stabiles Sortierverfahren, vorausgesetzt der Merge-Schritt ist entsprechend implementiert. Seine Komplexität beträgt im Worst-, Best- und Average-Case in Landau-Notation ausgedrückt stets ${\mathcal {O}}(n\cdot \log(n))$ .

Damit ist Mergesort hinsichtlich der Komplexität Quicksort grundsätzlich überlegen, da Quicksort (ohne besondere Vorkehrungen) ein Worst-Case-Verhalten von $\Theta (n^{2})$ besitzt. Es benötigt jedoch zusätzlichen Speicherplatz (der Größenordnung ${\mathcal {O}}(n)$ ), ist also kein In-place-Verfahren.

Für die Laufzeit $T(n)$ von Mergesort bei $n$ zu sortierenden Elementen gilt die Rekursionsformel

T(n)=\underbrace {T(\lfloor {\tfrac {n}{2}}\rfloor )} _{\text{Aufwand, den einen Teil zu sortieren}}+\underbrace {T(\lceil {\tfrac {n}{2}}\rceil )} _{\text{Aufwand, den anderen Teil zu sortieren}}+\underbrace {{\mathcal {O}}(n)} _{\text{Aufwand, die beiden Teile zu verschmelzen}}

mit dem Rekursionsanfang $T(1)=1$ .

Nach dem Master-Theorem kann die Rekursionsformel durch $2\,T(\lfloor {\tfrac {n}{2}}\rfloor )+n$ bzw. $2\,T(\lceil {\tfrac {n}{2}}\rceil )+n$ approximiert werden mit jeweils der Lösung (2. Fall des Mastertheorems, s. dort) $T(n)={\mathcal {O}}(n\cdot \log(n))$ .

Durchschnittliche und maximale Anzahl Vergleiche

Sind $l_{0},l_{1}$ die Längen der zu verschmelzenden und vorsortierten Folgen $F_{0},F_{1},$ dann gilt für die Anzahl $M$ der erforderlichen Vergleiche fürs sortierende Verschmelzen

\min(l_{0},l_{1})\leq M\leq l_{0}+l_{1}-1

,

da erstens eine Folge komplett vor der anderen liegen kann, d. h., es ist $F_{0}[l_{0}]\prec F_{1}[1]$ bzw. $F_{1}[l_{1}]\prec F_{0}[1],$ oder es ist zweitens $F_{0}[l_{0}-1]\prec F_{1}[l_{1}]\prec F_{0}[l_{0}]$ (bzw. umgekehrt), sodass die Elemente bis zum letzten Element in jeder Folge verglichen werden müssen. Dabei ist jeweils angenommen, dass das Vergleichen der zwei Folgen bei den Elementen mit niedrigem Index beginnt. Mit

V_{m}(l_{0}+l_{1}):=l_{0}+l_{1}-1

(Subskript $m$ für maximal) sei die maximale Anzahl der Vergleiche fürs Verschmelzen bezeichnet. Für die maximale Anzahl $S_{m}(n)$ an Vergleichen für einen ganzen Mergesort-Lauf von $n$ Elementen errechnet sich daraus

S_{m}(n)=nl-2^{l}+1,

mit

l:=\lceil \log _{2}(n)\rceil .

$S_{m}(n)$ ist die Folge A001855 in OEIS.

Für eine Gleichverteilung lässt sich auch die durchschnittliche Anzahl $V_{\varnothing }(l_{0},l_{1})$ (Subskript ${}_{\varnothing }$ für durchschnittlich) der Vergleiche genau berechnen, und zwar ist für $l_{1}=l_{0}$

{\begin{aligned}V_{\varnothing }(l_{0},l_{0})\;\;\;\;\;&=\left(\sum _{k=l_{0}}^{2l_{0}-1}{\binom {k-1}{l_{0}-1}}k\right)\,{\bigg /}\left(\sum _{k=l_{0}}^{2l_{0}-1}{\binom {k-1}{l_{0}-1}}\right)\\&=2\,l_{0}^{2}/(l_{0}+1)\end{aligned}}

und für $l_{1}=l_{0}-1$

{\begin{aligned}V_{\varnothing }(l_{0},l_{0}-1)&=\left(\sum _{k=l_{0}}^{2l_{0}-1}{\binom {k-1}{l_{0}-1}}k\;+\sum _{k=l_{0}-1}^{2l_{0}-2}{\binom {k-1}{l_{0}-2}}k\right)\\&\;{\bigg /}\left(\sum _{k=l_{0}}^{2l_{0}-1}{\binom {k-1}{l_{0}-1}}\;\;\;+\sum _{k=l_{0}-1}^{2l_{0}-2}{\binom {k-1}{l_{0}-2}}\;\;\right)\\&=2\,l_{0}^{2}/(l_{0}+1)-1.\end{aligned}}

Dabei ist $k$ die Anzahl der Vergleiche für die Anordnung

\underbrace {u\,v\dotso w\,0} _{k}\,\underbrace {1\,1\dotso 1} _{l_{1}+l_{0}-k}

,

wobei $0$ für das letzte (das am höchsten sortierende) Element in der Folge $F_{0}$ steht, die (nicht von einem Element aus $F_{0}$ unterbrochenen) $1$ en zu $F_{1}$ gehören und $u,v,w$ (die auch fehlen können) entweder zu $F_{0}$ oder zu $F_{1}$ gehören. Der in den Summenformeln beigegebene Binomialkoeffizient zählt die verschiedenen Möglichkeiten für $u\,v\dotso w.$

Für die durchschnittliche Anzahl $S_{\varnothing }(n)$ an Vergleichen für einen ganzen Mergesort-Lauf von $n$ Elementen errechnet man daraus

$n$	$S_{\varnothing }(n)$	$S_{m}(n)$	$(S_{m}(n)-$ $S_{\varnothing }(n))/n$
2	1,0000	1	0,00000
3	2,6667	3	0,11111
4	4,6667	5	0,08333
6	9,8333	11	0,19444
8	15,733	17	0,15833
12	29,952	33	0,25397
16	45,689	49	0,20694
24	82,059	89	0,28922
32	121,50	129	0,23452
48	210,20	225	0,30839
64	305,05	321	0,24920
96	514,44	545	0,31838
128	736,13	769	0,25677
192	1218,9	1281	0,32348
256	1726,3	1793	0,26061
384	2819,8	2945	0,32606
512	3962,6	4097	0,26255
768	6405,6	6657	0,32736
1024	8947,2	9217	0,26352
1536	14345,0	14849	0,32801
2048	19940,0	20481	0,26401
3072	31760,0	32769	0,32833
4096	43974,0	45057	0,26426
6144	69662,0	71681	0,32849
8192	96139,0	98305	0,26438
12288	1,5161E5	155649	0,32857
16384	2,0866E5	212993	0,26444
24576	3,278E5	335873	0,32862
32768	4,5009E5	458753	0,26447
49152	7,0474E5	720897	0,32864
65536	9,6571E5	983041	0,26448
98304	1,5078E6	1540097	0,32865
131072	2,0625E6	2097153	0,26449
196608	3,2122E6	3276801	0,32865
262144	4,3871E6	4456449	0,26450
393216	6,8176E6	6946817	0,32865
524288	9,2985E6	9437185	0,26450
786432	1,4422E7	14680065	0,32865
1048576	1,9646E7	19922945	0,26450
1572864	3,0416E7	30932993	0,32866
2097152	4,1388E7	41943041	0,26450
3145728	6,3978E7	65011713	0,32866
4194304	8,6971E7	88080385	0,26450
6291456	1,3425E8	136314881	0,32866
8388608	1,8233E8	184549377	0,26450
12582912	2,8108E8	285212673	0,32866
16777216	3,8144E8	385875969	0,26450

und findet $S_{m}(n)-0{,}3286560975\,n\leq S_{\varnothing }(n)\leq S_{m}(n).$

Korrektheit und Terminierung

Der Rekursionsabbruch stellt die Terminierung von Mergesort offensichtlich sicher, so dass lediglich noch die Korrektheit gezeigt werden muss. Dies geschieht, indem wir folgende Behauptung beweisen:

Behauptung: In Rekursionstiefe $i$ werden die sortierten Teillisten aus Rekursionstiefe $i{+}1$ korrekt sortiert.

Beweis: Sei o. B. d. A. die $(i{+}1)$ -te Rekursion die tiefste. Dann sind die Teillisten offensichtlich sortiert, da sie einelementig sind. Somit ist ein Teil der Behauptung schon mal gesichert. Nun werden diese sortierten Teillisten eine Rekursionsebene nach oben, also in die $i$ -te Rekursion übergeben. Dort werden diese nach Konstruktion der merge-Prozedur von Mergesort korrekt sortiert. Somit ist unsere Behauptung erfüllt und die totale Korrektheit von Mergesort bewiesen.

Natural Mergesort

Natural Mergesort (natürliches Mergesort) ist eine Erweiterung von Mergesort, die bereits vorsortierte Teilfolgen, so genannte runs, innerhalb der zu sortierenden Startliste ausnutzt. Die Basis für den Mergevorgang bilden hier nicht die rekursiv oder iterativ gewonnenen Zweiergruppen, sondern die in einem ersten Durchgang zu bestimmenden runs:

Startliste    : 3--4--2--1--7--5--8--9--0--6
Runs bestimmen: 3--4  2  1--7  5--8--9  0--6
Merge         : 2--3--4  1--5--7--8--9  0--6
Merge         : 1--2--3--4--5--7--8--9  0--6
Merge         : 0--1--2--3--4--5--6--7--8--9

Diese Variante hat den Vorteil, dass sortierte Folgen „erkannt“ werden und die Komplexität im Best-Case ${\mathcal {O}}(n)$ beträgt. Average- und Worst-Case-Verhalten ändern sich hingegen nicht.

Außerdem eignet sich Mergesort gut für größere Datenmengen, die nicht mehr im Hauptspeicher gehalten werden können – es müssen jeweils nur beim Verschmelzen in jeder Ebene zwei Listen vom externen Zwischenspeicher (z. B. Festplatte) gelesen und eine dorthin geschrieben werden. Eine Variante nutzt den verfügbaren Hauptspeicher besser aus (und minimiert Schreib-/Lesezugriffe auf der Festplatte), indem mehr als nur zwei Teil-Listen gleichzeitig vereinigt werden, und damit die Rekursionstiefe abnimmt.

Paralleler Mergesort

Mergesort lässt sich aufgrund des Teile-und-herrsche Ansatzes gut parallelisieren. Verschiedene parallele Varianten wurden in der Vergangenheit entwickelt. Manche sind stark verwandt mit der hier vorgestellten sequentiellen Variante, während andere eine grundlegend verschiedene Struktur besitzen und das K-Wege-Mischen verwenden.

Mergesort mit parallelen Rekursionsaufrufen

Der sequentielle Mergesort kann in zwei Phasen beschrieben werden, die Teilen-Phase und die anschließende Misch-Phase. Die erste besteht aus vielen rekursiven Aufrufen, die immer wieder den gleichen Aufteilungsprozess durchführen, bis die Teilsequenzen trivial sortiert sind (mit einem oder keinem Element). Ein intuitiver Ansatz ist es, diese rekursiven Aufrufe zu parallelisieren.^[3] Der folgende Pseudocode beschreibt den klassischen Mergesort Algorithmus mit paralleler Rekursion unter Verwendung der Schlüsselwörter fork and join.

// Sort elements lo through hi (exclusive) of array A.
algorithm mergesort(A, lo, hi) is
    if lo+1 < hi then  // Two or more elements.
        mid := ⌊(lo + hi) / 2⌋
        fork mergesort(A, lo, mid)
        mergesort(A, mid, hi)
        join
        merge(A, lo, mid, hi)

Dieser Algorithmus ist die triviale Modifikation des sequentiellen Algorithmus und ist noch nicht optimal. Sein Speedup ist dementsprechend auch nicht beeindruckend. Er hat einen Spann von $\Theta (n)$ , was nur eine Verbesserung um den Faktor $\Theta (\log n)$ ist im Vergleich zur sequentiellen Version. Dies liegt hauptsächlich an der sequentiellen Mischmethode, welche der Flaschenhals der parallelen Ausführung ist.

Mergesort mit paralleler Mischmethode

Ein besserer Parallelismus kann durch eine parallele Mischmethode erreicht werden. Cormen et al. präsentieren eine binäre Variante, welche zwei sortierte Teilsequenzen in eine sortierte Ausgabesequenz mischt.^[3]

In der längeren der beiden Sequenzen (falls ungleich lang) wird das Element des mittleren Indexes ausgewählt. Seine Position in der anderen Sequenz wird so bestimmt, dass die Sequenz sortiert bliebe, wenn dieses Element an der bestimmten Stelle eingefügt werden würde. So weiß man, wie viele Elemente insgesamt kleiner sind als das Pivotelement, und die finale Position des Pivots kann in der Ausgabesequenz berechnet werden. Für die so erzeugten Teilfolgen der kleineren und größeren Elemente wird die Mischmethode wieder parallel ausgeführt, bis der Basisfall der Rekursion erreicht ist.

Der folgende Pseudocode illustriert den Mergesort mit modifizierter paralleler Mischmethode (aus Cormen et al.).

/**
 * A: Input array
 * B: Output array
 * lo: lower bound
 * hi: upper bound
 * off: offset
 */
algorithm parallelMergesort(A, lo, hi, B, off) is
    len := hi - lo + 1
    if len == 1 then
        B[off] := A[lo]
    else let T[1..len] be a new array
        mid := ⌊(lo + hi) / 2⌋
        mid' := mid - lo + 1
        fork parallelMergesort(A, lo, mid, T, 1)
        parallelMergesort(A, mid + 1, hi, T, mid' + 1)
        join
        parallelMerge(T, 1, mid', mid' + 1, len, B, off)

Um eine Rekurrenzrelation für den Worst Case zu erhalten, müssen die rekursiven Aufrufe von parallelMergesort aufgrund der parallelen Ausführung nur einmal aufgeführt werden. Man erhält

${\textstyle T_{\infty }^{\text{sort}}(n)=T_{\infty }^{\text{sort}}\left({\frac {n}{2}}\right)+T_{\infty }^{\text{merge}}(n)=T_{\infty }^{\text{sort}}\left({\frac {n}{2}}\right)+\Theta \left(\log(n)^{2}\right)}$ .

Für genauere Informationen über die Komplexität der parallelen Mischmethode.

Die Lösung dieser Rekurrenz ist

${\textstyle T_{\infty }^{\text{sort}}=\Theta \left(\log(n)^{3}\right)}$ .

Dieser Algorithmus erreicht eine Parallelisierbarkeit von $\Theta {\biggr (}{n \over (\log n)^{2}}{\biggr )}$ , was um einiges besser ist als der Parallelismus des vorherigen Algorithmus. Solch ein Sortieralgorithmus kann, wenn er mit einem schnellen stabilen sequentiellen Sortieralgorithmus und einer sequentiellen Mischmethode als Basisfall für das Mischen von zwei kleinen Sequenzen ausgestattet ist, gut in der Praxis funktionieren.^[4]

Paralleler Mehrwege-Mergesort

Es wirkt unnatürlich, Mergesort Algorithmen auf binäre Mischmethoden zu beschränken, da oftmals mehr als zwei Prozessoren zur Verfügung stehen. Ein besserer Ansatz wäre es, ein K-Wege-Mischen zu realisieren. Diese Generalisierung mischt im Gegensatz zum binären Mischen $k$ sortierte Sequenzen zu einer sortierten Sequenz. Diese Misch-Variante eignet sich gut zur Beschreibung eines Sortieralgorithmus auf einem PRAM.^[5]^[6]

Grundidee

Der parallele Mehrwege-Mergesort Algorithmus auf vier Prozessoren

t_{0}

bis

t_{3}

.

Gegeben sei eine Folge von $n$ Elementen. Ziel ist es, diese Sequenz mit $p$ verfügbaren Prozessoren zu sortieren. Die Elemente sind dabei gleich auf alle Prozessoren aufgeteilt und werden zunächst lokal mit einem sequentiellen Sortieralgorithmus vorsortiert. Dementsprechend bestehen die Daten nun aus sortierten Folgen $S_{1},...,S_{p}$ der Länge ${\textstyle \lceil {\frac {n}{p}}\rceil }$ . Der Einfachheit halber sei $n$ ein Vielfaches von $p$ , so dass für $i=1,...,p$ gilt: ${\textstyle \left\vert S_{i}\right\vert ={\frac {n}{p}}}$ . Jede dieser Sequenzen wird wiederum in $p$ Teilsequenzen $S_{i,1},...,S_{i,p}$ partitioniert, indem für $j=1,...,p$ die Trennelemente $v_{j}$ mit globalem Rang ${\textstyle k=j{\frac {n}{p}}}$ bestimmt werden. Die korrespondierenden Indizes werden in jeder Folge $S_{i}$ mit binärer Sucher ermittelt, sodass die Folgen anhand der Indizes aufgeteilt werden können. Formal definiert gilt somit $S_{i,j}:=\{x\in S_{i}|rank(v_{j-1})<rank(x)\leq rank(v_{j})\}$ .

Nun werden die Elemente von $S_{1,i},...,S_{p,i}$ dem Prozessor $i$ zugeteilt. Dies sind alle Elemente vom globalen Rang ${\textstyle (i-1){\frac {n}{p}}}$ bis zum Rang ${\textstyle i{\frac {n}{p}}}$ , die über die $S_{i}$ verteilt sind. So erhält jeder Prozessor eine Folge von sortierten Sequenzen. Aus der Tatsache, dass der Rang $k$ der Trennelemente $v_{i}$ global gewählt wurde, ergeben sich zwei wichtige Eigenschaften: Zunächst sind die Trennelemente so gewählt, dass jeder Prozessor nach der Zuteilung der neuen Daten immer noch mit ${\textstyle n/p}$ Elementen betraut ist. Der Algorithmus besitzt also eine perfekte Lastverteilung. Außerdem sind alle Elemente des Prozessors $i$ kleiner oder gleich der Elemente des Prozessors $i+1$ . Wenn nun jeder Prozessor ein p-Wege-Mischen lokal durchführt, sind aufgrund dieser Eigenschaft die Elemente global sortiert. Somit müssen die Ergebnisse nur in der Reihenfolge der Prozessoren zusammengesetzt werden.

Trennelementbestimmung

In der einfachsten Form sind $p$ sortierte Folgen $S_{1},...,S_{p}$ gleichverteilt auf $p$ Prozessoren sowie ein Rang $k$ gegeben. Gesucht ist nun ein Trennelement $x$ mit globalem Rang $k$ in der Vereinigung der Folgen. Damit kann jede Folge $S_{i}$ an einem Index $l_{i}$ in zwei Teile aufgeteilt werden: Der untere Teil besteht nur aus Elementen, die kleiner $x$ sind, während der obere Teil alle Elemente enthält, welche größer oder gleich als $x$ sind.

Der hier vorgestellte sequentielle Algorithmus gibt die Indizes der Trennungen zurück, also die Indizes $l_{i}$ in den Folgen $S_{i}$ , sodass $S_{i}[l_{i}]$ einen global kleineren Rang als $k$ hat und $\mathrm {rank} \left(S_{i}[l_{i}+1]\right)\geq k$ ist.^[7]

algorithm msSelect(S : Array of sorted Sequences [S_1,..,S_p], k : int) is
    for i = 1 to p do
 (l_i, r_i) = (0, |S_i|-1)

    while there exists i: l_i < r_i do
 //pick Pivot Element in S_j[l_j],..,S_j[r_j], chose random j uniformly
 v := pickPivot(S, l, r)
 for i = 1 to p do
     m_i = binarySearch(v, S_i[l_i, r_i]) //sequentially
 if m_1 + ... + m_p >= k then //m_1+ ... + m_p is the global rank of v
     r := m  //vector assignment
 else
     l := m

    return l

Für die Komplexitätsanalyse wurde das PRAM-Modell gewählt. Die p-fache Ausführung der binarySearch Methode hat eine Laufzeit in ${\mathcal {O}}\left(p\log \left(n/p\right)\right)$ , falls die Daten über alle $p$ Prozessoren gleichverteilt anliegen. Die erwartete Rekursionstiefe beträgt wie im Quickselect Algorithmus ${\mathcal {O}}\left(\log \left(\textstyle \sum _{i}|S_{i}|\right)\right)={\mathcal {O}}(\log(n))$ . Somit ist die gesamte erwartete Laufzeit ${\mathcal {O}}\left(p\log(n/p)\log(n)\right)$ .

Angewandt auf den parallelen Mehrwege-Mergesort muss die msSelect Methode parallel ausgeführt werden, um alle Trennelemente vom Rang ${\textstyle i{\frac {n}{p}}}$ gleichzeitig zu finden. Dies kann anschließend verwendet werden, um jede Folge in $p$ Teile zu zerschneiden. Es ergibt sich die gleiche Gesamtlaufzeit ${\mathcal {O}}\left(p\,\log(n/p)\log(n)\right)$ .

Pseudocode

Hier ist der komplette Pseudocode für den parallelen Mehrwege-Mergesort. Dabei wird eine Barriere-Synchronisation vor und nach der Trennelementbestimmung angenommen, sodass jeder Prozessor seine Trennelemente und die Partitionierung seiner Sequenz richtig berechnen kann.

/**
 * d: Unsorted Array of Elements
 * n: Number of Elements
 * p: Number of Processors
 * return Sorted Array
 */
algorithm parallelMultiwayMergesort(d : Array, n : int, p : int) is
    o := new Array[0, n]                         // the output array
    for i = 1 to p do in parallel                // each processor in parallel
        S_i := d[(i-1) * n/p, i * n/p]           // Sequence of length n/p
 sort(S_i)                                // sort locally
        synch
 v_i := msSelect([S_1,...,S_p], i * n/p)          // element with global rank i * n/p
        synch
 (S_i,1 ,..., S_i,p) := sequence_partitioning(si, v_1, ..., v_p) // split s_i into subsequences

 o[(i-1) * n/p, i * n/p] := kWayMerge(s_1,i, ..., s_p,i)  // merge and assign to output array

    return o

Analyse

Zunächst sortiert jeder Prozessor die zugewiesenen $n/p$ Elemente lokal mit einem vergleichsbasierten Sortieralgorithmus der Komplexität ${\mathcal {O}}\left(n/p\;\log(n/p)\right)$ . Anschließend können die Trennelemente in Zeit ${\mathcal {O}}\left(p\,\log(n/p)\log(n)\right)$ bestimmt werden. Schließlich müssen jede Gruppe von $p$ Teilstücken gleichzeitig von jedem Prozessor zusammen gemischt werden. Dies hat eine Laufzeit von ${\mathcal {O}}(\log(p)\;n/p)$ , indem ein sequentieller k-Wege Mischalgorithmus verwendet wird. Somit ergibt sich eine Gesamtlaufzeit von

${\mathcal {O}}\left({\frac {n}{p}}\log \left({\frac {n}{p}}\right)+p\log \left({\frac {n}{p}}\right)\log(n)+{\frac {n}{p}}\log(p)\right)$ .

Praktische Anpassung und Anwendung

Der Mehrwege-Mergesort Algorithmus ist durch seine hohe Parallelität, was den Einsatz vieler Prozessoren ermöglicht, sehr skalierbar. Dies macht den Algorithmus zu einem brauchbaren Kandidaten für das Sortieren großer Datenmengen, wie sie beispielsweise in Computer-Clustern verarbeitet werden. Da der Speicher in solchen Systemen in der Regel keine limitierende Ressource darstellt, ist der Nachteil der Speicherkomplexität von Mergesort vernachlässigbar. Allerdings werden in solchen Systemen andere Faktoren wichtig, die bei der Modellierung auf einer PRAM nicht berücksichtigt werden. Hier sind unter anderem die folgenden Aspekte zu berücksichtigen: Die Speicherhierarchie, wenn die Daten nicht in den Cache der Prozessoren passen, oder der Kommunikationsaufwand beim Datenaustausch zwischen den Prozessoren, der zu einem Engpass werden könnte, wenn auf die Daten nicht mehr über den gemeinsamen Speicher zugegriffen werden kann.

Sanders et al. haben in ihrem Paper einen bulk synchronous parallel-Algorithmus für einen mehrstufigen Mehrwege-Mergesort vorgestellt, der $p$ Prozessoren in $r$ Gruppen der Größe $p'$ unterteilt. Alle Prozessoren sortieren zuerst lokal. Im Gegensatz zu einem einstufigen Mehrwege-Mergesort werden diese Sequenzen dann in $r$ Teile aufgeteilt und den entsprechenden Prozessorgruppen zugeordnet. Diese Schritte werden innerhalb dieser Gruppen rekursiv wiederholt. So wird die Kommunikation reduziert und insbesondere Probleme mit vielen kleinen Nachrichten vermieden. Die hierarchische Struktur des zugrundeliegenden realen Netzwerks (z. B. Racks, Cluster,...) kann zur Definition der Prozessorgruppen verwendet werden.^[6]

Weitere Varianten

Mergesort war einer der ersten Sortieralgorithmen, bei dem ein optimaler Speedup erreicht wurde, wobei Richard Cole einen cleveren Subsampling-Algorithmus verwendete, um die O(1)-Zusammenführung sicherzustellen.^[8] Andere ausgeklügelte parallele Sortieralgorithmen können die gleichen oder bessere Zeitschranken mit einer niedrigeren Konstante erreichen. David Powers beschrieb beispielsweise 1991 einen parallelisierten Quicksort (und einen verwandten Radixsort), der durch implizite Partitionierung in $O(\log n)$ Zeit auf einer CRCW-Parallel Random Access Machine (PRAM) mit $n$ Prozessoren arbeiten kann.^[9] Powers zeigt ferner, dass eine Pipeline-Version von Batchers Bitonic Mergesort in $O((\log n)^{2})$ Zeit auf einem Butterfly-Sortiernetzwerk in der Praxis schneller ist als sein $O(\log n)$ Sortieralgorithmus auf einer PRAM, und er bietet eine detaillierte Diskussion der versteckten Overheads beim Vergleich, bei der Radix- und der Parallelsortierung.^[10]

Sonstiges

Da Mergesort die Startliste sowie alle Zwischenlisten sequenziell abarbeitet, eignet er sich besonders zur Sortierung von verketteten Listen. Für Arrays wird normalerweise ein temporäres Array derselben Länge des zu sortierenden Arrays als Zwischenspeicher verwendet (das heißt Mergesort arbeitet normalerweise nicht in-place, s. o.). Quicksort dagegen benötigt kein temporäres Array.

Für die Größe des temporären Arrays reicht die halbe Größe der Anzahl der Elemente (n/2) aus. Unoptimierte Codebeispiele arbeiten mit einem Hilfsarray der Größe (n), dies ist für den Mergesort Algorithmus nicht erforderlich.^[11]

Die SGI-Implementierung der Standard Template Library (STL) verwendet den Mergesort als Algorithmus zur stabilen Sortierung.^[12]

Literatur

Robert Sedgewick: Algorithmen. Pearson Studium, 2002, ISBN 3-8273-7032-9.

Weblinks

Visualisierung und Tutorial für Mergesort, mit Darstellung der Rekursion
H.W. Lang: Sortierverfahren. Mergesort, Hochschule Flensburg, 2000–2022

Einzelnachweise

↑ Donald E. Knuth: The Art of Computer Programming. 2. Auflage. Vol. 3: Sorting and Searching. Addison-Wesley, 1998, S. 158.
↑ h2database/h2database. In: GitHub. Abgerufen am 1. September 2016.
↑ ^a ^b Thomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest, Clifford Stein: Introduction to algorithms. 3. Auflage. MIT Press, Cambridge, Mass. 2009, ISBN 978-0-262-27083-0.
↑ Victor J. Duvanenko: Parallel Merge Sort. In: Dr. Dobb's Journal & blog. duvanenko.tech.blog and GitHub repo C++ implementation github.com
↑ Peter Sanders, Johannes Singler: Multi-Core Standard Template Library, Karlsruher Institut für Technologie, 29. April 2008, abgerufen 5. Februar 2020 (englisch)
↑ ^a ^b dl.acm.org (Hrsg.): Practical Massively Parallel Sorting | Proceedings of the 27th ACM symposium on Parallelism in Algorithms and Architectures. doi:10.1145/2755573.2755595 (englisch, acm.org [abgerufen am 28. Februar 2020]).
↑ Peter Sanders: Parallele Algorithmen, Karlsruher Institut für Technologie, 25. November 2019, abgerufen 5. Februar 2020
↑ Richard Cole: Parallel Merge Sort. In: SIAM Journal on Computing. Band 17, Nr. 4, August 1988, ISSN 0097-5397, S. 770–785, doi:10.1137/0217049 (siam.org [abgerufen am 6. März 2020]).
↑ David M. W. Powers: Parallelized Quicksort and Radixsort with Optimal Speedup. auf semanticscholar.org, in: Proceedings of International Conference on Parallel Computing Technologies, Novosibirsk 1991.
↑ David M. W. Powers: Parallel Unification: Practical Complexity, Australasian Computer Architecture Workshop, Flinders University, January 1995.
↑ H.W. Lang: Sortierverfahren. Mergesort iterativ Hochschule Flensburg, 2005–2022, mit Hilfsarray b=new int[n/2];
↑ stable_sort (Memento vom 13. November 2017 im Internet Archive) auf sgi.com (englisch)

[1] Donald E. Knuth: The Art of Computer Programming. 2. Auflage. Vol. 3: Sorting and Searching. Addison-Wesley, 1998, S. 158.

[2] h2database/h2database. In: GitHub. Abgerufen am 1. September 2016.

[:2-3] Thomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest, Clifford Stein: Introduction to algorithms. 3. Auflage. MIT Press, Cambridge, Mass. 2009, ISBN 978-0-262-27083-0.

[4] Victor J. Duvanenko: Parallel Merge Sort. In: Dr. Dobb's Journal & blog. duvanenko.tech.blog and GitHub repo C++ implementation github.com

[5] Peter Sanders, Johannes Singler: Multi-Core Standard Template Library, Karlsruher Institut für Technologie, 29. April 2008, abgerufen 5. Februar 2020 (englisch)

[:02-6] .acm.org (Hrsg.): Practical Massively Parallel Sorting | Proceedings of the 27th ACM symposium on Parallelism in Algorithms and Architectures. doi:10.1145/2755573.2755595 (englisch, acm.org [abgerufen am 28. Februar 2020]).

[7] Peter Sanders: Parallele Algorithmen, Karlsruher Institut für Technologie, 25. November 2019, abgerufen 5. Februar 2020

[8] Richard Cole: Parallel Merge Sort. In: SIAM Journal on Computing. Band 17, Nr. 4, August 1988, ISSN 0097-5397, S. 770–785, doi:10.1137/0217049 (siam.org [abgerufen am 6. März 2020]).

[9] David M. W. Powers: Parallelized Quicksort and Radixsort with Optimal Speedup. auf semanticscholar.org, in: Proceedings of International Conference on Parallel Computing Technologies, Novosibirsk 1991.

[10] David M. W. Powers: Parallel Unification: Practical Complexity, Australasian Computer Architecture Workshop, Flinders University, January 1995.

[11] H.W. Lang: Sortierverfahren. Mergesort iterativ Hochschule Flensburg, 2005–2022, mit Hilfsarray b=new int[n/2];

[12] stable_sort (Memento vom 13. November 2017 im Internet Archive) auf sgi.com (englisch)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]