Difference between revisions of "Digital Signal Transmission/Structure of the Optimal Receiver"

Revision as of 12:16, 28 December 2016

Blockschaltbild und Voraussetzungen

In diesem Kapitel wird die Struktur des optimalen Empfängers eines digitalen Übertragungssystems sehr allgemein hergeleitet, wobei

das Modulationsverfahren und weitere Systemdetails nicht weiter spezifiziert werden,
von den Basisfunktionen und der Signalraumdarstellung gemäß Kapitel 4.1 ausgegangen wird..

Allgemeines Blockschaltbild eines Kommunikationssystems

Zum obigen Blockschaltbild ist anzumerken:

Der Symbolumfang der Quelle beträgt M und der Symbolvorrat ist {m_i} mit i = 0, ... , M – 1. Die zugehörigen Symbolwahrscheinlichkeiten Pr(m = m_i) seien auch dem Empfänger bekannt.

Zur Nachrichtenübertragung stehen M verschiedene Signalformen s_i(t) zur Verfügung, wobei für die Laufvariable ebenfalls die Indizierung i = 0, ... , M – 1 gelten soll.

Es besteht eine feste Beziehung zwischen den Nachrichten {m_i} und den Signalen {s_i(t)}. Wird die Nachricht m = m_i übertragen, so ist das Sendesignal s(t) = s_i(t).

Lineare Kanalverzerrungen sind in der obigen Grafik durch die Impulsantwort h(t) berücksichtigt. Außerdem ist ein (irgendwie geartetes) Rauschen n(t) wirksam.

Mit diesen beiden die Übertragung störenden Effekten lässt sich das am Empfänger ankommende Signal r(t) in folgender Weise angeben:

\[r(t) = s(t) \star h(t) + n(t) \hspace{0.05cm}.\]

Aufgabe des (optimalen) Empfängers ist es, anhand seines Eingangssignals r(t) herauszufinden, welche der M möglichen Nachrichten m_i – bzw. welches der Signale s_i(t) – gesendet wurde.

Der vom Empfänger gefundene Schätzwert für m wird in Gleichungen durch ein „Circonflexe” (^) gekennzeichnet. Im Fließtext (HTML–Zeichensatz) ist diese Darstellung leider nicht möglich.

Man spricht von einem optimalen Empfänger, wenn die Symbolfehlerwahrscheinlichkeit den für die Randbedingungen kleinstmöglichsten Wert annimmt:

\[p_{\rm S} = {\rm Pr} ({\cal E}) = {\rm Pr} ( \hat{m} \ne m) \hspace{0.15cm} \Rightarrow \hspace{0.15cm}{\rm Minimum} \hspace{0.05cm}.\]

Hinweis: Im Folgenden wird meist r(t) = s(t) + n(t) vorausgesetzt, was bedeutet, dass h(t) = δ(t) als verzerrungsfrei angenommen wird. Andernfalls könnten wir die Signale s_i(t) als s'_i(t) = s_i(t) ∗ h(t) neu definieren, also die deterministischen Kanalverzerrungen dem Sendesignal beaufschlagen.

Fundamentaler Ansatz zum optimalen Empfängerentwurf (1)

Gegenüber dem auf der vorherigen Seite gezeigten Blockschaltbild führen wir nun einige wesentliche Verallgemeinerungen durch:

Der Übertragungskanal wird durch die bedingte Wahrscheinlichkeitsdichtefunktion p_r(t)|s(t) beschrieben, welche die Anhängigkeit des Empfangssignals r(t) vom Sendesignal s(t) festlegt.

Wurde nun ein ganz bestimmtes Signal r(t) = ρ(t) empfangen, so hat der Empfänger die Aufgabe, anhand dieses Signals ρ(t) sowie der M bedingten Wahrscheinlichkeitsdichtefunktionen

\[p_{r(t) | s(t) } (\rho(t) | s_i(t))\hspace{0.2cm}{\rm mit}\hspace{0.2cm} i = 0, ... \hspace{0.05cm}, M-1\]

unter Berücksichtigung aller möglichen Sendesignale s_i(t) und deren Auftrittswahrscheinlichkeiten Pr(m = m_i) herauszufinden, welche der möglichen Nachrichten (m_i) bzw. welches der möglichen Signale (s_i(t)) am wahrscheinlichsten gesendet wurde.

Die Schätzung des optimalen Empfängers ist also ganz allgemein bestimmt durch die Gleichung

\[\hat{m} = {\rm arg} \max_i \hspace{0.1cm} p_{s(t) | r(t) } ( s_i(t) | \rho(t)) = {\rm arg} \max_i \hspace{0.1cm} p_{m | r(t) } ( m_i | \rho(t))\hspace{0.05cm},\]

wobei wieder berücksichtigt ist, dass die gesendete Nachricht m = m_i und das gesendete Signal s(t) = s_i(t) eineindeutig ineinander übergeführt werden können.

In anderen Worten: Der optimale Empfänger betrachtet diejenige Nachricht m_i als die gesendete, wenn die bedingte Wahrscheinlichkeitsdichtefunktion p_m|r(t) für das anliegende Empfangssignal ρ(t) sowie unter der Annahme m = m_i den größtmöglichen Wert annimmt.

Bevor wir die obige Entscheidungsregel näher diskutieren, soll der optimale Empfänger entsprechend der Grafik noch in zwei Funktionsblöcke aufgeteilt werden:

Der Detektor nimmt am Empfangssignal r(t) verschiedene Messungen vor und fasst diese im Vektor r zusammen. Bei K Messungen entspricht r einem Punkt im K–dimensionalen Vektorraum.

Der Entscheider bildet abhängig von diesem Vektor den Schätzwert. Bei einem gegebenen Vektor r = ρ lautet dabei die Entscheidungsregel:

\[\hat{m} = {\rm arg} \max_i \hspace{0.1cm} P_{m | \boldsymbol{ r} } ( m_i | \boldsymbol{\rho}) \hspace{0.05cm}.\]

Im Gegensatz zur oberen Gleichung tritt nun in der Entscheidungsregel eine bedingte Wahrscheinlichkeit P_m|r anstelle der bedingten Wahrscheinlichkeitskeitsdichtefunktion (WDF) p_m|r(t) auf. Beachten Sie bitte die Groß– bzw. Kleinschreibung für die unterschiedlichen Bedeutungen.

Fundamentaler Ansatz zum optimalen Empfängerentwurf (2)

Wir betrachten nun die Funktion y = arg max p(x), wobei p(x) die Wahrscheinlichkeitsdichtefunktion (WDF) einer wertkontinuierlichen oder wertdiskreten Zufallsgröße x beschreibt. Im zweiten Fall besteht die WDF aus einer Summe von Diracfunktionen mit den Wahrscheinlichkeiten als Impulsgewichte.

Die Grafik zeigt beispielhafte Funktionen. In beiden Fällen liegt das WDF–Maximum (17) bei x = 6:

\[\max_i \hspace{0.1cm} p(x) = 17\hspace{0.05cm},\hspace{0.2cm}y = {\rm arg} \max_i \hspace{0.1cm} p(x) = 6\hspace{0.05cm}.\]

Man nennt die (bedingten) Wahrscheinlichkeiten in der Gleichung

\[\hat{m} = {\rm arg} \max_i \hspace{0.1cm} P_{m | \boldsymbol{ r} } ( m_i | \boldsymbol{\rho})\]

auch a–Posteriori–Wahrscheinlichkeiten. Mit dem Satz von Bayes kann hierfür geschrieben werden:

\[P_{m | \boldsymbol{ r} } ( m_i | \boldsymbol{\rho}) = \frac{{\rm Pr}( m_i) \cdot p_{\boldsymbol{ r}|m } (\boldsymbol{\rho}|m_i )}{p_{\boldsymbol{ r}} (\boldsymbol{\rho})} \hspace{0.05cm}.\]

Da der Term im Nenner für alle m_i gleich ist, muss er für die Entscheidung nicht weiter berücksichtigt werden. Damit erhält man die folgenden Regeln:

1: Die Entscheidungsregel des optimalen Empfängers, auch bekannt als MAP–Empfänger (die Abkürzung steht für Maximum–a–posteriori), lautet:

\[\hat{m}_{\rm MAP} = {\rm arg} \max_i \hspace{0.1cm} P_{m | \boldsymbol{ r} } ( m_i | \boldsymbol{\rho}) = {\rm arg} \max_i \hspace{0.1cm} [ {\rm Pr}( m_i) \cdot p_{\boldsymbol{ r}|m } (\boldsymbol{\rho}|m_i )]\hspace{0.05cm}.\]

Der Vorteil dieser Gleichung ist, dass die die Vorwärtsrichtung des Kanals beschreibende bedingte WDF p_r|m („Ausgang unter der Bedingung Eingang”) verwendet werden kann. Dagegen verwendet die erste Gleichung die Rückschlusswahrscheinlichkeiten P_m|r („Eingang unter der Bedingung Ausgang”).

2: Ein Maximum–Likelihood–Empfänger (ML–Empfänger) verwendet die Entscheidungsregel

\[\hat{m}_{\rm ML} = \hspace{-0.1cm} {\rm arg} \max_i \hspace{0.1cm} p_{\boldsymbol{ r}|m } (\boldsymbol{\rho}|m_i )\hspace{0.05cm}.\]

Bei diesem werden die möglicherweise unterschiedlichen Auftrittswahrscheinlichkeiten Pr(m_i) für den Entscheidungsprozess nicht herangezogen, zum Beispiel, weil sie dem Empfänger nicht bekannt sind.

Hinweis: Im Kapitel 3.7 finden Sie eine andere Herleitung. Allgemein gilt: Bei gleichwahrscheinlichen Nachrichten {m_i} ⇒ Pr(m_i) = 1/M ist der ML–Empfänger gleichwertig mit dem MAP–Empfänger:

\[\hat{m}_{\rm MAP} = \hat{m}_{\rm ML} =\hspace{-0.1cm} {\rm arg} \max_i \hspace{0.1cm} p_{\boldsymbol{ r}|m } (\boldsymbol{\rho}|m_i )\hspace{0.05cm}.\]

Das Theorem der Irrelevanz (1)

Zu beachten ist, dass der auf der letzten Seite beschriebene Empfänger nur dann optimal ist, wenn auch der Detektor bestmöglich implementiert ist, das heißt, wenn durch den Übergang vom kontinuierlichen Signal r(t) zum Vektor r keine Information verloren geht.

Um die Frage zu klären, welche und wieviele Messungen am Empfangssignal r(t) durchzuführen sind, um Optimalität zu garantieren, ist das Theorem der Irrelevanz hilfreich. Dazu betrachten wir den nachfolgend skizzierten Empfänger, dessen Detektor aus dem Empfangssignal r(t) die zwei Vektoren r₁ und r₂ ableitet und dem Entscheider zur Verfügung stellt. r₁ und r₂ stehen mit der Nachricht m ∈ {m_i} über die Verbundwahrscheinlichkeitsdichte p_{r₁, r₂|m} in Zusammenhang.

Die Entscheidungsregel des MAP–Empfängers lautet mit Anpassung an dieses Beispiel:

\[\hat{m}_{\rm MAP} \hspace{-0.1cm} = \hspace{-0.1cm} {\rm arg} \max_i \hspace{0.1cm} [ {\rm Pr}( m_i) \cdot p_{\boldsymbol{ r}_1 , \hspace{0.05cm}\boldsymbol{ r}_2 |m } \hspace{0.05cm} (\boldsymbol{\rho}_1, \hspace{0.05cm}\boldsymbol{\rho}_2|m_i )]=\]

\[\hspace{-0.1cm} = \hspace{-0.1cm} {\rm arg} \max_i \hspace{0.1cm} [ {\rm Pr}( m_i) \cdot p_{\boldsymbol{ r}_1 |m } \hspace{0.05cm} (\boldsymbol{\rho}_1 |m_i ) \cdot p_{\boldsymbol{ r}_2 | \boldsymbol{ r}_1 , \hspace{0.05cm} m } \hspace{0.05cm} (\boldsymbol{\rho}_2| \boldsymbol{\rho}_1 , \hspace{0.05cm}m_i )] \hspace{0.05cm}.\]

Hierzu ist anzumerken:

Die Vektoren r₁ und r₂ sind Zufallsgrößen. Ihre Realisierungen werden hier und im Folgenden mit ρ₁ und ρ₂ bezeichnet. Zur Hervorhebung sind alle Vektoren in der Grafik rot eingetragen.
Die Voraussetzungen für die Anwendung des „Theorems der Irrelevanz” sind die gleichen wie die an eine Markovkette erster Ordnung. Die Zufallsvariablen x, y, z formen dann eine solche, falls die Verteilung von z bei gegebenem y unabhängig von x ist:

\[p(x, y, z) = p(x) \cdot p(y|x) \cdot p(z|y) \hspace{0.25cm} {\rm anstelle \hspace{0.15cm}von} \hspace{0.25cm}p(x, y, z) = p(x) \cdot p(y|x) \cdot p(z|x, y) \hspace{0.05cm}.\]

Der optimale Empfänger muss im allgemeinen Fall beide Vektoren r₁ und r₂ auswerten, da in obiger Entscheidungsregel beide Verbundwahrscheinlichkeitsdichten p_r₁|m und p_{r₂| r₁, m} auftreten.

Dagegen kann der Empfänger ohne Informationseinbuße die zweite Messung vernachlässigen, falls r₂ bei gegebenem r₁ unabhängig von der Nachricht m ist:

\[p_{\boldsymbol{ r}_2 | \boldsymbol{ r}_1 , \hspace{0.05cm} m } \hspace{0.05cm} (\boldsymbol{\rho}_2| \boldsymbol{\rho}_1 , \hspace{0.05cm}m_i )= p_{\boldsymbol{ r}_2 | \boldsymbol{ r}_1 } \hspace{0.05cm} (\boldsymbol{\rho}_2| \boldsymbol{\rho}_1 ) \hspace{0.05cm}.\]

In diesem Fall lässt sich die Entscheidungsregel weiter vereinfachen:

\[\hat{m}_{\rm MAP} \hspace{-0.1cm} = \hspace{-0.1cm} {\rm arg} \max_i \hspace{0.1cm} [ {\rm Pr}( m_i) \cdot p_{\boldsymbol{ r}_1 |m } \hspace{0.05cm} (\boldsymbol{\rho}_1 |m_i ) \cdot p_{\boldsymbol{ r}_2 | \boldsymbol{ r}_1 , \hspace{0.05cm} m } \hspace{0.05cm} (\boldsymbol{\rho}_2| \boldsymbol{\rho}_1 , \hspace{0.05cm}m_i )]= \]

\[ = \hspace{-0.1cm} {\rm arg} \max_i \hspace{0.1cm} [ {\rm Pr}( m_i) \cdot p_{\boldsymbol{ r}_1 |m } \hspace{0.05cm} (\boldsymbol{\rho}_1 |m_i ) \cdot p_{\boldsymbol{ r}_2 | \boldsymbol{ r}_1 } \hspace{0.05cm} (\boldsymbol{\rho}_2| \boldsymbol{\rho}_1 )]=\]

\[ = \hspace{-0.1cm} {\rm arg} \max_i \hspace{0.1cm} [ {\rm Pr}( m_i) \cdot p_{\boldsymbol{ r}_1 |m } \hspace{0.05cm} (\boldsymbol{\rho}_1 |m_i ) ] \hspace{0.05cm}.\]

Das Theorem der Irrelevanz (2)

Betrachten wir zur Verdeutlichung des soeben vorgestellten Theorems der Irrelevanz zwei verschiedene Systemkonfigurationen mit jeweils zwei Rauschtermen n₁ und n₂. Anmerkung: Alle vektoriellen Größen sind rot eingezeichnet und s, n₁ und n₂ seien jeweils unabhängig voneinander.

Die Analyse dieser beiden Anordnungen liefert folgende Ergebnisse:

Der Entscheider muss in beiden Fällen die Komponente r₁ = s + n₁ berücksichtigen, da nur diese die Information über das Nutzsignal s und damit über die gesendete Nachricht m liefert.

Bei der oberen Konfiguration enthält r₂ keine Information über m, die nicht bereits von r₁ geliefert wurde. Vielmehr ist r₂ = r₁ + n₂ nur eine verrauschte Version von r₁ und hängt nur vom Rauschen n₂ ab, sobald r₁ bekannt ist ⇒ r₂ ist irrelevant:

\[p_{\boldsymbol{ r}_2 | \boldsymbol{ r}_1 , \hspace{0.05cm} m } \hspace{0.05cm} (\boldsymbol{\rho}_2| \boldsymbol{\rho}_1 , \hspace{0.05cm}m_i )= p_{\boldsymbol{ r}_2 | \boldsymbol{ r}_1 } \hspace{0.05cm} (\boldsymbol{\rho}_2| \boldsymbol{\rho}_1 )= p_{\boldsymbol{ n}_2 } \hspace{0.05cm} (\boldsymbol{\rho}_2 - \boldsymbol{\rho}_1 )\hspace{0.05cm}.\]

Bei der unteren Konfiguration ist dagegen r₂ = n₁ + n₂ für den Empfänger hilfreich, da dadurch dem Empfänger ein Schätzwert für den Rauschterm n₁ geliefert wird ⇒ r₂ sollte nicht verworfen werden. Formal lässt sich dieses Resultat wie folgt ausdrücken:

\[p_{\boldsymbol{ r}_2 | \boldsymbol{ r}_1 , \hspace{0.05cm} m } \hspace{0.05cm} (\boldsymbol{\rho}_2| \boldsymbol{\rho}_1 , \hspace{0.05cm}m_i ) \hspace{-0.1cm} = \hspace{-0.1cm} p_{\boldsymbol{ r}_2 | \boldsymbol{ n}_1 , \hspace{0.05cm} m } \hspace{0.05cm} (\boldsymbol{\rho}_2 | \boldsymbol{\rho}_1 - \boldsymbol{s}_i, \hspace{0.05cm}m_i)= \]

\[ \hspace{0.5cm} \hspace{-0.1cm} = \hspace{-0.1cm} p_{\boldsymbol{ n}_2 | \boldsymbol{ n}_1 , \hspace{0.05cm} m } \hspace{0.05cm} (\boldsymbol{\rho}_2- \boldsymbol{\rho}_1 + \boldsymbol{s}_i| \boldsymbol{\rho}_1 - \boldsymbol{s}_i, \hspace{0.05cm}m_i)= \]

\[\hspace{0.4cm}=\hspace{-0.1cm} p_{\boldsymbol{ n}_2 } \hspace{0.05cm} (\boldsymbol{\rho}_2- \boldsymbol{\rho}_1 + \boldsymbol{s}_i ) \hspace{0.05cm}.\]

Da nun im Argument dieser Funktion die Nachricht (s_i) erscheint, ist r₂ nicht irrelevant.

@@ Line 153: / Line 153: @@
 \hspace{0.05cm}.</math>
+== Das Theorem der Irrelevanz (2) ==
+<br>
+Betrachten wir zur Verdeutlichung des soeben vorgestellten Theorems der Irrelevanz zwei verschiedene Systemkonfigurationen mit jeweils zwei Rauschtermen <i><b>n</b></i><sub>1</sub> und <i><b>n</b></i><sub>2</sub>. Anmerkung: Alle vektoriellen Größen sind rot eingezeichnet und <i><b>s</b></i>, <i><b>n</b></i><sub>1</sub> und <i><b>n</b></i><sub>2</sub> seien jeweils unabhängig voneinander.<br>
+[[File:P ID2004 Dig T 4 2 S3b version1.png|Zwei Beispiele zum Theorem der Irrelevanz|class=fit]]<br>
+Die Analyse dieser beiden Anordnungen liefert folgende Ergebnisse:
+*Der Entscheider muss in beiden Fällen die Komponente <i><b>r</b></i><sub>1</sub> = <i><b>s</b></i> + <i><b>n</b></i><sub>1</sub> berücksichtigen, da nur diese die Information über das Nutzsignal <i><b>s</b></i> und damit über die gesendete Nachricht <i>m</i> liefert.<br>
+*Bei der oberen Konfiguration enthält <i><b>r</b></i><sub>2</sub> keine Information über <i>m</i>, die nicht bereits von <i><b>r</b></i><sub>1</sub> geliefert wurde. Vielmehr ist <i><b>r</b></i><sub>2</sub> = <i><b>r</b></i><sub>1</sub> + <i><b>n</b></i><sub>2</sub> nur eine verrauschte Version von <i><b>r</b></i><sub>1</sub> und hängt nur vom Rauschen <i><b>n</b></i><sub>2</sub> ab, sobald <i><b>r</b></i><sub>1</sub> bekannt ist &nbsp;&#8658;&nbsp; <i><b>r</b></i><sub>2</sub> ist irrelevant:
+::<math>p_{\boldsymbol{ r}_2 | \boldsymbol{ r}_1 , \hspace{0.05cm} m } \hspace{0.05cm} (\boldsymbol{\rho}_2| \boldsymbol{\rho}_1 , \hspace{0.05cm}m_i )=
+p_{\boldsymbol{ r}_2 | \boldsymbol{ r}_1  } \hspace{0.05cm} (\boldsymbol{\rho}_2| \boldsymbol{\rho}_1  )=
+p_{\boldsymbol{ n}_2  } \hspace{0.05cm} (\boldsymbol{\rho}_2 - \boldsymbol{\rho}_1  )\hspace{0.05cm}.</math>
+*Bei der unteren Konfiguration ist dagegen <i><b>r</b></i><sub>2</sub> = <i><b>n</b></i><sub>1</sub> + <i><b>n</b></i><sub>2</sub> für den Empfänger hilfreich, da dadurch dem Empfänger ein Schätzwert für den Rauschterm <i><b>n</b></i><sub>1</sub> geliefert wird &nbsp;&#8658;&nbsp; <i><b>r</b></i><sub>2</sub> sollte nicht verworfen werden. Formal lässt sich dieses Resultat wie folgt ausdrücken:
+::<math>p_{\boldsymbol{ r}_2 | \boldsymbol{ r}_1 , \hspace{0.05cm} m } \hspace{0.05cm} (\boldsymbol{\rho}_2| \boldsymbol{\rho}_1 , \hspace{0.05cm}m_i )
+\hspace{-0.1cm}  =  \hspace{-0.1cm}
+p_{\boldsymbol{ r}_2  | \boldsymbol{ n}_1 , \hspace{0.05cm} m } \hspace{0.05cm} (\boldsymbol{\rho}_2 | \boldsymbol{\rho}_1  - \boldsymbol{s}_i, \hspace{0.05cm}m_i)= </math>
+:::::::<math> \hspace{0.5cm} \hspace{-0.1cm}  =  \hspace{-0.1cm}
+p_{\boldsymbol{ n}_2 | \boldsymbol{ n}_1 , \hspace{0.05cm} m  } \hspace{0.05cm} (\boldsymbol{\rho}_2- \boldsymbol{\rho}_1  + \boldsymbol{s}_i| \boldsymbol{\rho}_1  - \boldsymbol{s}_i, \hspace{0.05cm}m_i)= </math>
+:::::::<math>\hspace{0.4cm}=\hspace{-0.1cm}
+p_{\boldsymbol{ n}_2  } \hspace{0.05cm} (\boldsymbol{\rho}_2- \boldsymbol{\rho}_1  + \boldsymbol{s}_i )
+\hspace{0.05cm}.</math>
+:Da nun im Argument dieser Funktion die Nachricht (<i><b>s</b><sub>i</sub></i>) erscheint, ist <i><b>r</b></i><sub>2</sub> nicht irrelevant.<br>
 {{Display}}