Exercise 2.2Z: Average Code Word Length
From LNTwww
- Ziel von Datenkomprimierung ist es, die Nachricht einer Quelle mit möglichst wenigen Binärzeichen darzustellen.
- Wir betrachten hier eine wertdiskrete Nachrichtenquelle mit dem Symbolvorrat {A, B, C, D} ⇒ Symbolumfang M = 4 und den Auftrittswahrscheinlichkeiten
- pA = pB = pC = pD = 1/4 (Teilaufgabe 1),
- pA = 1/2, pB = 1/4, pC = pD = 1/8 (ab Teilaufgabe 2).
- Vorausgesetzt wird, dass es zwischen den Quellensymbolen keine statistischen Bindungen gibt.
- Ein Maß für die Güte eines Komprimierungsverfahrens ist die mittlere Codewortlänge LM mit der Zusatzeinheit „bit/Quellensymbol”. Vorgegeben sind drei Zuordnungen. Anzumerken ist:
- Jeder dieser Binärcodes C1, C2 und C3 ist für eine spezielle Quellenstatistik ausgelegt.
- Alle codes sind präfixfrei und somit ohne weitere Angabe sofort decodierbar.
- Hinweis: Die Aufgabe bezieht sich auf das Kapitel 2.1.
Fragebogen
Musterlösung
- 1. Die mittlere Codewortlänge ergibt sich allgemein zu
- $$L_{\rm M} = p_{\rm A} \cdot L_{\rm A} + p_{\rm B} \cdot L_{\rm B}+ p_{\rm C} \cdot L_{\rm C} + p_{\rm D} \cdot L_{\rm D} \hspace{0.05cm}.$$
- Sind die vier Quellensymbole gleichwahrscheinlich (alle Wahrscheinlichkeiten genau 1/4), so kann dafür auch geschrieben werden:
- $$L_{\rm M} = 1/4 \cdot [ L_{\rm A} + L_{\rm B}+ L_{\rm C} + L_{\rm D}]
\hspace{0.05cm}.$$
- Code C1: LM = 2.00 bit/Quellensymbol,
- Code C2: LM = 2.25 bit/Quellensymbol,
- Code C3: LM = 2.25 bit/Quellensymbol.
- 2. Mit der Codetabelle C1 ergibt sich unabhängig von den Symbolwahrscheinlichkeiten stets die mittlere Codewortlänge LM = 2 bit/Quellensymbol. Für die beiden anderen Codes erhält man
- Code C2: LM = 1/2 · 1 + 1/4 · 2 + 1/8 · 3 + 1/8 · 3 = 1.75 bit/Quellensymbol,
- Code C3: LM = 1/2 · 3 + 1/4 · 2 + 1/8 · 1 + 1/8 · 3 = 2.50 bit/Quellensymbol.
- Man erkennt aus dem Beispiel das Prinzip: Wahrscheinliche Symbole werden durch wenige Binärsymbole dargestellt und unwahrscheinliche durch mehr. Bei gleichwahrscheinlichen Symbolen wählt man am besten auch die Codewortlängen gleich.
- 3. Richtig ist Lösungsvorschlag 1. Ein Code mit einheitlicher Länge aller Codeworte ist zwar präfixfrei, aber auch andere Codes können präfixfrei sein, zum Beispiel die Codes C2 und C3.
- 4. Bereits aus „00” am Anfang erkennt man, dass der Code C2 hier nicht in Frage kommt, da sonst die Quellensymbolfolge mit „AA” beginnen müsste. Tatsächlich wurde der Code C1 verwendet.
- 5. Richtig ist der Lösungsvorschlag 2. Der erste Lösungsvorschlag gibt die Quellensymbolfolge für den Code C2 an, wenn die Codesymbolfolge 001101111001100100111000 lauten würde.