Difference between revisions of "Information Theory/Natural Discrete Sources"

From LNTwww
Line 6: Line 6:
 
}}
 
}}
  
==Schwierigkeiten bei der Entropiebestimmung  ==
+
==Difficulties with the determination of entropy ==
 
<br>
 
<br>
Bisher haben wir uns ausschließlich mit künstlich erzeugten Symbolfolgen beschäftigt.&nbsp; Nun betrachten wir geschriebene Texte.&nbsp; Ein solcher Text kann als eine natürliche wertdiskrete Nachrichtenquelle aufgefasst werden, die natürlich auch informationstheoretisch analysiert werden kann, indem man ihre Entropie ermittelt.
+
Up to now, we have been dealing exclusively with artificially generated symbol sequences.&nbsp; Now we consider written texts.&nbsp; Such a text can be seen as a natural discrete-value message source, which of course can also be analyzed information-theoretically by determining its entropy.
  
Natürliche Texte werden auch in heutiger Zeit (2011) noch oft mit dem 8 Bit–Zeichensatz nach ANSI (''American National Standard Institute'') dargestellt, obwohl es etliche „modernere” Codierungen gibt.&nbsp;  
+
Even today (2011), natural texts are still often represented with the 8 bit character set according to ANSI (''American National Standard Institute''), although there are several "more modern" encodings;  
  
Die&nbsp; $M = 2^8 = 256$&nbsp; ANSI–Zeichen sind dabei wie folgt belegt:
+
The&nbsp; $M = 2^8 = 256$&nbsp; ANSI characters are used as follows:
* '''Nr.&nbsp; 0 &nbsp; bis &nbsp; 31''': &nbsp; nicht druck– und darstellbare Steuerbefehle,
+
* '''No.&nbsp; 0 &nbsp; to &nbsp; 31''': &nbsp; control commands that cannot be printed or displayed,
* '''Nr.&nbsp; 32 &nbsp; bis &nbsp;127''': &nbsp; identisch mit den Zeichen des 7 Bit–ASCII–Codes,
+
* '''No.&nbsp; 32 &nbsp; to &nbsp;127''': &nbsp; identical to the characters of the 7 bit ASCII code,
* '''Nr.&nbsp; 128 &nbsp; bis 159''': &nbsp; weitere Steuerzeichen bzw. Alphanumerikzeichen für Windows,
+
* '''No.&nbsp; 128 &nbsp; to 159''': &nbsp; additional control characters or alphanumeric characters for Windows,
* '''Nr.&nbsp; 160 &nbsp; bis &nbsp; 255''': &nbsp; identisch mitden  Unicode–Charts.
+
* '''No.&nbsp; 160 &nbsp; to &nbsp; 255''': &nbsp; identical to the Unicode charts.
  
  
Theoretisch könnte man auch hier die Entropie entsprechend der Vorgehensweise&nbsp; [[Information_Theory/Nachrichtenquellen_mit_Gedächtnis#Verallgemeinerung_auf_.7F.27.22.60UNIQ-MathJax108-QINU.60.22.27.7F.E2.80.93Tupel_und_Grenz.C3.BCbergang|im letzten Kapitel]]&nbsp; als den Grenzübergang der Entropienäherung&nbsp; $H_k$&nbsp; für&nbsp; $k \to \infty$&nbsp; ermitteln.&nbsp; Praktisch ergeben sich aber nach dieser Rezeptur unüberwindbare numerische Grenzen:
+
Theoretically, one could also define the entropy here as the border crossing point of the entropy approximation&nbsp; $H_k$&nbsp; for&nbsp; $k \to \infty$,&nbsp; according to the procedure from the&nbsp; [[Information_Theory/Sources_with_Memory#Generalization to k -tuple and boundary crossing|last chapter]].&nbsp; In practice, however, insurmountable numerical limitations can be found here as well:
*Bereits für die Entropienäherung&nbsp; $H_2$&nbsp; gibt es&nbsp; $M^2 = 256^2 = 65\hspace{0.1cm}536$&nbsp; mögliche Zweiertupel.&nbsp; Für die Berechnung sind somit ebenso viele Speicherplätze (in Byte) erforderlich.&nbsp; Geht man davon aus, dass man für eine ausreichend sichere Statistik im Mittel&nbsp; $100$&nbsp; Entsprechungen pro Tupel benötigt, so sollte die Länge der Quellensymbolfolge bereits&nbsp; $N > 6.5 · 10^6$&nbsp; sein.
 
*Die Anzahl der möglichen Dreiertupel ist&nbsp; $M^3 > 16 · 10^7$&nbsp; und damit ist die erforderliche Quellensymbollänge schon&nbsp;  $N > 1.6 · 10^9$.&nbsp; Dies entspricht bei&nbsp; $42$&nbsp; Zeilen pro Seite und&nbsp; $80$&nbsp; Zeichen pro Zeile einem Buch mit etwa&nbsp; $500\hspace{0.1cm}000$&nbsp; Seiten.
 
*Bei einem natürlichen Text reichen die statistischen Bindungen aber sehr viel weiter als über zwei oder drei Zeichen.&nbsp; Küpfmüller gibt für die deutsche Sprache einen Wert von&nbsp; $100$&nbsp; an.&nbsp; Zur Ermittlung der 100. Entropienäherung benötigt man aber&nbsp; $2^{800}$ ≈ $10^{240}$&nbsp; Häufigkeiten und für die gesicherte Statistik nochmals um den Faktor&nbsp; $100$&nbsp; mehr Zeichen.
 
  
 +
*Already for the entropy approximation&nbsp; $H_2$&nbsp; there is&nbsp; $M^2 = 256^2 = 65\hspace{0.1cm}536$&nbsp; possible two-tuples.&nbsp; Thus, the calculation requires the same amount of memory (in bytes). &nbsp; If you assume that you need &nbsp; $100$&nbsp; equivalents per tuple on average, for a sufficiently safe statistic, the length of the source symbol sequence should already be&nbsp; $N > 6.5 · 10^6$&nbsp;.
 +
*The number of possible three-tuples is&nbsp; $M^3 > 16 · 10^7$&nbsp; and thus the required source symbol length is already&nbsp; $N > 1.6 · 10^9$.&nbsp; This corresponds to&nbsp; $42$&nbsp; lines per page and&nbsp; $80$&nbsp; characters per line to a book with about&nbsp; $500\hspace{0.1cm}000$&nbsp; pages.
 +
*For a natural text the statistical bonds extend much further than two or three characters.&nbsp; Küpfmüller gives a value of&nbsp; $100$ for the german language.&nbsp; To determine the 100th entropy approximation you need&nbsp; $2^{800}$ ≈ $10^{240}$&nbsp; frequencies and for the safe statistics &nbsp; $100$&nbsp;times more characters.
  
Eine berechtigte Frage ist deshalb: &nbsp; Wie hat&nbsp; [https://de.wikipedia.org/wiki/Karl_K%C3%BCpfm%C3%BCller Karl Küpfmüller]&nbsp; im Jahre 1954 die Entropie der deutschen Sprache ermittelt, und vor ihm schon&nbsp; [https://de.wikipedia.org/wiki/Claude_Shannon Claude Elwood Shannon]&nbsp; die Entropie der englischen Sprache?&nbsp; Eines sei vorweg verraten: &nbsp; Nicht mit dem oben beschriebenen Ansatz.
 
  
 +
A justified question is therefore: &nbsp; How did&nbsp; [https://de.wikipedia.org/wiki/Karl_K%C3%BCpfm%C3%BCller Karl Küpfmüller]&nbsp; determined the entropy of the German language in 1954? How did&nbsp; [https://de.wikipedia.org/wiki/Claude_Shannon Claude Elwood Shannon]&nbsp; do the same for the English language, even before Küpfmüller?&nbsp; One thing is revealed beforehand: &nbsp; Not with the approach described above.
  
==Entropieabschätzung nach Küpfmüller ==
+
 
 +
==Entropy estimation according to Küpfmüller ==
 
<br>
 
<br>
Karl Küpfmüller hat die Entropie von deutschen Texten untersucht.&nbsp; Er geht bei seiner  in&nbsp; [Küpf54]<ref name ='Küpf54'>Küpfmüller, K.: ''Die Entropie der deutschen Sprache''. Fernmeldetechnische Zeitung 7, 1954, S. 265-272.</ref>&nbsp; veröffentlichten Abschätzung von folgenden Voraussetzungen aus:
+
Karl Küpfmüller has investigated the entropy of German texts in his published assessment &nbsp; [Küpf54]<ref name ='Küpf54'>Küpfmüller, K.: ''Die Entropie der deutschen Sprache''. Fernmeldetechnische Zeitung 7, 1954, S. 265-272.</ref>&nbsp; the following assumptions are made:
*ein Alphabet mit&nbsp; $26$&nbsp; Buchstaben&nbsp; (keine Umlaute und Satzzeichen),
+
*an alphabet with&nbsp; $26$&nbsp; letters&nbsp; (no umlauts or punctuation marks),
*Nichtberücksichtigung des Leerzeichens,
+
*Not taking into account the space character,
*keine Unterscheidung zwischen Groß– und Kleinschreibung.
+
*no distinction between upper and lower case.
  
  
Der Entscheidungsgehalt ergibt sich somit zu&nbsp; $H_0 = \log_2 (26) ≈ 4.7\ \rm bit/Buchstabe$.  
+
The content of the decision is therefore&nbsp; $H_0 = \log_2 (26) ≈ 4.7\ \rm bit/letter$.  
  
Küpfmüllers Abschätzung basiert auf den folgenden Überlegungen:
+
Küpfmueller's estimation is based on the following considerations:
  
  
'''(1)'''&nbsp; Die&nbsp; '''erste Entropienäherung'''&nbsp; ergibt sich aus den Buchstabenhäufigkeiten in deutschen Texten.&nbsp; Nach einer Studie von 1939 ist „e” mit&nbsp; $16.7\%$&nbsp; am häufigsten, am seltensten ist „x” mit&nbsp; $0.02\%$.&nbsp; Über alle Buchstaben gemittelt ergibt sich&nbsp; $H_1 \approx 4.1\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$
+
'''(1)'''&nbsp; The&nbsp; '''first entropy approximation'''&nbsp; results from the letter frequencies in German texts.&nbsp; According to a study of 1939, "e" is with a frequency of &nbsp; $16. 7\%$&nbsp; the most frequent, the rarest is "x" with&nbsp; $0.02\%$.&nbsp; Averaged over all letters we obtain&nbsp; $H_1 \approx 4.1\,\, {\rm bit/letter}\hspace{0.05 cm}.$
  
 
   
 
   
'''(2)'''&nbsp; Hinsichtlich der&nbsp; '''Silbenhäufigkeit'''&nbsp; wertet Küpfmüller das von&nbsp; [https://de.wikipedia.org/wiki/Friedrich_Wilhelm_Kaeding Friedrich Wilhelm Kaeding]&nbsp; 1898 herausgegebene „Häufigkeitswörterbuch der deutschen Sprache” aus.&nbsp; Er unterscheidet zwischen Stammsilben, Vorsilben und Endsilben und kommt so zum mittleren Informationsgehalt aller Silben:
+
'''(2)'''&nbsp; Regarding the&nbsp; '''syllable frequency'''&nbsp; Küpfmüller evaluates the "Häufigkeitswörterbuch der deutschen Sprache" (Frequency Dictionary of the German Language), published by&nbsp; [https://de.wikipedia.org/wiki/Friedrich_Wilhelm_Kaeding Friedrich Wilhelm Kaeding]&nbsp; 1898; He distinguishes between root syllables, prefixes, and ending syllables and thus arrives at the average information content of all syllables:
 
   
 
   
:$$H_{\rm Silbe} = \hspace{-0.1cm} H_{\rm Stamm} + H_{\rm Vor} + H_{\rm End} + H_{\rm Rest} \approx  
+
:$$H_{\rm syllable} = \hspace{-0.1cm} H_{\rm stem} + H_{\rm front} + H_{\rm end} + H_{\rm rest} \approx  
4.15 + 0.82+1.62 + 2.0 \approx 8.6\,\, {\rm bit/Silbe}
+
4.15 + 0.82+1.62 + 2.0 \approx 8.6\,\, {\rm bit/syllable}
 
  \hspace{0.05cm}.$$
 
  \hspace{0.05cm}.$$
  
:Hierbei wurden folgende Anteile berücksichtigt:
+
:The following proportions were taken into account:
:*Nach der Kaeding–Studie von 1898 bilden die&nbsp; $400$&nbsp; häufigsten Stammsilben&nbsp; (beginnend mit „de”)&nbsp; $47\%$&nbsp; eines deutschen Textes und tragen zur Entropie mit&nbsp; $H_{\text{Stamm}} ≈ 4.15 \ \rm bit/Silbe$&nbsp; bei.
+
:*According to the Kaeding study of 1898, the&nbsp; $400$&nbsp; most common root syllables&nbsp; (beginning with "de")&nbsp; represent $47\%$&nbsp; of a German text and contribute to the entropy with&nbsp; $H_{\text{Root}} ≈ 4.15 \ \rm bit/syllable$&nbsp;.
:*Der Beitrag der&nbsp; $242$&nbsp; häufigsten Vorsilben – an erster Stelle „ge” mit&nbsp; $9\%$ – wird von Küpfmüller mit&nbsp; $H_{\text{Vor}} ≈ 0.82 \ \rm bit/Silbe$ beziffert.
+
:*The contribution of&nbsp; $242$&nbsp; most common prefixes - in the first place "ge" with&nbsp; $9\%$ - is numbered by Küpfmüller with&nbsp; $H_{\text{Pre}} ≈ 0.82 \ \rm bit/syllable$.
:*Der Beitrag der&nbsp; $118$&nbsp; meistgebrauchten Endsilben ist&nbsp; $H_{\text{End}} ≈ 1.62 \ \rm bit/Silbe$.&nbsp; Am häufigsten tritt am Wortende „en” mit&nbsp; $30\%$&nbsp; auf.
+
:*The contribution of the&nbsp; $118$&nbsp; most used ending syllables is&nbsp; $H_{\text{End}} ≈ 1.62 \ \rm bit/syllable$.&nbsp; Most often, "en" appears at the end of words with&nbsp; $30\%$&nbsp;.
:*Der Rest von&nbsp; $14\%$&nbsp; verteilt sich auf bisher nicht erfasste Silben.&nbsp; Küpfmüller nimmt dazu an, dass es davon&nbsp; $4000$&nbsp; gibt und dass diese gleichverteilt sind.&nbsp; Er setzt dafür&nbsp; $H_{\text{Rest}} ≈ 2 \ \rm bit/Silbe$&nbsp; an.
+
:*The remaining&nbsp; $14\%$&nbsp; is distributed over syllables not yet measured.&nbsp; Küpfmüller assumes that there are&nbsp; $4000$&nbsp; and that they are equally distributed&nbsp; He assumes&nbsp; $H_{\text{Rest}} ≈ 2 \ \rm bit/syllable$&nbsp; for this.
  
 +
'''(3)'''&nbsp; As average number of letters per syllable Küpfmüller determined the value&nbsp; $3.03$.&nbsp; From this he deduced the&nbsp; '''third entropy approximation''''&nbsp; regarding the letters:
 +
:$$H_3 \approx {8.6}/{3.03}\approx 2.8\,\, {\rm bit/letter}\hspace{0.05 cm}.$$
  
'''(3)'''&nbsp; Als durchschnittliche Buchstabenzahl je Silbe ermittelte Küpfmüller den Wert&nbsp; $3.03$.&nbsp; Daraus schloss er auf die&nbsp; '''dritte Entropienäherung'''&nbsp; hinsichtlich der Buchstaben:
 
:$$H_3 \approx {8.6}/{3.03}\approx 2.8\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$
 
  
 +
'''(4)'''&nbsp; Küpfmueller's estimation of the entropy approximation&nbsp; $H_3$&nbsp; based mainly on the syllable frequencies according to&nbsp; '''(2)'''&nbsp; and the mean value of&nbsp; $3.03$&nbsp; letters per syllable. To get another entropy approximation&nbsp; $H_k$&nbsp; with greater&nbsp; $k$&nbsp; Küpfmüller additionally analyzed the words in German texts.&nbsp; He came to the following results:
  
'''(4)'''&nbsp; Küpfmüllers Abschätzung der Entropienäherung&nbsp; $H_3$&nbsp; basierte vor allem auf den Silbenhäufigkeiten gemäß&nbsp; '''(2)'''&nbsp; und dem Mittelwert von&nbsp; $3.03$&nbsp; Buchstaben pro Silbe. Um eine weitere Entropienäherung&nbsp; $H_k$&nbsp; mit größerem&nbsp; $k$&nbsp; zu erhalten, analysierte Küpfmüller zusätzlich die Wörter in deutschen Texten.&nbsp; Er kam zu folgenden Ergebnissen:
+
:*The&nbsp; $322$&nbsp; most common words provide an entropy contribution of&nbsp; $4.5 \ \rm bit/word$.
 +
:*The contributions of the remaining&nbsp; $40\hspace{0.1cm}000$ words&nbsp; were estimated.&nbsp; Assuming that the frequencies of rare words are reciprocal to their ordinal number ([https://en.wikipedia.org/wiki/Zipf%27s_law Zipf's Law]).
 +
*With these assumptions the average information content (related to words) is about &nbsp; $11 \ \rm bit/word$.
  
:*Die&nbsp; $322$&nbsp; häufigsten Wörter liefern einen Entropiebeitrag von&nbsp; $4.5 \ \rm bit/Wort$.
 
:*Die Beiträge der restlichen&nbsp; $40\hspace{0.1cm}000$ Wörter&nbsp; wurden geschätzt.&nbsp; Angenommen wurde, dass die Häufigkeiten von seltenen Wörtern reziprok zu ihrer Ordnungszahl sind.
 
:*Mit diesen Voraussetzungen ergibt sich der mittlere Informationsgehalt (bezogen auf Wörter) zu ca.&nbsp; $11 \ \rm bit/Wort$.
 
  
 +
'''(5)'''&nbsp; The counting "letters per word" resulted in average&nbsp; $5.5$.&nbsp; Analogous to point&nbsp; '''(3)'''&nbsp; the entropy approximation for&nbsp; $k = 5.5$&nbsp; was approximated. Küpfmüller gives the value&nbsp; $H_{5.5} \approx {11}/{5.5}\approx 2\,\, {\rm bit/letter}\hspace{0.05 cm}.$&nbsp; Of course,&nbsp; $k$&nbsp; can only assume integer values,&nbsp; according to&nbsp; [[Information_Theory/Sources_With_Memory#Generalization to k-tuple and boundary crossing|its definition]].&nbsp; This equation is therefore to be interpreted in such a way that for&nbsp; $H_5$&nbsp; a somewhat larger and for&nbsp; $H_6$&nbsp; a somewhat smaller value than&nbsp; $2 \ {\rm bit/letter}$&nbsp; will result.
  
'''(5)'''&nbsp; Die Auszählung &bdquo;Buchstaben pro Wort&rdquo; ergab im Mittel&nbsp; $5.5$.&nbsp; Analog zu Punkt&nbsp; '''(3)'''&nbsp; wurde so die Entropienäherung für&nbsp; $k = 5.5$&nbsp; angenähert. Küpfmüller gibt hierfür den Wert&nbsp; $H_{5.5} \approx {11}/{5.5}\approx 2\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$&nbsp; Natürlich kann&nbsp; $k$&nbsp; gemäß&nbsp; [[Information_Theory/Nachrichtenquellen_mit_Gedächtnis#Verallgemeinerung_auf_.7F.27.22.60UNIQ-MathJax109-QINU.60.22.27.7F.E2.80.93Tupel_und_Grenz.C3.BCbergang|seiner Definition]]&nbsp; nur ganzzahlige Werte annehmen.&nbsp; Diese Gleichung ist deshalb so zu interpretieren, dass sich für&nbsp; $H_5$&nbsp; ein etwas größerer und für&nbsp; $H_6$&nbsp; ein etwas kleinerer Wert als&nbsp; $2 \ {\rm bit/Buchstabe}$&nbsp; ergeben wird.
 
  
 +
[[File:P_ID2303__Inf_T_1_3_S2.png|right|frame|Approximate values of the entropy of the German language according to Küpfmüller]].
 +
'''(6)'''&nbsp; Now you can try to get the final value of entropy for&nbsp; $k \to \infty$&nbsp; by extrapolation from these three points:
 +
:*The continuous line, taken from Küpfmüller's original work&nbsp; [Küpf54]<ref name ='Küpf54'>Küpfmüller, K.: ''Die Entropie der deutschen Sprache''. Fernmeldetechnische Zeitung 7, 1954, S. 265-272.</ref>,&nbsp;leads to the final entropy value&nbsp; $H = 1.6 \ \rm bit/letter$.
 +
:*The green curves are two extrapolation attempts (of a continuous function course through three points) of the&nbsp; $\rm LNTwww$'s author. 
 +
:*These and the brown arrows are actually only meant to show that such an extrapolation&nbsp; (carefully worded)&nbsp; is somewhat vague.
  
[[File:P_ID2303__Inf_T_1_3_S2.png|right|frame|Näherungswerte der Entropie der deutschen Sprache nach Küpfmüller]]
 
'''(6)'''&nbsp; Man kann nun versuchen, aus diesen drei Punkten durch Extrapolation den Endwert der Entropie für&nbsp; $k \to \infty$&nbsp;  zu ermitteln.&nbsp; In nebenstehender Grafik wird dies bei logarithmisch aufgetragener Abszisse verdeutlicht:
 
:*Die durchgehende Linie ist der  Küpfmüllerschen Originalarbeit&nbsp; [Küpf54]<ref name ='Küpf54'>Küpfmüller, K.: ''Die Entropie der deutschen Sprache''. Fernmeldetechnische Zeitung 7, 1954, S. 265-272.</ref>&nbsp; entnommen und führt zum Entropie-Endwert&nbsp; $H = 1.6 \ \rm bit/Buchstabe$.
 
:*Die grünen Kurven sind zwei Extrapolationsversuche (eines kontinuierlichen Funktionsverlaufes durch drei Punkte) des&nbsp; $\rm LNTwww$–Autors. 
 
:*Diese und die braunen Pfeile sollen eigentlich nur zeigen, dass eine solche Extrapolation&nbsp; (vorsichtig formuliert)&nbsp; etwas vage ist.
 
  
 +
'''(7)'''&nbsp; Küpfmüller then tried to verify the final value&nbsp; $H = 1.6 \ \rm bit/letter$&nbsp; found by him with this first estimation with a completely different methodology - see next section. After this estimation he revised his result slightly to&nbsp; $H = 1.51 \ \rm bit/letter$.
  
'''(7)'''&nbsp; Küpfmüller versuchte anschließend, den von ihm mit dieser ersten Abschätzung gefundenen Endwert&nbsp; $H = 1.6 \ \rm bit/Buchstabe$&nbsp; mit völlig anderer Methodik – siehe nächster Abschnitt – zu verifizieren. Nach dieser Abschätzung revidierte er sein Ergebnis geringfügig auf&nbsp; $H = 1.51 \ \rm bit/Buchstabe$.
 
  
 +
'''(8)'''&nbsp; Three years earlier, after a completely different approach, Claude E. Shannon had given the entropy value&nbsp; $H ≈ 1 \ \rm bit/letter$&nbsp; for the English language, but taking into account the space character.&nbsp; In order to be able to compare his results with Shannom, Küpfmüller subsequently included the space character in his result.
  
'''(8)'''&nbsp; Claude E. Shannon hatte drei Jahre vorher nach völlig anderer Vorgehensweise für die englische Sprache den Entropiewert&nbsp; $H 1 \ \rm bit/Buchstabe$&nbsp; angegeben, allerdings unter Berücksichtigung des Leerzeichens.&nbsp; Um seine Ergebnisse mit Shannom vergleichen zu können, hat Küpfmüller das Leerzeichen nachträglich in sein Ergebnis eingerechnet.  
+
:*The correction factor is the quotient of the average word length without considering the space&nbsp; $(5.5)$&nbsp; and the average word length with consideration of the space&nbsp; $(5.5+1 = 6.5)$.
 +
:*This correction led to Küpfmueller's final result&nbsp; $H =1.51 \cdot {5.5}/{6.5}\approx 1.3\,\, {\rm bit/letter}\hspace{0.05 cm}.$
  
:*Der Korrekturfaktor ist der Quotient aus der mittleren Wortlänge ohne Berücksichtigung des Leerzeichens&nbsp; $(5.5)$&nbsp; und der mittleren Wortlänge mit Berücksichtigung des Leerzeichens&nbsp; $(5.5+1 = 6.5)$.
 
:*Diese Korrektur führte zu Küpfmüllers endgültigem Ergebnis&nbsp; $H =1.51 \cdot  {5.5}/{6.5}\approx 1.3\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$
 
  
  
==Eine weitere Entropieabschätzung von Küpfmüller ==
+
==A further entropy estimation by Küpfmüller ==
 
<br>
 
<br>
Der Vollständigkeit halber seien hier noch Küpfmüllers Überlegungen dargelegt, die ihn zum Endergebnis&nbsp; $H = 1.51 \ \rm bit/Buchstabe$&nbsp; führten.&nbsp; Da es für die Statistik von Wortgruppen oder ganzen Sätzen keine Unterlagen gab, schätzte er den Entropiewert der deutschen Sprache wie folgt ab:
+
For the sake of completeness, Küpfmüller's considerations are presented here, which led him to the final result&nbsp; $H = 1.51 \ \rm bit/letter$&nbsp; &nbsp; Since there was no documentation for the statistics of word groups or whole sentences, he estimated the entropy value of the German language as follows:
*Ein beliebiger zusammenhängender deutscher Text wird hinter einem bestimmten Wort abgedeckt.&nbsp; Der vorhergehende Text wird gelesen, und der Leser soll versuchen, das folgende Wort aus dem Zusammenhang mit dem vorhergehenden Text zu ermitteln.
+
*Any contiguous German text is covered behind a certain word.&nbsp; The preceding text is read and the reader should try to determine the following word from the context of the preceding text.
*Bei sehr vielen solcher Versuche ergibt die prozentuale Zahl der Treffer ein Maß für die Bindungen zwischen Wörtern und Sätzen.&nbsp; Es zeigt sich, dass bei ein und derselben Textart (Romane, wissenschaftliche Schriften, usw.) ein und desselben Autors relativ schnell&nbsp; (bei etwa hundert bis zweihundert Versuchen)&nbsp; ein konstanter Endwert dieses Trefferverhältnisses erreicht wird.
+
*For a large number of such attempts, the percentage of hits gives a measure of the links between words and sentences&nbsp; It can be seen that for one and the same type of text (novels, scientific writings, etc.) by one and the same author, a constant final value of this hit ratio is reached relatively quickly&nbsp; (about one hundred to two hundred attempts).
*Das Trefferverhältnis hängt aber ziemlich stark von der Art des Textes ab.&nbsp; Für verschiedene Texte ergeben sich Werte zwischen&nbsp; $15\%$&nbsp; und&nbsp; $33\%$, mit dem Mittelwert bei&nbsp; $22\%$.&nbsp; Das heißt aber auch: &nbsp; Im Durchschnitt können&nbsp; $22\%$&nbsp; der Wörter in einem deutschen Text aus dem Zusammenhang heraus ermittelt werden.
+
*The hit ratio, however, depends quite strongly on the type of text.&nbsp; For different texts, values between&nbsp; $15\%$&nbsp; and&nbsp; $33\%$, with the mean value at&nbsp; $22\%$, are obtained.&nbsp; This also means: &nbsp; On average,&nbsp; $22\%$&nbsp; of the words in a German text can be determined from the context.
*Anders ausgedrückt: &nbsp; Die Wörterzahl  eines langen Textes kann mit dem Faktor&nbsp; $0.78$&nbsp; reduziert werden, ohne dass der Nachrichtengehalt des Textes eine signifikante Einbuße erfährt.&nbsp; Ausgehend vom Bezugswert&nbsp; $H_{5.5} = 2 \ \rm bit/Buchstabe$&nbsp; $($siehe Punkt&nbsp; '''(5)'''&nbsp; im letzten Abschnitt$)$&nbsp; für ein mittellanges Wort ergibt sich somit die Entropie&nbsp; $H ≈ 0.78 · 2 = 1.56 \ \rm bit/Buchstabe$.
+
*Alternatively: &nbsp; The word count of a long text can be reduced with the factor&nbsp; $0.78$&nbsp; without a significant loss of the message content of the text.&nbsp; Starting from the reference value&nbsp; $H_{5. 5} = 2 \ \rm bit/letter$&nbsp; $($see dot&nbsp; '''(5)'''&nbsp; in the last section$)$&nbsp; for a word of medium length this results in the entropy&nbsp; $H ≈ 0.78 · 2 = 1.56 \ \rm bit/letter$.
*Küpfmüller überprüfte diesen Wert mit einer vergleichbaren empirischen Untersuchung hinsichtlich der Silben und ermittelte so den Reduktionsfaktor&nbsp; $0.54$&nbsp; (hinsichtlich Silben).&nbsp; Als Endergebnis nennt Küpfmüller&nbsp; $H = 0.54 · H_3 ≈ 1.51 \ \rm bit/Buchstabe$, wobei&nbsp; $H_3 ≈ 2.8 \ \rm bit/Buchstabe$&nbsp; der Entropie einer Silbe mittlerer Länge&nbsp; $($etwa drei Buchstaben, siehe Punkt&nbsp; '''(3)'''&nbsp; auf der letzten Seite$)$&nbsp; entspricht.
+
*Küpfmüller verified this value with a comparable empirical study regarding the syllables and thus determined the reduction factor&nbsp; $0.54$&nbsp; (regarding syllables).&nbsp; As final result Küpfmüller&nbsp; $H = 0. 54 · H_3 ≈ 1.51 \ \rm bit/letter$, where&nbsp; $H_3 ≈ 2.8 \ \rm bit/letter$&nbsp; corresponds to the entropy of a syllable of medium length&nbsp; $($about three letters, see point&nbsp; '''(3)'''&nbsp; on the last page$)$&nbsp;.
  
  
Die vielleicht als sehr kritisch empfundenen Bemerkungen auf dieser und der vorherigen Seite sollen die Bedeutung von Küpfmüllers Entropieabschätzung nicht herabsetzen, eben so wenig wie Shannons Beiträge zur gleichen Thematik.  
+
The remarks on this and the previous page, which may be perceived as very critical, are not intended to diminish the importance of neither Küpfmüller's entropy estimation, nor Shannon's contributions to the same topic are not.  
*Sie sollen nur auf die großen Schwierigkeiten hinweisen, die bei dieser Aufgabenstellung auftreten.  
+
*They are only meant to point out the great difficulties that arise in this task.  
*Dies ist vielleicht auch der Grund dafür, dass sich seit den 1950er Jahren niemand mehr mit dieser Problematik intensiv beschäftigt hat.
+
*This is perhaps also the reason why no one has dealt with this problem intensively since the 1950s.
  
 
 
 
 
==Einige eigene Simulationsergebnisse==   
+
==Some own simulation results==   
 
<br>
 
<br>
Die Angaben von Karl Küpfmüller hinsichtlich der Entropie der deutschen Sprache sollen nun mit einigen (sehr einfachen) Simulationsergebnissen verglichen werden, die vom Autor dieses Kapitels (Günter Söder) am Lehrstuhl für Nachrichtentechnik der Technischen Universität München im Rahmen eines Praktikums erarbeitet wurden.&nbsp; Die Resultate basieren auf
+
The information given by Karl Küpfmüller regarding the entropy of the German language shall now be compared with some (very simple) simulation results, which were developed by the author of this chapter (Günter Söder) at the Chair of Communications Engineering at the Technical University of Munich in the course of an internship.&nbsp; The results are based on
*dem Windows-Programm&nbsp; [http://en.lntwww.de/downloads/Sonstiges/Programme/WDIT.zip WDIT] &nbsp;&rArr;&nbsp; der Link verweist auf die ZIP-Version des Programms;  
+
*the Windows program&nbsp; [http://en.lntwww.de/downloads/Sonstiges/Programme/WDIT.zip WDIT] &nbsp;&rArr;&nbsp; the link refers to the ZIP version of the program;  
*der zugehörigen Praktikumsanleitung&nbsp; [http://en.lntwww.de/downloads/Sonstiges/Texte/Wertdiskrete_Informationstheorie.pdf Wertdiskrete Informationstheorie]  &nbsp; &rArr; &nbsp; der Link verweist auf die PDF-Version;
+
*the associated practical training manual&nbsp; [http://en.lntwww.de/downloads/Sonstiges/Texte/Wertdiskrete_Informationstheorie.pdf Wertdiskrete Informationstheorie (Value Discrete Information Theory)]. &nbsp; &rArr; &nbsp; the link refers to the PDF version;
*der deutschen Bibel im ASCII–Format mit&nbsp; $N \approx 4.37 \cdot 10^6$&nbsp; Zeichen. Dies entspricht einem Buch mit&nbsp; $1300$&nbsp; Seiten bei&nbsp; $42$&nbsp; Zeilen pro Seite und&nbsp; $80$&nbsp; Zeichen pro Zeile.  
+
*the German Bible in ASCII format with&nbsp; $N \approx 4.37 \cdot 10^6$&nbsp; characters. This corresponds to a book with&nbsp; $1300$&nbsp; pages at&nbsp; $42$&nbsp; lines per page and&nbsp; $80$&nbsp; characters per line.  
  
  
Der Symbolumfang wurde auf&nbsp; $M = 33$&nbsp; reduziert und umfasst die Zeichen '''a''',&nbsp; '''b''',&nbsp; '''c''',&nbsp; ... ,&nbsp; '''x''',&nbsp; '''y''',&nbsp; '''z''',&nbsp; '''ä''',&nbsp; '''ö''',&nbsp; '''ü''',&nbsp; '''ß''',&nbsp; $\rm LZ$,&nbsp; $\rm ZI$,&nbsp; $\rm IP$.&nbsp; Nicht unterschieden wurde bei unserer Analyse zwischen Groß– und Kleinbuchstaben.
+
The symbol range has been reduced to&nbsp; $M = 33$&nbsp; and includes the characters '''a''',&nbsp; '''b''',&nbsp; '''c''',&nbsp; ... .&nbsp; '''x''',&nbsp; '''y''',&nbsp; '''z''',&nbsp; '''ä''',&nbsp; '''ö''',&nbsp; '''ü''',&nbsp; '''ß''',&nbsp; $\rm LZ$,&nbsp; $\rm ZI$,&nbsp; $\rm IP$. &nbsp; Our analysis did not differentiate between upper and lower case letters.
  
Gegenüber Küpfmüllers Analyse wurden hier also noch zusätzlich berücksichtigt:
+
In contrast to Küpfmüller's analysis, we also took into account:
*die deutschen Umlaute&nbsp; '''ä''',&nbsp; '''ö''',&nbsp; '''ü'''&nbsp; und&nbsp; '''ß''', die etwa&nbsp; $1.2\%$&nbsp; des Bibeltextes ausmachen,  
+
*the German umlauts&nbsp; '''ä''',&nbsp; '''ö''',&nbsp; '''ü'''&nbsp; and&nbsp; '''ß''', which make up about&nbsp; $1.2\%$&nbsp; of the biblical text,  
*die Klasse&nbsp; $\rm IP$&nbsp; (Interpunktion) mit ca.&nbsp; $3\%$,
+
*the class punctuation&nbsp; $\rm IP$&nbsp; (Interpunktion) with ca.&nbsp; $3\%$,
*die Klasse&nbsp; $\rm ZI$&nbsp; (Ziffer) mit ca.&nbsp; $1.3\%$&nbsp; wegen  der Vers–Nummerierung innerhalb der Bibel,
+
*the class digit&nbsp; $\rm ZI$&nbsp; (Ziffer) with ca.&nbsp; $1.3\%$&nbsp; because of the verse numbering within the bible,
*das Leerzeichen&nbsp; $\rm (LZ)$&nbsp; als das häufigste Zeichen&nbsp; $(17.8\%)$, noch vor dem „e”&nbsp; $(12.8\%)$.
+
*the space (Leerzeichen)&nbsp; $\rm (LZ)$&nbsp; as the most common character&nbsp; $(17.8\%)$, even more than the "e"&nbsp; $(12.8\%)$.
  
  
Die nachfolgende Tabelle fasst die Ergebnisse zusammen.&nbsp; $N$&nbsp; bezeichnet die jeweils analysierte Dateigröße in Schriftzeichen (Byte).&nbsp; Der Entscheidungsgehalt&nbsp; $H_0$&nbsp; sowie die Entropienäherungen&nbsp; $H_1$,&nbsp; $H_2$&nbsp; und&nbsp; $H_3$&nbsp; wurden jeweils aus&nbsp; $N$&nbsp; Schriftzeichen ermittelt und sind jeweils in &bdquo;bit/Schriftzeichen&rdquo; angegeben.  
+
The following table summarizes the results &nbsp; $N$&nbsp; indicates the analyzed file size in characters (bytes). &nbsp; The decision content&nbsp; $H_0$&nbsp; as well as the entropy approximations&nbsp; $H_1$,&nbsp; $H_2$&nbsp; and&nbsp; $H_3$&nbsp; were each determined from&nbsp; $N$&nbsp; characters and are each given in "bit/characters".  
  
[[File:Inf_T_1_3_S3_vers2.png|left|frame|Entropiewerte (in bit/Schriftzeichen) der deutschen Bibel]]
+
[[File:Inf_T_1_3_S3_vers2.png|left|frame|Entropy values (in bit/characters) of the German Bible]]
 
<br>
 
<br>
*Betrachten Sie diese Ergebnisse bitte nicht als wissenschaftliche Untersuchung.
+
*Please do not consider these results to be scientific research.
*Es ist nur der Versuch, Studierenden die behandelte Thematik in einem Praktikum näher zu bringen.  
+
*It is only an attempt to give students an understanding of the subject matter in an internship.  
*Grundlage dieser Untersuchung war die Bibel, da uns sowohl deren deutsche als auch die englische Fassung im geeigneten ASCII–Format zur Verfügung stand.  
+
*The basis of this study was the Bible, since we had both its German and English versions available to us in the appropriate ASCII format.  
 
<br clear=all>
 
<br clear=all>
Die Ergebnisse obiger Tabelle lassen sich wie folgt zusammenfassen:
+
The results of the above table can be summarized as follows:
*In allen Zeilen nehmen die Entropienäherungen&nbsp; $H_k$&nbsp; mit wachsendem&nbsp; $k$&nbsp; monoton ab.&nbsp; Der Abfall verläuft konvex, das heißt, es ist&nbsp; $H_1 - H_2 > H_2 - H_3$.&nbsp; Die Extrapolation des Endwertes&nbsp; $(k \to \infty)$&nbsp; ist aus den jeweils ermittelten drei Entropienäherungen nicht (oder nur äußerst vage) möglich.
+
*In all rows the entropy approximations&nbsp; $H_k$&nbsp; decreases monotously with increasing&nbsp; $k$.&nbsp; The decrease is convex, that means &nbsp; $H_1 - H_2 > H_2 - H_3$. &nbsp; The extrapolation of the final value&nbsp; $(k \to \infty)$&nbsp; is not (or only extremely vague) possible from the three entropy approximations determined in each case.
*Verzichtet man auf die Auswertung der Ziffern&nbsp; $(\rm ZI$, Zeile 2 &nbsp; ⇒ &nbsp; $M = 32)$&nbsp; und zusätzlich auf die Auswertung der Interpunktionszeichen&nbsp; $(\rm IP$, Zeile 3 &nbsp; ⇒ &nbsp; $M = 31)$, so nehmen die Entropienäherungen&nbsp; $H_1$&nbsp; $($um&nbsp; $0.114)$,&nbsp; $H_2$&nbsp; $($um&nbsp; $0.063)$&nbsp; und&nbsp; $H_3$&nbsp; $($um&nbsp; $0.038)$&nbsp; ab.&nbsp; Auf den Endwert&nbsp; $H$&nbsp; als dem Grenzwert von&nbsp; $H_k$&nbsp; für&nbsp; $k \to \infty$&nbsp; wirkt sich der Verzicht auf Ziffern und Interpunktion voraussichtlich kaum aus.
+
*If the evaluation of the numbers&nbsp; $(\rm ZI$, line 2 &nbsp; ⇒ &nbsp; $M = 32)$&nbsp; and additionally the evaluation of the punctuation marks&nbsp; $(\rm IP$, line 3 &nbsp; ⇒ &nbsp; $M = 31)$ is omitted, the entropy approximations&nbsp; $H_1$&nbsp; $($um&nbsp; $0. 114)$,&nbsp; $H_2$&nbsp; $($um&nbsp; $0.063)$&nbsp; and&nbsp; $H_3$&nbsp; $($um&nbsp; $0.038)$&nbsp; decrease. &nbsp; On the final value&nbsp; $H$&nbsp; as the limit value of&nbsp; $H_k$&nbsp; for&nbsp; $k \to \infty$&nbsp; the omission of numbers and punctuation will probably have little effect.
*Lässt man bei der Auswertung noch das Leerzeichen&nbsp; $(\rm LZ$, Zeile 4 &nbsp; ⇒ &nbsp; $M = 30)$&nbsp; außer Betracht, so ergibt sich nahezu die gleiche Konstellation wie von Küpfmüller ursprünglich betrachtet. Der einzige Unterschied sind die eher seltenen deutschen Sonderzeichen  '''ä''',&nbsp; '''ö''',&nbsp; '''ü'''&nbsp; und&nbsp; '''ß'''.
+
*If one leaves the space&nbsp; $(\rm LZ$, line 4 &nbsp; ⇒ &nbsp; $M = 30)$&nbsp; out of consideration, the result is almost the same constellation as Küpfmüller originally considered. The only difference are the rather rare German special characters '''ä''',&nbsp; '''ö''',&nbsp; '''ü'''&nbsp; and&nbsp; '''ß'''.
*Der in der letzten Zeile angegebene&nbsp; $H_1$–Wert&nbsp; $(4.132)$&nbsp; stimmt mit dem von Küpfmüller ermittelten Wert&nbsp; $H_1 ≈ 4.1$&nbsp; sehr gut überein.&nbsp; Hinsichtlich der&nbsp; $H_3$–Werte gibt es aber deutliche Unterschiede: &nbsp; Unsere Analyse ergibt&nbsp; $H_3 ≈ 3.4$, während Küpfmüller&nbsp; $H_3 ≈ 2.8$&nbsp; nennt (alle Angaben in bit/Buchstabe).
+
*The&nbsp; $H_1$-value&nbsp; $(4.132)$&nbsp; indicated in the last line corresponds very well with the value&nbsp; $H_1 ≈ 4.1$&nbsp; determined by Küpfmüller. &nbsp; However, with regard to the&nbsp; $H_3$-values there are clear differences: &nbsp; Our analysis yields&nbsp; $H_3 ≈ 3.4$, while Küpfmüller&nbsp; $H_3 ≈ names 2.8$&nbsp; (all data in bit/letter).
*Aus der Auftrittshäufigkeit des Leerzeichens&nbsp; $(17.8\%)$&nbsp; ergibt sich hier eine mittlere Wortlänge von&nbsp; $1/0.178 - 1 ≈ 4.6$, ein kleinerer Wert als von Küpfmüller&nbsp; ($5.5$)&nbsp; angegeben.&nbsp; Die Diskrepanz lässt sich zum Teil mit unserer Analysedatei „Bibel” erklären (viele Leerzeichen aufgrund der Vers–Nummerierung).
+
*From the frequency of occurrence of the space&nbsp; $(17.8\%)$&nbsp; here results an average word length of&nbsp; $1/0.178 - 1 ≈ 4.6$, a smaller value than Küpfmüller&nbsp; ($5.5$)&nbsp; given.&nbsp; The discrepancy can be partly explained with our analysis file "Bible" (many spaces due to verse numbering).
*Interessant ist der Vergleich der Zeilen 3 und 4.&nbsp; Berücksichtigt man das Leerzeichen, so wird zwar&nbsp; $H_0$&nbsp; von&nbsp; $\log_2 \ (30) \approx 4.907$&nbsp; auf&nbsp; $\log_2 \ (31) \approx 4.954$&nbsp; vergrößert, aber man verringert dadurch&nbsp; $H_1$&nbsp; $($um den Faktor&nbsp; $0.98)$,&nbsp; $H_2$&nbsp; $($um&nbsp; $0.96)$&nbsp; und&nbsp; $H_3$&nbsp; $($um&nbsp; $0.93)$. Küpfmüller hat diesen Faktor intuitiv mit&nbsp; $85\%$&nbsp; berücksichtigt.
+
*Interesting is the comparison of lines 3 and 4.&nbsp; If the space is taken into account, then although&nbsp; $H_0$&nbsp; from&nbsp; $\log_2 \ (30) \approx 4.907$&nbsp; to&nbsp; $\log_2 \ (31) \approx 4. 954$&nbsp; enlarges, but thereby reduces&nbsp; $H_1$&nbsp; $($by the factor&nbsp; $0.98)$,&nbsp; $H_2$&nbsp; $($um&nbsp; $0.96)$&nbsp; and&nbsp; $H_3$&nbsp; $($um&nbsp; $0.93)$. Küpfmüller has intuitively taken this factor into account with&nbsp; $85\%$&nbsp;.
  
  
Obwohl wir diese eigene Recherche als eher unbedeutend erachten, so glauben wir doch, dass für heutige Texte die von Shannon angegebenen&nbsp; $1.0 \ \rm bit/Buchstabe$&nbsp; für die englische Sprache und auch Küpfmüllers&nbsp; $1.3 \ \rm bit/Buchstabe$&nbsp; für die deutsche Sprache etwas zu niedrig sind, unter Anderem, weil
+
Although we consider this own research to be rather insignificant, we believe that for today's texts the&nbsp; $1.0 \ \rm bit/letter$&nbsp; given by Shannon are somewhat too low for the English language and also Küpfmüllers&nbsp; $1.3 \ \rm bit/letter$&nbsp; for the German language, among other things because
*der Symbolumfang heute  größer ist, als von Shannon und Küpfmüller in den 1950er Jahren berücksichtigt; zum Beispiel gilt für den ASCII–Zeichensatz&nbsp; $M = 256$,
+
*the symbol range today is larger than that considered by Shannon and Küpfmüller in the 1950s; for example, for the ASCII character set&nbsp; $M = 256$,
*die vielfachen Formatierungsmöglichkeiten (Unterstreichungen, Fett- und Kursivschrift, Einrückungen, Farben) den Informationsgehalt eines Dokuments weiter erhöhen.
+
*the multiple formatting options (underlining, bold and italics, indents, colors) further increase the information content of a document.
  
  
==Synthetisch erzeugte Texte ==
+
==Synthetically generated texts ==
 
<br>
 
<br>
In der Grafik sind künstlich erzeugte deutsche und englische Texte angegeben, die aus&nbsp; [Küpf54]<ref name ='Küpf54'>Küpfmüller, K.: ''Die Entropie der deutschen Sprache''. Fernmeldetechnische Zeitung 7, 1954, S. 265-272.</ref>&nbsp; entnommen wurden. Der zugrundeliegende Symbolumfang ist&nbsp; $M = 27$,&nbsp; das heißt, berücksichtigt sind alle Buchstaben&nbsp; (ohne Umlaute und '''ß''')&nbsp; sowie das Leerzeichen.
+
The graphic shows artificially generated German and English texts, which are taken from&nbsp; [Küpf54]<ref name ='Küpf54'>Küpfmüller, K.: ''Die Entropie der deutschen Sprache''. Fernmeldetechnische Zeitung 7, 1954, S. 265-272.</ref>&nbsp; taken from The underlying symbol range is&nbsp; $M = 27$,&nbsp; that means, all letters&nbsp; (without umlauts and '''ß''')&nbsp; and the space character are considered.
  
[[File:Inf_T_1_3_S4_vers2.png|right|frame|Künstlich erzeugte deutsche und englische Texte]]
+
[[File:Inf_T_1_3_S4_vers2.png|right|frame|artificially generated German and English texts]]
  
*Die&nbsp; ''Buchstabennäherung nullter Ordnung''&nbsp; geht jeweils von gleichwahrscheinlichen Zeichen aus.&nbsp; Es gibt deshalb keinen Unterschied zwischen Deutsch (rot) und Englisch (blau).
+
*The&nbsp; ''Zero-order letter approximation''&nbsp; assumes equally probable characters in each case.&nbsp; There is therefore no difference between German (red) and English (blue).
  
  
*Die&nbsp; ''erste Buchstabennäherung''&nbsp; berücksichtigt bereits die unterschiedlichen Häufigkeiten, die Näherungen höherer Ordnung auch die vorangegangenen Zeichen.
+
*The&nbsp; ''first letter approximation''&nbsp; already considers the different frequencies, the higher order approximations also the preceding characters.
  
  
*Bei der&nbsp; ''Synthese 4. Ordnung''&nbsp;   erkennt man schon sinnhafte Worte.&nbsp; Hier hängt  die Wahrscheinlichkeit für einen neuen Buchstaben von den drei letzten Zeichen ab.
+
*In the&nbsp; ''4th order synthesis''&nbsp; one can already recognize meaningful words.&nbsp; Here the probability for a new letter depends on the last three characters.
  
  
*Die&nbsp; ''Wortnäherung erster Ordnung''&nbsp; synthetisiert Sätze gemäß den Wortwahrscheinlichkeiten, die&nbsp; ''Wortnäherung zweiter Ordnung''&nbsp; berücksichtigt auch das vorherige Wort.
+
*The&nbsp; ''First-order word approximation''&nbsp; synthesizes sentences according to the word probabilities that&nbsp; ''Second-order word approximation''&nbsp; also considers the previous word.
  
  
  
Weitere Information zur synthetischen Erzeugung von deutschen und englischen Texten finden Sie in der&nbsp; [[Aufgaben:1.8_Synthetisch_erzeugte_Texte|Aufgabe 1.8]].
+
Further information on the synthetic generation of German and English texts can be found in the&nbsp; [[Aufgaben:1.8_Synthetisch_erzeugte_Texte|Aufgabe 1.8]].
  
 
   
 
   
==Aufgaben zum Kapitel==
+
==Exercises for chapter==
 
<br>
 
<br>
 
[[Aufgaben:1.7 Entropie natürlicher Texte|Aufgabe 1.7:  Entropie natürlicher Texte]]
 
[[Aufgaben:1.7 Entropie natürlicher Texte|Aufgabe 1.7:  Entropie natürlicher Texte]]

Revision as of 14:15, 2 November 2020

Difficulties with the determination of entropy


Up to now, we have been dealing exclusively with artificially generated symbol sequences.  Now we consider written texts.  Such a text can be seen as a natural discrete-value message source, which of course can also be analyzed information-theoretically by determining its entropy.

Even today (2011), natural texts are still often represented with the 8 bit character set according to ANSI (American National Standard Institute), although there are several "more modern" encodings;

The  $M = 2^8 = 256$  ANSI characters are used as follows:

  • No.  0   to   31:   control commands that cannot be printed or displayed,
  • No.  32   to  127:   identical to the characters of the 7 bit ASCII code,
  • No.  128   to 159:   additional control characters or alphanumeric characters for Windows,
  • No.  160   to   255:   identical to the Unicode charts.


Theoretically, one could also define the entropy here as the border crossing point of the entropy approximation  $H_k$  for  $k \to \infty$,  according to the procedure from the  last chapter.  In practice, however, insurmountable numerical limitations can be found here as well:

  • Already for the entropy approximation  $H_2$  there is  $M^2 = 256^2 = 65\hspace{0.1cm}536$  possible two-tuples.  Thus, the calculation requires the same amount of memory (in bytes).   If you assume that you need   $100$  equivalents per tuple on average, for a sufficiently safe statistic, the length of the source symbol sequence should already be  $N > 6.5 · 10^6$ .
  • The number of possible three-tuples is  $M^3 > 16 · 10^7$  and thus the required source symbol length is already  $N > 1.6 · 10^9$.  This corresponds to  $42$  lines per page and  $80$  characters per line to a book with about  $500\hspace{0.1cm}000$  pages.
  • For a natural text the statistical bonds extend much further than two or three characters.  Küpfmüller gives a value of  $100$ for the german language.  To determine the 100th entropy approximation you need  $2^{800}$ ≈ $10^{240}$  frequencies and for the safe statistics   $100$ times more characters.


A justified question is therefore:   How did  Karl Küpfmüller  determined the entropy of the German language in 1954? How did  Claude Elwood Shannon  do the same for the English language, even before Küpfmüller?  One thing is revealed beforehand:   Not with the approach described above.


Entropy estimation according to Küpfmüller


Karl Küpfmüller has investigated the entropy of German texts in his published assessment   [Küpf54][1]  the following assumptions are made:

  • an alphabet with  $26$  letters  (no umlauts or punctuation marks),
  • Not taking into account the space character,
  • no distinction between upper and lower case.


The content of the decision is therefore  $H_0 = \log_2 (26) ≈ 4.7\ \rm bit/letter$.

Küpfmueller's estimation is based on the following considerations:


(1)  The  first entropy approximation  results from the letter frequencies in German texts.  According to a study of 1939, "e" is with a frequency of   $16. 7\%$  the most frequent, the rarest is "x" with  $0.02\%$.  Averaged over all letters we obtain  $H_1 \approx 4.1\,\, {\rm bit/letter}\hspace{0.05 cm}.$


(2)  Regarding the  syllable frequency  Küpfmüller evaluates the "Häufigkeitswörterbuch der deutschen Sprache" (Frequency Dictionary of the German Language), published by  Friedrich Wilhelm Kaeding  1898; He distinguishes between root syllables, prefixes, and ending syllables and thus arrives at the average information content of all syllables:

$$H_{\rm syllable} = \hspace{-0.1cm} H_{\rm stem} + H_{\rm front} + H_{\rm end} + H_{\rm rest} \approx 4.15 + 0.82+1.62 + 2.0 \approx 8.6\,\, {\rm bit/syllable} \hspace{0.05cm}.$$
The following proportions were taken into account:
  • According to the Kaeding study of 1898, the  $400$  most common root syllables  (beginning with "de")  represent $47\%$  of a German text and contribute to the entropy with  $H_{\text{Root}} ≈ 4.15 \ \rm bit/syllable$ .
  • The contribution of  $242$  most common prefixes - in the first place "ge" with  $9\%$ - is numbered by Küpfmüller with  $H_{\text{Pre}} ≈ 0.82 \ \rm bit/syllable$.
  • The contribution of the  $118$  most used ending syllables is  $H_{\text{End}} ≈ 1.62 \ \rm bit/syllable$.  Most often, "en" appears at the end of words with  $30\%$ .
  • The remaining  $14\%$  is distributed over syllables not yet measured.  Küpfmüller assumes that there are  $4000$  and that they are equally distributed  He assumes  $H_{\text{Rest}} ≈ 2 \ \rm bit/syllable$  for this.

(3)  As average number of letters per syllable Küpfmüller determined the value  $3.03$.  From this he deduced the  third entropy approximation'  regarding the letters:

$$H_3 \approx {8.6}/{3.03}\approx 2.8\,\, {\rm bit/letter}\hspace{0.05 cm}.$$


(4)  Küpfmueller's estimation of the entropy approximation  $H_3$  based mainly on the syllable frequencies according to  (2)  and the mean value of  $3.03$  letters per syllable. To get another entropy approximation  $H_k$  with greater  $k$  Küpfmüller additionally analyzed the words in German texts.  He came to the following results:

  • The  $322$  most common words provide an entropy contribution of  $4.5 \ \rm bit/word$.
  • The contributions of the remaining  $40\hspace{0.1cm}000$ words  were estimated.  Assuming that the frequencies of rare words are reciprocal to their ordinal number (Zipf's Law).
  • With these assumptions the average information content (related to words) is about   $11 \ \rm bit/word$.


(5)  The counting "letters per word" resulted in average  $5.5$.  Analogous to point  (3)  the entropy approximation for  $k = 5.5$  was approximated. Küpfmüller gives the value  $H_{5.5} \approx {11}/{5.5}\approx 2\,\, {\rm bit/letter}\hspace{0.05 cm}.$  Of course,  $k$  can only assume integer values,  according to  its definition.  This equation is therefore to be interpreted in such a way that for  $H_5$  a somewhat larger and for  $H_6$  a somewhat smaller value than  $2 \ {\rm bit/letter}$  will result.


Approximate values of the entropy of the German language according to Küpfmüller

.

(6)  Now you can try to get the final value of entropy for  $k \to \infty$  by extrapolation from these three points:

  • The continuous line, taken from Küpfmüller's original work  [Küpf54][1], leads to the final entropy value  $H = 1.6 \ \rm bit/letter$.
  • The green curves are two extrapolation attempts (of a continuous function course through three points) of the  $\rm LNTwww$'s author.
  • These and the brown arrows are actually only meant to show that such an extrapolation  (carefully worded)  is somewhat vague.


(7)  Küpfmüller then tried to verify the final value  $H = 1.6 \ \rm bit/letter$  found by him with this first estimation with a completely different methodology - see next section. After this estimation he revised his result slightly to  $H = 1.51 \ \rm bit/letter$.


(8)  Three years earlier, after a completely different approach, Claude E. Shannon had given the entropy value  $H ≈ 1 \ \rm bit/letter$  for the English language, but taking into account the space character.  In order to be able to compare his results with Shannom, Küpfmüller subsequently included the space character in his result.

  • The correction factor is the quotient of the average word length without considering the space  $(5.5)$  and the average word length with consideration of the space  $(5.5+1 = 6.5)$.
  • This correction led to Küpfmueller's final result  $H =1.51 \cdot {5.5}/{6.5}\approx 1.3\,\, {\rm bit/letter}\hspace{0.05 cm}.$


A further entropy estimation by Küpfmüller


For the sake of completeness, Küpfmüller's considerations are presented here, which led him to the final result  $H = 1.51 \ \rm bit/letter$    Since there was no documentation for the statistics of word groups or whole sentences, he estimated the entropy value of the German language as follows:

  • Any contiguous German text is covered behind a certain word.  The preceding text is read and the reader should try to determine the following word from the context of the preceding text.
  • For a large number of such attempts, the percentage of hits gives a measure of the links between words and sentences  It can be seen that for one and the same type of text (novels, scientific writings, etc.) by one and the same author, a constant final value of this hit ratio is reached relatively quickly  (about one hundred to two hundred attempts).
  • The hit ratio, however, depends quite strongly on the type of text.  For different texts, values between  $15\%$  and  $33\%$, with the mean value at  $22\%$, are obtained.  This also means:   On average,  $22\%$  of the words in a German text can be determined from the context.
  • Alternatively:   The word count of a long text can be reduced with the factor  $0.78$  without a significant loss of the message content of the text.  Starting from the reference value  $H_{5. 5} = 2 \ \rm bit/letter$  $($see dot  (5)  in the last section$)$  for a word of medium length this results in the entropy  $H ≈ 0.78 · 2 = 1.56 \ \rm bit/letter$.
  • Küpfmüller verified this value with a comparable empirical study regarding the syllables and thus determined the reduction factor  $0.54$  (regarding syllables).  As final result Küpfmüller  $H = 0. 54 · H_3 ≈ 1.51 \ \rm bit/letter$, where  $H_3 ≈ 2.8 \ \rm bit/letter$  corresponds to the entropy of a syllable of medium length  $($about three letters, see point  (3)  on the last page$)$ .


The remarks on this and the previous page, which may be perceived as very critical, are not intended to diminish the importance of neither Küpfmüller's entropy estimation, nor Shannon's contributions to the same topic are not.

  • They are only meant to point out the great difficulties that arise in this task.
  • This is perhaps also the reason why no one has dealt with this problem intensively since the 1950s.


Some own simulation results


The information given by Karl Küpfmüller regarding the entropy of the German language shall now be compared with some (very simple) simulation results, which were developed by the author of this chapter (Günter Söder) at the Chair of Communications Engineering at the Technical University of Munich in the course of an internship.  The results are based on

  • the Windows program  WDIT  ⇒  the link refers to the ZIP version of the program;
  • the associated practical training manual  Wertdiskrete Informationstheorie (Value Discrete Information Theory).   ⇒   the link refers to the PDF version;
  • the German Bible in ASCII format with  $N \approx 4.37 \cdot 10^6$  characters. This corresponds to a book with  $1300$  pages at  $42$  lines per page and  $80$  characters per line.


The symbol range has been reduced to  $M = 33$  and includes the characters abc,  ... .  xyzäöüß,  $\rm LZ$,  $\rm ZI$,  $\rm IP$.   Our analysis did not differentiate between upper and lower case letters.

In contrast to Küpfmüller's analysis, we also took into account:

  • the German umlauts  äöü  and  ß, which make up about  $1.2\%$  of the biblical text,
  • the class punctuation  $\rm IP$  (Interpunktion) with ca.  $3\%$,
  • the class digit  $\rm ZI$  (Ziffer) with ca.  $1.3\%$  because of the verse numbering within the bible,
  • the space (Leerzeichen)  $\rm (LZ)$  as the most common character  $(17.8\%)$, even more than the "e"  $(12.8\%)$.


The following table summarizes the results   $N$  indicates the analyzed file size in characters (bytes).   The decision content  $H_0$  as well as the entropy approximations  $H_1$,  $H_2$  and  $H_3$  were each determined from  $N$  characters and are each given in "bit/characters".

Entropy values (in bit/characters) of the German Bible


  • Please do not consider these results to be scientific research.
  • It is only an attempt to give students an understanding of the subject matter in an internship.
  • The basis of this study was the Bible, since we had both its German and English versions available to us in the appropriate ASCII format.


The results of the above table can be summarized as follows:

  • In all rows the entropy approximations  $H_k$  decreases monotously with increasing  $k$.  The decrease is convex, that means   $H_1 - H_2 > H_2 - H_3$.   The extrapolation of the final value  $(k \to \infty)$  is not (or only extremely vague) possible from the three entropy approximations determined in each case.
  • If the evaluation of the numbers  $(\rm ZI$, line 2   ⇒   $M = 32)$  and additionally the evaluation of the punctuation marks  $(\rm IP$, line 3   ⇒   $M = 31)$ is omitted, the entropy approximations  $H_1$  $($um  $0. 114)$,  $H_2$  $($um  $0.063)$  and  $H_3$  $($um  $0.038)$  decrease.   On the final value  $H$  as the limit value of  $H_k$  for  $k \to \infty$  the omission of numbers and punctuation will probably have little effect.
  • If one leaves the space  $(\rm LZ$, line 4   ⇒   $M = 30)$  out of consideration, the result is almost the same constellation as Küpfmüller originally considered. The only difference are the rather rare German special characters äöü  and  ß.
  • The  $H_1$-value  $(4.132)$  indicated in the last line corresponds very well with the value  $H_1 ≈ 4.1$  determined by Küpfmüller.   However, with regard to the  $H_3$-values there are clear differences:   Our analysis yields  $H_3 ≈ 3.4$, while Küpfmüller  $H_3 ≈ names 2.8$  (all data in bit/letter).
  • From the frequency of occurrence of the space  $(17.8\%)$  here results an average word length of  $1/0.178 - 1 ≈ 4.6$, a smaller value than Küpfmüller  ($5.5$)  given.  The discrepancy can be partly explained with our analysis file "Bible" (many spaces due to verse numbering).
  • Interesting is the comparison of lines 3 and 4.  If the space is taken into account, then although  $H_0$  from  $\log_2 \ (30) \approx 4.907$  to  $\log_2 \ (31) \approx 4. 954$  enlarges, but thereby reduces  $H_1$  $($by the factor  $0.98)$,  $H_2$  $($um  $0.96)$  and  $H_3$  $($um  $0.93)$. Küpfmüller has intuitively taken this factor into account with  $85\%$ .


Although we consider this own research to be rather insignificant, we believe that for today's texts the  $1.0 \ \rm bit/letter$  given by Shannon are somewhat too low for the English language and also Küpfmüllers  $1.3 \ \rm bit/letter$  for the German language, among other things because

  • the symbol range today is larger than that considered by Shannon and Küpfmüller in the 1950s; for example, for the ASCII character set  $M = 256$,
  • the multiple formatting options (underlining, bold and italics, indents, colors) further increase the information content of a document.


Synthetically generated texts


The graphic shows artificially generated German and English texts, which are taken from  [Küpf54][1]  taken from The underlying symbol range is  $M = 27$,  that means, all letters  (without umlauts and ß)  and the space character are considered.

artificially generated German and English texts
  • The  Zero-order letter approximation  assumes equally probable characters in each case.  There is therefore no difference between German (red) and English (blue).


  • The  first letter approximation  already considers the different frequencies, the higher order approximations also the preceding characters.


  • In the  4th order synthesis  one can already recognize meaningful words.  Here the probability for a new letter depends on the last three characters.


  • The  First-order word approximation  synthesizes sentences according to the word probabilities that  Second-order word approximation  also considers the previous word.


Further information on the synthetic generation of German and English texts can be found in the  Aufgabe 1.8.


Exercises for chapter


Aufgabe 1.7: Entropie natürlicher Texte

Aufgabe 1.8: Synthetisch erzeugte Texte


Quellenverzeichnis

  1. 1.0 1.1 1.2 Küpfmüller, K.: Die Entropie der deutschen Sprache. Fernmeldetechnische Zeitung 7, 1954, S. 265-272.