Difference between revisions of "Aufgaben:Exercise 1.8: Synthetically Generated Texts"

Two synthetically generated text files

The former practical course attempt Value Discrete Information Theory by Günter Söder at the Chair of Communications Engineering at the TU Munich uses the Windows programme WDIT. The links given here lead to the PDF version of the practical course instructions or to the ZIP version of the programme.

With this programme

one can determine the frequencies of letter triplets such as "aaa", "aab", ... , "xyz", ... and save them in an auxiliary file,
then create a file "SYNTHESE" whereby the new character is generated from the last two characters and the stored triple frequencies.

Starting with the German and English Bible translations, we have thus synthesised two files, which are indicated in the diagram:

die $\text{Datei 1}$ (red border),
die $\text{Datei 2}$ (green border)

It is not indicated which file comes from which template. Determining this is your first task.

The two templates are based on the natural alphabet $(26$ letters$)$ and the space ("LZ") ⇒ $M = 27$. In the German Bible, the umlauts have been replaced, for example "ä" ⇒ "ae".

$\text{File 1}$ has the following characteristics:

The most frequent characters are "LZ" with $19.8\%$, followed by "e" with $10.2\%$ and "a" with $8.5\%$.
After "LZ" (space), "t" occurs most frequently with $17.8\%$ .
Before a space, "d" is most likely.
The entropy approximations in each case with the unit "bit/character" were determined as follows:

$$H_0 = 4.76\hspace{0.05cm},\hspace{0.2cm} H_1 = 4.00\hspace{0.05cm},\hspace{0.2cm} H_2 = 3.54\hspace{0.05cm},\hspace{0.2cm} H_3 = 3.11\hspace{0.05cm},\hspace{0.2cm} H_4 = 2.81\hspace{0.05cm}. $$

In contrast, the analysis of $\text{file 2}$:

The most frequent characters are "LZ" with $17.6\%$ followed by "e" with $14.4\%$ and "n" with $8.9\%$.
After "LZ", "d" is the most likely $(15.1\%)$ followed by "s" with $10.8\%$.
After "LZ" and "d", the vowels "e" $(48.3\%)$, "i" $(23\%)$ and "a" $(20.2\%)$ are dominant.
The entropy approximations differ only slightly from those of $\text{file 1}$.
For larger $k$–values, these are slightly larger, for example $H_3 = 3.17$ instead of $H_3 = 3.11$.

Hints:

The task belongs to the chapter Natural discrete value message sources.

Reference is made in particular to the page Synthetically generated texts.

Questions

Musterlösung

Solution

(1) Richtig ist der Lösungsvorschlag 1.

In der $\text{Datei 1}$ erkennt man viele englische Wörter, in der $\text{Datei 2}$ viele deutsche.
Sinn ergibt keiner der beiden Texte.

(2) Richtig ist der Lösungsvorschlag 2. Die Abschätzungen von Shannon und Küpfmüller bestätigen unser Ergebnis:

Die Wahrscheinlichkeit eines Leerzeichens beträgt bei der $\text{Datei 1}$ (Englisch) $19.8\%$.
Also ist im Mittel jedes $1/0.198 = 5.05$–te Zeichen ein Leerzeichen.
Die mittlere Wortlänge ergibt sich daraus zu

$$L_{\rm M} = \frac{1}{0.198}-1 \approx 4.05\,{\rm Zeichen}\hspace{0.05cm}.$$

Entsprechend gilt für die $\text{Datei 2}$ (Deutsch):

$$L_{\rm M} = \frac{1}{0.176}-1 \approx 4.68\,{\rm Zeichen}\hspace{0.05cm}.$$

(3) Richtig sind die drei ersten Aussagen, nicht jedoch die Aussage (4):

Zur Bestimmung der Entropienäherung $H_k$ müssen $k$–Tupel ausgewertet werden, zum Beispiel für $k = 3$ die Tripel "aaa", "aab", ....
Nach der Generierungsvorschrift "Neues Zeichen hängt von den beiden Vorgängern ab" werden $H_1$, $H_2$ und $H_3$ von "VORLAGE" und "SYNTHESE" übereinstimmen, allerdings auf Grund der endlichen Dateilänge nur näherungsweise.
Dagegen unterscheiden sich die $H_4$–Näherungen stärker, da bei der Generierung der dritte Vorgänger unberücksichtigt bleibt.
Bekannt ist nur, dass auch bezüglich "SYNTHESE" $H_4 < H_3$ gelten muss.

(4) Richtig ist hier nur die Aussage 1:

Nach einem Leerzeichen (Wortanfang) folgt "t" mit $17.8\%$, während am Wortende (vor einem Leerzeichen) "t" nur mit der Häufigkeit $<8.3\%$ auftritt.

Insgesamt beträgt die Auftrittswahrscheinlichkeit von "t" über alle Positionen im Wort gemittelt $7.4\%$.
Als dritter Buchstaben nach Leerzeichen und "t" folgt "h" mit fast $82\%$ und nach "th" ist "e" mit $62%$ am wahrscheinlichsten.
Das lässt daraus schließen, dass "the" in einem englischen Text überdurchschnittlich oft vorkommt und damit auch in der synthetischen $\text{Datei 1}$, wie folgende Grafik zeigt. Aber nicht bei allen Markierungen tritt "the" isoliert auf ⇒ direkt vorher und nachher ein Leerzeichen.

Auftreten von "...the..." im englischen Text

(5) Alle Aussagen treffen zu:

Nach "de" ist tatsächlich "r" am wahrscheinlichsten $(32.8\%)$, gefolgt von "n" $(28.5\%)$, "s" $(9.3\%)$ und "m" $(9.7\%)$.
Dafür verantwortlich könnten "der", "den", "des" und "dem" sein.

Auftreten von "der", "die" und "das" im deutschen Text

Nach "da" folgt "s" mit größter Wahrscheinlichkeit: $48.2\%$.
Nach "di" folgt "e" mit größter Wahrscheinlichkeit: $78.7\%$.

Die Grafik zeigt die $\text{Datei 2}$ mit allen "der", "die" und "das".

@@ Line 3: / Line 3: @@
 }}
-[[File:Inf_A_1_8_vers2.png|right|frame|Zwei synthetisch erzeugte Textdateien]]
+[[File:Inf_A_1_8_vers2.png|right|frame|Two synthetically generated text files]]
-Der frühere Praktikumsversuch&nbsp; [http://en.lntwww.de/downloads/Sonstiges/Texte/Wertdiskrete_Informationstheorie.pdf Wertdiskrete Informationstheorie]&nbsp; von Günter Söder am Lehrstuhl für Nachrichtentechnik der TU München verwendet das Windows-Programm&nbsp; [http://en.lntwww.de/downloads/Sonstiges/Programme/WDIT.zip WDIT].&nbsp; Die hier angegebenen Links führen zur PDF-Version der Praktikumsanleitung bzw. zur ZIP-Version des Programms.
+The former practical course attempt&nbsp; [http://en.lntwww.de/downloads/Sonstiges/Texte/Wertdiskrete_Informationstheorie.pdf Value Discrete Information Theory]&nbsp; by Günter Söder at the Chair of Communications Engineering at the TU Munich uses the Windows programme&nbsp; [http://en.lntwww.de/downloads/Sonstiges/Programme/WDIT.zip WDIT].&nbsp; The links given here lead to the PDF version of the practical course instructions or to the ZIP version of the programme.
-Mit diesem Programm
+With this programme
-*kann man aus einer gegebenen Textdatei&nbsp; "VORLAGE"&nbsp; die Häufigkeiten von Buchstabentripeln wie&nbsp; "aaa",&nbsp; "aab", ... ,&nbsp; "xyz", ...&nbsp;  ermitteln und in einer Hilfsdatei abspeichern,
+*one can determine the frequencies of letter triplets such as&nbsp; "aaa",&nbsp; "aab", ... ,&nbsp; "xyz", ...&nbsp; and save them in an auxiliary file,
-* danach eine Datei&nbsp; "SYNTHESE"&nbsp; erzeugen, wobei das neue Zeichen aus den beiden letzten Zeichen und den abgespeicherten Tripel&ndash;Häufigkeiten generiert wird.
+* then create a file&nbsp; "SYNTHESE"&nbsp; whereby the new character is generated from the last two characters and the stored triple frequencies.
-Ausgehend von der deutschen und der englischen Bibelübersetzung haben wir so zwei Dateien synthetisiert, die in der Grafik angegeben sind:
+Starting with the German and English Bible translations, we have thus synthesised two files, which are indicated in the diagram:
-* die&nbsp; $\text{Datei 1}$&nbsp; (rote Umrandung),
+* die&nbsp; $\text{Datei 1}$&nbsp; (red border),
-* die&nbsp; $\text{Datei 2}$&nbsp; (grüne Umrandung)
+* die&nbsp; $\text{Datei 2}$&nbsp; (green border)
-Nicht angegeben wird, welche Datei von welcher Vorlage stammt.&nbsp; Dies zu ermitteln ist Ihre erste Aufgabe.
+It is not indicated which file comes from which template.&nbsp; Determining this is your first task.
-Die beiden Vorlagen basieren auf dem natürlichen Alphabet&nbsp; $(26$ Buchstaben$)$&nbsp; und dem Leerzeichen&nbsp; ("LZ") &nbsp; &#8658; &nbsp; $M = 27$.&nbsp; Bei der deutschen Bibel wurden die Umlaute ersetzt, zum Beispiel "ä" &nbsp; &#8658; &nbsp; "ae".
+The two templates are based on the natural alphabet&nbsp; $(26$ letters$)$&nbsp; and the space&nbsp; ("LZ") &nbsp; &#8658; &nbsp; $M = 27$.&nbsp; In the German Bible, the umlauts have been replaced, for example "ä" &nbsp; &#8658; &nbsp; "ae".
-Die&nbsp; $\text{Datei 1}$&nbsp; weist folgende Eigenschaften auf:
+&nbsp; $\text{File 1}$&nbsp; has the following characteristics:
-* Die häufigsten Zeichen sind "LZ" mit&nbsp; $19.8\%$, gefolgt von "e" mit&nbsp; $10.2\%$&nbsp; und "a" mit&nbsp; $8.5\%$.
+* The most frequent characters are "LZ" with&nbsp; $19.8\%$, followed by "e" with&nbsp; $10.2\%$&nbsp; and "a" with&nbsp; $8.5\%$.
-* Nach "LZ" (Leerzeichen) tritt "t" mit&nbsp; $17.8\%$&nbsp;  am häufigsten auf.
+* After "LZ" (space), "t" occurs most frequently with&nbsp; $17.8\%$&nbsp;.
-* Vor einem Leerzeichen ist "d" am wahrscheinlichsten.
+* Before a space, "d" is most likely.
-* Die Entropienäherungen jeweils mit der Einheit "bit/Zeichen" wurden wie folgt ermittelt:
+* The entropy approximations in each case with the unit "bit/character" were determined as follows:
 :$$H_0 = 4.76\hspace{0.05cm},\hspace{0.2cm}
 H_1 = 4.00\hspace{0.05cm},\hspace{0.2cm}
@@ Line 34: / Line 34: @@
 H_4 = 2.81\hspace{0.05cm}.  $$
-Dagegen ergibt die Analyse von&nbsp; $\text{Datei 2}$:
+In contrast, the analysis of&nbsp; $\text{file 2}$:
-* Die häufigsten Zeichen sind "LZ" mit&nbsp; $17.6\%$&nbsp; gefolgt von "e" mit&nbsp; $14.4\%$&nbsp; und "n" mit&nbsp; $8.9\%$.
+* The most frequent characters are "LZ" with&nbsp; $17.6\%$&nbsp; followed by "e" with&nbsp; $14.4\%$&nbsp; and "n" with&nbsp; $8.9\%$.
-* Nach "LZ" ist "d" am wahrscheinlichsten&nbsp; $(15.1\%)$&nbsp; gefolgt von "s" mit&nbsp; $10.8\%$.
+* After "LZ", "d" is the most likely&nbsp; $(15.1\%)$&nbsp; followed by "s" with&nbsp; $10.8\%$.
-* Nach "LZ" und "d"  sind die Vokale "e"&nbsp; $(48.3\%)$,&nbsp; "i" $(23\%)$&nbsp; und "a"&nbsp; $(20.2\%)$&nbsp; dominant.
+* After "LZ" and "d", the vowels "e"&nbsp; $(48.3\%)$,&nbsp; "i" $(23\%)$&nbsp; and "a"&nbsp; $(20.2\%)$&nbsp; are dominant.
-* Die Entropienäherungen unterscheiden sich nur geringfügig von denen der&nbsp; $\text{Datei 1}$.
+* The entropy approximations differ only slightly from those of&nbsp; $\text{file 1}$.
-* Für größere&nbsp; $k$&ndash;Werte sind diese etwas größer, zum Beispiel&nbsp; $H_3 = 3.17$&nbsp; statt&nbsp; $H_3 = 3.11$.
+* For larger&nbsp; $k$&ndash;values, these are slightly larger, for example&nbsp; $H_3 = 3.17$&nbsp; instead of&nbsp; $H_3 = 3.11$.
@@ Line 46: / Line 46: @@
-''Hinweise:''
+''Hints:''
-*Die Aufgabe gehört zum  Kapitel&nbsp; [[Information_Theory/Natürliche_wertdiskrete_Nachrichtenquellen|Natürliche wertdiskrete Nachrichtenquellen]].
+*The task belongs to the chapter&nbsp; [[Information_Theory/Natürliche_wertdiskrete_Nachrichtenquellen|Natural discrete value message sources]].
-*Bezug genommen wird insbesondere auf die Seite&nbsp; [[Information_Theory/Natürliche_wertdiskrete_Nachrichtenquellen#Synthetisch_erzeugte_Texte|Synthetisch erzeugte Texte]].
+*Reference is made in particular to the page&nbsp; [[Information_Theory/Natürliche_wertdiskrete_Nachrichtenquellen#Synthetisch_erzeugte_Texte|Synthetically generated texts]].
-===Fragebogen===
+===Questions===
 <quiz display=simple>

	"VORLAGE" und "SYNTHESE" liefern ein nahezu gleiches $H_1$.
	"VORLAGE" und "SYNTHESE" liefern ein nahezu gleiches $H_2$.
	"VORLAGE" und "SYNTHESE" liefern ein nahezu gleiches $H_3$.
	"VORLAGE" und "SYNTHESE" liefern ein nahezu gleiches $H_4$.

	Die $\text{Datei 1}$ (rot) basiert auf einer englischen Vorlage.
	Die $\text{Datei 1}$ (rot) basiert auf einer deutschen Vorlage.

	Die Wörter der "englischen" Datei sind im Mittel länger.
	Die Wörter der "deutschen" Datei sind im Mittel länger.

	Die meisten Wörter beginnen mit "t".
	Die meisten Wörter enden mit "t".

	Nach "de" ist "r" am wahrscheinlichsten.
	Nach "da" ist "s" am wahrscheinlichsten.
	Nach "di" ist "e" am wahrscheinlichsten.

Difference between revisions of "Aufgaben:Exercise 1.8: Synthetically Generated Texts"

Revision as of 23:16, 12 June 2021

Questions

Musterlösung

Solution