Loading [MathJax]/jax/output/HTML-CSS/fonts/TeX/fontdata.js

Difference between revisions of "Aufgaben:Exercise 1.8: Synthetically Generated Texts"

From LNTwww
m (Text replacement - "„" to """)
m (Text replacement - "”" to """)
Line 9: Line 9:
 
Mit diesem Programm  
 
Mit diesem Programm  
  
*kann man aus einer gegebenen Textdatei  "VORLAGE”  die Häufigkeiten von Buchstabentripeln wie  "aaa”,  "aab”, ... ,  "xyz”, ...   ermitteln und in einer Hilfsdatei abspeichern,
+
*kann man aus einer gegebenen Textdatei  "VORLAGE"  die Häufigkeiten von Buchstabentripeln wie  "aaa",  "aab", ... ,  "xyz", ...   ermitteln und in einer Hilfsdatei abspeichern,
* danach eine Datei  "SYNTHESE”  erzeugen, wobei das neue Zeichen aus den beiden letzten Zeichen und den abgespeicherten Tripel–Häufigkeiten generiert wird.
+
* danach eine Datei  "SYNTHESE"  erzeugen, wobei das neue Zeichen aus den beiden letzten Zeichen und den abgespeicherten Tripel–Häufigkeiten generiert wird.
  
  
Line 20: Line 20:
 
Nicht angegeben wird, welche Datei von welcher Vorlage stammt.  Dies zu ermitteln ist Ihre erste Aufgabe.
 
Nicht angegeben wird, welche Datei von welcher Vorlage stammt.  Dies zu ermitteln ist Ihre erste Aufgabe.
  
Die beiden Vorlagen basieren auf dem natürlichen Alphabet  (26 Buchstaben)  und dem Leerzeichen  ("LZ”)   ⇒   M=27.  Bei der deutschen Bibel wurden die Umlaute ersetzt, zum Beispiel "ä”   ⇒   "ae”.
+
Die beiden Vorlagen basieren auf dem natürlichen Alphabet  (26 Buchstaben)  und dem Leerzeichen  ("LZ")   ⇒   M=27.  Bei der deutschen Bibel wurden die Umlaute ersetzt, zum Beispiel "ä"   ⇒   "ae".
  
  
 
Die  Datei 1  weist folgende Eigenschaften auf:
 
Die  Datei 1  weist folgende Eigenschaften auf:
* Die häufigsten Zeichen sind "LZ” mit  19.8%, gefolgt von "e” mit  10.2%  und "a” mit  8.5%.
+
* Die häufigsten Zeichen sind "LZ" mit  19.8%, gefolgt von "e" mit  10.2%  und "a" mit  8.5%.
* Nach "LZ” (Leerzeichen) tritt "t” mit  17.8%   am häufigsten auf.
+
* Nach "LZ" (Leerzeichen) tritt "t" mit  17.8%   am häufigsten auf.
* Vor einem Leerzeichen ist "d” am wahrscheinlichsten.
+
* Vor einem Leerzeichen ist "d" am wahrscheinlichsten.
* Die Entropienäherungen jeweils mit der Einheit "bit/Zeichen” wurden wie folgt ermittelt:
+
* Die Entropienäherungen jeweils mit der Einheit "bit/Zeichen" wurden wie folgt ermittelt:
 
:$$H_0 = 4.76\hspace{0.05cm},\hspace{0.2cm}
 
:$$H_0 = 4.76\hspace{0.05cm},\hspace{0.2cm}
 
H_1 = 4.00\hspace{0.05cm},\hspace{0.2cm}  
 
H_1 = 4.00\hspace{0.05cm},\hspace{0.2cm}  
Line 35: Line 35:
  
 
Dagegen ergibt die Analyse von  Datei 2:
 
Dagegen ergibt die Analyse von  Datei 2:
* Die häufigsten Zeichen sind "LZ” mit  17.6%  gefolgt von "e” mit  14.4%  und "n” mit  8.9%.
+
* Die häufigsten Zeichen sind "LZ" mit  17.6%  gefolgt von "e" mit  14.4%  und "n" mit  8.9%.
* Nach "LZ” ist "d” am wahrscheinlichsten  (15.1%)  gefolgt von "s” mit  10.8%.
+
* Nach "LZ" ist "d" am wahrscheinlichsten  (15.1%)  gefolgt von "s" mit  10.8%.
* Nach "LZ” und "d” sind die Vokale "e”  (48.3%),  "i” (23%)  und "a”  (20.2%)  dominant.
+
* Nach "LZ" und "d" sind die Vokale "e"  (48.3%),  "i" (23%)  und "a"  (20.2%)  dominant.
 
* Die Entropienäherungen unterscheiden sich nur geringfügig von denen der  Datei 1.
 
* Die Entropienäherungen unterscheiden sich nur geringfügig von denen der  Datei 1.
 
* Für größere  k–Werte sind diese etwas größer, zum Beispiel  H3=3.17  statt  H3=3.11.
 
* Für größere  k–Werte sind diese etwas größer, zum Beispiel  H3=3.17  statt  H3=3.11.
Line 64: Line 64:
 
{Vergleichen Sie die mittleren Wortlängen von  Datei 1  und  Datei 2 .
 
{Vergleichen Sie die mittleren Wortlängen von  Datei 1  und  Datei 2 .
 
|type="[]"}
 
|type="[]"}
- Die Wörter der "englischen” Datei sind im Mittel länger.
+
- Die Wörter der "englischen" Datei sind im Mittel länger.
+ Die Wörter der "deutschen” Datei sind im Mittel länger.
+
+ Die Wörter der "deutschen" Datei sind im Mittel länger.
  
  
 
{Welche Aussagen gelten für die Entropienäherungen?
 
{Welche Aussagen gelten für die Entropienäherungen?
 
|type="[]"}
 
|type="[]"}
+ "VORLAGE”  und  "SYNTHESE”  liefern ein nahezu gleiches  H1.
+
+ "VORLAGE"  und  "SYNTHESE"  liefern ein nahezu gleiches  H1.
+ "VORLAGE”  und  "SYNTHESE”  liefern ein nahezu gleiches  H2.
+
+ "VORLAGE"  und  "SYNTHESE"  liefern ein nahezu gleiches  H2.
+ "VORLAGE”  und  "SYNTHESE”  liefern ein nahezu gleiches  H3.
+
+ "VORLAGE"  und  "SYNTHESE"  liefern ein nahezu gleiches  H3.
- "VORLAGE”  und  "SYNTHESE”  liefern ein nahezu gleiches  H4.
+
- "VORLAGE"  und  "SYNTHESE"  liefern ein nahezu gleiches  H4.
  
  
{Welche Aussagen treffen für den "englischen” Text zu?
+
{Welche Aussagen treffen für den "englischen" Text zu?
 
|type="[]"}
 
|type="[]"}
+ Die meisten Wörter beginnen mit  "t”.
+
+ Die meisten Wörter beginnen mit  "t".
- Die meisten Wörter enden mit  "t”.
+
- Die meisten Wörter enden mit  "t".
  
  
 
{Welche Aussagen könnten für deutsche Texte gelten?
 
{Welche Aussagen könnten für deutsche Texte gelten?
 
|type="[]"}
 
|type="[]"}
+ Nach  "de”  ist  "r”  am wahrscheinlichsten.
+
+ Nach  "de"  ist  "r"  am wahrscheinlichsten.
+ Nach  "da”  ist  "s”  am wahrscheinlichsten.
+
+ Nach  "da"  ist  "s"  am wahrscheinlichsten.
+ Nach  "di”  ist  "e”  am wahrscheinlichsten.
+
+ Nach  "di"  ist  "e"  am wahrscheinlichsten.
  
  
Line 111: Line 111:
  
 
'''(3)'''&nbsp; Richtig sind <u>die drei ersten Aussagen</u>, nicht jedoch die Aussage&nbsp;  '''(4)''':
 
'''(3)'''&nbsp; Richtig sind <u>die drei ersten Aussagen</u>, nicht jedoch die Aussage&nbsp;  '''(4)''':
*Zur Bestimmung der Entropienäherung&nbsp; Hk&nbsp; müssen&nbsp; k&ndash;Tupel ausgewertet werden, zum Beispiel für&nbsp; k=3&nbsp;  die Tripel &nbsp; "aaa&rdquo;,&nbsp;  "aab&rdquo;, &nbsp; ....  
+
*Zur Bestimmung der Entropienäherung&nbsp; Hk&nbsp; müssen&nbsp; k&ndash;Tupel ausgewertet werden, zum Beispiel für&nbsp; k=3&nbsp;  die Tripel &nbsp; "aaa",&nbsp;  "aab", &nbsp; ....  
*Nach der Generierungsvorschrift "Neues Zeichen hängt von den beiden Vorgängern ab&rdquo; werden&nbsp; H1,&nbsp; H2&nbsp; und&nbsp; H3&nbsp; von&nbsp; "VORLAGE&rdquo;&nbsp; und&nbsp; "SYNTHESE&rdquo;&nbsp; übereinstimmen, allerdings auf Grund der endlichen Dateilänge nur näherungsweise.
+
*Nach der Generierungsvorschrift "Neues Zeichen hängt von den beiden Vorgängern ab" werden&nbsp; H1,&nbsp; H2&nbsp; und&nbsp; H3&nbsp; von&nbsp; "VORLAGE"&nbsp; und&nbsp; "SYNTHESE"&nbsp; übereinstimmen, allerdings auf Grund der endlichen Dateilänge nur näherungsweise.
 
*Dagegen  unterscheiden sich die&nbsp; H4&ndash;Näherungen stärker, da bei der Generierung der dritte Vorgänger unberücksichtigt bleibt.  
 
*Dagegen  unterscheiden sich die&nbsp; H4&ndash;Näherungen stärker, da bei der Generierung der dritte Vorgänger unberücksichtigt bleibt.  
*Bekannt ist nur, dass auch bezüglich&nbsp; "SYNTHESE&rdquo;&nbsp; H4<H3&nbsp; gelten muss.
+
*Bekannt ist nur, dass auch bezüglich&nbsp; "SYNTHESE"&nbsp; H4<H3&nbsp; gelten muss.
  
  
  
 
'''(4)'''&nbsp; Richtig ist hier nur die <u>Aussage 1</u>:  
 
'''(4)'''&nbsp; Richtig ist hier nur die <u>Aussage 1</u>:  
*Nach einem Leerzeichen (Wortanfang) folgt "t&rdquo; mit&nbsp; 17.8%, während am Wortende (vor einem Leerzeichen) "t&rdquo; nur mit der Häufigkeit&nbsp; <8.3%&nbsp; auftritt.  
+
*Nach einem Leerzeichen (Wortanfang) folgt "t" mit&nbsp; 17.8%, während am Wortende (vor einem Leerzeichen) "t" nur mit der Häufigkeit&nbsp; <8.3%&nbsp; auftritt.  
  
*Insgesamt beträgt die Auftrittswahrscheinlichkeit von "t&rdquo; über alle Positionen im Wort gemittelt&nbsp; 7.4%.
+
*Insgesamt beträgt die Auftrittswahrscheinlichkeit von "t" über alle Positionen im Wort gemittelt&nbsp; 7.4%.
*Als dritter Buchstaben nach Leerzeichen und "t&rdquo; folgt "h&rdquo; mit fast&nbsp; 82%&nbsp; und nach "th&rdquo; ist "e&rdquo; mit&nbsp; 62&nbsp; am wahrscheinlichsten.&nbsp;  
+
*Als dritter Buchstaben nach Leerzeichen und "t" folgt "h" mit fast&nbsp; 82%&nbsp; und nach "th" ist "e" mit&nbsp; 62&nbsp; am wahrscheinlichsten.&nbsp;  
*Das lässt daraus schließen, dass "the&rdquo; in einem englischen Text überdurchschnittlich oft vorkommt und damit auch in der synthetischen&nbsp; Datei 1, wie folgende Grafik zeigt. Aber nicht bei allen Markierungen tritt "the&rdquo; isoliert auf &nbsp; &#8658; &nbsp; direkt vorher und nachher ein Leerzeichen.
+
*Das lässt daraus schließen, dass "the" in einem englischen Text überdurchschnittlich oft vorkommt und damit auch in der synthetischen&nbsp; Datei 1, wie folgende Grafik zeigt. Aber nicht bei allen Markierungen tritt "the" isoliert auf &nbsp; &#8658; &nbsp; direkt vorher und nachher ein Leerzeichen.
  
[[File:Inf_A_1_8d_vers2.png|right|frame|Auftreten von "...the...&rdquo; im englischen Text]]
+
[[File:Inf_A_1_8d_vers2.png|right|frame|Auftreten von "...the..." im englischen Text]]
 
<br clear=all>
 
<br clear=all>
 
'''(5)'''&nbsp; <u>Alle Aussagen</u> treffen zu:  
 
'''(5)'''&nbsp; <u>Alle Aussagen</u> treffen zu:  
*Nach "de&rdquo; ist tatsächlich "r&rdquo; am wahrscheinlichsten&nbsp; (32.8%),&nbsp; gefolgt von "n&rdquo; (28.5%),&nbsp; "s&rdquo;&nbsp; (9.3%)&nbsp; und "m&rdquo;&nbsp; (9.7%).  
+
*Nach "de" ist tatsächlich "r" am wahrscheinlichsten&nbsp; (32.8%),&nbsp; gefolgt von "n" (28.5%),&nbsp; "s"&nbsp; (9.3%)&nbsp; und "m"&nbsp; (9.7%).  
*Dafür verantwortlich könnten&nbsp; "der&rdquo;,&nbsp; "den&rdquo;,&nbsp; "des&rdquo;&nbsp; und&nbsp; "dem&rdquo;&nbsp; sein.
+
*Dafür verantwortlich könnten&nbsp; "der",&nbsp; "den",&nbsp; "des"&nbsp; und&nbsp; "dem"&nbsp; sein.
[[File:Inf_A_1_8e_vers2.png|right|frame|Auftreten von "der&rdquo;,  "die&rdquo; und "das&rdquo; im deutschen Text]]
+
[[File:Inf_A_1_8e_vers2.png|right|frame|Auftreten von "der",  "die" und "das" im deutschen Text]]
* Nach "da&rdquo; folgt "s&rdquo; mit größter Wahrscheinlichkeit: &nbsp;  48.2%.
+
* Nach "da" folgt "s" mit größter Wahrscheinlichkeit: &nbsp;  48.2%.
* Nach "di&rdquo; folgt "e&rdquo; mit größter Wahrscheinlichkeit: &nbsp;  78.7%.
+
* Nach "di" folgt "e" mit größter Wahrscheinlichkeit: &nbsp;  78.7%.
  
  
Die Grafik zeigt die&nbsp; Datei 2&nbsp; mit allen "der&rdquo;, "die&rdquo; und "das&rdquo;.
+
Die Grafik zeigt die&nbsp; Datei 2&nbsp; mit allen "der", "die" und "das".
  
  

Revision as of 16:28, 28 May 2021

Zwei synthetisch erzeugte Textdateien

Der frühere Praktikumsversuch  Wertdiskrete Informationstheorie  von Günter Söder am Lehrstuhl für Nachrichtentechnik der TU München verwendet das Windows-Programm  WDIT.  Die hier angegebenen Links führen zur PDF-Version der Praktikumsanleitung bzw. zur ZIP-Version des Programms.

Mit diesem Programm

  • kann man aus einer gegebenen Textdatei  "VORLAGE"  die Häufigkeiten von Buchstabentripeln wie  "aaa",  "aab", ... ,  "xyz", ...  ermitteln und in einer Hilfsdatei abspeichern,
  • danach eine Datei  "SYNTHESE"  erzeugen, wobei das neue Zeichen aus den beiden letzten Zeichen und den abgespeicherten Tripel–Häufigkeiten generiert wird.


Ausgehend von der deutschen und der englischen Bibelübersetzung haben wir so zwei Dateien synthetisiert, die in der Grafik angegeben sind:

  • die  Datei 1  (rote Umrandung),
  • die  Datei 2  (grüne Umrandung)


Nicht angegeben wird, welche Datei von welcher Vorlage stammt.  Dies zu ermitteln ist Ihre erste Aufgabe.

Die beiden Vorlagen basieren auf dem natürlichen Alphabet  (26 Buchstaben)  und dem Leerzeichen  ("LZ")   ⇒   M=27.  Bei der deutschen Bibel wurden die Umlaute ersetzt, zum Beispiel "ä"   ⇒   "ae".


Die  Datei 1  weist folgende Eigenschaften auf:

  • Die häufigsten Zeichen sind "LZ" mit  19.8%, gefolgt von "e" mit  10.2%  und "a" mit  8.5%.
  • Nach "LZ" (Leerzeichen) tritt "t" mit  17.8%  am häufigsten auf.
  • Vor einem Leerzeichen ist "d" am wahrscheinlichsten.
  • Die Entropienäherungen jeweils mit der Einheit "bit/Zeichen" wurden wie folgt ermittelt:
H0=4.76,H1=4.00,H2=3.54,H3=3.11,H4=2.81.

Dagegen ergibt die Analyse von  Datei 2:

  • Die häufigsten Zeichen sind "LZ" mit  17.6%  gefolgt von "e" mit  14.4%  und "n" mit  8.9%.
  • Nach "LZ" ist "d" am wahrscheinlichsten  (15.1%)  gefolgt von "s" mit  10.8%.
  • Nach "LZ" und "d" sind die Vokale "e"  (48.3%),  "i" (23%)  und "a"  (20.2%)  dominant.
  • Die Entropienäherungen unterscheiden sich nur geringfügig von denen der  Datei 1.
  • Für größere  k–Werte sind diese etwas größer, zum Beispiel  H3=3.17  statt  H3=3.11.




Hinweise:


Fragebogen

1

Welche Vorlagen wurden für die hier gezeigte Textsynthese verwendet?

Die  Datei 1  (rot) basiert auf einer englischen Vorlage.
Die  Datei 1  (rot) basiert auf einer deutschen Vorlage.

2

Vergleichen Sie die mittleren Wortlängen von  Datei 1  und  Datei 2 .

Die Wörter der "englischen" Datei sind im Mittel länger.
Die Wörter der "deutschen" Datei sind im Mittel länger.

3

Welche Aussagen gelten für die Entropienäherungen?

"VORLAGE"  und  "SYNTHESE"  liefern ein nahezu gleiches  H1.
"VORLAGE"  und  "SYNTHESE"  liefern ein nahezu gleiches  H2.
"VORLAGE"  und  "SYNTHESE"  liefern ein nahezu gleiches  H3.
"VORLAGE"  und  "SYNTHESE"  liefern ein nahezu gleiches  H4.

4

Welche Aussagen treffen für den "englischen" Text zu?

Die meisten Wörter beginnen mit  "t".
Die meisten Wörter enden mit  "t".

5

Welche Aussagen könnten für deutsche Texte gelten?

Nach  "de"  ist  "r"  am wahrscheinlichsten.
Nach  "da"  ist  "s"  am wahrscheinlichsten.
Nach  "di"  ist  "e"  am wahrscheinlichsten.


Musterlösung

(1)  Richtig ist der Lösungsvorschlag 1.

  • In der  Datei 1  erkennt man viele englische Wörter, in der  Datei 2  viele deutsche.
  • Sinn ergibt keiner der beiden Texte.


(2)  Richtig ist der Lösungsvorschlag 2. Die Abschätzungen von Shannon und Küpfmüller bestätigen unser Ergebnis:

  • Die Wahrscheinlichkeit eines Leerzeichens beträgt bei der  Datei 1  (Englisch)  19.8%
  • Also ist im Mittel jedes  1/0.198=5.05–te Zeichen ein Leerzeichen. 
  • Die mittlere Wortlänge ergibt sich daraus zu
LM=10.19814.05Zeichen.
  • Entsprechend gilt für die  Datei 2  (Deutsch):
LM=10.17614.68Zeichen.


(3)  Richtig sind die drei ersten Aussagen, nicht jedoch die Aussage  (4):

  • Zur Bestimmung der Entropienäherung  Hk  müssen  k–Tupel ausgewertet werden, zum Beispiel für  k=3  die Tripel   "aaa",  "aab",   ....
  • Nach der Generierungsvorschrift "Neues Zeichen hängt von den beiden Vorgängern ab" werden  H1H2  und  H3  von  "VORLAGE"  und  "SYNTHESE"  übereinstimmen, allerdings auf Grund der endlichen Dateilänge nur näherungsweise.
  • Dagegen unterscheiden sich die  H4–Näherungen stärker, da bei der Generierung der dritte Vorgänger unberücksichtigt bleibt.
  • Bekannt ist nur, dass auch bezüglich  "SYNTHESE"  H4<H3  gelten muss.


(4)  Richtig ist hier nur die Aussage 1:

  • Nach einem Leerzeichen (Wortanfang) folgt "t" mit  17.8%, während am Wortende (vor einem Leerzeichen) "t" nur mit der Häufigkeit  <8.3%  auftritt.
  • Insgesamt beträgt die Auftrittswahrscheinlichkeit von "t" über alle Positionen im Wort gemittelt  7.4%.
  • Als dritter Buchstaben nach Leerzeichen und "t" folgt "h" mit fast  82%  und nach "th" ist "e" mit  62  am wahrscheinlichsten. 
  • Das lässt daraus schließen, dass "the" in einem englischen Text überdurchschnittlich oft vorkommt und damit auch in der synthetischen  Datei 1, wie folgende Grafik zeigt. Aber nicht bei allen Markierungen tritt "the" isoliert auf   ⇒   direkt vorher und nachher ein Leerzeichen.
Auftreten von "...the..." im englischen Text


(5)  Alle Aussagen treffen zu:

  • Nach "de" ist tatsächlich "r" am wahrscheinlichsten  (32.8%),  gefolgt von "n" (28.5%),  "s"  (9.3%)  und "m"  (9.7%).
  • Dafür verantwortlich könnten  "der",  "den",  "des"  und  "dem"  sein.
Auftreten von "der", "die" und "das" im deutschen Text
  • Nach "da" folgt "s" mit größter Wahrscheinlichkeit:   48.2%.
  • Nach "di" folgt "e" mit größter Wahrscheinlichkeit:   78.7%.


Die Grafik zeigt die  Datei 2  mit allen "der", "die" und "das".