UTF-7 - LinkFang.de





UTF-7


UTF-7 ist eine Kodierung des Unicode-Zeichensatzes, die in RFC 2152 definiert wird. UTF-7 ist trotz der Namensähnlichkeit zu anderen Kodierungen nicht Bestandteil des Unicode Standards. UTF-7 erlaubt die Verwendung von Unicode in nicht 8-bit-festen Umgebungen.

Motivation

Viele Protokolle im Internet (etwa SMTP für E-Mail und NNTP für News) setzen die Verwendung von ASCII voraus. Diese Zeichenkodierung erlaubt nur 128 verschiedene Zeichen, die in 7 Bit gespeichert werden. Alle übrigen UTF-Kodierungen verwenden mindestens 8 Bit, um ein Zeichen zu kodieren. So würde eine Übermittlung von UTF-8 anschließend eine 7-Bit-Kodierung erfordern.

Es existieren verschiedene Kodierungsverfahren (siehe MIME), so beispielsweise Base64 und Quoted-printable, die beliebige 8-Bit-Binärdaten in 7-bit-ASCII-Text umwandeln. Abhängig von diesen Kodierungsverfahren und von den zu kodierenden Daten bläht sich die Datenmenge durch die Kodierung auf. UTF-7 wurde entworfen, um diesen zusätzlichen Datenverbrauch bei der Verwendung von Texten, die nur wenige Unicode-Zeichen enthalten, möglichst gering zu halten, und gleichzeitig Textpassagen, die in 7-bit-ASCII darstellbar sind, lesbar zu lassen.

Kodierung

Bei UTF-7 werden die Zeichen A–Z a–z 0–9'(),./:?- so übermittelt, wie sie sind. Die ASCII-Zeichen !"#$%&*;<=>@[]^_`{|} können direkt übertragen werden, sollten aber ebenfalls kodiert werden, da sie eventuell nicht durch alle E-Mail-Gateways korrekt übertragen werden.

Alle anderen Zeichen werden speziell kodiert. Hierfür wird eine Folge von zu kodierenden Zeichen als Strom von 2-Byte-Zeichen (UTF-16, evtl. mit Surrogates) nach einem modifizierten Base64-Verfahren (ohne abschließendes =) in einen Strom von ASCII-Zeichen umgewandelt. Der Start einer solchen kodierten Zeichensequenz wird durch ein Pluszeichen (+) angezeigt, das Ende durch ein Minuszeichen (-) oder durch das erste ASCII-Zeichen, das nicht als Ergebnis der Base64-Kodierung auftreten kann. Überflüssige Bits bei dieser Kodierung sind auf 0 zu setzen.

Bei englischem Text ist diese Kodierung von Menschen ohne Weiteres zu lesen, da kodierte Sonderzeichen nur sehr selten auftreten. Die Umlaute und Sonderzeichen anderer westeuropäischer Sprachen müssen jedoch kodiert werden, was den Text bereits merklich entstellt. Texte in Sprachen, die nicht das lateinische Alphabet verwenden, sind vom Menschen nicht mehr ohne Weiteres lesbar.

Der Text „Wikipedia – Die freie Enzyklopädie“ wird in der Kodierung UTF-7 beispielsweise zu Wikipedia +IBM Die freie Enzyklop+AOQ-die.

UTF-7 hat sich trotz seiner höheren Kodierungseffizienz jedoch nicht durchsetzen können, da andere Verfahren wie quoted-printable und Base64 von nahezu jedem E-Mail- und News-Programm verstanden werden und der größere Kodierungsüberhang in der Praxis keine Rolle spielt.


Kategorien: Unicode

Quelle: Wikipedia - http://de.wikipedia.org/wiki/UTF-7 (Vollständige Liste der Autoren des Textes [Versionsgeschichte])    Lizenz: CC-by-sa-3.0

Änderungen: Alle Bilder mit den meisten Bildunterschriften wurden entfernt. Ebenso alle zu nicht-existierenden Artikeln/Kategorien gehenden internen Wikipedia-Links (Bsp. Portal-Links, Redlinks, Bearbeiten-Links). Entfernung von Navigationsframes, Geo & Normdaten, Mediadateien, gesprochene Versionen, z.T. ID&Class-Namen, Style von Div-Containern, Metadaten, Vorlagen, wie lesenwerte Artikel. Ansonsten sind keine Inhaltsänderungen vorgenommen worden. Weiterhin kann es durch die maschinelle Bearbeitung des Inhalts zu Fehlern gerade in der Darstellung kommen. Darum würden wir jeden Besucher unserer Seite darum bitten uns diese Fehler über den Support mittels einer Nachricht mit Link zu melden. Vielen Dank!

Stand der Informationen: August 201& - Wichtiger Hinweis: Da die Inhalte maschinell von Wikipedia übernommen wurden, ist eine manuelle Überprüfung nicht möglich. Somit garantiert LinkFang.de nicht die Richtigkeit und Aktualität der übernommenen Inhalte. Sollten die Informationen mittlerweile fehlerhaft sein, bitten wir Sie darum uns per Support oder E-Mail zu kontaktieren. Wir werden uns dann innerhalb von spätestens 10 Tagen um Ihr Anliegen kümmern. Auch ohne Anliegen erfolgt mindestens alle drei Monate ein Update der gesamten Inhalte.