Extended UNIX Coding - LinkFang.de





Extended UNIX Coding


Extended UNIX Coding (Abkürzung EUC) ist eine 8-Bit-Zeichencodierung, die vor allem für Chinesisch, Japanisch und Koreanisch gebraucht wird. EUC ist eine Sammelbezeichnung für verschiedene Kodierungen, die je nach Land bis zu vier unterschiedliche Zeichensätze kodieren können. Ursprünglich entwickelt von der Open Software Foundation (OSF), Unix International (UI) und den Unix System Laboratories Pacific (USLP) als Standardkodierung für UNIX-Systeme, findet diese Kodierung heute immer weniger Verwendung, da sie oft von weiter verbreiteten lokalen Kodierungen (Shift-JIS, Big5 etc.) und/oder Unicode (UTF-8) abgelöst wurde.

Gemeinsamkeiten

Alle EUC Kodierungen haben einige Gemeinsamkeiten:

  • Sie unterstützen bis zu vier verschiedene Zeichensätze, in EUC-Terminologie Code Sets genannt. Code Set 0 ist immer (7-Bit)-ASCII, Code Sets 1–3 sind je nach Unterart verschieden.
  • Code Set 0 wird immer durch ein Byte direkt kodiert.
  • Es gibt zwei Spezialzeichen (Escape-Zeichen), die zum Umschalten auf Code Set 2 bzw. Code Set 3 verwendet werden: SS2 (0x8e) und SS3 (0x8f).
  • Der Nicht-ASCII Bereich von 0xa0–0xff wird für Multi-Byte-Zeichen verwendet.

Für die Code Sets 1 bis 3 gibt es mehrere Möglichkeiten der Kodierung (je nach Untervariante von EUC unterschiedlich). Folgende Kodierungen sind möglich:

Code Set Variante 1 Variante 2 Variante 3
Code Set 0 1 Byte: 0x21–0x7e
Code Set 1 1 Byte: 0xa0–0xff 2 Bytes: 0xa0–0xff, 0xa0–0xff 3 Bytes: 0xa0–0xff, 0xa0–0xff, 0xa0–0xff
Code Set 2 2 Bytes: 0x8e, 0xa0–0xff 3 Bytes: 0x8e, 0xa0–0xff, 0xa0–0xff 4 Bytes: 0x8e, 0xa0–0xff, 0xa0–0xff, 0xa0–0xff
Code Set 3 2 Bytes: 0x8f, 0xa0–0xff 3 Bytes: 0x8f, 0xa0–0xff, 0xa0–0xff 4 Bytes: 0x8f, 0xa0–0xff, 0xa0–0xff, 0xa0–0xff

EUC-JP

EUC-JP stellt die in Japan verwendete Variante dar.

Code Set 0 ist ASCII (genaugenommen JIS-Roman) und wird durch ein Byte aus dem Bereich 0x21 bis 0x7e direkt kodiert.

Code Set 1 ist JIS X 0208:1997 und wird durch zwei Zeichen kodiert (Variante 2 in der obigen Tabelle)

Code Set 2 sind halbbreite Katakana, die auch durch zwei Bytes kodiert werden (Variante 1 in der Tabelle). Das zweite Byte ist hierbei allerdings nur aus dem Bereich 0xa1 bis 0xdf, da es nur 56 Katakana (und eine Handvoll Sonderzeichen) gibt und diese dann der 1-Byte Kodierung aus JIS X 0201:1997 entsprechen (nur eben mit dem Escape-Zeichen 0x8e als Präfix).

In Code Set 3 wird JIS X 0212:1990 in der drei Byte Variante kodiert.

EUC-KR

EUC-KR ist die in Korea verwendete Version von EUC. Sie ähnelt ISO-2022-KR (bzw. KS X 1001).

EUC-CN

EUC-CN wird in China verwendet und entspricht GB2312. Es kodiert die vereinfachten chinesischen Schriftzeichen.

EUC-TW

Eigentlich entwickelt für Taiwan, wird EUC-TW nur sehr selten verwendet. Sehr viel verbreiteter ist dort Big5. Beide kodieren die traditionellen chinesischen Schriftzeichen.


Kategorien: CJK | Zeichenkodierung für die chinesische Schrift | Zeichenkodierung für die japanische Schrift | Zeichenkodierung für die koreanische Schrift | Zeichenkodierung

Quelle: Wikipedia - http://de.wikipedia.org/wiki/Extended UNIX Coding (Vollständige Liste der Autoren des Textes [Versionsgeschichte])    Lizenz: CC-by-sa-3.0

Änderungen: Alle Bilder mit den meisten Bildunterschriften wurden entfernt. Ebenso alle zu nicht-existierenden Artikeln/Kategorien gehenden internen Wikipedia-Links (Bsp. Portal-Links, Redlinks, Bearbeiten-Links). Entfernung von Navigationsframes, Geo & Normdaten, Mediadateien, gesprochene Versionen, z.T. ID&Class-Namen, Style von Div-Containern, Metadaten, Vorlagen, wie lesenwerte Artikel. Ansonsten sind keine Inhaltsänderungen vorgenommen worden. Weiterhin kann es durch die maschinelle Bearbeitung des Inhalts zu Fehlern gerade in der Darstellung kommen. Darum würden wir jeden Besucher unserer Seite darum bitten uns diese Fehler über den Support mittels einer Nachricht mit Link zu melden. Vielen Dank!

Stand der Informationen: August 201& - Wichtiger Hinweis: Da die Inhalte maschinell von Wikipedia übernommen wurden, ist eine manuelle Überprüfung nicht möglich. Somit garantiert LinkFang.de nicht die Richtigkeit und Aktualität der übernommenen Inhalte. Sollten die Informationen mittlerweile fehlerhaft sein, bitten wir Sie darum uns per Support oder E-Mail zu kontaktieren. Wir werden uns dann innerhalb von spätestens 10 Tagen um Ihr Anliegen kümmern. Auch ohne Anliegen erfolgt mindestens alle drei Monate ein Update der gesamten Inhalte.