Warum können einige ASCII-Zeichen im Java-Quellcode nicht in der Form ‘\uXXXX’ ausgedrückt werden?

Question 1

Darüber bin ich heute (wieder) gestolpert:

class Test {
    char ok = '\n';
    char okAsWell="\u000B";
    char error="\u000A";
}

Es kompiliert nicht:

Ungültige Zeichenkonstante in Zeile 4.

Der Compiler scheint darauf zu bestehen, dass ich stattdessen ‘\n’ schreibe. Ich sehe keinen Grund dafür, aber es ist sehr ärgerlich.

Gibt es eine logische Erklärung, warum Zeichen mit einer speziellen Notation (wie \t, \n, \r) muss in dieser Form im Java-Quellcode ausgedrückt werden?

Question 2

Unicode-Zeichen werden durch ihren Wert ersetzt, sodass Ihre Zeile vom Compiler ersetzt wird durch:

char error="
";

was keine gültige Java-Anweisung ist.

Dies wird von der diktiert Sprachspezifikation:

Ein Compiler für die Programmiersprache Java (“Java-Compiler”) erkennt zuerst Unicode-Escapes in seiner Eingabe und übersetzt die ASCII-Zeichen \u gefolgt von vier Hexadezimalziffern in die UTF-16-Codeeinheit (§3.1) des angegebenen Hexadezimalwerts und alle anderen Zeichen unverändert weitergeben. Die Darstellung ergänzender Zeichen erfordert zwei aufeinanderfolgende Unicode-Escapezeichen. Dieser Übersetzungsschritt führt zu einer Folge von Unicode-Eingabezeichen.

Dies kann zu überraschenden Dingen führen, zum Beispiel ist dies ein gültiges Java-Programm (es enthält versteckte Unicode-Zeichen) – Mit freundlicher Genehmigung von Peter Lawrey:

public static void main(String[] args) {
    for (char c⁯‮h = 0; c⁯‮h < Character.MAX_VALUE; c⁯‮h++) {
        if (Character.isJavaIdentifierPart(c⁯‮h) && !Character.isJavaIdentifierStart(c⁯‮h)) {
            System.out.printf("%04x <%s>%n", (int) c⁯‮h, "" + c⁯‮h);
        }
    }
}

Question 3

Unicode-Escape-Sequenzen wie \u000a werden ersetzt durch die tatsächlichen Zeichen, die sie darstellen, bevor der Java-Compiler irgendetwas anderes mit dem Quellcode macht. Und so endet Ihr Programm schließlich bei

char ch="
";

Also die \u000a in Ihrem Quellcode wird intern durch ein Zeilenvorschubzeichen ersetzt. Beachten Sie, dass dies geschieht, bevor der Compiler Ihren Quellcode tatsächlich liest und interpretiert.

In Bezug auf Java-Sprachspezifikation:

Es ist ein Kompilierzeitfehler für a Zeilenabschluss (§3.4) nach dem Öffnen ‘ und vor dem Schließen ‘ erscheinen.

Und alle wissen es auswendig, \n ist ein ZeilenabschlussZitat:

 LineTerminator:
    the ASCII LF character, also known as "newline"
    the ASCII CR character, also known as "return"
    the ASCII CR character followed by the ASCII LF character

Andere Symbole, die Probleme verursachen könnten, sind \, ' und " zum Beispiel.

Question 4

Ich denke, der Grund ist das \uXXXX Sequenzen werden expandiert, wenn der Code geparst wird, siehe JLS §3.2. Lexikalische Übersetzungen.

Question 5

Es ist in 3.3 beschrieben. Unicode-Escapes http://docs.oracle.com/javase/specs/jls/se7/html/jls-3.html. Javac findet zuerst \uxxxx-Sequenzen in .java und ersetzt sie durch echte Zeichen und kompiliert dann. Im Falle von

char error="\u000A";

\u000A wird durch ersetzt newline Zeichencode (10) und der eigentliche Text werden

char error="
";

Question 6

Weil der Compiler sie genauso behandelt wie Text ohne Escapezeichen.

Dies ist ein gültiger Code:

 class \u00C9 {}