Was ist das Windows-Äquivalent für das Gebietsschema en_US.UTF-8?

Question 1

Wenn ich Folgendes unter Windows zum Laufen bringen möchte, was ist das richtige Gebietsschema und wie erkenne ich, dass es tatsächlich vorhanden ist: Funktioniert dieser Code universell oder ist es nur mein System?

Question 2

Obwohl es keine gute Unterstützung für benannte Gebietsschemas gibt, enthält Visual Studio 2010 die von C++11 erforderlichen UTF-8-Konvertierungsfacetten: std::codecvt_utf8 für UCS2 und std::codecvt_utf8_utf16 für UTF-16:

#include <fstream>
#include <iostream>
#include <string>
#include <locale>
#include <codecvt>
void prepare_file()
{
    // UTF-8 data
    char utf8[] = {'\x7a',                       // latin small letter 'z' U+007a
                   '\xe6','\xb0','\xb4',         // CJK ideograph "water"  U+6c34
                   '\xf0','\x9d','\x84','\x8b'}; // musical sign segno U+1d10b
    std::ofstream fout("text.txt");
    fout.write(utf8, sizeof utf8);
}
void test_file_utf16()
{
    std::wifstream fin("text.txt");
    fin.imbue(std::locale(fin.getloc(), new std::codecvt_utf8_utf16<wchar_t>));
    std::cout << "Read from file using UTF-8/UTF-16 codecvt\n";
    for(wchar_t c; fin >> c; )
        std::cout << std::hex << std::showbase << c << '\n';
}
void test_file_ucs2()
{
    std::wifstream fin("text.txt");
    fin.imbue(std::locale(fin.getloc(), new std::codecvt_utf8<wchar_t>));
    std::cout << "Read from file using UTF-8/UCS2 codecvt\n";
    for(wchar_t c; fin >> c; )
        std::cout << std::hex << std::showbase << c << '\n';
}
int main()
{
    prepare_file();
    test_file_utf16();
    test_file_ucs2();
}

Dies gibt auf meinem Visual Studio 2010 EE SP1 aus

Read from file using UTF-8/UTF-16 codecvt
0x7a
0x6c34
0xd834
0xdd0b
Read from file using UTF-8/UCS2 codecvt
0x7a
0x6c34
0xd10b
Press any key to continue . . .

Question 3

Im Grunde hast du Pech: http://www.siao2.com/2007/01/03/1392379.aspx

Question 4

In der Vergangenheit war UTF-8 (und einige andere Codepages) nicht als Systemgebietsschema erlaubt, weil

Microsoft sagte, dass ein UTF-8-Gebietsschema einige Funktionen beschädigen könnte, da sie geschrieben wurden, um anzunehmen, dass Multibyte-Codierungen nicht mehr als 2 Bytes pro Zeichen verwenden, sodass Codepages mit mehr Bytes wie UTF-8 (und auch GB 18030, cp54936) dies nicht könnten als Gebietsschema festgelegt werden.

https://en.wikipedia.org/wiki/Unicode_in_Microsoft_Windows#UTF-8

Allerdings hat Microsoft nach und nach eingeführt UTF-8-Locale-Unterstützung und fing an, die ANSI-APIs zu empfehlen (-A) wieder anstelle des Unicodes (-W)-Versionen wie zuvor

Bis vor kurzem hat Windows “Unicode” betont -W Varianten vorbei -A APIs. Neuere Versionen haben jedoch die ANSI-Codepage und verwendet -A APIs als Mittel zur Einführung von UTF-8-Unterstützung in Apps. Wenn die ANSI-Codepage für UTF-8 konfiguriert ist, -A APIs arbeiten in UTF-8. Dieses Modell hat den Vorteil, dass vorhandener Code unterstützt wird, mit dem erstellt wurde -A APIs ohne Codeänderungen.

-A vs. -W-APIs

Zuerst fügten sie a hinzu “Beta: Unicode UTF-8 für weltweite Sprachunterstützung verwenden” Checkbox seit Windows 10 Insider Build 17035 zum Setzen der Gebietsschema-Codepage auf UTF-8

Um dieses Dialogfeld zu öffnen, öffnen Sie das Startmenü, geben Sie “Region” ein und wählen Sie es aus Regionseinstellungen > Zusätzliche Datums-, Uhrzeit- und regionale Einstellungen > Datums-, Uhrzeit- oder Zahlenformate ändern > Verwaltung

Nach der Aktivierung können Sie anrufen setlocal wie normal:

Ab Windows 10 Build 17134 (April 2018 Update) unterstützt die Universal C Runtime die Verwendung einer UTF-8-Codepage. Dies bedeutet, dass char Zeichenfolgen, die an C-Laufzeitfunktionen übergeben werden, erwarten Zeichenfolgen in der UTF-8-Codierung. Um den UTF-8-Modus zu aktivieren, verwenden Sie „UTF-8“ als Codepage, wenn Sie verwenden setlocale. Zum Beispiel, setlocale(LC_ALL, ".utf8") verwendet die aktuelle Standard-Windows-ANSI-Codepage (ACP) für das Gebietsschema und UTF-8 für die Codepage.

UTF-8-Unterstützung

Sie können dies auch in älteren Windows-Versionen verwenden

Um diese Funktion auf einem Betriebssystem vor Windows 10 zu verwenden, wie z. B. Windows 7, müssen Sie verwenden App-lokale Bereitstellung oder statisch mit Version 17134 des Windows SDK oder höher verknüpfen. Für Windows 10-Betriebssysteme vor 17134 wird nur statische Verknüpfung unterstützt.

Später im Jahr 2019 fügten sie die Möglichkeit für Programme hinzu, das UTF-8-Gebietsschema zu verwenden, ohne auch nur das UTF-8-Beta-Flag oben zu setzen. Du kannst den … benutzen /execution-charset:utf-8 oder /utf-8 Optionen beim Kompilieren mit MSVC oder legen Sie die ActiveCodePage-Eigenschaft in appxmanifest fest

Question 5

Pro MSDN, würde es “english_us.65001” heißen. Aber Codepage 65001 ist unter Windows etwas flockig.