C++ String (oder char) in wstring (oder wchar_t) konvertieren

Question 1

string s = "おはよう";
wstring ws = FUNCTION(s, ws);

Wie würde ich den Inhalt von s ws zuweisen?

Google gesucht und einige Techniken verwendet, aber sie können den genauen Inhalt nicht zuordnen. Der Inhalt ist verzerrt.

Question 2

Angenommen, die Eingabezeichenfolge in Ihrem Beispiel (おはよう) ist eine UTF-8-codierte Darstellung einer Unicode-Zeichenfolge (was dem Anschein nach nicht der Fall ist, aber nehmen wir für diese Erklärung an :-)). Ihres Interesses, dann kann Ihr Problem allein mit der Standardbibliothek (C++11 und neuer) vollständig gelöst werden.

Die TL;DR-Version:

#include <locale>
#include <codecvt>
#include <string>

std::wstring_convert<std::codecvt_utf8_utf16<wchar_t>> converter;
std::string narrow = converter.to_bytes(wide_utf16_source_string);
std::wstring wide = converter.from_bytes(narrow_utf8_source_string);

Längeres online kompilierbares und lauffähiges Beispiel:

(Sie zeigen alle das gleiche Beispiel. Es gibt nur viele für Redundanz …)

http://ideone.com/KA1oty

Hinweis (alt):

Wie in den Kommentaren hervorgehoben und in https://stackoverflow.com/a/17106065/6345 erläutert, gibt es Fälle, in denen die Verwendung der Standardbibliothek zum Konvertieren zwischen UTF-8 und UTF-16 zu unerwarteten Unterschieden in den Ergebnissen auf verschiedenen Plattformen führen kann . Berücksichtigen Sie für eine bessere Konvertierung std::codecvt_utf8 wie auf beschrieben http://en.cppreference.com/w/cpp/locale/codecvt_utf8

Hinweis (neu):

Seit der codecvt Header in C++17 veraltet ist, wurden einige Bedenken hinsichtlich der in dieser Antwort vorgestellten Lösung geäußert. Das C++-Standardkomitee fügte jedoch eine wichtige Aussage hinzu http://www.open-std.org/jtc1/sc22/wg21/docs/papers/2017/p0618r0.html Sprichwort

diese Bibliothekskomponente sollte zusammen mit Seite in Anhang D zurückgezogen werden, bis ein geeigneter Ersatz standardisiert ist.

Also in absehbarer Zeit die codecvt Die Lösung in dieser Antwort ist sicher und tragbar.

Question 3

int StringToWString(std::wstring &ws, const std::string &s)
{
    std::wstring wsTmp(s.begin(), s.end());

    ws = wsTmp;

    return 0;
}

Question 4

Ihre Frage ist unterspezifiziert. Genau genommen handelt es sich bei diesem Beispiel um einen Syntaxfehler. Aber, mbstowcs ist wahrscheinlich das, wonach Sie suchen.

Es ist eine C-Bibliotheksfunktion und arbeitet mit Puffern, aber hier ist eine einfach zu verwendende Redewendung, mit freundlicher Genehmigung von Mooing Duck:

std::wstring ws(s.size(), L' '); // Overestimate number of code points.
ws.resize(::mbstowcs_s(&ws[0], ws.size(), s.c_str(), s.size())); // Shrink to fit.

Question 5

Wenn Sie verwenden Fenster/Visuelles Studio und müssen eine Zeichenfolge in wstring konvertieren, die Sie verwenden könnten:

#include <AtlBase.h>
#include <atlconv.h>
...
string s = "some string";
CA2W ca2w(s.c_str());
wstring w = ca2w;
printf("%s = %ls", s.c_str(), w.c_str());

Dasselbe Verfahren zum Konvertieren einer wstring in eine Zeichenfolge (manchmal müssen Sie eine angeben Codepage):

#include <AtlBase.h>
#include <atlconv.h>
...
wstring w = L"some wstring";
CW2A cw2a(w.c_str());
string s = cw2a;
printf("%s = %ls", s.c_str(), w.c_str());

Sie könnten a angeben Codepage und sogar UTF8 (das ist ziemlich nett, wenn man damit arbeitet JNI/Java). EIN Standard Die Methode zum Konvertieren eines std::wstring in utf8 std::string wird in dieser Antwort gezeigt.

// 
// using ATL
CA2W ca2w(str, CP_UTF8);

// 
// or the standard way taken from the answer above
#include <codecvt>
#include <string>

// convert UTF-8 string to wstring
std::wstring utf8_to_wstring (const std::string& str) {
    std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
    return myconv.from_bytes(str);
}

// convert wstring to UTF-8 string
std::string wstring_to_utf8 (const std::wstring& str) {
    std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
    return myconv.to_bytes(str);
}

Wenn Sie mehr darüber wissen möchten Codeseiten es gibt einen interessanten Artikel über Joel on Software: Das absolute Minimum, das jeder Softwareentwickler unbedingt und unbedingt über Unicode und Zeichensätze wissen muss.

Diese CA2W-Makros (Convert Ansi to Wide=unicode) sind Teil von ATL- und MFC-StringkonvertierungsmakrosProben enthalten.

Manchmal müssen Sie die Sicherheitswarnung Nr. 4995 deaktivieren, ich kenne keine andere Problemumgehung (bei mir ist es passiert, als ich in VS2012 für WindowsXp kompiliert habe).

#pragma warning(push)
#pragma warning(disable: 4995)
#include <AtlBase.h>
#include <atlconv.h>
#pragma warning(pop)

Bearbeiten:
Nun, laut Dieser Beitrag Der Artikel von Joel scheint zu sein: “Während er unterhaltsam ist, geht er ziemlich leicht auf tatsächliche technische Details ein”. Artikel: Was jeder Programmierer unbedingt und unbedingt über Kodierung und Zeichensätze wissen muss, um mit Text zu arbeiten.

Question 6

Nur Windows-API, Implementierung vor C++11, falls jemand sie braucht:

#include <stdexcept>
#include <vector>
#include <windows.h>

using std::runtime_error;
using std::string;
using std::vector;
using std::wstring;

wstring utf8toUtf16(const string & str)
{
   if (str.empty())
      return wstring();

   size_t charsNeeded = ::MultiByteToWideChar(CP_UTF8, 0, 
      str.data(), (int)str.size(), NULL, 0);
   if (charsNeeded == 0)
      throw runtime_error("Failed converting UTF-8 string to UTF-16");

   vector<wchar_t> buffer(charsNeeded);
   int charsConverted = ::MultiByteToWideChar(CP_UTF8, 0, 
      str.data(), (int)str.size(), &buffer[0], buffer.size());
   if (charsConverted == 0)
      throw runtime_error("Failed converting UTF-8 string to UTF-16");

   return wstring(&buffer[0], charsConverted);
}

Question 7

Hier ist ein Weg zum Kombinieren string, wstring und gemischte Zeichenfolgenkonstanten zu wstring. Verwenden Sie die wstringstream Klasse.

Dies funktioniert NICHT bei Multi-Byte-Zeichenkodierungen. Dies ist nur eine dumme Art, die Typsicherheit wegzuwerfen und 7-Bit-Zeichen von std::string in die unteren 7 Bits jedes Zeichens von std:wstring zu erweitern. Dies ist nur nützlich, wenn Sie 7-Bit-ASCII-Zeichenfolgen haben und eine API aufrufen müssen, die breite Zeichenfolgen erfordert.

#include <sstream>

std::string narrow = "narrow";
std::wstring wide = L"wide";

std::wstringstream cls;
cls << " abc " << narrow.c_str() << L" def " << wide.c_str();
std::wstring total= cls.str();

Question 8

Von char* zu wstring:

char* str = "hello worlddd";
wstring wstr (str, str+strlen(str));

Von string zu wstring:

string str = "hello worlddd";
wstring wstr (str.begin(), str.end());

Beachten Sie, dass dies nur gut funktioniert, wenn die zu konvertierende Zeichenfolge nur ASCII-Zeichen enthält.