Light C Unicode-Bibliothek [closed]

Lesezeit: 2 Minuten

Benutzeravatar von Akusete
Akusete

Ich suche nach einer kleinen C-Bibliothek, um UTF8-Strings zu verarbeiten.

Insbesondere Aufteilung basierend auf Unicode-Trennzeichen zur Verwendung mit Stemming-Algorithmen.

Ähnliche Beiträge haben vorgeschlagen:

Intensivstation http://www.icu-project.org/ (Ich fand es für meine Zwecke auf eingebetteten Geräten zu sperrig)

UTF8-CPP: http://utfcpp.sourceforge.net/ (Ausgezeichnet, aber C++ nicht C)

Hat jemand plattformunabhängige, kleine Codebase-Bibliotheken für die Handhabung von Unicode-Strings gefunden (braucht keine Einbürgerung).

  • utf8-cpp ist großartig! problemlos auf ios/android portiert. Header nur Bibliothek

    – Barney

    21. Mai 2016 um 15:25 Uhr

Avis Benutzeravatar
Avi

Eine schöne, leichte Bibliothek, die ich erfolgreich verwende, ist utf8proc.

Benutzeravatar von xenu
Xenu

Es gibt auch MicroUTF-8aber möglicherweise sind Anmeldeinformationen erforderlich, um die Quelle anzuzeigen oder herunterzuladen.

UTF-8 ist speziell darauf ausgelegt, dass viele Byte-orientierte String-Funktionen weiterhin funktionieren oder nur geringfügig modifiziert werden müssen.

Cs strstr Die Funktion funktioniert beispielsweise einwandfrei, solange beide Eingaben gültige, nullterminierte UTF-8-Zeichenfolgen sind. strcpy funktioniert gut, solange die Eingabezeichenfolge an einer Zeichengrenze beginnt (z. B. der Rückgabewert von strstr).

Sie benötigen also möglicherweise nicht einmal eine separate Bibliothek!

  • Sehr wahr, bis jetzt musste ich nur Strings speichern/kopieren und tat genau das. Aber dann fing ich an, Wörter für die Indexierung zu teilen/stammen, also wollte ich sicherstellen, dass ich richtig damit umgehe.

    – Akusete

    24. November 2008 um 7:33 Uhr

  • Obwohl sie funktionieren, werden Suchfunktionen angesichts von UTF-8-Zeichen wahrscheinlich nicht so gut funktionieren. Wenn beispielsweise festgestellt werden kann, dass ein UTF-8-Zeichen nicht sofort übereinstimmt (häufig möglich, wenn es mit einem ASCII-Zeichen verglichen wird), kann die gesamte UTF-8-Zeichencodierung, die aus mehreren Bytes bestehen kann, übersprungen werden. Aber Sie haben Recht, dass einige Funktionen von C gut mit UTF-8-Strings funktionieren, was einer der Gründe dafür ist, dass UTF-8 so beliebt ist.

    – Ethan

    24. Januar 2012 um 0:56 Uhr

  • Nicht abstürzen ist nicht dasselbe wie funktionieren: Etwas so Einfaches wie die Zeichenfolgengröße funktioniert nicht für UTF-8. UTF-8 wurde NICHT speziell für Bibliothekskompatibilität entwickelt.

    – Adrian Maire

    3. Juli 2017 um 13:59 Uhr

1411390cookie-checkLight C Unicode-Bibliothek [closed]

This website is using cookies to improve the user-friendliness. You agree by using the website further.

Privacy policy