Fließkommazahlen mit fester Breite in C/C++

Question 1

int ist normalerweise 32 Bit, aber im Standard int Eine konstante Breite ist nicht garantiert. Also, wenn wir ein 32-Bit wollen int wir beinhalten stdint.h und verwenden int32_t.

Gibt es dafür ein Äquivalent für Schwimmer? Mir ist klar, dass es mit Floats etwas komplizierter ist, da sie nicht auf homogene Weise gespeichert werden, dh Vorzeichen, Exponent, Signifikand. Ich will nur ein double das wird garantiert in 64 Bit mit 1 Vorzeichenbit, 10 Bit Exponent und 52/53 Bit Signifikand gespeichert (abhängig davon, ob Sie das versteckte Bit zählen).

Question 2

Entsprechend der aktuelle C99-Standardentwurf, Anhang F, das sollte doppelt sein. Dies setzt natürlich voraus, dass Ihre Compiler diesen Teil des Standards erfüllen.

Für C++ habe ich den 0x-Entwurf und einen Entwurf für die Version 1998 des Standards überprüft, aber keiner scheint irgendetwas über die Darstellung wie den Teil des C99-Standards zu spezifizieren, abgesehen von einem bool in numeric_limits, der diesen IEEE 754/IEC 559 angibt wird auf dieser Plattform verwendet, wie Josh Kelley erwähnt.

Sehr wenige Plattformen unterstützen IEEE 754 jedoch nicht – es lohnt sich im Allgemeinen nicht, ein anderes Gleitkommaformat zu entwickeln, da IEEE 754 gut definiert ist und recht gut funktioniert – und wenn das unterstützt wird, dann ist es eine vernünftige Annahme, dass es doppelt ist ist in der Tat 64 Bit (IEEE 754-1985 nennt dieses Format immerhin Double-Precision, also macht es Sinn).

Für den Fall, dass doppelt keine doppelte Genauigkeit ist, bauen Sie eine Plausibilitätsprüfung ein, damit Benutzer dies melden können und Sie diese Plattform separat verwalten können. Wenn die Plattform IEEE 754 nicht unterstützt, erhalten Sie diese Darstellung sowieso nicht, es sei denn, Sie implementieren sie selbst.

Question 3

Obwohl ich keinen Typ kenne, der eine bestimmte Größe und ein bestimmtes Format garantiert, haben Sie in C++ einige Optionen. Du kannst den … benutzen <limits> Header und seine std::numeric_limits Klassenvorlage, um die Größe eines bestimmten Typs herauszufinden, std::numeric_limits::digits gibt Ihnen die Anzahl der Bits in der Mantisse an, und std::numeric_limits::is_iec559 sollte Ihnen sagen, ob der Typ dem IEEE-Format folgt. (Beispielcode, der IEEE-Zahlen auf Bitebene manipuliert, finden Sie in der FloatingPoint-Klassenvorlage in Google Test’s gtest-intern.h.)

Question 4

Das andere Problem ist die Darstellung von Gleitkommazahlen. Dies basiert normalerweise auf der Hardware, auf der Sie ausgeführt werden (aber nicht immer). Die meisten Systeme verwenden IEEE 754-Gleitkommastandards, aber andere können auch ihre eigenen Standards haben (ein Beispiel wäre ein VAX-Computer).

Wikipedia-Erklärung zu IEEE 754 http://en.wikipedia.org/wiki/IEEE_754-2008

Question 5

Mir ist keine Variation in Float/Double bekannt. Float ist seit Ewigkeiten 32 Bit und Double 64 Bit. Gleitkomma-Semantik ist ziemlich kompliziert, aber es gibt Konstanten darin

#include <limits>

boost.numeric.bounds ist eine einfachere Schnittstelle, wenn Sie nicht alles in std::numeric_limits benötigen

Question 6

Auch das ist leider nicht garantiert. Sie müssen überprüfen numeric_limits< T > in
<limits>.

Andererseits habe ich noch nie von einer Implementierung gehört, bei der ein Double nicht 64 Bit lang war. Wenn Sie nur vermuten wollten, würden Sie wahrscheinlich damit durchkommen.

Question 7

Eines der größten Probleme mit dieser Art von „Typen mit fester Breite“ ist, dass es so leicht ist, etwas falsch zu machen. Sie wollten wahrscheinlich keine 32-Bit-Ganzzahl. Was ist der Punkt? Was Sie wollten, ist ein Integer-Typ, der mindestens 1 >> 31 speichern kann. Das ist long int. Du brauchst nicht einmal <stdint.h> dafür.

Ebenso kann Ihre Skriptsprache einen FP-Typ implementieren, der so lange funktioniert wie das zugrunde liegende C++ float ist wenigstens 32 Bit. Beachten Sie, dass dies Ihnen immer noch kein genaues Verhalten gibt. Ich bin mir ziemlich sicher, dass C++ das nicht garantiert -1.0/-3.0==1.0/3.0