Den Bruchteil eines Floats erhalten, ohne modf() zu verwenden

Question 1

Ich entwickle für eine Plattform ohne Mathematikbibliothek, also muss ich meine eigenen Tools bauen. Meine derzeitige Methode, den Bruch zu erhalten, besteht darin, den Float in einen Festkommawert umzuwandeln (mit (float)0xFFFF zu multiplizieren, in int umzuwandeln), nur den unteren Teil zu erhalten (mit 0xFFFF zu maskieren) und ihn wieder in einen Float umzuwandeln.

Allerdings bringt mich die Ungenauigkeit um. Ich verwende meine Frac()- und InvFrac()-Funktionen, um eine Anti-Aliasing-Linie zu zeichnen. Verwenden modf Ich bekomme eine perfekt glatte Linie. Bei meiner eigenen Methode springen Pixel aufgrund von Präzisionsverlusten herum.

Das ist mein Code:

const float fp_amount = (float)(0xFFFF);
const float fp_amount_inv = 1.f / fp_amount;

inline float Frac(float a_X)
{
    return ((int)(a_X * fp_amount) & 0xFFFF) * fp_amount_inv;
}

inline float Frac(float a_X)
{
    return (0xFFFF - (int)(a_X * fp_amount) & 0xFFFF) * fp_amount_inv;
}

Danke im Voraus!

Question 2

Wenn ich deine Frage richtig verstehe, willst du nur die Nachkommastelle oder? Sie brauchen es eigentlich nicht in einem Bruch (ganzzahliger Zähler und Nenner)?

Wir haben also eine Zahl, sagen wir 3.14159 und wir wollen am Ende nur 0.14159. Angenommen, unsere Nummer ist in gespeichert float f;Wir können das schaffen:

f = f-(long)f;

Was, wenn wir unsere Nummer einfügen, so funktioniert:

0.14159 = 3.14159 - 3;

Dadurch wird der ganzzahlige Teil des Floats entfernt und nur der Dezimalteil übrig gelassen. Wenn Sie den Float in einen Long umwandeln, wird der Dezimalteil gelöscht. Wenn Sie das dann von Ihrem ursprünglichen Float abziehen, bleibt übrig nur der Dezimalteil. Wir müssen hier wegen der Größe eine lange verwenden float Typ (8 Bytes auf den meisten Systemen). Eine Ganzzahl (auf vielen Systemen nur 4 Bytes) ist nicht unbedingt groß genug, um den gleichen Zahlenbereich abzudecken wie a floataber ein long sollte sein.

Question 3

Wie ich vermutete, modf verwendet keine Arithmetik an sich — es sind alles Schichten und Masken, schau mal hier. Können Sie nicht dieselben Ideen auf Ihrer Plattform verwenden?

Question 4

Ich würde empfehlen, einen Blick darauf zu werfen, wie modf auf den Systemen implementiert ist, die Sie heute verwenden. Sehen Sie sich die Version von uClibc an.

http://git.uclibc.org/uClibc/tree/libm/s_modf.c

(Aus rechtlichen Gründen scheint es BSD-lizenziert zu sein, aber Sie möchten es natürlich noch einmal überprüfen.)

Einige der Makros sind definiert hier.

Question 5

Es gibt einen Fehler in Ihren Konstanten. Sie versuchen im Grunde, die Zahl um 16 Bit nach links zu verschieben, alles außer den unteren Bits zu maskieren und dann erneut um 16 Bit nach rechts zu verschieben. Das Verschieben ist dasselbe wie das Multiplizieren mit einer Potenz von 2, aber Sie verwenden keine Potenz von 2 – Sie verwenden 0xFFFF, das um 1 ausgeschaltet ist. Wenn Sie dies durch 0x10000 ersetzen, funktioniert die Formel wie beabsichtigt.

Question 6

Ich bin mir nicht ganz sicher, aber ich denke, dass das, was Sie tun, falsch ist, da Sie nur die Mantisse berücksichtigen und den Exponenten vollständig vergessen.

Sie müssen den Exponenten verwenden, um den Wert in der Mantisse zu verschieben, um den tatsächlichen ganzzahligen Teil zu finden.

Eine Beschreibung des Speichermechanismus von 32-Bit-Floats finden Sie hier hier.

Question 7

Warum sollten Sie für Ihre Strichzeichnung überhaupt zu Gleitkommazahlen wechseln? Sie könnten einfach bei Ihrer Festkommaversion bleiben und stattdessen eine auf Ganzzahlen/Festkomma basierende Strichzeichnungsroutine verwenden – Bresenhams kommt mir in den Sinn. Obwohl diese Version kein Alias ist, weiß ich, dass es andere gibt, die es sind.

Bresenhams Strichzeichnung

Question 8

Scheint so, als ob du das vielleicht willst.

float f = something;
float fractionalPart = f - floor(f);