Wie schreibe ich schnellen (Low-Level-) Code? [closed]

Question 1

Ich möchte mehr über die Low-Level-Code-Optimierung und die Nutzung der zugrunde liegenden Maschinenarchitektur erfahren. Ich suche nach guten Hinweisen, wo ich über dieses Thema lesen kann.

Mehr Details:

Ich interessiere mich für Optimierung im Kontext des wissenschaftlichen Rechnens (was aber viel Rechenarbeit ist nicht nur) in Low-Level-Sprachen wie C/C++. Ich interessiere mich besonders für Optimierungsmethoden, die nicht offensichtlich sind, es sei denn, man hat ein gutes Verständnis dafür, wie die Maschine funktioniert (was ich noch nicht weiß).

Zum Beispiel ist klar, dass ein besserer Algorithmus schneller ist, ohne etwas über die Maschine zu wissen, auf der er läuft. Es ist überhaupt nicht offensichtlich, dass es darauf ankommt, ob man zuerst die Spalten oder die Zeilen einer Matrix durchläuft. (Es ist besser, die Matrix zu durchlaufen, damit Elemente, die an benachbarten Stellen gespeichert sind, nacheinander gelesen werden.)

Grundsätzliche Hinweise zum Thema oder Hinweise auf Artikel sind herzlich willkommen.

Antworten

Ich habe Antworten mit vielen großartigen Hinweisen erhalten, viel mehr, als ich jemals Zeit zum Lesen haben werde. Hier ist eine Liste mit allen:

Das Kochbuch zur Softwareoptimierung von Intel (Buch)
Was jeder Programmierer über Speicher wissen sollte (pdf-Buch)
Write Great Code, Volume 2: Thinking Low-Level, Writing High-Level (Buch)

Ressourcen zur Softwareoptimierung von Agner Fog (fünf ausführliche PDF-Handbücher)

Ich brauche ein wenig Zeit zum Überfliegen, um zu entscheiden, welches ich verwenden soll (ich habe keine Zeit für alle).

Question 2

Dreppers Was jeder Programmierer über Speicher wissen sollte [pdf] ist ein guter Hinweis auf einen Aspekt der Low-Level-Optimierung.

Question 3

Für Intel-Architekturen ist dies unbezahlbar: Das Kochbuch zur Softwareoptimierung, zweite Auflage

Question 4

Es ist schon ein paar Jahre her, dass ich es gelesen habe, aber Write Great Code, Volume 2: Thinking Low-Level, Writing High-Level von Randall Hyde war ziemlich gut. Es gibt gute Beispiele dafür, wie C/C++-Code in Assembler übersetzt wird, z. B. was wirklich passiert, wenn Sie einen großen haben switch Aussage.

Ebenfalls, altdevblogaday.com konzentriert sich auf die Spieleentwicklung, aber die Programmierartikel könnten Ihnen einige Ideen geben.

Question 5

Hacker’s Delight ist ein interessantes Buch über Bit-Manipulation und clevere Wege, Dinge auf niedriger Ebene zu erledigen.

Dies ist definitiv eine Lektüre wert für alle, die sich für Low-Level-Codierung interessieren.

Question 6

Kasse: http://www.agner.org/optimize/

Question 7

C und C ++ sind normalerweise die Sprachen, die aufgrund ihrer Geschwindigkeit dafür verwendet werden (fortran ignorieren, da Sie es nicht erwähnt haben). Was Sie nutzen können (was der ICC-Compiler häufig tut), sind SSE-Befehlssätze für eine Menge Verarbeitung von Gleitkommazahlen. Eine andere Sache, die möglich ist, ist die Verwendung von CUDA- und Stream-APIs für Nvidia/Ati, um SEHR schnelle Gleitkommaoperationen auf der Grafikkarte auszuführen, während die CPU für den Rest der Arbeit frei bleibt.

Question 8

Ein weiterer Ansatz hierfür ist der praktische Vergleich. Sie können sich eine Bibliothek wie Blitz++ (http://www.oonumerics.org/blitz/) besorgen, die – wie mir gesagt wurde – aggressive Optimierungen für numerisches/wissenschaftliches Rechnen implementiert, und dann einige einfache Programme schreiben, die für Sie interessante Operationen ausführen ( zB Matrixmultiplikationen). Wenn Sie Blitz++ verwenden, um sie auszuführen, schreiben Sie Ihre eigene Klasse, die dasselbe tut, und wenn sich Blitz++ als schneller erweist, beginnen Sie mit der Untersuchung seiner Implementierung, bis Sie erkennen, warum. (Wenn Ihres deutlich schneller ist, können Sie es den Blitz++-Entwicklern mitteilen!)

Am Ende solltest du viele Dinge lernen, zum Beispiel:

Speicher-Cache-Zugriffsmuster
Ausdrucksvorlagen (es gibt einige schlechte Links auf den Google-Suchergebnissen zu Ausdrucksvorlagen – das Schlüsselszenario/die Schlüsseleigenschaft, über die Sie eine Diskussion finden möchten, ist, dass sie viele aufeinanderfolgende Schritte in einer Kette von Vorgängen codieren können, sodass sie alle während einer Schleife angewendet werden ein Datensatz)

einige CPU-spezifische Anweisungen (obwohl ich nicht überprüft habe, ob sie solche nicht tragbaren Techniken verwendet haben) …