Warum gilt ein pthread-Mutex als “langsamer” als ein futex?

Question 1

Warum gelten POSIX-Mutexe als schwerer oder langsamer als Futex? Woher kommt der Overhead im Mutex-Typ pthread? Ich habe gehört, dass pthread-Mutexe auf futexes basieren und, wenn unbestritten, keine Aufrufe in den Kernel tätigen. Es scheint also, dass ein Pthread-Mutex lediglich ein “Wrapper” um einen Futex ist.

Besteht der Overhead einfach im Funktions-Wrapper-Aufruf und in der Notwendigkeit, dass die Mutex-Funktion den Futex “einrichtet” (dh im Grunde die Einrichtung des Stapels für den pthread-Mutex-Funktionsaufruf)? Oder finden mit dem pthread-Mutex einige zusätzliche Schritte zur Speicherbarriere statt?

Question 2

Futexes wurden erstellt, um die Leistung von pthread-Mutexes zu verbessern. NPTL verwendet futexes, LinuxThreads vordatierte futexes, was meiner Meinung nach der Grund für die “langsamere” Überlegung ist. NPTL-Mutexe haben möglicherweise zusätzlichen Overhead, aber es sollte nicht viel sein.

Bearbeiten:
Der eigentliche Overhead besteht im Wesentlichen aus:

Auswählen des richtigen Algorithmus für den Mutex-Typ (normal, rekursiv, adaptiv, fehlerüberprüfend; normal, robust, prioritätsvererbt, prioritätsgeschützt), wobei der Code dem Compiler deutliche Hinweise darauf gibt, dass wir wahrscheinlich einen normalen Mutex verwenden (so es sollte dies der Verzweigungsvorhersagelogik der CPU übermitteln),
und ein Schreiben des aktuellen Eigentümers des Mutex, wenn wir es schaffen, ihn zu nehmen, was normalerweise schnell sein sollte, da er sich in derselben Cache-Zeile befindet wie die tatsächliche Sperre, die wir gerade genommen haben, es sei denn, die Sperre ist stark umkämpft und etwas anderes Die CPU hat auf die Sperre zwischen dem Zeitpunkt zugegriffen, an dem wir sie genommen haben, und als wir versuchten, den Besitzer zu schreiben (dieser Schreibvorgang ist für normale Mutexe nicht erforderlich, wird jedoch für die Fehlerprüfung und rekursive Mutexe benötigt).

Also ein paar Zyklen (typischer Fall) bis ein paar Zyklen + eine Verzweigungsfehlvorhersage + ein zusätzlicher Cache-Fehltreffer (sehr schlimmster Fall).

Question 3

Die kurze Antwort auf Ihre Frage lautet, dass Futexe bekanntermaßen so effizient wie möglich implementiert werden, während ein pthread-Mutex dies möglicherweise ist oder nicht. Zumindest hat ein pthread-Mutex Overhead, der mit der Bestimmung des Mutex-Typs verbunden ist, und Futexes nicht. Ein Futex ist also fast immer mindestens so effizient wie ein pthread-Mutex, bis jemand sich eine leichtere Struktur als ein futex ausdenkt und dann eine pthreads-Implementierung veröffentlicht, die diese für ihren Standard-Mutex verwendet.

Question 4

Technisch gesehen sind pthread-Mutexe nicht langsamer oder schneller als futexes. pthread ist nur eine Standard-API, also hängt es davon ab, ob sie langsam oder schnell sind Implementierung dieser API.

Speziell unter Linux werden pthread Mutexe als Futex implementiert und sind daher schnell. Eigentlich möchten Sie die futex-API selbst nicht verwenden, da sie sehr schwer zu verwenden ist, nicht über die entsprechenden Wrapper-Funktionen in glibc verfügt und eine Codierung in Assembler erfordert, die nicht portierbar wäre. Zum Glück für uns haben die Glibc-Betreuer all dies bereits für uns unter der Haube der pthread-Mutex-API codiert.

Nun, weil die meisten Betriebssysteme hat keine Futexe implementiert dann meinen Programmierer normalerweise, dass pthread Mutex die Leistung ist, die Sie von der üblichen Implementierung von pthread Mutexes erhalten, was langsamer ist.

Es ist also eine statistische Tatsache, dass in den meisten Betriebssystemen, die POSIX-konform sind, der pthread-Mutex im Kernel-Space implementiert ist und langsamer als ein Futex ist. Unter Linux haben sie die gleiche Leistung. Es könnte sein, dass es andere Betriebssysteme gibt, bei denen pthread-Mutexe im Benutzerbereich implementiert sind (im unbestrittenen Fall) und daher eine bessere Leistung aufweisen, aber mir ist an dieser Stelle nur Linux bekannt.

Question 5

Weil sie so viel wie möglich im Userspace bleiben, was bedeutet, dass sie weniger Systemaufrufe benötigen, was von Natur aus schneller ist, weil der Kontextwechsel zwischen Benutzer- und Kernelmodus teuer ist.

Ich nehme an, du redest von Kernel Threads, wenn Sie über POSIX-Threads sprechen. Es ist durchaus möglich, eine vollständige Userspace-Implementierung von POSIX-Threads zu haben, die keine Systemaufrufe erfordern, aber andere eigene Probleme haben.

Mein Verständnis ist, dass ein Futex auf halbem Weg zwischen einem Kernel-POSIX-Thread und einem Userspace-POSIX-Thread liegt.

Question 6

Auf AMD64 ist ein futex 4 Bytes, während ein NPTL pthread_mutex_t 56 Bytes ist! Ja, es gibt einen erheblichen Overhead.