Wie erreicht man lockfreies, aber blockierendes Verhalten?

Question 1

Ich implementiere eine lock-freie Single-Producer-Single-Consumer-Warteschlange für eine intensive Netzwerkanwendung. Ich habe eine Reihe von Worker-Threads, die Arbeit in ihren eigenen separaten Warteschlangen empfangen, die sie dann aus der Warteschlange entfernen und verarbeiten.

Das Entfernen der Sperren aus diesen Warteschlangen hat die Leistung unter hoher Last erheblich verbessert. aber sie blockieren nicht mehr, wenn die Warteschlangen leer sindwas wiederum die CPU-Auslastung in die Höhe schnellen lässt.

Wie kann ich effizient bewirken, dass ein Thread blockiert, bis er erfolgreich etwas aus der Warteschlange entfernen kann oder beendet/unterbrochen wird?

Question 2

Wenn Sie Linux verwenden, prüfen Sie die Verwendung von a Futex. Es bietet die Leistung einer nicht sperrenden Implementierung, indem es atomare Operationen anstelle von Kernel-Aufrufen verwendet, wie es ein Mutex tun würde, aber sollten Sie den Prozess in den Leerlauf versetzen müssen, weil eine Bedingung nicht wahr ist (z. B. Sperrkonflikt), wird es das tun Führen Sie dann die entsprechenden Kernel-Aufrufe durch, um den Prozess in den Ruhezustand zu versetzen und bei einem zukünftigen Ereignis wieder aufzuwecken. Es ist im Grunde wie eine sehr schnelle Semaphore.

Question 3

Unter Linux, futex kann verwendet werden, um einen Thread zu blockieren. Aber seien Sie sich dessen bewusst Futexe sind knifflig!

UPDATE: Bedingungsvariablen sind viel sicherer zu verwenden als Futexes und portabler. Allerdings wird eine Bedingungsvariable in Kombination mit einem Mutex verwendet, sodass das Ergebnis streng genommen nicht mehr lock-frei ist. Wenn Ihr primäres Ziel jedoch die Leistung ist (und nicht die Garantie des globalen Fortschritts) und der gesperrte Teil (dh eine Bedingung, die nach dem Aufwecken des Threads überprüft werden soll) klein ist, kann es vorkommen, dass Sie zufriedenstellende Ergebnisse erhalten, ohne darauf eingehen zu müssen Feinheiten der Integration von Futexen in den Algorithmus.

Question 4

Wenn Sie Windows verwenden, können Sie keine Futexes verwenden, aber Windows Vista verfügt über einen ähnlichen Mechanismus namens Geschlüsselte Ereignisse. Leider ist dies kein Teil der veröffentlichten API (es ist eine native NTDLL-API), aber Sie können es verwenden, solange Sie den Vorbehalt akzeptieren, dass es sich in zukünftigen Versionen von Windows ändern könnte (und Sie müssen es nicht ausführen). Pre-Vista-Kernel). Lesen Sie unbedingt den Artikel, den ich oben verlinkt habe. Hier ist ein ungetestet Skizze, wie es funktionieren könnte:

/* Interlocked SList queue using keyed event signaling */

struct queue {
    SLIST_HEADER slist;
    // Note: Multiple queues can (and should) share a keyed event handle
    HANDLE keyed_event;
    // Initial value: 0
    // Prior to blocking, the queue_pop function increments this to 1, then
    // rechecks the queue. If it finds an item, it attempts to compxchg back to
    // 0; if this fails, then it's racing with a push, and has to block
    LONG block_flag;
};

void init_queue(queue *qPtr) {
    NtCreateKeyedEvent(&qPtr->keyed_event, -1, NULL, 0);
    InitializeSListHead(&qPtr->slist);
    qPtr->blocking = 0;
}

void queue_push(queue *qPtr, SLIST_ENTRY *entry) {
    InterlockedPushEntrySList(&qPtr->slist, entry);

    // Transition block flag 1 -> 0. If this succeeds (block flag was 1), we
    // have committed to a keyed-event handshake
    LONG oldv = InterlockedCompareExchange(&qPtr->block_flag, 0, 1);
    if (oldv) {
        NtReleaseKeyedEvent(qPtr->keyed_event, (PVOID)qPtr, FALSE, NULL);
    }
}

SLIST_ENTRY *queue_pop(queue *qPtr) {
    SLIST_ENTRY *entry = InterlockedPopEntrySList(&qPtr->slist);
    if (entry)
        return entry; // fast path

    // Transition block flag 0 -> 1. We must recheck the queue after this point
    // in case we race with queue_push; however since ReleaseKeyedEvent
    // blocks until it is matched up with a wait, we must perform the wait if
    // queue_push sees us
    LONG oldv = InterlockedCompareExchange(&qPtr->block_flag, 1, 0);

    assert(oldv == 0);

    entry = InterlockedPopEntrySList(&qPtr->slist);
    if (entry) {
        // Try to abort
        oldv = InterlockedCompareExchange(&qPtr->block_flag, 0, 1);
        if (oldv == 1)
            return entry; // nobody saw us, we can just exit with the value
    }

    // Either we don't have an entry, or we are forced to wait because
    // queue_push saw our block flag. So do the wait
    NtWaitForKeyedEvent(qPtr->keyed_event, (PVOID)qPtr, FALSE, NULL);
    // block_flag has been reset by queue_push

    if (!entry)
        entry = InterlockedPopEntrySList(&qPtr->slist);
    assert(entry);

    return entry;
}

Sie könnten auch ein ähnliches Protokoll verwenden Schlank lesen und schreiben Schlösser u Bedingungsvariablen, mit einem lockless schnellen Pfad. Dies sind Wrapper für Schlüsselereignisse, sodass sie möglicherweise mehr Overhead verursachen als die direkte Verwendung von Schlüsselereignissen.

Question 5

Hast du es mal mit bedingtem Warten versucht? Wenn die Warteschlange leer wird, warten Sie einfach auf einen neuen Job. Der Thread, der Jobs in die Warteschlange stellt, sollte das Signal auslösen. Auf diese Weise verwenden Sie Sperren nur, wenn die Warteschlange leer ist.

https://computing.llnl.gov/tutorials/pthreads/#ConditionVariables

Question 6

Sie können einen Thread in den Ruhezustand versetzen, indem Sie die Funktion sigwait() verwenden. Sie können den Thread mit pthread_kill aufwecken. Dies ist viel schneller als Bedingungsvariablen.

Question 7

Sie könnten schlafen hinzufügen, während es wartet. Wählen Sie einfach die größte Wartezeit aus, zu der Sie bereit sind, und tun Sie dann so etwas (Pseudocode, weil ich mich nicht an die pthread-Syntax erinnere):

WAIT_TIME = 100; // Set this to whatever you're happy with
while(loop_condition) {
   thing = get_from_queue()
   if(thing == null) {
       sleep(WAIT_TIME);
   } else {
       handle(thing);
   }
}

Selbst etwas kurzes wie ein 100-ms-Schlaf sollte die CPU-Auslastung erheblich senken. Ich bin mir nicht sicher, an welchem Punkt der Kontextwechsel es schlimmer machen wird als das geschäftige Warten.