PHP-Parallelitätsproblem, mehrere gleichzeitige Anfragen; Mutexe?

Question 1

Ich habe gerade festgestellt, dass PHP möglicherweise mehrere Anfragen gleichzeitig ausführt. Die Protokolle von letzter Nacht scheinen zu zeigen, dass zwei Anfragen eingegangen sind, die parallel bearbeitet wurden; jeder löste einen Datenimport von einem anderen Server aus; Jeder versuchte, einen Datensatz in die Datenbank einzufügen. Eine Anfrage schlug fehl, als versucht wurde, einen Datensatz einzufügen, den der andere Thread gerade eingefügt hatte (die importierten Daten werden mit PKs geliefert; ich verwende keine inkrementierenden IDs): SQLSTATE[23000]: Integrity constraint violation: 1062 Duplicate entry '865020' for key 'PRIMARY' ....

Habe ich dieses Problem richtig diagnostiziert?

Wie soll ich das ansprechen?

Das Folgende ist ein Teil des Codes. Ich habe viel davon entfernt (die Protokollierung, die Erstellung anderer Entitäten außerhalb des Patienten aus den Daten), aber das Folgende sollte die relevanten Ausschnitte enthalten. Anfragen treffen im Wesentlichen auf die import()-Methode, die importOne() für jeden zu importierenden Datensatz aufruft. Beachten Sie die save-Methode in importOne(); das ist eine Eloquent-Methode (unter Verwendung von Laravel und Eloquent), die die SQL generiert, um den Datensatz entsprechend einzufügen/aktualisieren.

public function import()
{
        $now = Carbon::now();
        // Get data from the other server in the time range from last import to current import
        $calls = $this->getCalls($this->getLastImport(), $now);
        // For each call to import, insert it into the DB (or update if it already exists)
        foreach ($calls as $call) {
            $this->importOne($call);
        }
        // Update the last import time to now so that the next import uses the correct range
        $this->setLastImport($now);
}

private function importOne($call)
{
    // Get the existing patient for the call, or create a new one
    $patient = Patient::where('id', '=', $call['PatientID'])->first();
    $isNewPatient = $patient === null;
    if ($isNewPatient) {
        $patient = new Patient(array('id' => $call['PatientID']));
    }
    // Set the fields
    $patient->given_name = $call['PatientGivenName'];
    $patient->family_name = $call['PatientFamilyName'];
    // Save; will insert/update appropriately
    $patient->save();
}

Ich würde vermuten, dass die Lösung einen Mutex um den gesamten Importblock erfordern würde? Und wenn eine Anfrage keinen Mutex erreichen konnte, würde sie einfach mit dem Rest der Anfrage fortfahren. Gedanken?

EDIT: Nur um anzumerken, dass dies kein kritischer Fehler ist. Die Ausnahme wird abgefangen und protokolliert, und dann wird wie gewohnt auf die Anfrage geantwortet. Und der Import ist bei der anderen Anfrage erfolgreich, und dann wird diese Anfrage wie gewohnt beantwortet. Die Benutzer sind nicht klüger; Sie wissen nicht einmal über den Import Bescheid, und das ist nicht der Hauptfokus der eingehenden Anfrage. Also wirklich, ich könnte das einfach so laufen lassen, wie es ist, und abgesehen von gelegentlichen Ausnahmen passiert nichts Schlimmes. Aber wenn es einen Fix gibt, um zu verhindern, dass unnötigerweise zusätzliche Arbeit geleistet wird/mehrere Anfragen an diesen anderen Server gesendet werden, könnte es sich lohnen, dies zu verfolgen.

EDIT2: Okay, ich habe versucht, einen Sperrmechanismus mit flock() zu implementieren. Gedanken? Würde folgendes funktionieren? Und wie würde ich diesen Zusatz testen?

public function import()
{
    try {
        $fp = fopen('/tmp/lock.txt', 'w+');
        if (flock($fp, LOCK_EX)) {
            $now = Carbon::now();
            $calls = $this->getCalls($this->getLastImport(), $now);
            foreach ($calls as $call) {
                $this->importOne($call);
            }
            $this->setLastImport($now);
            flock($fp, LOCK_UN);
            // Log success.
        } else {
            // Could not acquire file lock. Log this.
        }
        fclose($fp);
    } catch (Exception $ex) {
        // Log failure.
    }
}

EDIT3: Gedanken zur folgenden alternativen Implementierung der Sperre:

public function import()
{
    try {
        if ($this->lock()) {
            $now = Carbon::now();
            $calls = $this->getCalls($this->getLastImport(), $now);
            foreach ($calls as $call) {
                $this->importOne($call);
            }
            $this->setLastImport($now);
            $this->unlock();
            // Log success
        } else {
            // Could not acquire DB lock. Log this.
        }
    } catch (Exception $ex) {
        // Log failure
    }
}

/**
 * Get a DB lock, returns true if successful.
 *
 * @return boolean
 */
public function lock()
{
    return DB::SELECT("SELECT GET_LOCK('lock_name', 1) AS result")[0]->result === 1;
}

/**
 * Release a DB lock, returns true if successful.
 *
 * @return boolean
 */
public function unlock()
{
    return DB::select("SELECT RELEASE_LOCK('lock_name') AS result")[0]->result === 1;
}

Question 2

Es sieht nicht so aus, als hätten Sie eine Race-Bedingung, da die ID aus der Importdatei stammt und wenn Ihr Importalgorithmus ordnungsgemäß funktioniert, hätte jeder Thread seinen eigenen Teil der zu erledigenden Arbeit und sollte niemals in Konflikt geraten Andere. Jetzt scheint es, als ob 2 Threads eine Anfrage erhalten, denselben Patienten zu erstellen, und wegen eines schlechten Algorithmus miteinander in Konflikt geraten.

Stellen Sie sicher, dass jeder generierte Thread eine neue Zeile aus der Importdatei erhält, und wiederholen Sie dies nur bei einem Fehler.

Wenn Sie das nicht können und bei Mutex bleiben wollen, scheint die Verwendung einer Dateisperre keine sehr schöne Lösung zu sein, da Sie den Konflikt jetzt innerhalb der Anwendung gelöst haben, während er tatsächlich in Ihrer Datenbank auftritt. Eine DB-Sperre sollte auch viel schneller und insgesamt eine anständigere Lösung sein.

Fordern Sie eine Datenbanksperre wie folgt an:

$db -> exec(‘TABELLEN SPERREN table1 SCHREIBEN, table2 SCHREIBEN’);

Und Sie können einen SQL-Fehler erwarten, wenn Sie in eine gesperrte Tabelle schreiben würden, also umgeben Sie Ihren Patient->save() mit einem try catch.

Eine noch bessere Lösung wäre die Verwendung einer bedingten atomaren Abfrage. Eine DB-Abfrage, die auch die Bedingung enthält. Sie könnten eine Abfrage wie diese verwenden:

INSERT INTO targetTable(field1) 
SELECT field1
FROM myTable
WHERE NOT(field1 IN (SELECT field1 FROM targetTable))

Question 3

Ihr Beispielcode würde die zweite Anfrage blockieren, bis die erste abgeschlossen ist. Sie müssten verwenden LOCK_NB Option für flock() Fehler sofort zurückzugeben und nicht zu warten.

Ja, Sie können entweder Sperren oder Semaphore verwenden, entweder auf Dateisystemebene oder direkt in der Datenbank.

In Ihrem Fall, in dem jede Importdatei nur einmal verarbeitet werden muss, wäre die beste Lösung, eine SQL-Tabelle mit Zeilen für jede Importdatei zu haben. Zu Beginn des Imports fügen Sie die Information ein, dass der Import im Gange ist, damit andere Threads wissen, dass sie ihn nicht erneut verarbeiten sollen. Nachdem der Import abgeschlossen ist, markieren Sie ihn als solchen. (Dann können Sie einige Stunden später in der Tabelle nachsehen, ob der Import wirklich abgeschlossen ist.)

Außerdem ist es besser, solche einmaligen, langlebigen Dinge wie den Import in separaten Skripten durchzuführen und nicht, während den Besuchern normale Webseiten bereitgestellt werden. Beispielsweise können Sie einen nächtlichen Cron-Job planen, der die Importdatei abholt und verarbeitet.

Question 4

Ich sehe drei Möglichkeiten:

– Mutex/Semaphor/ein anderes Flag verwenden – nicht einfach zu codieren und zu warten

– DB-integrierten Transaktionsmechanismus verwenden

– Verwenden Sie eine Warteschlange (wie RabbitMQ oder 0MQ), um Nachrichten nacheinander in die DB zu schreiben