Gemeinsamer Speicher zwischen Python-Prozessen

Question 1

Ich versuche, einen Weg zu finden, Speicher zwischen Python-Prozessen zu teilen. Grundsätzlich gibt es Objekte, die mehrere Python-Prozesse lesen (nur lesen) und verwenden können müssen (keine Mutation). Im Moment wird dies mit redis + strings + cPickle implementiert, aber cPickle nimmt wertvolle CPU-Zeit in Anspruch, daher möchte ich das nicht verwenden müssen. Die meisten der Python-Shared-Memory-Implementierungen, die ich im Internet gesehen habe, scheinen Dateien und Gurken zu erfordern, was im Grunde das ist, was ich bereits tue und genau das, was ich versuche zu vermeiden.

Was ich mich frage, ist, ob es eine Möglichkeit gäbe, ein Like zu schreiben … im Grunde eine In-Memory-Python-Objektdatenbank/-server und ein entsprechendes C-Modul als Schnittstelle zur Datenbank?

Grundsätzlich würde das C-Modul den Server nach einer Adresse fragen, an die ein Objekt geschrieben werden soll, der Server würde mit einer Adresse antworten, dann würde das Modul das Objekt schreiben und den Server benachrichtigen, dass ein Objekt mit einem bestimmten Schlüssel auf die Festplatte geschrieben wurde angegebenen Ort. Wenn dann einer der Prozesse ein Objekt mit einem bestimmten Schlüssel abrufen wollte, fragte er einfach die Datenbank nach dem Speicherort für den angegebenen Schlüssel, der Server antwortete mit dem Ort und das Modul würde wissen, wie dieser Speicherplatz in den Speicher geladen werden soll und Übertragen Sie das Python-Objekt zurück an den Python-Prozess.

Ist das völlig unvernünftig oder nur verdammt schwer umzusetzen? Jage ich etwas Unmögliches hinterher? Irgendwelche Vorschläge wären willkommen. Danke Internet.

Question 2

Ab Python 3.8 und höher können Sie verwenden multiprocessing.shared_memory.SharedMemory

Question 3

Nicht unvernünftig.

IPC kann mit einer speicherabgebildeten Datei durchgeführt werden. Python hat eine eingebaute Funktionalität:

http://docs.python.org/library/mmap.html

Mappen Sie einfach die Datei in beiden Prozessen und schwupps, Sie haben eine freigegebene Datei. Natürlich müssen Sie es in beiden Prozessen abfragen, um zu sehen, was sich ändert. Und Sie müssen zwischen beiden zusammenarbeiten. Und entscheiden Sie, in welches Format Sie Ihre Daten einfügen möchten. Aber es ist eine gängige Lösung für Ihr Problem.

Question 4

Wenn Sie kein Beizen möchten, multiprocessing.sharedctypes könnte passen. Es ist jedoch ein bisschen niedrig; Sie erhalten einzelne Werte oder Arrays bestimmter Typen.

Eine andere Möglichkeit, Daten an untergeordnete Prozesse (in eine Richtung) zu verteilen, ist multiprocessing.Pipe. Das kann mit Python-Objekten umgehen und ist in C implementiert, daher kann ich Ihnen nicht sagen, ob es Pickling verwendet oder nicht.

Question 5

Python unterstützt keinen gemeinsam genutzten Speicher zwischen unabhängigen Prozessen. Sie können Ihre eigene in C-Sprache implementieren oder verwenden SharedArray
wenn Sie mit libsvm arbeiten, numpy.ndarray, scipy.sparse.

pip install SharedArray

def test ():
    def generateArray ():
        print('generating')
        from time import sleep
        sleep(3)
        return np.ones(1000)
    a = Sarr('test/1', generateArray)

    # use same memory as a, also work in a new process
    b = Sarr('test/1', generateArray) 
    c = Sarr('test/1', generateArray)

import re
import SharedArray
import numpy as np

class Sarr (np.ndarray):
    def __new__ (self, name, getData):
        if not callable(getData) and getData is None:
            return None
        self.orig_name = name
        shm_name="shm://" + re.sub(r'[./]', '_', name)
        try:
            shm = SharedArray.attach(shm_name)
            print('[done] reuse shared memory:', name)
            return shm
        except Exception as err:
            self._unlink(shm_name)
            data = getData() if callable(getData) else getData
            shm = SharedArray.create(shm_name, data.size)
            shm[:] = data[:]
            print('[done] loaded data to shared memory:', name)
            return shm

    def _unlink (name):
        try:
            SharedArray.delete(name[len('shm://'):])
            print('deleted shared memory:', name)
        except:
            pass


if __name__ == '__main__':
    test()