Wie kann ich eine Liste basierend auf einer Bedingung partitionieren (aufteilen, teilen)?

Question 1

Ich habe einen Code wie:

good = [x for x in mylist if x in goodvals]
bad = [x for x in mylist if x not in goodvals]

Ziel ist es, den Inhalt aufzuteilen mylist in zwei andere Listen, je nachdem, ob sie eine Bedingung erfüllen oder nicht.

Wie kann ich das eleganter machen? Kann ich vermeiden, zwei separate Iterationen zu machen? mylist? Kann ich dadurch die Leistung verbessern?

Question 2

good = [x for x in mylist if x in goodvals]
bad  = [x for x in mylist if x not in goodvals]

Wie kann ich das eleganter machen?

Dieser Code ist bereits vollkommen elegant.

Es kann zu leichten Leistungsverbesserungen kommen sets, aber der Unterschied ist trivial. set basierte Ansätze werden auch Duplikate verwerfen und die Reihenfolge der Elemente nicht beibehalten. Ich finde das Listenverständnis auch viel einfacher zu lesen.

Tatsächlich könnten wir sogar noch einfacher einfach a verwenden for Schleife:

good, bad = [], []

for x in mylist:
    if x in goodvals:
        good.append(f)
    else:
        bad.append(f)

Dieser Ansatz erleichtert das Hinzufügen zusätzlicher Logik. Zum Beispiel kann der Code leicht geändert werden, um ihn zu verwerfen None Werte:

good, bad = [], []

for x in mylist:
    if x is None:
        continue
    if x in goodvals:
        good.append(f)
    else:
        bad.append(f)

Question 3

Das Problem bei allen vorgeschlagenen Lösungen besteht darin, dass die Filterfunktion zweimal gescannt und angewendet wird. Ich würde eine einfache kleine Funktion wie diese machen:

def split_into_two_lists(lst, f):
    a = []
    b = []
    for elem in lst:
        if f(elem):
            a.append(elem)
        else:
            b.append(elem)
    return a, b

Auf diese Weise verarbeiten Sie nichts zweimal und wiederholen auch keinen Code.

Question 4

Meine Meinung dazu. Ich schlage einen faulen Single-Pass vor, partition -Funktion, die die relative Reihenfolge in den ausgegebenen Untersequenzen beibehält.

1. Anforderungen

Ich gehe davon aus, dass die Anforderungen sind:

Beibehaltung der relativen Reihenfolge der Elemente (daher keine Sätze und Wörterbücher)

werte Bedingung nur einmal für jedes Element aus (also nicht mit (i)filter oder groupby)
Ermöglichen Sie den faulen Konsum beider Sequenzen (wenn wir es uns leisten können, sie vorab zu berechnen, ist die naive Implementierung wahrscheinlich auch akzeptabel).

2. `split` Bibliothek

Mein partition Funktion (unten eingeführt) und andere ähnliche Funktionen haben es in eine kleine Bibliothek geschafft:

python-split

Es kann normalerweise über PyPI installiert werden:

pip install --user split

Um eine Liste nach Bedingung zu teilen, verwenden Sie partition Funktion:

>>> from split import partition
>>> files = [ ('file1.jpg', 33L, '.jpg'), ('file2.avi', 999L, '.avi') ]
>>> image_types = ('.jpg','.jpeg','.gif','.bmp','.png')
>>> images, other = partition(lambda f: f[-1] in image_types, files)
>>> list(images)
[('file1.jpg', 33L, '.jpg')]
>>> list(other)
[('file2.avi', 999L, '.avi')]

3. `partition` Funktion erklärt

Intern müssen wir zwei Untersequenzen gleichzeitig erstellen, sodass die Verwendung von nur einer Ausgabesequenz dazu führt, dass auch die andere berechnet wird. Und wir müssen den Status zwischen Benutzeranfragen beibehalten (verarbeitete, aber noch nicht angeforderte Elemente speichern). Um den Zustand beizubehalten, verwende ich zwei doppelseitige Warteschlangen (deques):

from collections import deque

SplitSeq Klasse kümmert sich um den Haushalt:

class SplitSeq:
    def __init__(self, condition, sequence):
        self.cond = condition
        self.goods = deque([])
        self.bads = deque([])
        self.seq = iter(sequence)

Magie passiert in seinem .getNext() Methode. Es ist fast wie .next()
der Iteratoren, erlaubt aber die Angabe, welche Art von Element wir dieses Mal wollen. Hinter den Kulissen werden die abgelehnten Elemente nicht verworfen, sondern in eine der beiden Warteschlangen gestellt:

    def getNext(self, getGood=True):
        if getGood:
            these, those, cond = self.goods, self.bads, self.cond
        else:
            these, those, cond = self.bads, self.goods, lambda x: not self.cond(x)
        if these:
            return these.popleft()
        else:
            while 1: # exit on StopIteration
                n = self.seq.next()
                if cond(n):
                    return n
                else:
                    those.append(n)

Der Endbenutzer soll verwenden partition Funktion. Es nimmt eine Bedingungsfunktion und eine Sequenz (genau wie map oder filter) und gibt zwei Generatoren zurück. Der erste Generator bildet eine Teilfolge von Elementen, für die die Bedingung gilt, der zweite bildet die komplementäre Teilfolge. Iteratoren und Generatoren ermöglichen ein faules Aufteilen sogar langer oder unendlicher Sequenzen.

def partition(condition, sequence):
    cond = condition if condition else bool  # evaluate as bool if condition == None
    ss = SplitSeq(cond, sequence)
    def goods():
        while 1:
            yield ss.getNext(getGood=True)
    def bads():
        while 1:
            yield ss.getNext(getGood=False)
    return goods(), bads()

Ich habe die Testfunktion als erstes Argument gewählt, um zukünftig eine partielle Anwendung zu ermöglichen (ähnlich how map Und filter
haben die Testfunktion als erstes Argument).

Question 5

Grundsätzlich gefällt mir der Ansatz von Anders, da er sehr allgemein gehalten ist. Hier ist eine Version, die das Kategorisierungsmodul an die erste Stelle setzt (um der Filtersyntax zu entsprechen) und ein defaultdict verwendet (angenommen importiert).

def categorize(func, seq):
    """Return mapping from categories to lists
    of categorized items.
    """
    d = defaultdict(list)
    for item in seq:
        d[func(item)].append(item)
    return d

1. Anforderungen

2. split Bibliothek

3. partition Funktion erklärt

2. `split` Bibliothek

3. `partition` Funktion erklärt