So löschen Sie die letzte Datenzeile eines Pandas-Datenrahmens

Question 1

Ich denke, das sollte einfach sein, aber ich habe ein paar Ideen ausprobiert und keine davon hat funktioniert:

last_row = len(DF)
DF = DF.drop(DF.index[last_row])  #<-- fail!

Ich habe versucht, negative Indizes zu verwenden, aber das führte auch zu Fehlern. Ich muss immer noch etwas grundlegendes missverstehen.

Question 2

So löschen Sie die letzten n Zeilen:

df.drop(df.tail(n).index,inplace=True) # drop last n rows

Auf die gleiche Weise können Sie die ersten n Zeilen löschen:

df.drop(df.head(n).index,inplace=True) # drop first n rows

Question 3

DF[:-n]

wobei n die letzte Anzahl der zu löschenden Zeilen ist.

So löschen Sie die letzte Zeile:

DF = DF[:-1]

Question 4

Da die Indexpositionierung in Python 0-basiert ist, gibt es eigentlich kein Element in index an der entsprechenden Stelle len(DF). Das brauchst du last_row = len(DF) - 1:

In [49]: dfrm
Out[49]: 
          A         B         C
0  0.120064  0.785538  0.465853
1  0.431655  0.436866  0.640136
2  0.445904  0.311565  0.934073
3  0.981609  0.695210  0.911697
4  0.008632  0.629269  0.226454
5  0.577577  0.467475  0.510031
6  0.580909  0.232846  0.271254
7  0.696596  0.362825  0.556433
8  0.738912  0.932779  0.029723
9  0.834706  0.002989  0.333436

[10 rows x 3 columns]

In [50]: dfrm.drop(dfrm.index[len(dfrm)-1])
Out[50]: 
          A         B         C
0  0.120064  0.785538  0.465853
1  0.431655  0.436866  0.640136
2  0.445904  0.311565  0.934073
3  0.981609  0.695210  0.911697
4  0.008632  0.629269  0.226454
5  0.577577  0.467475  0.510031
6  0.580909  0.232846  0.271254
7  0.696596  0.362825  0.556433
8  0.738912  0.932779  0.029723

[9 rows x 3 columns]

Es ist jedoch viel einfacher, einfach zu schreiben DF[:-1].

Question 5

Überrascht, dass niemand das erwähnt hat:

# To remove last n rows
df.head(-n)

# To remove first n rows
df.tail(-n)

Das Ausführen eines Geschwindigkeitstests auf einem DataFrame mit 1000 Zeilen zeigt, dass Slicing und head/tail sind ~6 mal schneller als die Verwendung drop:

>>> %timeit df[:-1]
125 µs ± 132 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)

>>> %timeit df.head(-1)
129 µs ± 1.18 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

>>> %timeit df.drop(df.tail(1).index)
751 µs ± 20.4 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

Question 6

Verwenden Sie einfach die Indizierung

df.iloc[:-1,:]

Deshalb gibt es iloc. Sie können auch Kopf oder Schwanz verwenden.

Question 7

Die schönste Lösung, die ich gefunden habe, die nicht (unbedingt?) Eine vollständige Kopie erstellt, ist

df.drop(df.index[-1], inplace=True)

Natürlich können Sie inplace=True einfach weglassen, um einen neuen Datenrahmen zu erstellen, und Sie können auch einfach die letzten N Zeilen löschen, indem Sie einfach Teile von df.index (df.index[-N:] um die letzten N Zeilen zu löschen). Dieser Ansatz ist also nicht nur prägnant, sondern auch sehr flexibel.

Question 8

stats = pd.read_csv("C:\\py\\programs\\second pandas\\ex.csv")

Die Ausgabe von Statistiken:

       A            B          C
0   0.120064    0.785538    0.465853
1   0.431655    0.436866    0.640136
2   0.445904    0.311565    0.934073
3   0.981609    0.695210    0.911697
4   0.008632    0.629269    0.226454
5   0.577577    0.467475    0.510031
6   0.580909    0.232846    0.271254
7   0.696596    0.362825    0.556433
8   0.738912    0.932779    0.029723
9   0.834706    0.002989    0.333436

benutz einfach skipfooter=1

skipfooter : int, Standard 0

Anzahl der zu überspringenden Zeilen am Ende der Datei

stats_2 = pd.read_csv("C:\\py\\programs\\second pandas\\ex.csv", skipfooter=1, engine="python")

Ausgabe von stats_2

       A          B            C
0   0.120064    0.785538    0.465853
1   0.431655    0.436866    0.640136
2   0.445904    0.311565    0.934073
3   0.981609    0.695210    0.911697
4   0.008632    0.629269    0.226454
5   0.577577    0.467475    0.510031
6   0.580909    0.232846    0.271254
7   0.696596    0.362825    0.556433
8   0.738912    0.932779    0.029723