Wie Sie mit Python Ihr Muskelgedächtnis für Data Science aufbauen

Zunächst einmal: Datenvorverarbeitung

Fühlen Sie sich frustriert, wenn Sie Ihren Datenanalysefluss bei der Suche nach Syntax unterbrechen? Warum erinnerst du dich immer noch nicht daran, nachdem du es zum dritten Mal nachgeschlagen hast? Das liegt daran, dass Sie es noch nicht genug trainiert haben, um ein Muskelgedächtnis dafür aufzubauen.

Stellen Sie sich nun vor, dass beim Codieren die Python-Syntax und -Funktionen Ihren analytischen Gedanken folgen. Wie großartig ist das! Dieses Tutorial soll Ihnen dabei helfen, dorthin zu gelangen.

Ich empfehle, dieses Skript jeden Morgen 10 Minuten lang zu üben und eine Woche lang zu wiederholen. Es ist, als würden Sie ein paar kleine Crunches am Tag machen - nicht für Ihre Bauchmuskeln, sondern für Ihre Muskeln im Bereich der Datenwissenschaft. Nach und nach werden Sie feststellen, dass sich die Effizienz der Datenanalyse-Programmierung nach diesem wiederholten Training verbessert.

Zunächst üben wir in diesem Lernprogramm die gebräuchlichste Syntax für die Datenvorverarbeitung als Aufwärmübung.)

Inhalt:
0. Daten lesen, anzeigen und speichern
1. Tabellendimension und Datentypen
2. Grundlegende Spaltenmanipulation
3 . Nullwerte: Anzeigen, Löschen und Anheben
4. Datendeduplizierung

0. Daten lesen, anzeigen und speichern

Laden Sie zunächst die Bibliotheken für unsere Übung:

Jetzt lesen wir Daten aus meinem GitHub-Repository. Ich habe die Daten von Zillow heruntergeladen.

Und die Ergebnisse sehen so aus:

Das Speichern einer Datei erfolgt über dataframe.to_csv (). Wenn Sie nicht möchten, dass die Indexnummer gespeichert wird, verwenden Sie dataframe.to_csv (index = False).

1. Tabellendimension und Datentypen

1.1 Dimension

Wie viele Zeilen und Spalten in diesen Daten?

1.2 Datentypen

Was sind die Datentypen Ihrer Daten und wie viele Spalten sind numerisch?

Ausgabe der Datentypen der ersten Spalten:

Wenn Sie genauere Angaben zu Ihren Daten machen möchten, verwenden Sie select_dtypes (), um einen Datentyp ein- oder auszuschließen. Frage: Wenn ich nur die Daten für 2018 anzeigen möchte, wie erhalte ich diese?

2. Grundlegende Spaltenmanipulation

2.1 Daten nach Spalten unterteilen

Spalten nach Datentyp auswählen:

Wenn Sie beispielsweise nur Float- und Integer-Spalten möchten, gehen Sie wie folgt vor:

Spalten nach Namen auswählen und ablegen:

2.2 Spalten umbenennen

Wie benenne ich die Spalten um, wenn sie mir nicht gefallen? Ändern Sie beispielsweise "State" in "state_". "Stadt" bis "Stadt_":

3. Nullwerte: Anzeigen, Löschen und Anrechnen

3.1 Wie viele Zeilen und Spalten haben Nullwerte?

Die Ausgaben von isnull.any () im Vergleich zu isnull.sum ():

isnull.any ()isnull.sum ()

Wählen Sie in einer Spalte Daten aus, die nicht null sind, z. B. "Metro" ist nicht null.

Zeilen mit nicht zutreffenden Metro-Werten

3.2 Wählen Sie für einen festen Satz von Spalten Zeilen aus, die nicht null sind

Wählen Sie eine Teilmenge von Daten aus, die nach 2000 keine Null mehr haben:

Wenn Sie die Daten im Juli auswählen möchten, müssen Sie die Spalten finden, die "-07" enthalten. Um festzustellen, ob eine Zeichenfolge eine Teilzeichenfolge enthält, können Sie eine Teilzeichenfolge in der Zeichenfolge verwenden. Diese gibt dann "true" oder "false" aus.

3.3 Teilmengenzeilen nach Nullwerten

Wählen Sie Zeilen aus, in denen wir mindestens 50 Nicht-NA-Werte haben möchten, die jedoch nicht spezifisch für die Spalten sein müssen:

3.4 Fehlende Werte löschen und unterstellen

NA ausfüllen oder NA unterstellen:

Verwenden Sie Ihre eigene Bedingung, um mit der where-Funktion zu füllen:

4. Datendeduplizierung

Wir müssen sicherstellen, dass es keine doppelten Zeilen gibt, bevor wir Daten aggregieren oder sie verknüpfen.

Wir wollen sehen, ob es doppelte Städte / Regionen gibt. Wir müssen entscheiden, welche eindeutige ID (Stadt, Region) wir für die Analyse verwenden möchten.

Setzen Sie

Doppelte Werte löschen.

Die Kombination aus "CountyName" und "SizeRank" ist bereits eindeutig. Wir verwenden also nur die Spalten, um die Syntax von drop_duplicated zu demonstrieren.

Das war's für den ersten Teil meiner Serie zum Aufbau des Muskelgedächtnisses für die Datenwissenschaft in Python. Das vollständige Skript finden Sie hier.

Bleib dran! In meinem nächsten Tutorial erfahren Sie, wie Sie die Data Science-Muskeln zum Schneiden und Schneiden von Daten locken.

Folge mir und klatsche ein paar Mal, wenn du das hilfreich findest :)

Während Sie an Python arbeiten, interessieren Sie sich vielleicht für meinen vorherigen Artikel: