Hvis du bruger Python, selv til de enkleste opgaver, er du sikkert klar over vigtigheden af ​​dets tredjepartsbiblioteker. Pandas-biblioteket, med sin fremragende understøttelse af DataFrames, er et sådant bibliotek.

Du kan importere flere filtyper til Python DataFrames og oprette forskellige versioner til at gemme forskellige datasæt. Når du importerer dine data ved hjælp af DataFrames, kan du flette dem for at udføre detaljeret analyse.

At tackle det grundlæggende

Før du går i gang med at flette, skal du have DataFrames til at flette. Til udviklingsformål kan du oprette nogle dummy-data til at eksperimentere med.

Opret DataFrames i Python

Som et første trin skal du importere Pandas-biblioteket til din Python-fil. Pandas er et tredjepartsbibliotek, der håndterer DataFrames i Python. Du kan bruge importere erklæring om at bruge biblioteket, som følger:

importere pandaer som pd

Du kan tildele et alias til biblioteksnavnet for at forkorte dine kodereferencer.

Du skal lave ordbøger, som du kan konvertere til DataFrames. For de bedste resultater skal du oprette to ordbogsvariable—

instagram viewer
diktat 1 og dikt2—for at gemme specifikke oplysninger:

dikt1 = {"bruger ID": ["001", "002", "003", "004", "005"],
"F-navn": ["John", "Brad", "Ron", "Roald", "Chris"],
"Lnavn": ["Harley", "Cohen", "Dahl", "Harrington", "Kerr-Hislop"]}

dikt2 = {"bruger ID": ["001", "002", "003", "004"], "Alder": [15, 28, 34, 24]}

Husk, at du skal have et fælles element i begge ordbogsværdier for at fungere som den primære nøgle til at kombinere dine DataFrames senere.

Konverter dine ordbøger til datarammer

For at konvertere dine ordbogsværdier til DataFrames kan du bruge følgende metode:

df1 = pd. DataFrame (dict1)
df2 = pd. DataFrame (dict2)

Nogle IDE'er lader dig kontrollere værdierne i DataFrame ved at referere til DataFrame-funktionen og trykke på Kør/udfør. Der er mange Python-kompatible IDE'er, så du kan vælge og vrage den, der er den nemmeste for dig at lære.

Når du er tilfreds med indholdet af dine DataFrames, kan du gå videre til flettetrinnet.

Kombination af rammer med fletfunktionen

Merge-funktionen er den første Python-funktion, du kan bruge til at kombinere to DataFrames. Denne funktion tager følgende standardargumenter:

pd.merge (DataFrame1, DataFrame2, how= typeaffusionere)

Hvor:

  • pd er et alias for Pandas-biblioteket.
  • fusionere er den funktion, der fusionerer DataFrames.
  • DataFrame 1 og DataFrame2 er de to DataFrames, der skal flettes.
  • hvordan definerer flettetypen.

Nogle ekstra valgfrie argumenter er tilgængelige, som du kan bruge, når du har en kompleks datastruktur.

Du kan bruge forskellige værdier for how-parameteren til at definere typen af ​​fletning, der skal udføres. Disse typer fletninger vil være velkendte, hvis du har brugte SQL til at forbinde databasetabeller.

Venstre fletning

Den venstre flettetype holder den første DataFrames værdier intakte og trækker de matchende værdier fra den anden DataFrame.

Højre flet

Den rigtige flettetype holder den anden DataFrames værdier intakte og trækker de matchende værdier fra den første DataFrame.

Indre fusion

Den indre flettetype beholder de matchende værdier fra begge DataFrames og fjerner ikke-matchende værdier.

Ydre sammenfletning

Den ydre flettetype bevarer alle matchende og ikke-matchende værdier og konsoliderer DataFrames sammen.

Sådan bruges Concat-funktionen

Det konkat funktion er en fleksibel mulighed sammenlignet med nogle af Pythons andre flettefunktioner. Med concat-funktionen kan du kombinere DataFrames lodret og vandret.

Men ulempen ved at bruge denne funktion er, at den kasserer alle ikke-matchende værdier som standard. Ligesom nogle andre relaterede funktioner har denne funktion nogle få argumenter, hvoraf kun få er essentielle for en vellykket sammenkædning.

concat (datarammer, akse=0, join='ydre'/indre)

Hvor:

  • konkat er den funktion, der forbinder DataFrames.
  • datarammer er en sekvens af DataFrames, der skal sammenkædes.
  • akse repræsenterer sammenkædningsretningen, 0 er vandret, 1 er lodret.
  • tilslutte angiver enten en ydre eller indre samling.

Ved at bruge de to ovenstående DataFrames kan du prøve concat-funktionen som følger:

# definer datarammerne i et listeformat
df_merged_concat = pd.concat([df1, df2])

# udskriv resultaterne af Concat-funktionen
Print(df_merged_concat)

Fraværet af akse- og join-argumenterne i ovenstående kode kombinerer de to datasæt. Det resulterende output har alle poster, uanset matchstatus.

På samme måde kan du bruge yderligere argumenter til at styre retningen og outputtet af konkatfunktionen.

Sådan styres output med alle matchende poster:

# Sammenkædning af alle matchende værdier mellem de to datarammer baseret på deres kolonner
df_merged_concat = pd.concat([df1, df2], akse=1, join = 'indre')

Print(df_merged_concat)

Resultatet indeholder kun alle matchende værdier mellem de to DataFrames.

Sammenfletning af datarammer med Python

DataFrames er en integreret del af Python i betragtning af deres fleksibilitet og funktionalitet. På grund af deres mangefacetterede anvendelser kan du bruge dem i vid udstrækning til at udføre en række opgaver med største lethed.

Hvis du stadig lærer om Python DataFrames, kan du prøve at importere nogle Excel-filer og derefter kombinere dem med forskellige tilgange.