Panda-biblioteket gør python-baseret datavidenskab til en nem tur. Det er et populært Python-bibliotek til at læse, flette, sortere, rense data og mere. Selvom pandaer er nemme at bruge og anvende på datasæt, har den mange datamanipulerende funktioner at lære.
Du bruger måske pandaer, men der er en god chance for, at du underudnytter det til at løse data-relaterede problemer. Her er vores liste over værdifulde data, der manipulerer pandafunktioner, som enhver dataforsker bør kende.
Installer pandaer i dit virtuelle miljø
Før vi fortsætter, skal du sørge for at installere pandaer i dit virtuelle miljø ved hjælp af pip:
pip installer pandaer
Efter installationen skal du importere pandaer øverst i dit script, og lad os fortsætte.
1. pandaer. DataFrame
Du bruger pandaer. DataFrame() at skabe en DataFrame i pandaer. Der er to måder at bruge denne funktion på.
Du kan danne en DataFrame kolonnevis ved at sende en ordbog ind i pandaer. DataFrame() fungere. Her er hver nøgle en kolonne, mens værdierne er rækkerne:
importere pandaer
DataFrame = pandaer. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
print (DataFrame)
Den anden metode er at danne DataFrame på tværs af rækker. Men her vil du adskille værdierne (rækkeelementer) fra kolonnerne. Antallet af data på hver liste (rækkedata) skal også stemme overens med antallet af kolonner.
importere pandaer
DataFrame = pandaer. DataFrame([[1, 4, 5], [7, 19, 13]], kolonner= ["J", "K", "L"])
print (DataFrame)
2. Læs fra og skriv til Excel eller CSV i pandaer
Du kan læse eller skrive til Excel- eller CSV-filer med pandaer.
Læser Excel- eller CSV-filer
Sådan læser du en Excel-fil:
#Erstat example.xlsx med din Excel-filsti
DataFrame = DataFrame.read_excel("example.xlsx")
Sådan læser du en CSV-fil:
#Erstat eksempel.csv med din CSV-filsti
DataFrame = DataFrame.read_csv("eksempel.csv")
Skrivning til Excel eller CSV
At skrive til Excel eller CSV er en velkendt pandaoperation. Og det er praktisk til at gemme nyligt beregnede tabeller i separate dataark.
Sådan skriver du til et Excel-ark:
DataFrame.to_excel("fuld_sti_af_destinationsmappe/filnavn.xlsx")
Hvis du vil skrive til CSV:
DataFrame.to_csv("fuld_sti_af_destinationsmappe/filnavn.csv")
Du kan også beregne de centrale tendenser for hver kolonne i en DataFrame ved hjælp af pandaer.
Sådan får du middelværdien af hver kolonne:
DataFrame.mean()
Udskift for median- eller tilstandsværdien betyde() med median() eller mode().
4. DataFrame.transform
pandaer DataFrame.transform() ændrer værdierne af en DataFrame. Den accepterer en funktion som et argument.
For eksempel multiplicerer koden nedenfor hver værdi i en DataFrame med tre ved hjælp af Pythons lambda-funktion:
DataFrame = DataFrame.transform (lambda y: y*3)
print (DataFrame)
5. DataFrame.isnull
Denne funktion returnerer en boolesk værdi og markerer alle rækker, der indeholder nulværdier, som Rigtigt:
DataFrame.isnull()
Resultatet af ovenstående kode kan være svært at læse for større datasæt. Så du kan bruge isnull().sum() funktion i stedet for. Dette returnerer en oversigt over alle manglende værdier for hver kolonne:
DataFrame.isnull().sum()
6. Dataframe.info
Det info() funktion er en væsentlig pandaoperation. Det returnerer oversigten over ikke-manglende værdier for hver kolonne i stedet:
DataFrame.info()
7. DataFrame.beskriv
Det beskrive() funktion giver dig oversigtsstatistikken for en DataFrame:
DataFrame.describe()
8. DataFrame.replace
Bruger DataFrame.replace() metode i pandaer, kan du erstatte udvalgte rækker med andre værdier.
For eksempel til at bytte ugyldige rækker med Nan:
# Sørg for at du installerer numpy for at dette virker
import numpy
importere pandaer
# Tilføjelse af et inplace-søgeord og indstilling til True gør ændringerne permanente:
DataFrame.replace([ugyldig_1, ugyldig_2], numpy.nan, inplace=True)
print (DataFrame)
9. DataFrame.fillna
Denne funktion lader dig udfylde tomme rækker med en bestemt værdi. Du kan fylde alt Nan rækker i et datasæt med middelværdien, for eksempel:
DataFrame.fillna (df.mean(), inplace = True)
print (DataFrame)
Du kan også være kolonnespecifik:
DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
print (DataFrame)
10. DataFrame.dropna
Det dropna() metode fjerner alle rækker, der indeholder null-værdier:
DataFrame.dropna (inplace = True)
print (DataFrame)
11. DataFrame.insert
Du kan bruge pandaer' indsæt() funktion for at tilføje en ny kolonne til en DataFrame. Den accepterer tre nøgleord, den kolonnenavn, en liste over dens data og dens Beliggenhed, som er et kolonneindeks.
Sådan fungerer det:
DataFrame.insert (kolonne = 'C', værdi = [3, 4, 6, 7], loc=0)
print (DataFrame)
Ovenstående kode indsætter den nye kolonne ved nul kolonneindekset (det bliver den første kolonne).
12. DataFrame.loc
Du kan bruge loc at finde elementerne i et bestemt indeks. For at se alle elementer i den tredje række, for eksempel:
DataFrame.loc[2]
13. DataFrame.pop
Denne funktion lader dig fjerne en specificeret kolonne fra en pandas DataFrame.
Den accepterer en vare nøgleord, returnerer den poppede kolonne og adskiller den fra resten af DataFrame:
DataFrame.pop (item= 'column_name')
print (DataFrame)
14. DataFrame.max, min
Det er nemt at få maksimum- og minimumværdier ved hjælp af pandaer:
DataFrame.min()
Ovenstående kode returnerer minimumsværdien for hver kolonne. For at få det maksimale, udskift min med max.
15. DataFrame.join
Det tilslutte() funktion af pandas lader dig flette DataFrames med forskellige kolonnenavne. Du kan bruge venstre, højre, indre eller ydre sammenføjning. For at venstre-tilslutte sig en DataFrame med to andre:
#Venstre-sammenføj længere kolonner med kortere
newDataFrame = df1.join([df_shorter2, df_shorter3], how='venstre')
print (newDataFrame)
For at forbinde DataFrames med lignende kolonnenavne kan du differentiere dem ved at inkludere et suffiks til venstre eller højre. Gør dette ved at inkludere lsuffiks eller rsuffiks søgeord:
newDataFrame = df1.join([df2, rsuffix='_', how='ydre')
print (newDataFrame)
16. DataFrame.combine
Det forene() funktion er praktisk til at flette to DataFrames, der indeholder lignende kolonnenavne baseret på fastsatte kriterier. Den accepterer en fungere søgeord.
For eksempel, for at flette to DataFrames med lignende kolonnenavne kun baseret på de maksimale værdier:
newDataFrame = df.combine (df2, numpy.minimum)
print (newDataFrame)
Bemærk: Du kan også definere en brugerdefineret valgfunktion og indsætte numpy.minimum.
17. DataFrame.astype
Det astype() funktion ændrer datatypen for en bestemt kolonne eller DataFrame.
For at ændre alle værdier i en DataFrame til streng, for eksempel:
DataFrame.astype (str)
18. DataFrame.sum
Det sum() funktion i pandaer returnerer summen af værdierne i hver kolonne:
DataFrame.sum()
Du kan også finde den kumulative sum af alle varer ved hjælp af cumsum():
DataFrame.cumsum()
19. DataFrame.drop
pandaer dråbe() funktionen sletter specifikke rækker eller kolonner i en DataFrame. Du skal angive kolonnenavnene eller rækkeindekset og en akse for at bruge det.
Sådan fjerner du specifikke kolonner, f.eks.:
df.drop (columns=['colum1', 'column2'], axis=0)
For at slippe rækker på indeks 1, 3 og 4, for eksempel:
df.drop([1, 3, 4], akse=0)
20. DataFrame.corr
Vil du finde sammenhængen mellem heltals- eller flydende kolonner? pandaer kan hjælpe dig med at opnå det ved at bruge corr() fungere:
DataFrame.corr()
Ovenstående kode returnerer en ny DataFrame, der indeholder korrelationssekvensen mellem alle heltals- eller flydende kolonner.
21. DataFrame.add
Det tilføje() funktionen lader dig tilføje et specifikt tal til hver værdi i DataFrame. Det fungerer ved at iterere gennem en DataFrame og operere på hvert element.
Relaterede:Sådan bruges til loops i Python
For at tilføje 20 til hver af værdierne i en specifik kolonne, der indeholder heltal eller flydende, for eksempel:
DataFrame['interger_column'].add (20)
22. DataFrame.sub
Ligesom additionsfunktionen kan du også trække et tal fra hver værdi i en DataFrame eller en specifik kolonne:
DataFrame['interger_column'].sub (10)
23. DataFrame.mul
Dette er en multiplikationsversion af tilføjelsesfunktionen af pandaer:
DataFrame['interger_column'].mul (20)
24. DataFrame.div
På samme måde kan du dividere hvert datapunkt i en kolonne eller DataFrame med et bestemt tal:
DataFrame['interger_column'].div (20)
25. DataFrame.std
Bruger std() funktion, giver pandas dig også mulighed for at beregne standardafvigelsen for hver kolonne i en DataFrame. Det fungerer ved at iterere gennem hver kolonne i et datasæt og beregne standardafvigelsen for hver:
DataFrame.std()
26. DataFrame.sort_values
Du kan også sortere værdier stigende eller faldende baseret på en bestemt kolonne. For at sortere en DataFrame i faldende rækkefølge, f.eks.:
newDataFrame = DataFrame.sort_values (af = "colmun_name", descending = True)
27. DataFrame.melt
Det smelte() funktion i pandaer vender kolonnerne i en DataFrame til individuelle rækker. Det er som at afsløre anatomien i en DataFrame. Så det lader dig se den værdi, der er tildelt hver kolonne eksplicit.
newDataFrame = DataFrame.melt()
28. DataFrame.count
Denne funktion returnerer det samlede antal elementer i hver kolonne:
DataFrame.count()
29. DataFrame.query
pandaer forespørgsel() lader dig kalde elementer ved hjælp af deres indeksnummer. For at få emnerne i tredje række, for eksempel:
DataFrame.query('4') # Kald forespørgslen på det fjerde indeks
30. DataFrame.where
Det hvor() funktion er en panda-forespørgsel, der accepterer en betingelse for at få specifikke værdier i en kolonne. For eksempel at få alle aldre under 30 fra en Alder kolonne:
DataFrame.where (DataFrame['Alder'] < 30)
Ovenstående kode udsender en DataFrame, der indeholder alle aldre under 30, men tildeler Nan til rækker, der ikke opfylder betingelsen.
Håndter data som en professionel med pandaer
pandas er et skattekammer af funktioner og metoder til at håndtere små til store datasæt med Python. Biblioteket er også praktisk til rengøring, validering og forberedelse af data til analyse eller maskinlæring.
At tage sig tid til at mestre det gør helt sikkert dit liv lettere som dataforsker, og det er besværet værd. Så hent gerne alle de funktioner, du kan håndtere.
Python Standard Library indeholder mange funktioner til at hjælpe med dine programmeringsopgaver. Lær om de mest nyttige og opret mere robust kode.
Læs Næste
- Programmering
- Python
- Programmering
- database
Idowu brænder for alt smart teknologi og produktivitet. I sin fritid leger han med kodning og skifter til skakbrættet, når han keder sig, men han elsker også at bryde ud af rutinen en gang imellem. Hans passion for at vise folk vejen rundt om moderne teknologi motiverer ham til at skrive mere.
Abonner på vores nyhedsbrev
Tilmeld dig vores nyhedsbrev for tekniske tips, anmeldelser, gratis e-bøger og eksklusive tilbud!
Klik her for at abonnere