Panda-biblioteket gør python-baseret datavidenskab til en nem tur. Det er et populært Python-bibliotek til at læse, flette, sortere, rense data og mere. Selvom pandaer er nemme at bruge og anvende på datasæt, har den mange datamanipulerende funktioner at lære.

Du bruger måske pandaer, men der er en god chance for, at du underudnytter det til at løse data-relaterede problemer. Her er vores liste over værdifulde data, der manipulerer pandafunktioner, som enhver dataforsker bør kende.

Installer pandaer i dit virtuelle miljø

Før vi fortsætter, skal du sørge for at installere pandaer i dit virtuelle miljø ved hjælp af pip:

pip installer pandaer

Efter installationen skal du importere pandaer øverst i dit script, og lad os fortsætte.

1. pandaer. DataFrame

Du bruger pandaer. DataFrame() at skabe en DataFrame i pandaer. Der er to måder at bruge denne funktion på.

Du kan danne en DataFrame kolonnevis ved at sende en ordbog ind i pandaer. DataFrame() fungere. Her er hver nøgle en kolonne, mens værdierne er rækkerne:

instagram viewer
importere pandaer
DataFrame = pandaer. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
print (DataFrame)

Den anden metode er at danne DataFrame på tværs af rækker. Men her vil du adskille værdierne (rækkeelementer) fra kolonnerne. Antallet af data på hver liste (rækkedata) skal også stemme overens med antallet af kolonner.

importere pandaer
DataFrame = pandaer. DataFrame([[1, 4, 5], [7, 19, 13]], kolonner= ["J", "K", "L"])
print (DataFrame)

2. Læs fra og skriv til Excel eller CSV i pandaer

Du kan læse eller skrive til Excel- eller CSV-filer med pandaer.

Læser Excel- eller CSV-filer

Sådan læser du en Excel-fil:

#Erstat example.xlsx med din Excel-filsti
DataFrame = DataFrame.read_excel("example.xlsx")

Sådan læser du en CSV-fil:

#Erstat eksempel.csv med din CSV-filsti
DataFrame = DataFrame.read_csv("eksempel.csv")

Skrivning til Excel eller CSV

At skrive til Excel eller CSV er en velkendt pandaoperation. Og det er praktisk til at gemme nyligt beregnede tabeller i separate dataark.

Sådan skriver du til et Excel-ark:

DataFrame.to_excel("fuld_sti_af_destinationsmappe/filnavn.xlsx")

Hvis du vil skrive til CSV:

DataFrame.to_csv("fuld_sti_af_destinationsmappe/filnavn.csv")

Du kan også beregne de centrale tendenser for hver kolonne i en DataFrame ved hjælp af pandaer.

Sådan får du middelværdien af ​​hver kolonne:

DataFrame.mean()

Udskift for median- eller tilstandsværdien betyde() med median() eller mode().

4. DataFrame.transform

pandaer DataFrame.transform() ændrer værdierne af en DataFrame. Den accepterer en funktion som et argument.

For eksempel multiplicerer koden nedenfor hver værdi i en DataFrame med tre ved hjælp af Pythons lambda-funktion:

DataFrame = DataFrame.transform (lambda y: y*3)
print (DataFrame)

5. DataFrame.isnull

Denne funktion returnerer en boolesk værdi og markerer alle rækker, der indeholder nulværdier, som Rigtigt:

DataFrame.isnull()

Resultatet af ovenstående kode kan være svært at læse for større datasæt. Så du kan bruge isnull().sum() funktion i stedet for. Dette returnerer en oversigt over alle manglende værdier for hver kolonne:

DataFrame.isnull().sum()

6. Dataframe.info

Det info() funktion er en væsentlig pandaoperation. Det returnerer oversigten over ikke-manglende værdier for hver kolonne i stedet:

DataFrame.info()

7. DataFrame.beskriv

Det beskrive() funktion giver dig oversigtsstatistikken for en DataFrame:

DataFrame.describe()

8. DataFrame.replace

Bruger DataFrame.replace() metode i pandaer, kan du erstatte udvalgte rækker med andre værdier.

For eksempel til at bytte ugyldige rækker med Nan:

# Sørg for at du installerer numpy for at dette virker
import numpy
importere pandaer
# Tilføjelse af et inplace-søgeord og indstilling til True gør ændringerne permanente:
DataFrame.replace([ugyldig_1, ugyldig_2], numpy.nan, inplace=True)
print (DataFrame)

9. DataFrame.fillna

Denne funktion lader dig udfylde tomme rækker med en bestemt værdi. Du kan fylde alt Nan rækker i et datasæt med middelværdien, for eksempel:

DataFrame.fillna (df.mean(), inplace = True)
print (DataFrame)

Du kan også være kolonnespecifik:

DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
print (DataFrame)

10. DataFrame.dropna

Det dropna() metode fjerner alle rækker, der indeholder null-værdier:

DataFrame.dropna (inplace = True)
print (DataFrame)

11. DataFrame.insert

Du kan bruge pandaer' indsæt() funktion for at tilføje en ny kolonne til en DataFrame. Den accepterer tre nøgleord, den kolonnenavn, en liste over dens data og dens Beliggenhed, som er et kolonneindeks.

Sådan fungerer det:

DataFrame.insert (kolonne = 'C', værdi = [3, 4, 6, 7], loc=0)
print (DataFrame)

Ovenstående kode indsætter den nye kolonne ved nul kolonneindekset (det bliver den første kolonne).

12. DataFrame.loc

Du kan bruge loc at finde elementerne i et bestemt indeks. For at se alle elementer i den tredje række, for eksempel:

DataFrame.loc[2]

13. DataFrame.pop

Denne funktion lader dig fjerne en specificeret kolonne fra en pandas DataFrame.

Den accepterer en vare nøgleord, returnerer den poppede kolonne og adskiller den fra resten af ​​DataFrame:

DataFrame.pop (item= 'column_name')
print (DataFrame)

14. DataFrame.max, min

Det er nemt at få maksimum- og minimumværdier ved hjælp af pandaer:

DataFrame.min()

Ovenstående kode returnerer minimumsværdien for hver kolonne. For at få det maksimale, udskift min med max.

15. DataFrame.join

Det tilslutte() funktion af pandas lader dig flette DataFrames med forskellige kolonnenavne. Du kan bruge venstre, højre, indre eller ydre sammenføjning. For at venstre-tilslutte sig en DataFrame med to andre:

#Venstre-sammenføj længere kolonner med kortere
newDataFrame = df1.join([df_shorter2, df_shorter3], how='venstre')
print (newDataFrame)

For at forbinde DataFrames med lignende kolonnenavne kan du differentiere dem ved at inkludere et suffiks til venstre eller højre. Gør dette ved at inkludere lsuffiks eller rsuffiks søgeord:

newDataFrame = df1.join([df2, rsuffix='_', how='ydre') 
print (newDataFrame)

16. DataFrame.combine

Det forene() funktion er praktisk til at flette to DataFrames, der indeholder lignende kolonnenavne baseret på fastsatte kriterier. Den accepterer en fungere søgeord.

For eksempel, for at flette to DataFrames med lignende kolonnenavne kun baseret på de maksimale værdier:

newDataFrame = df.combine (df2, numpy.minimum)
print (newDataFrame)

Bemærk: Du kan også definere en brugerdefineret valgfunktion og indsætte numpy.minimum.

17. DataFrame.astype

Det astype() funktion ændrer datatypen for en bestemt kolonne eller DataFrame.

For at ændre alle værdier i en DataFrame til streng, for eksempel:

DataFrame.astype (str)

18. DataFrame.sum

Det sum() funktion i pandaer returnerer summen af ​​værdierne i hver kolonne:

DataFrame.sum()

Du kan også finde den kumulative sum af alle varer ved hjælp af cumsum():

DataFrame.cumsum()

19. DataFrame.drop

pandaer dråbe() funktionen sletter specifikke rækker eller kolonner i en DataFrame. Du skal angive kolonnenavnene eller rækkeindekset og en akse for at bruge det.

Sådan fjerner du specifikke kolonner, f.eks.:

df.drop (columns=['colum1', 'column2'], axis=0)

For at slippe rækker på indeks 1, 3 og 4, for eksempel:

df.drop([1, 3, 4], akse=0)

20. DataFrame.corr

Vil du finde sammenhængen mellem heltals- eller flydende kolonner? pandaer kan hjælpe dig med at opnå det ved at bruge corr() fungere:

DataFrame.corr()

Ovenstående kode returnerer en ny DataFrame, der indeholder korrelationssekvensen mellem alle heltals- eller flydende kolonner.

21. DataFrame.add

Det tilføje() funktionen lader dig tilføje et specifikt tal til hver værdi i DataFrame. Det fungerer ved at iterere gennem en DataFrame og operere på hvert element.

Relaterede:Sådan bruges til loops i Python

For at tilføje 20 til hver af værdierne i en specifik kolonne, der indeholder heltal eller flydende, for eksempel:

DataFrame['interger_column'].add (20)

22. DataFrame.sub

Ligesom additionsfunktionen kan du også trække et tal fra hver værdi i en DataFrame eller en specifik kolonne:

DataFrame['interger_column'].sub (10)

23. DataFrame.mul

Dette er en multiplikationsversion af tilføjelsesfunktionen af ​​pandaer:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

På samme måde kan du dividere hvert datapunkt i en kolonne eller DataFrame med et bestemt tal:

DataFrame['interger_column'].div (20)

25. DataFrame.std

Bruger std() funktion, giver pandas dig også mulighed for at beregne standardafvigelsen for hver kolonne i en DataFrame. Det fungerer ved at iterere gennem hver kolonne i et datasæt og beregne standardafvigelsen for hver:

DataFrame.std()

26. DataFrame.sort_values

Du kan også sortere værdier stigende eller faldende baseret på en bestemt kolonne. For at sortere en DataFrame i faldende rækkefølge, f.eks.:

newDataFrame = DataFrame.sort_values ​​(af = "colmun_name", descending = True)

27. DataFrame.melt

Det smelte() funktion i pandaer vender kolonnerne i en DataFrame til individuelle rækker. Det er som at afsløre anatomien i en DataFrame. Så det lader dig se den værdi, der er tildelt hver kolonne eksplicit.

newDataFrame = DataFrame.melt()

28. DataFrame.count

Denne funktion returnerer det samlede antal elementer i hver kolonne:

DataFrame.count()

29. DataFrame.query

pandaer forespørgsel() lader dig kalde elementer ved hjælp af deres indeksnummer. For at få emnerne i tredje række, for eksempel:

DataFrame.query('4') # Kald forespørgslen på det fjerde indeks

30. DataFrame.where

Det hvor() funktion er en panda-forespørgsel, der accepterer en betingelse for at få specifikke værdier i en kolonne. For eksempel at få alle aldre under 30 fra en Alder kolonne:

DataFrame.where (DataFrame['Alder'] < 30)

Ovenstående kode udsender en DataFrame, der indeholder alle aldre under 30, men tildeler Nan til rækker, der ikke opfylder betingelsen.

Håndter data som en professionel med pandaer

pandas er et skattekammer af funktioner og metoder til at håndtere små til store datasæt med Python. Biblioteket er også praktisk til rengøring, validering og forberedelse af data til analyse eller maskinlæring.

At tage sig tid til at mestre det gør helt sikkert dit liv lettere som dataforsker, og det er besværet værd. Så hent gerne alle de funktioner, du kan håndtere.

20 Python-funktioner, du bør kende

Python Standard Library indeholder mange funktioner til at hjælpe med dine programmeringsopgaver. Lær om de mest nyttige og opret mere robust kode.

Læs Næste

DelTweetE-mail
Relaterede emner
  • Programmering
  • Python
  • Programmering
  • database
Om forfatteren
Idowu Omisola (123 artikler udgivet)

Idowu brænder for alt smart teknologi og produktivitet. I sin fritid leger han med kodning og skifter til skakbrættet, når han keder sig, men han elsker også at bryde ud af rutinen en gang imellem. Hans passion for at vise folk vejen rundt om moderne teknologi motiverer ham til at skrive mere.

Mere fra Idowu Omisola

Abonner på vores nyhedsbrev

Tilmeld dig vores nyhedsbrev for tekniske tips, anmeldelser, gratis e-bøger og eksklusive tilbud!

Klik her for at abonnere