Gør brug af PandasAI Python-biblioteket til at udnytte kraften i kunstig intelligens og store sprogmodeller til at udføre dataanalyseopgaver.
Pandas er det mest fremherskende bibliotek til at manipulere datasæt og datarammer. Dette har været normen i lang tid. Men med fremskridtet inden for kunstig intelligens udvikles et nyt open source-bibliotek kaldet PandasAI, der tilføjer generative AI-egenskaber til Pandas.
PandasAI erstatter ikke Pandas. I stedet giver det sine generative AI-egenskaber. På denne måde kan du udføre dataanalyse ved at chatte med PandasAI. Det abstraherer derefter, hvad der sker i baggrunden, og giver dig resultatet af din forespørgsel.
Installerer PandasAI
PandasAI er tilgængelig via PyPI (Python Package Index). Opret et nyt virtuelt miljø hvis du bruger en lokal IDE. Derefter brug pip-pakkehåndteringen at installere det.
pip installer pandasai
Du kan støde på en afhængighedskonfliktfejl svarende til den, der er vist nedenfor, hvis du bruger Google Colab.
Nedgrader ikke IPython-versionen. Bare genstart din runtime og kør kodeblokken igen. Dette vil løse problemet.
Den fulde kildekode er tilgængelig i en GitHub-depot.
Forståelse af prøvedatasættet
Eksempeldatasættet, du vil manipulere med PandasAI, er datasættet for California Housing Prices fra Kaggle. Dette datasæt indeholder oplysninger om boliger fra folketællingen i Californien i 1990. Den har ti kolonner, der giver statistik om disse huse. Datakortet, der hjælper dig med at lære mere om dette datasæt, er tilgængeligt på Kaggle. Nedenfor er de første fem rækker af datasættet.
Hver kolonne repræsenterer en enkelt statistik for et hus.
Forbinder PandasAI til den store sprogmodel
For at forbinde PandasAI til en stor sprogmodel (LLM) ligesom OpenAI, skal du have adgang til dens API-nøgle. For at få en, fortsæt til OpenAI platform. Log derefter ind på din konto. Vælg API under indstillingssiden, der vises næste.
Derefter skal du klikke på din profil og vælge Se API-nøgler mulighed. Næste klik på den side, der vises Opret ny hemmelig nøgle knap. Til sidst skal du navngive din API-nøgle.
OpenAI genererer din API-nøgle. Kopier det, som du skal bruge det, mens du forbinder PandasAI med OpenAI. Sørg for at holde nøglen hemmelig, da alle med adgang til den kan foretage opkald til OpenAI på dine vegne. OpenAI vil derefter debitere din konto for opkaldene.
Nu hvor du har API-nøglen, skal du oprette et nyt Python-script og indsætte koden nedenfor. Du behøver ikke at ændre denne kode, da du for det meste vil bygge på den.
importere pandaer som pd
fra pandasai importere PandasAI# Erstat med dit datasæt eller dataramme
df = pd.read_csv("/content/housing.csv")# Instantiér en LLM
fra pandasai.llm.openai importere OpenAI
llm = OpenAI(api_token="dit API-token")
pandas_ai = PandasAI(llm)
Ovenstående kode importerer både PandasAI og Pandas. Den læser derefter et datasæt. Endelig instansierer det OpenAI LLM.
Du er nu indstillet til at tale med dine data.
Udførelse af simple opgaver ved hjælp af PandasAI
For at forespørge om dine data skal du videregive din dataramme og din prompt til forekomsten af PandasAI-klassen. Start med at udskrive de første fem rækker af dit datasæt.
pandas_ai (df, prompt='Hvad er de første fem rækker i datasættet?')
Outputtet af ovenstående prompt er som følger:
Dette output er identisk med datasætoversigten tidligere. Dette viser, at PandasAI producerer korrekte resultater og er pålidelige.
Kontroller derefter antallet af kolonner i dit datasæt.
pandas_ai (df, prompt='Hvor mange kolonner er der i datasættet? ')
Det returnerer 10, hvilket er det korrekte antal kolonner i California Housing-datasættet.
Kontrollerer om der mangler værdier i datasættet.
pandas_ai (df, prompt='Er der nogen manglende værdier i datasættet?')
PandasAI returnerer, at total_soveværelser kolonne har 207 manglende værdier, hvilket igen er korrekt.
Der er en masse simple opgaver, som du kan opnå ved at bruge PandasAI, du er ikke begrænset til ovenstående.
Udførelse af komplekse forespørgsler ved hjælp af PandasAI
PandasAI understøtter ikke kun simple opgaver. Du kan også bruge det til at udføre komplekse forespørgsler på datasættet. Hvis du for eksempel i boligdatasættet vil bestemme antallet af huse, der er placeret på en ø, har en værdi på mere end 100.000 dollars, og har mere end 10 værelser, du kan bruge prompten under.
pandas_ai (df, prompt= "Hvor mange huse har en værdi større end 100.000,"
"er på en ø, og det samlede antal soveværelser er mere end 10?")
Det korrekte output er fem. Dette er det samme resultat, som PandasAI udsender.
Komplekse forespørgsler kan tage en dataanalytiker noget tid at skrive og fejlfinde. Ovenstående prompt kræver kun to linjer naturligt sprog for at udføre den samme opgave. Du skal bare have i tankerne præcis, hvad du vil opnå, og PandasAI tager sig af resten.
Tegning af diagrammer ved hjælp af PandasAI
Diagrammer er en vital del af enhver dataanalyseproces. Det hjælper dataanalytikerne med at visualisere dataene på en menneskevenlig måde. PandasAI har også en funktion til korttegning. Du skal bare bestå datarammen og instruktionen.
Start med at oprette et histogram for hver kolonne i datasættet. Dette vil hjælpe dig med at visualisere fordelingen af variablerne.
pandas_ai (df, prompt= "Plot et histogram for hver kolonne i datasættet")
Udgangen er som følger:
PandasAI var i stand til at tegne histogrammet af alle kolonnerne uden at skulle sende deres navne i prompten.
PandasAI kan også plotte diagrammer, uden at du udtrykkeligt fortæller det, hvilket diagram der skal bruges. For eksempel vil du måske finde ud af sammenhængen mellem dataene i boligdatasættet. For at opnå dette kan du sende en prompt som følger:
pandas_ai (df, prompt= "Plot korrelationen i datasættet")
PandasAI plotter en korrelationsmatrix som vist nedenfor:
Biblioteket vælger et varmekort og plotter en korrelationsmatrix.
Overførsel af flere datarammer til PandasAI-forekomsten
Det kan være vanskeligt at arbejde med flere dataframes. Især for en person, der er ny inden for dataanalyse. PandasAI bygger bro over dette hul, da alt du skal gøre er at passere begge datarammer og begynde at bruge prompter til at manipulere dataene.
Opret to datarammer ved hjælp af Pandas.
ansatte_data = {
'Medarbejder-ID': [1, 2, 3, 4, 5],
'Navn': ['John', 'Emma', 'Liam', 'Olivia', 'William'],
'Afdeling': ['HR', 'Salg', 'DET', 'Markedsføring', 'Finansiere']
}lønningsdata = {
'Medarbejder-ID': [1, 2, 3, 4, 5],
'Løn': [5000, 6000, 4500, 7000, 5500]
}
medarbejdere_df = pd. DataFrame (medarbejderdata)
lønninger_df = pd. DataFrame (løn_data)
Du kan stille PandasAI et spørgsmål, der går på tværs af begge dataframes. Du skal kun videregive begge dataframes til PandasAI-instansen.
pandas_ai([medarbejdere_df, lønninger_df], "Hvilken medarbejder har den største løn?")
Det vender tilbage Olivia hvilket igen er det rigtige svar.
Det har aldrig været nemmere at udføre dataanalyse, PandasAI lader dig chatte med dine data og analysere dem med lethed.
Forstå teknologien, der driver PandasAI
PandasAI forenkler processen med dataanalyse og sparer derfor meget tid for dataanalytikere. Men det abstraherer, hvad der sker i baggrunden. Du skal sætte dig ind i generativ AI, så du kan få et overblik over, hvordan PandasAI fungerer under motorhjelmen. Dette vil også hjælpe dig med at holde trit med de seneste innovationer inden for det generative AI-domæne.