For at analysere et datasæt skal du først forstå dataene. Nogle gange har du måske ingen forhåndsviden om et datasæt, hvilket forhindrer dig i at få mest muligt ud af det. Som dataanalytiker kan du bruge Exploratory data analysis (EDA) til at få viden om dit datasæt før dybdegående analyse.

Udforskende dataanalyse (EDA) undersøger et datasæt for at få meningsfuld indsigt. Processen med at udføre EDA involverer forespørgsel efter oplysninger om strukturen og indholdet af et datasæt.

Installation af Gota-pakken

Gota-pakken er den mest populære til dataanalyse i Go; det er ligesom Python Pandas pakke men for Go. Gota-pakken indeholder mange metoder til at analysere datasæt og læse JSON-, CSV- og HTML-formater.

Kør denne kommando på din terminal i den mappe, hvor du har initialiseret en Go-modulfil:

 få -u github.com/-gota/gota

Kommandoen installerer Gota i den lokale mappe, klar til at du kan importere pakken for at bruge den.

Ligesom Pandas understøtter Gota serier og dataframes operationer. Der er to underpakker i Gota-pakken: serien og datarammepakken. Du kan importere enten den ene eller begge, afhængigt af dine behov.

instagram viewer

importere (
"github.com/-gota/gota/series"
"github.com/-gota/gota/dataframe"
)

Læsning af et datasæt ved hjælp af Gota-pakken

Du kan bruge enhver CSV-fil, du kan lide, men de følgende eksempler viser resultater fra et Kaggle-datasæt, der indeholder prisdata for bærbare computere.

Gota lader dig læse CSV-, JSON- og HTML-filformater for at oprette datarammer ved hjælp af Læs CSV, ReadJSON, og Læs HTML metoder. Sådan indlæser du en CSV-fil i et datarammeobjekt:

fil, fejl := os. Åbn("/sti/til/csv-fil.csv")

hvis fejl!= nul {
fmt. Println("fil åben fejl")
}

dataramme := dataramme. LæsCSV(fil)
fmt. Println (dataFrame)

Du kan bruge Åben metoden til os pakke for at åbne en CSV-fil. ReadCSV-metoden læser filobjektet og returnerer et datarammeobjekt.

Når du udskriver dette objekt, er outputtet i tabelformat. Du kan manipulere datarammeobjektet yderligere ved hjælp af de forskellige metoder, Gota tilbyder.

Objektet udskriver kun nogle af kolonnerne, hvis et datasæt har mere end en indstillet værdi.

Hentning af datasættets dimension

Dimensionerne af en dataramme er antallet af rækker og kolonner, den indeholder. Du kan hente disse dimensioner ved hjælp af Dims metoden for datarammeobjektet.

var rækker, kolonner = dataFrame. Dims ()

Erstat en af ​​variablerne med en understregning for kun at hente den anden dimension. Du kan også forespørge om antallet af rækker og kolonner individuelt ved hjælp af Nu og Ncol metoder.

var rækker = dataramme. Nu ()
var kolonner = dataFrame. Ncol()

Hentning af datatyper for kolonner

Du skal kende de sammensatte datatyper i et datasæts kolonner for at analysere det. Du kan hente disse ved hjælp af Typer metode for dit datarammeobjekt:

var typer = dataFrame. Typer()
fmt. Println (typer)

Metoden Types returnerer et udsnit, der indeholder kolonnens datatyper:

Henter kolonnenavnene

Du skal bruge kolonnenavnene for at vælge specifikke kolonner til operationer. Du kan bruge Navne metode til at hente dem.

var kolonnenavne := dataFrame. Navne()
fmt. Println (kolonnenavne)

Navnemetoden returnerer et udsnit af kolonnenavnene.

Kontrollerer for manglende værdier

Du har muligvis et datasæt, der indeholder null- eller ikke-numeriske værdier. Du kan tjekke for sådanne værdier ved hjælp af HasNaN og IsNaN metoder til et serieobjekt:

aCol := dataFrame. Col("display_size")
var hasNull = aCol. HasNaN()
var isNotNumber = aCol. IsNaN()

HasNan kontrollerer, om en kolonne indeholder null-elementer. IsNaN returnerer et udsnit af booleaner, der repræsenterer, om hver værdi i kolonnen er et tal.

Udførelse af deskriptiv statistisk analyse

Deskriptiv statistisk analyse hjælper dig med at forstå fordelingen af ​​numeriske kolonner. Bruger Beskrive metode, kan du generere en beskrivende statistisk analyse af dit datasæt:

beskrivelse := dataFrame. Beskrive()
fmt. Println (beskrivelse)

Metoden Beskriv returnerer metrics som middelværdi, standardafvigelse og maksimumværdier for kolonner i et datasæt. Den opsummerer disse i et tabelformat.

Du kan også være specifik og fokusere på kolonner og metrics ved at vælge en bestemt kolonne og derefter forespørge efter den metric, du ønsker. Du bør først hente serien, der repræsenterer en specifik kolonne, og derefter bruge dens metoder som sådan:

aCol := dataFrame. Col("display_size")
var betyder = aCol. Betyde()
var median = aCol. Median()
var minimum = aCol. min()
var standardafvigelse = aCol. StdDev()
var maksimum = aCol. Max()
var kvantiler25 = aCol. Kvantil (25.0)

Disse metoder afspejler resultaterne fra den beskrivende statistiske analyse, som Describe udfører.

Hentning af elementerne i en kolonne

En af de sidste opgaver, du vil udføre, er at kontrollere værdierne i en kolonne for at få et generelt overblik. Du kan bruge Optegnelser metode til at se værdierne af en kolonne.

aCol := dataFrame. Col("brand")
fmt. Println (aCol. Records())

Denne metode returnerer et udsnit af strenge, der indeholder værdierne i din valgte kolonne:

Eksport af en Gota-dataramme til en fil

Hvis du vælger at gå videre og bruge Gota-pakken til fuld dataanalyse, skal du gemme data i filer. Du kan bruge Skriv CSV og SkrivJSON metoder til dataramme til at eksportere filer. Metoderne tager en fil ind, som du vil oprette ved hjælp af os pakkens skab metode.

Sådan kan du eksportere en dataramme ved hjælp af Gota-pakken.

dataramme := dataramme. LæsCSV(fil)
outputfil, fejl := os. Create("output.csv")

hvis fejl!= nul {
log. Fatal (fejl)
}

fejl = dataramme. SkrivCSV(outputfil)

hvis fejl!= nul {
log. Fatalln("Der opstod en fejl ved at skrive datarammeindholdet til filen")
}

Det dataramme variabel er en repræsentation af datarammen. Når du bruger skab metoden til os pakke, opretter den en ny, tom fil med det angivne navn og returnerer filen. WriteCSV-metoden tager filforekomsten ind og returnerer en fejl eller nul hvis der ikke er nogen fejl.

Udforskende dataanalyse er vigtig

En forståelse af data og datasæt er afgørende for dataanalytikere og maskinlæringsspecialister. Det er en kritisk operation i deres arbejdscyklus, og undersøgende dataanalyse er en af ​​de teknikker, de bruger til at opnå det.

Der er mere til Gota-pakken. Du kan bruge det til forskellige data-krangelfunktioner på samme måde, som du ville bruge Python Pandas-biblioteket til dataanalyse. Gota understøtter dog ikke helt så meget funktionalitet som Pandas.