Hvad, hvordan og hvorfor [+ 5 Learning Resources]

Hypotesetestning er en metode, der anvendes af mange analytikere i private og offentlige sektorer til at fremsætte sandsynlige udsagn eller antagelser om befolkningsdata.

Hvis du har beskæftiget dig med eller studeret befolkningsdata, må du være stødt på dette vigtige værktøj til hypotesetestning.

Mange metoder kan bruges til at lave antagelser, men ikke alle giver højere nøjagtighed.

Og hvis du ikke er sikker på dine data, men stadig ønsker at bruge dem, kan det være risikabelt for din organisation.

Hypotesetestning er en god strategi for at opnå et højere niveau af nøjagtighed. Det har været medvirkende til befolkningsanalyse.

I denne artikel vil jeg diskutere, hvad hypotesetest er, hvordan det virker, dets fordele og dets use cases.

Så, uden videre, lad os starte!

Hvad er hypotesetestning?

Hypotesetestning er en statistisk inferensmetode, analytikere bruger til at teste, om de tilgængelige befolkningsdata tilstrækkeligt understøtter en given hypotese og gør antagelser ud af den.

Gennem denne metode kan analytikere nemt vurdere en hypotese og bestemme, hvor nøjagtig antagelsen er baseret på de foreliggende data.

Med enkle ord er det en testproces baseret på inferentiel statistik, der giver dig mulighed for at komme til en dom om befolkningsdata baseret på indsamlede stikprøvedata.

Generelt er det næsten umuligt for analytikere at finde ejendomme eller en bestemt parameter for hele befolkningen. Men gennem hypotesetestning kan du foretage en informeret forudsigelse og beslutning baseret på prøvedataene og deres nøjagtighed.

Typer af hypotesetestning

De forskellige typer hypotesetestning er:

  • Nulhypotese: Statistikken viser, at stikprøvedataene er abrupte, og der er ingen sammenhæng mellem de to variable i de givne stikprøvedata.
  • Alternativ hypotese: Den demonstrerer den primære tese og modsætter sig nulhypotesen. Det er den vigtigste drivkraft i testprocessen, fordi det viser en sammenhæng mellem to variable i stikprøvedata.
  • Ikke-retningsbestemt hypotese: Denne type hypotesetest fungerer som en tosidet hypotese. Det viser, at der ikke er nogen retning mellem to variable i prøvedata, og at den sande værdi ikke er den samme som den forudsagte værdi.
  • Retningshypotese: Retningshypotese skildrer en eller anden sammenhæng mellem to variable. Her kan en variabel i et stikprøvedata påvirke de andre variable.
  • Statistisk hypotese: Det hjælper analytikere med at vurdere, om dataene og værdien opfylder en bestemt hypotese. Det er meget nyttigt til at lave udsagn og antagelser om resultatet af en prøvepopulationsparameter.

Lad os derefter diskutere metoder til hypotesetestning.

Metoder til hypotesetestning

For at kunne vurdere, om en specifik hypotese er sand eller ej, skal du som analytiker bruge en masse plausibelt bevis for at konkludere. I denne testproces opstilles en nul- og alternativ hypotese, inden vurderingen påbegyndes.

  At kende Next.js vs. React for udviklere

Hypotesetestning involverer ikke kun en enkelt metode, men mange til at vurdere, om prøvedataene er gunstige. Som analytiker skal du overveje dataene og stikprøvestørrelsen og vælge, hvilken hypotesetestmetode der passer til dig.

Normalitetstest

Det er en standard hypotesetestmetode til at analysere regelmæssig fordeling i stikprøvedata. Under testprocessen kontrolleres det, om de grupperede datapunkter omkring middelværdien er under eller over middelværdien.

I denne statistiske test er chancen for, at punkter går over eller under middelværdien lige så sandsynlig. Der dannes en klokkekurve, og den er ligeligt fordelt på begge sider af middelværdien.

Z-test test

Det er en anden type hypotesetest, der anvendes, når befolkningsdataene er normalfordelt. Den tester, at gennemsnittet af to separate populationsparametre er forskellige, når variansen af ​​dataene er kendt for dig.

Under analyse af befolkningsdata er det højst sandsynligt, at du vil bruge denne type, når dataprøvestørrelsen er mere end tredive. Desuden er den centrale grænsesætning en anden grund, der gør Z-Test velegnet, da sætningen siger, at når stikprøvestørrelserne øges, er prøverne normalfordelte.

T-test test

T-Test hypotesetestning vil blive brugt af dig, når stikprøvestørrelsen er begrænset og normalt distribueres. Generelt, når stikprøvestørrelsen er under 30, og standardafvigelsen af ​​parameteren er ukendt for dig, anvendes den hovedsageligt.

Når du laver en T-test, gør du det for at beregne konfidensintervallerne for specifikke populationsdata.

Chi-Square test

Chi-square-testen er en populær hypotese-testproces, der ofte bruges til at vurdere egnetheden og integriteten af ​​en distribution af data.

Kilde: wikipedia.org

Hovedårsagen til, at du vil bruge denne hypotesetype, er, når du vil teste populationsvariansen mod en populationsvarians af en antaget eller kendt værdi. Der udføres forskellige Chi-Square-tests, men den mest almindelige type er Chi-Square-testen af ​​varians og uafhængighed.

ANOVA test

Forkortet som Analysis of Variance er det en statistisk testmetode, der hjælper med at sammenligne datasættene for to prøver. Det giver dig dog mulighed for at sammenligne mere end to metoder ad gangen.

Den forklarer også en afhængig variabel og en uafhængig variabel af stikprøvedata. Brugen af ​​ANOVA er ret lig brugen af ​​Z-Test og T-Test, men de to sidstnævnte er begrænset til kun to måder.

Hvordan fungerer hypotesetestning?

Hver analytiker, der bruger hypotesetestning, bruger tilfældige stikprøvedata til analyse og måling. Under testen bliver de tilfældige stikprøvedata brugt til at teste nulhypotesen og den alternative hypotese.

Som vi har diskuteret tidligere, er nulhypotesen og den alternative hypotese fuldstændig gensidigt udelukkende, og under udfaldet af testen kan kun én være sand.

Der er dog nogle tilfælde, hvor nulhypotesen forkastes; den alternative hypotese er ikke altid sand.

Kilde: Analytics Steps

p-værdi: Mens testprocessen starter, er p-værdien eller sandsynlighedsværdien involveret, og den viser, om resultatet er signifikant eller ej. Ikke kun det, men p-værdien viser også sandsynligheden for, at der opstår fejl ved at afvise eller ikke afvise en nulhypotese under testen. Den resulterende p-værdi er enten 0 eller 1, som derefter sammenlignes med signifikansniveauet eller alfaniveauet.

Signifikansniveauet her definerer den acceptable risiko, mens en nulhypotese afvises under testen. Det er vigtigt at huske, at resultatet af hypotesetesten kan føre til to typer fejl:

  • Type 1 fejl opstår, når testresultatet afviser nulhypotesen, selvom den er sand.
  • Type 2 fejl vises, når nulhypotesen accepteres af prøveresultatet på trods af at den er falsk.
  Sådan tænder du Moto E4-meddelelseslys

Alle de værdier, der forårsager afvisningen af ​​nulhypotesen, er lagret i det kritiske område. Og det er den kritiske værdi, der adskiller de kritiske regioner fra andre.

Trin til at udføre hypotesetestning

Kilde: Medium

Hypotesetestning involverer hovedsagelig fire trin:

  • Definer hypoteser: I det første trin er dit job som analytiker at definere de to hypoteser, så kun den ene kan være sand. Nulhypotesen vil indikere, at der ikke er nogen forskel i middel-BMI, mens den alternative hypotese vil angive, at der er en signifikant forskel i middel-BMI.
  • Plan: I det næste trin skal du designe en analyseplan for, hvordan du kan analysere prøvedataene. Det er vigtigt, at du foretager prøvetagning og indsamler prøvedataene for at sikre, at de er designet til at teste din hypotese.
  • Analyser prøvedata: Efter at have besluttet, hvordan du vil evaluere dataene, er det tid til at begynde med processen. Du bliver nødt til at analysere prøvedataene fysisk, så der ikke er nogen redundans. Mens du analyserer dataene, bør du kontrollere, at prøverne er uafhængige af hinanden, og at begge stikprøvestørrelser er store nok.
  • Beregn teststatistik: I denne fase skal du beregne teststatistikken og finde p-værdien. P-værdien vil blive bestemt ved at antage, at nulhypotesen er sand.
  • Vurder resultatet: I det sidste trin skal du vurdere resultatet af hypotesetesten. Her vil du beslutte, om du vil forkaste nulhypotesen eller erklære dens plausibilitet baseret på prøvedataene.

Nu vil vi undersøge fordelene ved hypotesetestning.

Fordele ved hypotesetestning

Fordelene ved hypotesetestning er:

  • Det hjælper dig med at analysere styrken af ​​dit krav på en databeslutning.
  • Som analytiker giver det dig mulighed for at skabe et pålideligt miljø til at tage stilling til prøvedata.
  • Det lader dig bestemme, om prøvedataene, der er involveret i hypotesetestning, er statistisk signifikante.
  • Det er gavnligt til at vurdere pålideligheden og validiteten af ​​testresultater i enhver systematisk testproces.

Det hjælper dig med at ekstrapolere dataene fra et prøvetrin til en større population afhængigt af kravet.

Use Cases of Hypothesis Testing

Hypotesetestning bruges i forskellige sektorer for at gætte prøvedatas nøjagtighed korrekt. Nogle eksempler fra den virkelige verden på hypotesetestning er:

#1. Kliniske forsøg

Hypotesetestning bruges i vid udstrækning under kliniske forsøg, fordi det hjælper læger med at beslutte, om et nyt lægemiddel, behandling eller procedure vil være effektiv eller ej baseret på prøvedata.

En læge tror måske, at en behandling kan lindre kaliumniveauet hos nogle patienter. Lægen kan måle kaliumniveauet hos en gruppe patienter, før behandlingen udføres, og kontrollere niveauet igen.

Dernæst udfører lægen hypotesetestning, hvor H0: Uafter = Ubefore, og det angiver, at kaliumniveauet er det samme som før efter påføring af behandlingen. En anden hypotese indikerer Ha: Uafter < Ubefore, hvilket betyder, at kaliumniveauet er faldet efter påføring af behandlingen.

Så hvis p-værdien er mindre end signifikansniveauet, så kan lægen konkludere, at behandlingen kan sænke kaliumniveauet.

  Sådan bliver du udelukket fra Tinder

#2. Fremstilling

Hypotesetestning bruges i produktionsanlæg for at hjælpe tilsynsførende med at beslutte, om den nye metode eller teknik er effektiv eller ej.

For eksempel kan nogle produktionsenheder bruge hypotesetest til at finde ud af, om den nye metode hjælper dem med at reducere antallet af defekte produkter pr. batch. Antag, at antallet af defekte produkter er 300 pr. batch.

Producenten skal bestemme gennemsnittet for det samlede antal defekte produkter fremstillet før og efter brug af metoden. De kan udføre hypotesetestning og bruge hypoteser H0: Uafter = Ubefore, hvor gennemsnittet af defekte produkter produceret efter anvendelse af en ny metode er det samme som før.

En anden hypotese viser, at HA: Uafter ikke er lig med Ubefore, hvilket betyder, at det samlede antal defekte produkter produceret efter anvendelse af den nye metode ikke er det samme.

Efter testen, når p-værdien er mindre end signifikansniveauet, kan produktionsenheden konkludere, at antallet af producerede defekte produkter har ændret sig.

#3. Landbrug

Hypotesetestning bruges ofte til at finde ud af, om gødning eller pesticid forårsager vækst og immunitet i planter. Biologer kan bruge testen til at bevise, at en bestemt plante kan vokse mere end 15 tommer efter påføring af den nye gødning.

Biologen kan anvende gødningen i en måned for at indsamle prøvedata. Når biologen udfører en test, er en hypotese H0 U=15 tommer, hvilket indikerer, at gødningen ikke forårsager nogen forbedring af plantens gennemsnitlige vækst.

En anden hypotese viser HA: U> 15 tommer, hvilket betyder, at gødningen forårsager forbedring af plantens gennemsnitlige vækst. Efter at have testet, når p-værdien er mindre end signifikansniveauet, kan biologen nu bevise, at gødning forårsager mere vækst end tidligere.

Læringsressourcer

#1. Statistik: En trin-for-trin introduktion af Udemy

Udemy tilbyder et kursus om statistik, hvor du vil lære en trin-for-trin introduktion til statistik, der dækker hypotesetestning. Dette kursus har eksempler og lektioner fra en tidligere Google-dataforsker for at hjælpe dig med at mestre konfidensintervaller, hypotesetests og meget mere.

#2. Væsentlige statistikker til dataanalyse af Udemy

Dette Udemy-kursus om essentiel statistik til dataanalyse hjælper dig med at lære statistik med projekter i den virkelige verden, sjove aktiviteter, hypotesetest, sandsynlighedsfordelinger, regressionsanalyse og mere.

#3. Statistik for datavidenskab og forretningsanalyse

Dette kursus om statistik til datavidenskab og forretningsanalyse tilbydes af Udemy, som vil hjælpe dig med at lære hypotesetestning. Det dækker forskellige statistikemner, hvilket gør det muligt for datavidenskabsmænd og forretningsanalytikere at lære og mestre dem. Det dækker inferentiel og beskrivende statistik sammen med regressionsanalyse.

#4. Hypotesetestning af Jim Frost

Denne bog er tilgængelig på Amazon og er en intuitiv guide til at hjælpe analytikere med at træffe datadrevne beslutninger.

Det dækker arbejdet med hypotesetests, hvorfor du har brug for dem, hvordan man effektivt bruger konfidensintervaller, p-værdier, signifikansniveauer og mange flere emner.

#5. Hypotesetestning af Scott Hartshorn

Denne bog er unik med sine visuelle eksempler og er bedst til begyndere, der søger en hurtig guide til hypotesetestning.

Det vil introducere dig til betydningen af ​​statistikker, typer og deres funktion. Det kræver ikke, at du har forudgående indgående kendskab til statistik, men forklarer alt intuitivt.

Slutord

Hypotesetestning hjælper med at verificere en antagelse og derefter udvikle statistiske data baseret på vurderingen. Det bliver brugt i mange sektorer, fra fremstilling og landbrug til kliniske forsøg og IT. Denne metode er ikke kun nøjagtig, men hjælper dig også med at træffe datadrevne beslutninger for din organisation.

Tjek derefter læringsressourcerne for at blive forretningsanalytiker.