Beskrivande statistik |
![]() |
Sammanfattning av innehåll
Det finns två syften med statistisk behandling av
data:
1. Beskrivande statistik, tex längden hos
blåmusslor på svenska västkusten eller antalet ryggkotor hos
Östersjösill.
2. Slutsatsstatistik eller hypotesprövning, vilket
inbegriper ett statistiskt test där man tex undersöker om det är någon skillnad
i medelantalet ryggkotor mellan Östersjösill och Västkustsill.
I allmänhet är beskrivande statistik en förutsättning för hypotesprövning. Omvänt så hävdas också i boken att beskrivningar av naturen endast är av intresse om det finns en hypotes i bakgrunden.
Ett bra sätt att beskriva observationer eller mätningar är att göra det med hjälp av histogram. Se gärna denna video från Mattecentrum Onlineakademin.
Längd eller höjd är en variabel, något som varierar, ofta betecknad med x, men ibland med y. Ett annat exempel på en variabel är antalet ägg per fågelbo (Figur 3 i kursboken). En variabel är inte samma sak som en parameter. En parameter är en matematisk konstant eller funktion som beskriver (och därmed sammanfattar) frekvensfördelningen av en viss variabel.
De viktigaste parametrarna är:
Lägesparameter eller centralmått
- medelvärde
- median
- typvärde (mode)
Spridningsparameter
- intervall, max-min (range)
- varians
- standardavvikelse (kvadratroten av variansen)
Begreppen variabel och parameter används ofta omväxlande
med varandra, men det är enklast om vi håller oss till definitionerna ovan, som
också används i boken. Det finns ytterliggare ett begrepp som brukar blandas
ihop med variabel och parameter, nämligen faktor, som beskriver
förhållanden som påverkar variabler. När det gäller musslor är tex salthalt och
vattendjup faktorer som påverkar musslornas längd.
Lådagram är ett mycket bra sätt att sammanfatta information från stickprov. Se BoxPlotR: a web-tool for generation of box plots och exempel här nedan.
Stickprov-population
Eftersom vi vanligtvis inte kan mäta eller räkna alla
individer i populationen (här definierad som den grupp individer som vi vill
uttala oss om) tar vi ett stickprov. Vi antar då att stickprovet (ett
färre antal individer än som finns i populationen) representerar populationen;
för att stickprovet skall vara representativt krävs att samtliga
individer i populationen skall ha samma chans att bli observerade eller
mätta.
Populationen som man vill att stickprovet skall representera måste alltså vara väl definierad. När det gäller blåmusslorna ovan så måste man i förväg bestämma hur unga musslor som skall vara med i undersökningen (blåmusslor slår sig ned på havsbottnen när de är ca 0,25 mm långa). Likaså är det viktigt att i förväg definiera vilket geografiskt område som stickproven skall representera.
Om inte stickprovet är representativt så är skattningen (uppskattningen) av populationen felaktig (biased). Detta kallas i bland för ett skevt stickprov, eller skevt urval; ej att färväxla med en skev fördelning (skewed distribution). För att gardera sig mot (omedvetna) systematiska fel så väljs de olika individerna i stickprovet med hjälp av slumpen. Senare kommer vi att se att slumpmässigt tagna stickprov är en förutsättning för många statstiska test som används vid hypotesprövning.
Stickprov
- representativt
- biased eller systematiskt felskattat
- slumpmässigt
Utifrån stickprov kan man räkna ut stickprovsparametrar
som skattar sanna populationsparametrar. För att skilja på skattade och sanna
(men okända) parametrar så använder man olika symboler:
- stickprovsmedelvärdet x-bar skattar µ
- stickprovsvariansen s2 skattar σ2 men har n-1 frihetsgrader eftersom vi redan har skattat µ med x-bar
- stickprovets standardavvikelse s skattar σ och har också n-1 frihetsgrader
Skattade parametrar avviker från sanna populationsparametrar
Vid provtagning och bearbetning av data får man räkna med att populationsparametrar, som medelvärde och standardavvikelse, inte skattas helt rätt. Sådant som kan på verka skattningar är icke representativt stickprov, felmätningar, fel värden registrerade med mera. Vissa fel kan enkelt upptäckas med hjälp av lådagram, eftersom de kan göra en uppmärksam på extremvärden. Man kan öka precision och reproducerbarhet genom att anstränga sig mer. Det är viktigt att parametrarna skattas tillräckligt bra för att risken ska vara liten att man drar fel slutsatser vid hypotesprövning, men man ska inte anstränga sig onödigt mycket. Då är det bättre att använda tiden och resurserna till annat, där de gör mer nytta. Längre fram kommer vi att lära oss mer om hur man beräknar riskerna för att hypoteser behålls av misstag och riskerna för att hypoteser förkastas av misstag.
Nyckelord
Stickprov, population, variabel, parameter, faktor,
medelvärde, varians, standardavvikelse
Histogram i Excel
Här i Histogramexempel.xlsx beskriver vi
hur man gör.
Lådagram med hjälp av BoxPlotR
Det har blivit enkelt att göra lådagram tack vare webbapplikationen BoxPlotR. Här i Ladagram-exempel.xlsx förklaras lådagram och man kan se en beskrivning av hur diagrammet tas fram med hjälp av BoxPlotR. Läs gärna också i Matteboken på sidan Kvartiler och lådagram.
Övningsuppgifter
Du måste göra övningsuppgifterna. När du gör uppgifterna märker du om du har förstått innehållet och om du kan använda dig av det du har lärt dig. Observera att vi förutsätter att du gör alla övningsuppgifter, även om du inte behöver redovisa alla lösningar i examinationen.