BIOSTATISTIK OCH EPIDEMIOLOGI

Storlek: px
Starta visningen från sidan:

Download "BIOSTATISTIK OCH EPIDEMIOLOGI"

Transkript

1 BIOSTTISTIK OCH EPIDEMIOLOGI 1. DTTYPER Kvalitativa data Kvantitativa data DESKRIPTIV STTISTIK Lägesmått Spridningsmått Grafisk beskrivning NLYTISK STTISTIK Studiepopulation och stickprov Punktskattningar och konfidensintervall Hypotesprövning Parametriska vs. icke-parametriska test Korrelationskoefficient Linjär regression STTISTISK TEST EN ÖVERBLICK TT MÄT HÄLS OCH SJUKDOM Grundläggande begrepp Sjukdomsmått Riskmått EPIDEMIOLOGISK STUDIER Tidsperspektiv Studiedesign FELKÄLLOR Precision och slumpmässiga fel Validitet och systematiska fel DIGNOSTISK TEST Sensitivitet och specificitet Positivt och negativt prediktivt värde LÖSNINGR Detta kompendium finns att ladda ner på nna xmon 1999 och 2005 anna.axmon@med.lu.se

2 1. DTTYPER Data som samlas in för studier och undersökningar består av variabler (eng: variables). En variabel är något som beskriver en egenskap hos det som studeras, t.ex. ett svar på en fråga i en enkät, ett mätvärde på en patient, eller ett labresultat som är relaterat till en individ. Exempel: I en studie där man ville undersöka om det fanns ett samband mellan exponering för passiv rökning och graviditetsutfall frågade man 95 kvinnor om de utsattes för passiv rökning. Svarsalternativen var aldrig, ibland och ofta. Man mätte också deras halt av kotinin i urin, en biomarkör för nikotin. Slutligen registrerade man vid graviditetens slut dess utfall (levande fött barn, dödfött barn, missfall). Data matades in i en databas som bestod av tre variabler: 1) Information om huruvida kvinnan utsattes för passiv rökning, 2) labsvaret angående kotininhalten i urin, och 3) graviditetens utfall. Det finns två huvudkategorier av variabler: Kvalitativa och kvantitativa. Vardera grupp har två undergrupper kvalitativa data kan vara antingen nominala (eng: nominal) eller ordinala (eng:ordinal), medan kvantitativa data kan vara antingen diskreta (eng: discrete) eller kontinuerliga (eng: continuous). Variabel Kvalitativa data (Kategoriska) Kvantitativa data (Numeriska) Nominaldata Utan inbördes ordning Ordinaldata Med inbördes ordning Diskreta data Kan endast anta vissa värden Kontinuerliga data Kan anta i princip vilka värden som helst 1.1. Kvalitativa data Kvalitativa data kallas ibland kategoriska data. Variabler som tillhör denna grupp kan endast anta vissa, på förhand bestämda, värden. Dessa värden kan ha en viss inbördes ordning, i vilket fall de kallas för ordinaldata, men de kan också vara utan inbördes ordning, i vilket fall de i stället kallas nominaldata. Exempel: I exemplet ovan är både graviditetsutfall och passiv rökning kategoriska variabler. Vad gäller graviditetsutfall finns det inget naturligt sätt att ordna utfall som t.ex. levande fött barn, dödfött barn och missfall. Detta är alltså nominaldata. För passiv rökning kan man däremot rangordna svaren i ökande ordning. En kvinna som utsätts för passiv rökning ofta är mer exponerad än någon som utsätts för passiv rökning ibland, som i sin tur är mer exponerad än någon som aldrig utsätts för passiv rökning. Denna gången handlar det alltså om ordinaldata. Ofta kodar man klasserna för att enklare kunna genomföra statistisk analys. T.ex. kan man i sin databas mata in en etta för levande fött barn, tvåa för dödfött barn, etc. Man får dock inte glömma att detta endast är en kodning, och att siffrorna bara är etiketter, inte riktiga värden Kvantitativa data Ett annat namn för kvantitativa data är numeriska data. Detta är variabler som beskriver något som man har mätt. Till skillnad från kodade kvalitativa data beskriver alltså numeriska data ett verkligt värde. Den ena typen av numeriska data är diskreta data. Detta är variabler som bara kan anta vissa värden, oftast heltal. Det enklaste exemplet på detta är antal hur många cigaretter per dag röker du, hur många gånger har du varit hos läkaren i år, etc. Den andra typen av numeriska data är kontinuerliga 3

3 data. Dessa variabler kan anta i princip vilka värden som helst den enda begränsningen är den som ligger i mätinstrumentet. Har man bara tillräckligt skarpt mätinstrument kan man mäta en persons längd med ett väldigt stort antal decimaler. Exempel: I exemplet ovan är mätvärdet för kotinin i urin en kontinuerlig variabel. Övningar 1. Man vill undersöka den blodtryckssänkande effekten hos ett nytt läkemedel och startar därför en klinisk studie. På samtliga ingående patienter mäter man blodtryck före och efter. Vad är detta för sorts data? Motivera! 2. I en marknadsundersökning vill tillverkaren av ketchup veta vad kunderna tycker om deras nya förpackning. Svarsalternativen är sämre än den förra, skiljer sig inte från den förra och bättre än den förra. Vad är detta för sorts data? Motivera! 3. För att testa den smärtstillande egenskapen hos ett nytt läkemedel får patienter som använt läkemedlet bedöma sin smärta på en VS-skala som är graderad från 1 till 10. Vad är detta för sorts data? Motivera! 4

4 2. DESKRIPTIV STTISTIK Begreppet statistik kan användas för att beskriva antingen deskriptiv statistik eller analytisk statistik. Deskriptiv statistik syftar till att beskriva hur ett material ser ut. Ibland kan detta utgöra hela den statistiska bearbetningen, ibland kan det vara ett första steg innan man börjar med den analytiska statistiken. Om man har genomfört en vetenskaplig studie i vilken man har samlat in en mängd information finns ett behov av att vidarebefordra denna information. Detta kan ske i vetenskapliga tidskrifter, konferenser, som en rapport från ett projektarbete, etc. Oavsett vem som är målgruppen, och i vilken form informationen skall presenteras finns det i de flesta fall ett behov av att kondensera informationen. Läsaren/åhöraren vill ha en snabb överblick över hur data ser ut utan att behöva sätta sig in i varje individ som har studerats och varje variabel som har mätts Lägesmått Ett lägesmått beskriver var på mätskalan fokus i observationerna ligger. Om man t.ex. mäter olika individers längd är det ju av intresse att veta om materialets tyngdpunkt ligger lågt (t.ex. om man mäter på nyfödda) eller högt (t.ex. om man mäter på basketspelare). De vanligaste lägesmåtten är medelvärde, median och typvärde Medelvärde Medelvärdet (eng: mean) är genomsnittet av alla värden, d.v.s. summan av alla observationer delat med antalet observationer. Matematiskt beskrivs medelvärdet med följande formel. 1 1 x = x = 2 + n n ( x + x + ) i 1 x n Exempel: Man vill beräkna medelåldern i en grupp av tolv läkarstudenter. För att göra detta tar man först reda på hur gammal var och en är och får följande besked: 25, 21, 22, 34, 31, 22, 28, 26, 29, 30, 26, 24. Enligt formeln ovan blir alltså medelåldern ( )/12=318/12=26,5 år. Om data är symmetriska ligger medelvärdet i mitten av observationerna. Man brukar då välja att använda medelvärdet som lägesmått. Observera att man dock inte bör räkna medelvärde för nominal- eller ordinaldata då dessa datatyper inte är numeriska, d.v.s. de värde man har tilldelat varje grupp är inte ett mätvärde utan en kodning. Medelvärdet tenderar att vara känsligt för observationer som ligger långt från de övriga, s.k. outliers. Detta gäller särskilt om materialet är litet. Exempel: På ett litet företag bestående av åtta anställda och en ägare betalades följande löner ut (tkr): 14, 13, 18, 11, 21, 23, 16, 12 och 42. Medellönen i företaget var alltså ca 19 tkr. Efter en ovanligt bra månad höjde ägaren sin egen lön från 42 tkr till 84 tkr, men höjde inte lönerna för sina medarbetare. Medellönen blev då ca 24 tkr Median För att kunna förklara begreppet median (eng: median) måste man först förstå begreppet rang (eng: rank). En observations rang är det samma som observationens turordning efter att samtliga observationer har sorterats i storleksordning. Om två observationer har samma värde får båda dessa observationer medelvärdet av de ranger de skulle haft om man kunnat skilja dem åt. Exempel: Om man sorterar de 12 läkarstudenterna i exemplet ovan och sätter rang på samtliga observationer kommer det att se ut så här: 5

5 Värde Rang 1 2,5 2, ,5 6, Lägg märke till att de två studenterna som var 22 år gamla skulle haft rangerna 2 och 3, men får nu båda medelvärdet av dessa ranger, d.v.s. 2,5. Motsvarande gäller för de studenter som är 26 år gamla. När man väl har sorterat observationerna kan man bestämma medianen som det mittersta värdet. Har man ett fåtal observationer brukar det vara lätt att hitta mitten. Man kan annars hitta medianen genom att det är det värde som har rang (n+1)/2, där n är antalet observationer. Exempel: I exemplet ovan skall medianen ha rang (12+1)/2=6,5. Medianåldern är alltså 26 år. Om formeln inte producerar ett heltal hamnar man mitt emellan två observationer. Det finns då olika sätt att beräkna medianen. Det enklaste sättet är att ta medelvärdet av de intilliggande observationerna. Medianen används som lägesmått för ordinala data, och för kvantitativa data som inte uppfyller villkoren för att använda medelvärdet (d.v.s. symmetri). Medianen är inte känsligt för outliers på samma sätt som medelvärdet, och är därför också ett bra lägesmått vid material som innehåller just outliers. Exempel: På det lilla företaget i exemplet ovan blir lönemedianen före ägarens lönehöjning densamma som efter ägarens löneförhöjning, nämligen 16 tkr (observation nummer 5) Typvärde Typvärde (eng: mode) är det värde som är mest förekommande i data, och kan användas oavsett vilken sorts data (ordinaldata, diskreta eller kontinuerliga data) man vill presentera. Exempel: I exemplet ovan finns två typvärden: 22 och Spridningsmått När man väl har förmedlat vara tyngdpunkten i data ligger är det av intresse att veta hur pass samlade data är kring denna tyngdpunkt. Om man t.ex. har mätt längd och vikt hos 100 individer man träffar på en promenad genom Malmö kommer data att ha större spridning (d.v.s. enskilda värden kommer att variera mer) än om man mäter samma variabler hos 100 nyfödda på UMS. Beroende på vilket lägesmått man har valt att presentera finns det olika spridningsmått att välja mellan. Tillsammans med medelvärdet kan man presentera varians, standardavvikelse eller standardfel *, medan man tillsammans med medianen kan ange olika percentiler. Spridningsmåttet variationsvidd (eng: range) innebär att man anger lägsta och högsta värdet och kan användas tillsammans med såväl median som medelvärde Spridningsmått för medelvärdet Om data ser ut på ett sådant vis att man valt medelvärde som lämplig lägesmått finns det ett flertal spridningsmått att välja bland: Varians (eng: variance; s 2 ), standardavvikelse (eng: standard deviation; s) och medelfel (eng: standard error; SE). Både standardavvikelse och standardfel är beräknade med utgångspunkt i variansen, vilken i sin tur beräknas enligt följande matematiska formel. 1 = n 1 2 s i 1 n 1 2 ( + ) 2 2 ( x x) = ( x x) + ( x x) 1 2 * Egentligen är standardfelet inte ett spridningsmått utan ett sätt att ange osäkerheten i en skattning (kommer i nästa kapitel). Ofta används det dock i stället för varians och standardavvikelse för att ange spridning, varför vi tar upp det i detta kapitel. 6

6 Standardavvikelsen får man genom att ta roten ur variansen, och standardfelet genom att dividera standardavvikelsen med roten ur n (antalet): s = 2 s SE = s n Standardavvikelsen har samma enhet som medelvärdet, och kan lite grovt tolkas som den genomsnittliga avvikelsen från medelvärdet. I figuren nedan ges exempel på populationer med såväl olika medelvärden som varianser: Populationen till vänster har ett lågt medelvärde och hög varians, medan populationen till höger har ett högt medelvärde och en låg varians. Exempel: I exemplet med de 12 läkarstudenterna ovan beräknas variansen enligt uppställningen till höger. Medelvärdet är, som tidigare beräknats, 26,5 år. Variansen blir då 177/11=16,09. Standardavvikelsen blir s = s 2 = och medelfelet SE s = n 16,09 = 4,01 4,01 = = 1,16 12 Obs nr Värde vvikelse Kvadrerat Totalt Spridningsmått för medianen Har man bestämt sig för att använda medianen som lägesmått använder man percentiler (eng: percentiles) som spridningsmått. Percentiler är värden som delar populationen i olika stora delar: 10% av populationen ligger under den 10:e percentilen, 20% ligger under den 20:e percentilen, etc. Två specialfall av percentilerna är den 25:e och den 75:e percentilen. Tillsammans med medianen delar dessa två 7

7 in populationen i fyra lika stora delar. De kallas därför den undre respektive den övre kvartilen (eng: lower and upper quartile). Rangen på en specifik percentil får man genom att använda formeln q*(n+1), där q är den percentil man är ute efter att hitta. Precis som vid beräkning av median hamnar man ibland emellan två observationer. Återigen är det enklast att i så fall ange percentilen som medelvärdet av dessa två observationer. Exempel: För att hitta den undre kvartilen bland de 12 läkarstudenterna använder vi formeln ovan: 0,25*(12+1)=3,25. Den undre kvartilen ligger alltså mellan observationerna med rang 3 och rang 4, d.v.s. någonstans mellan 22 och 24, vilket är 23. Rangen för den övre kvartilen beräknas till 0,75*(12+1)=9,75, d.v.s. den övre kvartilen är 29, Grafisk beskrivning Det enklaste sättet att få en överblick över data är naturligtvis att beskriva data grafiskt. Det finns ett otal sätt att göra detta, och i detta kompendium presenteras därför endast ett urval Stapeldiagram och pie chart Om data är nominala eller ordinala kan det vara av intresse att beskriva hur stor andel av observationerna som hamnat i de olika kategorierna. Grafiskt kan man presentera detta som stapeldiagram eller s.k. pie charts. I det första fallet representeras varje kategori av en stapel, medan i det senare visar de olika tårtbitarna olika kategorier. Med ett stapeldiagram kan man välja att presentera andel eller antal, medan en pie chart endast visar andelar. Exempel: Under ett år registrerade man på ett mindre sjukhus hur många barn som föddes varje månad. Man grupperade sedan månaderna för att undersöka om det fanns någon skillnad i hur många barn som föddes vinter, vår, sommar respektive höst. Det visade sig att på vintern föddes 40 barn, vilket utgjorde 20% av alla barn som föddes under det året. Motsvarande siffror för våren var 80 (40%), för sommaren 60 (30%) och för hösten 20 (10%). I bilden till vänster visar ett stapeldiagram antal barn som föddes under varje årstid. Bilden till höger visar en pie chart som anger andelen barn födda under varje årstid Höst Vinter Sommar Vår Vinter Vår Sommar Höst Histogram Histogram är för kvantitativa data vad stapeldiagram är för nominala och ordinala data. Genom att dela in data i olika kategorier (t.ex. 0-5, 5-10, 10-15, etc.) skapar man möjlighet att rita något som liknar ett stapeldiagram. Beroende på vilka intervall man använder kommer histogrammet att variera i utseende. För att markera att data ursprungligen var kvantitativa, och att kategorierna är skapade 8

8 utifrån exakta mätvärden brukar man låta staplarna i ett histogram stå intill varandra i stället för med mellanrum som de gör i ett stapeldiagram Box-plot (lådagram) I en boxplot utgår man från medianen och kvartilerna för att ge en grafisk bild över hur data fördelar sig. När dessa tre percentiler har beräknats undersöker man huruvida det finns s.k. outliers i data. En outlier är en observation som skiljer sig väldigt mycket från det övriga materialet. Ofta brukar man definiera en outlier som en observation som ligger 1,5 kvartilavstånd (d.v.s. skillnaden mellan övre och undre kvartilen) från endera kvartilen. Outliers markeras i plotten, och därefter dras linjer till största och minsta värdet undantaget outliers. Förfarandet förklaras enklast genom ett exempel: Exempel: I tidigare uppgifter har kvartilerna för de 12 läkarstudenternas ålder beräknats till 23 respektive 29,5. Kvartilavståndet är då 29,5-23=6,5. Multiplicerat med 1,5 blir detta 9,75. För att vara en outlier måste alltså observationen ligga 9,75 enheter under den undre kvartilen, alltså under 23-9,75=13,25, eller 9,75 enheter över den övre kvartilen, alltså över 29,5+9,75= 39,25. Bland de 12 studenterna finns ingen så ung eller så gammal, och det finns alltså inte någon outlier i materialet. Box-plotten kommer då att se ut som på bilden till höger. Lådans övre kant markerar den övre kvartilen, lådans undre kant den undre kvartilen. Linjen mitt på lådan är medianen Scatterplot Samtliga grafer ovan har syftat att beskriva hur en enskild variabel beter sig. Ibland kan det dock vara av intresse att relatera två variabler till varandra. Detta kan man göra i en s.k. scatterplot. Här placeras den ena variabeln på x-axeln och den andra på y-axeln. Varje individ representeras av en markering från vilken individens x- och y-värde kan utläsas. Exempel: Förutom att fråga de 12 läkarstudenterna om deras ålder tog man också reda på hur många år de sammanlagt hade studerat på universitet eller högskola. Tabellen visar vilka siffror som erhölls, och bilden till höger visar hur man kan presentera data i en scatterplot. Individ nr Ålder Studietid Sammanlagd studietid Ålder Övningar 9

9 4. I vilken population är spridningen störst i population som har medelvärde 10 och standardavvikelse 2 eller i population B som har medelvärde 20 och standardavvikelse 1? 5. Med avseende på övningarna 1-3 i förra kapitlet, vilka lägesmått respektive spridningsmått är lämpliga att använda? Motivera! 10

10 3. NLYTISK STTISTIK 3.1. Studiepopulation och stickprov Om det enda man är intresserad av är den information man samlat in från sitt stickprov finns det ingen anledning att fördjupa sig i något annat än den deskriptiva statistiken. Emellertid brukar detta inte vara fallet, utan det man är intresserad av är egentligen en större grupp individer. Denna större grupp kallas för studiepopulationen (eng: study population), och den del av studiepopulationen som man faktiskt studerar kallas för stickprovet (eng: sample). nledningen till att man studerar ett mindre stickprov i stället för hela studiepopulationen kan vara att studiepopulationen är svår att begränsa eller definiera, eller att den är för stor för att studeras. Med hjälp av analytisk statistik kan man använda information från stickprovet för att göra uttalanden, eller gissningar, om studiepopulationen. Eftersom man inte har data från hela studiepopulationen utan bara en delmängd av den kan man naturligtvis aldrig uttala sig helt säkert om den, utan varje gissning man gör är behäftad med en viss osäkerhet. Studiepopulation Stickprov Data Skattningar och slutsatser nalys Exempel: Man är intresserad av att veta hur gamla studenterna på Lunds Universitet är. tt ta reda på varje enskild students ålder vore ett för omfattande arbete, och man väljer därför slumpmässigt ut 100 studenter och samlar in information om dessa. Studiepopulationen är då samtliga studenter på Lunds Universitet, medan de 100 utvalda studenterna är stickprovet Punktskattningar och konfidensintervall När man använder information från stickprovet för att skatta en parameter i studiepopulationen kallas detta för en punktskattning (eng: point estimate). En punktskattning kan vara ett enskilt värde eller andel, men det kan också vara en skillnad i värden eller andelar mellan olika grupper. Det är viktigt att komma ihåg att punktskattningen bara är just en skattning. Hade man genomfört samma studie på ett annat slumpmässigt urval hade skattningen förmodligen blivit annorlunda. Exempel: Om vi registrerar ålder för de 100 studenterna i stickprovet från exemplet ovan kan vi använda deras medelålder för att gissa skatta medelåldern för alla studenter vid Lunds Universitet. Detta är en punktskattning av medelåldern vid Lunds Universitet. Exempel: Är vi i stället intresserad av att veta om de manliga studenterna vid Lunds Universitet i snitt är äldre än de kvinnliga studenterna delar vi upp vårt stickprov i män och kvinnor. Vi räknar därefter ut medelåldern för männen och medelåldern för kvinnorna, samt differensen dessa två värdena emellan. Denna differens är vår punktskattning av åldersskillnaden mellan manliga och kvinnliga studenter vid Lunds Universitet. 11

11 För att ange osäkerheten i en punktskattning kan man använda ett konfidensintervall (eng: confidence interval). Konfidensintervallet är konstruerat så, att om man väljer 100 stickprov ur en studiepopulation och genomför samma mätning på alla stickprov och beräknar ett 95 konfidensintervall för varje stickprov kan man förvänta sig att 95 av konfidensintervallen täcker det sanna värdet i studiepopulationen. Lite mer populistiskt kan man säga att ett 95 konfidensintervall med 95% sannolikhet täcker det sanna värdet i studiepopulationen. Oavsett om punktskattningen för vilken man vill beräkna ett konfidensintervall är ett medelvärde, skillnaden mellan två medelvärde, en andel, eller skillnaden mellan två andelar så beräknas konfidensintervall alltid med samma grundformel: punktskattningen ± konstant standardfelet. Vilken konstant man använder i formeln ovan beror på konfidensintervallets konfidensgrad. Ett 90 konfidensintervall har konfidensgraden 90% och till detta använder man konstanten 1,64 *. Ett 95 konfidensintervall har konfidensgraden 95% och till detta använder man konstanten 1,96. Eftersom det 95% konfidensintervallet har en högre konstant än det 90% kommer det att bli bredare. Detta är ju logiskt eftersom ett intervall som med 95% sannolikhet skall täcka det sanna värdet rimligtvis måste vara bredare än ett intervall som med bara 90% sannolikhet skall täcka det sanna värdet. Konfidensgrad = 90% c=1,64 Konfidensgrad = 95% c=1,96 Konfidensgrad = 99% c=2,58 Beroende på vilken form av punktskattning man använder finns det olika formler för standardfelet. Vi kommer här att gå igenom fyra olika fall: Konfidensintervall för ett medelvärde och konfidensintervall för en andel, samt konfidensintervall för skillnader mellan två medelvärden och skillnader mellan två andelar Konfidensintervall för ett stickprov Om man har mätt en kontinuerlig variabel, som t.ex. längd eller vikt, i sitt stickprov och vill ange osäkerheten i skattningen kan man beräkna ett konfidensintervall för medelvärdet. Punktskattningen i detta fallet är alltså t.ex. medellängden eller medelvikten. Formeln för beräkning av konfidensintervall för skattning av ett enkelt medelvärde blir då så här: KI = x ± c s n där c alltså är konstanten som nämndes tidigare. Vill man i stället beräkna ett konfidensintervall för skattning av en andel, t.ex. andelen sjuka i en population, ser formeln ut så här: KI = q ± c q( 1 q) n där c fortfarande är konstanten och q är andelen man vill beräkna konfidensintervallet för. Eftersom q är en andel kan den aldrig vara mindre än noll eller större än ett. Notera att punktskattningen alltid ligger mitt i konfidensintervallet, oavsett om man skattar medelvärde eller andel! Exempel: För de 100 studenterna i exemplet ovan visade det sig att medelåldern var 31,3 år och standardavvikelsen 9,7 år. Ett 95% konfidensintervall för denna punktskattning blir * Denna och följande konstanter kommer från normalfördelningen. Egentligen skall man vid små stickprov använda konstanter från t-fördelningen, vars konstanter varierar med stickprovets storlek. För den svårighetsnivå på vilken detta kompendie ligger kan vi dock nöja oss med att använda konstanter från normalfördelningen. 12

12 9,7 31,3 ± 1,96 = 31,3 ± 1,9 = 29,4 33,2 100 v detta kan vi dra slutsatsen att medelåldern i studiepopulationen (d.v.s. alla studenter vid Lunds Universitet) med 95% sannolikhet ligger mellan 29,4 år och 33,2 år. Exempel: Om vi i stället är intresserade av hur stor andel av studenterna vid Lunds Universitet som är kvinnor beräknar vi andelen kvinnor i stickprovet, vilket visar sig vara 0,54. Ett 95% konfidensintervall för denna punktskattning blir 0,54 0,46 0,54 ± 1,96 = 0,54 ± 0,05 = 0,49 0, Vi kan alltså, med 95% sannolikhet, fastställa att andelen kvinnliga studenter vid Lunds Universitet ligger mellan 49% och 59% Konfidensintervall för skillnader Man kan även beräkna konfidensintervall för skillnader i medelvärde och skillnader i andel. Dessa konfidensintervall har samma grundstruktur som konfidensintervall för ett medelvärde eller en andel, d.v.s. punktskattningen ± konstant standardfelet. Punktskattningen i dessa fall blir skillnaden i medelvärde respektive andel i de två grupperna. För att beräkna det standardfel som skall användas i formeln för konfidensintervall för skillnad mellan två medelvärde måste man skatta en gemensam (poolad) varians för de två grupperna och B: s 2 pooled = 2 ( n 1) s + ( nb 1) ( n 1) + ( n 1) B s 2 B där n är antalet individer i grupp och n B antalet individer i grupp B. lltså tar den poolade variansen hänsyn till variansen i de båda grupperna, och även till att antalet observationer kan vara olika stort i olika grupper. Notera att om grupperna är lika stora, d.v.s. om n =n B, blir den poolade variansen detsamma som medelvärdet av de två varianserna. Baserat på den poolade variansen kan man beräkna ett gemensamt standardfel för de båda grupperna: SE pooled = s 2 pooled 1 n 1 + n B Därefter kan konfidensintervallet för skillnaden i medelvärde beräknas med formeln KI = ( x x ) ± c SE B pooled För skillnader mellan två andelar används i stället formeln KI = ( q q ) B ± c q ( 1 q ) q ( 1 q ) n + B n B B där q är andelen i grupp och q B är andelen i grupp B. 13

13 Exempel: Bland de 54 kvinnorna i stickprovet av studenter vid Lunds universitet var medelåldern 29,7 år (s=9,1), medan medelåldern bland de 46 männen var 34,2 (s=10,2). Skillnaden i medelålder mellan män och kvinnor blir således 34,2-29,7=4,5. Den poolade variansen blir 2 s pooled = 2 ( 46 1) 10,2 + ( 54 1) ( 46 1) + ( 54 1) 9,1 2 = 92,56 och det poolade standardfelet SE pooled = ,56 + = 1, Ett 95% konfidensintervall för denna skillnad blir ( 34,2 29.7) ± 1,96 1,93 = 0,72 8, 28 Den sanna åldersskillnaden i studiepopulationen ligger alltså med 95% sannolikhet mellan 0,72 och 8,28 år. Exempel: v de 54 kvinnorna i stickprovet var 10% föräldrar, medan motsvarande siffra hos de 46 männen var 15%. Ett 95% konfidensintervall för skillnaden i andel blir 0,15 0, ,10 0,90 54 ( 0,15 0,10) ± 1,96 + = 0,08 0, 18 D.v.s. i studiepopulationen (alla studenter vid Lunds Universitet) är skillnaden mellan andelen pappor och mammor, med 95% sannolikhet, mellan -8% (det finns 8% fler mammor) och 18% (det finns 18% fler pappor) Hypotesprövning ntag att man har beräknat ett konfidensintervall och därmed kunnat konstatera att det sanna värdet i studiepopulationen med 95% sannolikhet ligger mellan två specifika gränsvärden vad kan man använda denna information till? Med analytisk statistik kan man aldrig bevisa något. Däremot kan man avfärda en teori hypotes som mindre trolig. För att göra detta använder man sig av något som kallas hypotesprövning. Vid hypotesprövning sätter man upp en s.k. nollhypotes (eng: null hypothesis). Detta är den hypotes man vill förkasta. Som regel är detta hypotesen om ingen effekt eller ingen skillnad. Man måste också sätta upp en alternativhypotes som beskriver det som skall finnas kvar om man förkastar nollhypotesen. lternativhypotesen kan vara enkelsidig eller dubbelsidig. Exempel: Vi vill veta om det finns lika många män som kvinnor på Lunds Universitet. Vår nollhypotes, d.v.s. hypotesen om ingen skillnad, blir då andelen kvinnor är lika stor som andelen män, skillnaden mellan andelen män och andelen kvinnor=0 eller 50% av alla studenter är kvinnor. En enkelsidig alternativhypotes kan vara andelen kvinnor > 50%, medan en dubbelsidig alternativhypotes är andelen kvinnor 50%. Exempel: Vi vill undersöka om kvinnorna vid Lunds Universitet i snitt är lika gamla som männen. Nollhypotesen blir då det är ingen skillnad i ålder mellan män och kvinnor eller skillnaden mellan medelålder för män och kvinnor = 0. Den dubbelsidiga alternativhypotesen är skillnaden mellan medelålder för män och kvinnor 0. 14

14 Hypotesprövning med konfidensintervall När man gör hypotesprövning med konfidensintervall beräknar man konfidensintervallet för den punktskattning man vill testa. Enligt definitionen av konfidensintervall skall det sanna värdet i studiepopulationen med 95% sannolikhet ligga inom konfidensintervallets gränser. Om nollhypotesen ligger inom konfidensintervallets gränser kan alltså nollhypotesen mycket väl vara det sanna värdet, och nollhypotesen kan med stor sannolikhet stämma. Om nollhypotesen däremot inte ligger inom intervallets gränser kan man förkasta nollhypotesen, d.v.s. göra uttalandet är nollhypotesen är mindre trolig, till förmån för alternativhypotesen När man har förkastat nollhypotesen säger man att resultatet är statistiskt signifikant, eller statistiskt säkerställt. Exempel: I exemplet ovan satte vi upp nollhypotesen att andelen kvinnor vid Lunds Universitet var 50%. Vi hade tidigare beräknat ett 95% konfidensintervall för andelen kvinnor och fått detta till 49%- 59%. Nollhypotesen ligger innanför konfidensintervallets gränser, och vi kan därför inte förkasta nollhypotesen, d.v.s. andelen kvinnor kan mycket väl vara 50% Hypotesprövning med p-värde Förutom att testa nollhypoteser med konfidensintervall kan man även använda p-värde (eng: p value). Ett p-värde är en sannolikhet, vilket innebär att det måste ligga mellan 0 och 1 (eller 0% och 100%). Definitionen av p-värde är sannolikheten att man får det resultat man faktiskt fått (eller mer extremt) under förutsättning att nollhypotesen är sann. Med mer extremt menar man ett värde som avviker mer från nollhypotesen än det värde man fått. Exempel: Om nollhypotesen är att andelen kvinnor vid Lunds Universitet är 50%, och vi i vårt stickprov har hittat 54% kvinnor är p-värdet sannolikheten att vi hittar ett stickprov med minst 54% kvinnor under förutsättning att det i studiepopulationen (d.v.s. vid hela Lunds Universitet) bara finns 50% kvinnor. Om p-värdet är tillräckligt litet anser man att det är orimligt att nollhypotesen är sann, och alltså förkastar man den. Definitionen av tillräckligt liten kan förstås variera, men den gräns man sätter upp kallas för testets signifikansnivå, eller risknivå. Vanliga nivåer är 1% (0,01), 5% (0,05) och 10% (0,10). Det är viktigt att man redan innan man börjat med de statistiska analyserna har bestämt sig för vilken signifikansnivå man skall använda! Exempel: Ett datorprogram ger att p-värdet för nollhypotesen andelen kvinnor vid Lunds Universitet = 50% är 0,09. Har man i förväg bestämt sig för att använda signifikansnivå 0,01 eller 0,05 kan man inte förkasta nollhypotesen, ty 0,09 > 0,01 och 0,09 > 0,05. Har man däremot bestämt sig för att använda signifikansnivå 0,10 kan man förkasta nollhypotesen, ty 0,09 < 0,10. Konfidensintervall och p-värde hänger ihop på så vis att konfidensgraden + signifikansnivån = 100%. Detta innebär att om man kan förkasta nollhypotesen med ett 95% konfidensintervall så är p-värdet < 5%. Om man kan förkasta nollhypotesen med ett 99% konfidensintervall så är p-värdet < 1% Styrka Naturligtvis kan man, som sagts tidigare, aldrig bevisa något med analytisk statistik, utan man löper hela tiden risk att göra fel av något slag antingen förkastar man en nollhypotes som inte borde ha förkastats, eller så underlåter man att förkasta en nollhypotes som borde ha förkastats. Dessa två felen betecknas α och β (se tabell nedan). Eftersom de betecknar sannolikheter gäller att de båda är bundna uppåt av ett och nedåt av 0. Man brukar kalla α typ I fel. Ett typ I fel innebär att man hittar en effekt som egentligen inte finns. β å andra sidan kallas typ II fel och innebär att man inte hittar en effekt som faktiskt finns. Statistisk styrka (eng: power) betecknar sannolikheten att hitta en effekt som finns, och beräknas genom 1-β. 15

15 VERKLIGHET exponeringen ger Studien EFFEKT visar exponeringen ger INGEN EFFEKT Exponeringen ger EFFEKT OK β Exponeringen ger INGEN EFFEKT α OK 3.4. Parametriska vs. icke-parametriska test Genom att beräkna konfidensintervall för medelvärde, skillnad mellan medelvärde, andel, eller skillnad mellan andelar kan man alltså genomföra hypotestest enligt vad som beskrivits ovan. Dock finns det en liten hake: Konfidensintervall kan bara beräknas under vissa förutsättningar. För att förklara dessa måste vi först ta en liten omväg via normalfördelningen Normalfördelningen och parametriska test Normalfördelningen (eng: normal distribution) är en s.k. teoretisk fördelning, vilket enkelt kan förklaras som att den är definierad av en matematisk formel. Det har dock visat sig att många fenomen i naturen följer normalfördelningen. Skulle man t.ex. plotta samtliga födelsevikter i Sverige under ett år skulle man få en normalfördelningskurva. En normalfördelning kan vara mer eller mindre utdragen, eller platt. Den kan också vara mer eller mindre förskjuten på skalan (eller en tänkt x-axel), d.v.s. ha sin tyngdpunkt på olika ställen. Vad som dock är gemensamt för alla normalfördelningar är att de definieras 100-procentigt utifrån två faktorer, parametrar (eng: parameters), nämligen medelvärdet och variansen (eller om man så vill: standardavvikelsen, som ju är roten ur variansen). En egenskap hos normalfördelningen är att man med hjälp av standardavvikelsen kan avgöra hur stor del av materialet som ligger på ett visst avstånd från medelvärdet. Exempelvis ligger 68% av observationerna på en standardavvikelses avstånd från medelvärdet. (Normalfördelningen är symmetrisk, alltså ligger 34% av observationerna på ena sidan medelvärdet, och 34% på andra sidan.) Inom intervallet som går från 1,96 standardavvikelser under medelvärdet till 1,96 standardavvikelser över medelvärdet ligger 95% av observationerna. De egenskaper som beskrivs ovan har använts för att konstruera statistiska test. Eftersom dessa test bygger på bl.a. normalfördelningens parametrar kallas de för parametriska test (eng: parametrical tests). För att parametriska test skall kunna användas måste det datamaterial man analyserar ha samma egenskaper den fördelning på vilken testen är baserade, d.v.s. data måste vara normalfördelade. (Det finns även andra teoretiska fördelningar på vilka statistiska test är baserade, men detta ingår inte i kursen.) Hur vet man då att data är normalfördelade? Det första man kan göra är att undersöka dess egenskaper. Exempelvis kan man plotta värdena och se om det ser ut som en normalfördelning. Man kan också undersöka symmetri, t.ex. jämföra avståndet från undre kvartilen till medianen med avståndet från medianen till övre kvartilen vid symmetri skall dessa avstånd vara lika stora. Ett annat, kompletterande, sätt är att jämföra medelvärdet och medianen vid symmetri skall dessa vara samma. Om data är normalfördelade kan man använda parametriska test, och behöver inte gå vidare till steg 2 och 3 nedan. Vid små dataset kan det emellertid vara svårt att avgöra om data är normalfördelade. Man kan då rikta in sig på studiepopulationen (snarare än det stickprov man arbetar med). Om man vet, eller tycker att 16

16 det är rimligt att anta, att data i studiepopulationen är normalfördelade kan man anta att även stickprovet är normalfördelat, och behöver inte gå vidare till steg 3 nedan. Slutligen finns det en sista utväg, nämligen att om materialet är tillräckligt stort kan man använda parametriska metoder även om de två första kraven inte är uppfyllda. (För intresserade kan nämnas att detta är en följd av något som kallas för Centrala Gränsvärdessatsen.) Logaritmisk normalfördelning Ibland följer data snarare något som kallas för den logaritmiska normalfördelningen, än normalfördelningen. Namnet logaritmisk normalfördelning kommer sig av att om man logaritmerar * samtliga värden visar det sig att de logaritmerade värdena faktiskt är normalfördelade. I bilden till vänster visas log-normala data, medan bilden till höger visar samma data efter log-transformation. När man har logaritmerat data och följaktligen fått data som är normalfördelade kan man använda parametriska test. Man får i sådana fall inte glömma att punktskattningarna och konfidensintervall gäller de logaritmerade värdena. För att få data i ursprungsskalan måste man anti-logaritmera såväl punktskattning som konfidensintervall. Notera att punktskattningen då inte längre ligger mitt i konfidensintervallet Exempel: Man mätte serum bilirubin på 100 patienter. När man tittade på data såg de ut att vara logaritmiskt normalfördelade, och man logaritmerade dem därför. För de logaritmerade data var medelvärdet 2,89 med 95% konfidensintervall 2,51-3,27. Genom att anti-logaritmera får man punktskattningen 18.0 mg/dl med 95% konfidensintervall 12,3-26,3 mg/dl Icke-parametriska test Icke-parametriska test (eng: non-parametrical tests) är test som, till skillnad från de parametriska testen, inte bygger på någon underliggande fördelning. De kallas ibland därför också fördelningsfria test. De icke-parametriska testen utnyttjar observationernas ranger snarare än deras egentliga värden. Om fördelen med icke-parametriska test är att de är oberoende av hur data fördelar sig, är nackdelen att dessa test inte skattar någon effekt (t.ex. medelvärde eller skillnad i medelvärde). Ett icke-parametriskt test producerar därför aldrig något konfidensintervall, utan hypotesprövning kan endast göras med p- värde. * Normalt menar man med logaritmering att man tar den naturliga logaritmen (ln) av värdet. tt antilogaritmera betyder då att man beräknar e upphöjt till värdet. 17

17 Parametriska test Icke-parametriska test Bygger på antaganden om hur data fördelar sig Kan användas oberoende av hur data fördelar sig Baseras på observationernas faktiska värde Baseras på observationernas ranger Skattar en effekt (t.ex. en skillnad i medelvärde) för vilken man kan beräkna konfidensintervall och p-värde Beräknar endast p-värde 3.5. Korrelationskoefficient När man mäter flera faktorer på samma individer ser man ibland att vissa av dessa faktorer verkar hänga ihop, samvariera. Exempelvis tenderar en person med höga studielån också ha läst många poäng på universitetet. För att mäta samvariationen mellan två faktorer kan man använda en korrelationskoefficient (eng: koefficent of correlation eller correlation koefficient). Om två faktorer ökar gemensamt, som t.ex. studielån och universitetspoäng, kommer korrelationskoefficienten att vara positiv. Däremot om faktorerna samvarierar så att den ena ökar när den andra minskar, som t.ex. ålder och förväntad överlevnadstid, kommer korrelationskoefficienten att vara negativ. Korrelationskoefficienten kan aldrig överstiga 1, och aldrig understiga -1. När den antar något av dessa extremvärden tolkas det som att det finns en perfekt överensstämmelse mellan de två faktorerna. När korrelationskoefficienten är 0 finns ingen samvariation alls. I situationer då man kan använda parametriska metoder kan man beräkna Pearsons korrelationskoefficient. Denna betecknas r och är baserad på värdena på de två faktorerna man studerar. Den ickeparametriska varianten heter Spearmans korrelationskoefficient. Denna betecknas r S och är baserad på ranger snarare än faktiska värden Linjär regression Oftast använder man korrelationskoefficienten om man antar ett samband mellan två variabler, men när man inte har någon förutfattad uppfattning om att den ena skulle påverka den andra. I det senare fallet kan man i stället analysera data med linjär regression (eng: linear regression). Linjär regression bygger på att det finns ett samband mellan de två variablerna x och y. Sambandet beskrivs som att värdet på en av variablerna (y) beror av vilket värde den andra variabeln (x) har, eller att x predikterar (förutspår) y. Om t.ex. y alltid är det samma som x, kan detta beskrivas med formeln/ekvationen Ekvation 1: y = x Om y alltid är dubbelt så stor som x blir ekvationen i stället Ekvation 2: y = 2 x Grafiskt kommer detta att se ut så här (ekvation 1 till vänster och ekvation 2 till höger enda skillnaden är skalan på y-axeln): 18

18 y y x x Om två variabler uppfyller ekvation 1 ovan innebär det alltså att y alltid är detsamma som x. Med andra ord, om man ökar x ett steg kommer också y att öka ett steg. I ekvation 2 kommer y att öka med två steg för varje steg man ökar x. Man kan också tolka det utifrån ett jämförande av två individer: Enligt ekvation 1 har en individ med en enhet högre x-värde också en enhet y-värde, medan i ekvation 2 har en individ med en enhet högre x-värde två enheter högre y-värde. Exempel: nta att man har mätt ålder (år) och livserfarenhet (år) hos en grupp av individer. Det visar sig att hos samtliga individer överensstämmer åldern (x) exakt med livserfarenheten (y), d.v.s. ekvation 1 ovan gäller. Detta innebär att för varje år man åldras ökar man också sin livserfarenhet med ett år. lternativt kan man tolka det som att man har ett års kortare livserfarenhet än någon som är ett år äldre. Vill man göra de ovanstående ekvationerna mer generella kan man skriva Ekvation 3: y = β x där β representerar det tal som anger hur många steg y ökar när x ökar ett steg. β kallas för ekvationens riktningskoefficient eller lutningskoefficient (eng: slope). Ibland kan två variabler hänga ihop på ett sätt som liknar ekvationerna ovan, men när den ena variabeln antar värdet noll har den andra variabeln ändå ett värde som inte är noll. Om t.ex. y är 5 när x är 0 kommer ekvation 1 att se ut så här: Ekvation 4: y = 5 + x Förhållandet mellan y och x är fortfarande detsamma, d.v.s. för varje steg man ökar x kommer också y att ökas ett steg. Den enda skillnaden är att y alltid ligger fem enheter högre än x. En mer allmän ekvation som tar hänsyn till denna systematiska skillnad är: Ekvation 5: y = α + β x Här kallas α för ekvationens konstant, eller skärning (eng: intercept). Konstanten gör att man får en bättre bild av verkligheten, men påverkar inte det relativa förhållandet mellan y och x, som ju beskrivs av β. Ekvationen i sin helhet beskriver formeln för linjär regression Förklaringsgrad Det är sällan två variabler överensstämmer så exakt som i bilderna ovan. Ofta finns det en variation i data som kommer sig av att individers beteende sällan följer exakta matematiska modeller. 19

19 y y Exempel: En gymnasielärare vill undersöka hur prestationerna hos hans elever samvarierar och samlar därför in information om deras betyg i kemi och biologi. Det visar sig att oftast har de som har höga betyg i kemi också höga betyg i biologi. Dock finns det några enstaka som har högt betyg i kemi men lågt betyg i biologi, och vice versa. När man beskriver data med variationer i grafiskt kommer observationerna att ligga spridda kring linjen, och linjen blir då en skattning av sambandet mellan x och y. T.ex. kan observationerna som resulterar i skattningarna i ekvationerna 1 (vänster) och 4 (höger) se ut så här: x x vståndet från en observation till linjen kallas för observationens residual (eng: residual). När man väljer linjens lutning gör man det på ett sådant sätt att residualerna blir så små som möjligt. Residualernas storlek blir ett mått på hur mycket av den naturliga variationen i y man kan förklara genom att känna till värdet på x. ntag att man vill bilda sig en uppfattning om variabeln y i en studiepopulation. I stickprovet mäter man därför värdet på y för alla individer. Man använder sig därefter av medelvärdet i stickprovet för att prediktera (skatta) värdet på y för en enskild individ i studiepopulationen. Om man däremot tror att y beror av ytterligare en faktor, x, mäter man även värdet på x för alla individer i stickprovet och använder sig sedan av denna kunskap för att prediktera värdet på y för en enskild individ i studiepopulationen. Exempel: Man vill kunna uttala sig om hur långa individerna i studiepopulationen är. Man väljer därför ett stickprov och mäter längden på dessa individer. För att prediktera längden på en enskild individ i studiepopulationen använder man sedan medelvärdet från stickprovet. Så kommer någon på att det nog är skillnad mellan småbarn och vuxna människor, och man bestämmer sig därför att mäta även ålder på individerna i stickprovet. Genom att använda denna information för att sätta upp en linjär regressionsmodell kan man mer exakt prediktera längden för enskilda individer i studiepopulationen. För att ange hur mycket av variationen i y som förklaras av x använder man begreppet förklaringsgrad. Om x inte påverkar y har x förklaringsgrad 0%. Om x perfekt predikterar y (d.v.s. om man utan fel kan förutsäga en persons värde på y genom att veta dess värde på x) har x förklaringsgrad 100%. Exempel: När man samlat in data om både längd (y) och ålder (x) visar det sig att ålder förklarar 54% av variationen i längd. Förklaringsgraden betecknas med R 2 och kan beräknas genom att man kvadrerar Pearsons korrelationskoefficient. Ju fler förklarande variabler (x-variabler) som finns i modellen, desto högre blir för- 20

20 klaringsgraden (ju mer man vet om en individ, desto lättare blir det ju att skatta okända faktorer). Ibland presenteras därför något som kallas för justerat R 2, vilket tar hänsyn till antalet förklarande variabler i modellen. Övningar 6. För att studera om rökning ökar risken för missfall väljer vi slumpmässigt ur den svenska befolkningen 100 kvinnor. Dessa tillfrågas om sina rökvanor och om de någonsin haft missfall. Definiera studiepopulationen och stickprovet! 7. Kvinnorna i uppgiften ovan delas in i rökare och icke-rökare. Hur skulle du formulera en nollhypotes för att testa om rökarna har större risk än icke-rökarna att få missfall? 8. Det visar sig att bland rökarna har 25% någonsin haft ett missfall, medan motsvarande siffra hos icke-rökarna är 20%. Skillnaden är alltså 5%-enheter och ett 95% konfidensintervall beräknas till 1,5-8,5. nvänd detta för att testa nollhypotesen du satte upp i uppgiften ovan. Vad kan du säga om p-värdet för nollhypotesen? 9. nvänd informationen i uppgift 4 ovan för att beräkna en punktskattning med ett 95% konfidensintervall för BMI bland de 10 individerna. 21

21 4. STTISTISK TEST EN ÖVERBLICK Nominaldata Ordinaldata Kvantitativa data ickeparametriskt test Kvantitativa data parametriskt test En grupp vs ett förutbestämt värde Binomialtest Teckentest Teckentest One-sample t-test Två oberoende grupper Chi-två-test Fishers exakta test Mann-Whitney Wilcoxons rangsummetest Mann-Whitney Wilcoxons rangsummetest Two-sample t-test (Linjär regression) Fler än två oberoende grupper Chi-två-test Kruskal-Wallis Kruskal-Wallis NOV (Linjär regression) Före-efter-mätningar McNemars test Wilcoxons teckenrangtest Wilcoxons teckenrangtest Parat t-test ssociation mellan två variabler Kontingenskoefficient Spearmans korrelationskoefficient Spearmans korrelationskoefficient Pearsons korrelationskoefficient Linjär regression Logistisk regression: Om man har en utfallsvariabel som bara kan anta två olika värden kan man använda logistisk regression för att skatta en oddskvot. Konfidensintervall: Om data uppfyller förutsättningarna kan man också beräkna konfidensintervall för andel, skillnad i andel, medelvärde, och skillnad i medelvärde. 22

22 5. TT MÄT HÄLS OCH SJUKDOM 5.1. Grundläggande begrepp När man säger att någon är under risk för en viss sjukdom menar man att denna person riskerar att få denna sjukdom. T.ex. är vi alla under risk att dö, medan endast kvinnor är under risk att få livmodercancer och endast gravida kvinnor är under risk att få missfall. Tiden under risk för en person är den tid man har en möjlighet att få sjukdomen i fråga. Exempelvis är en persons levnadstid tiden under risk för att dö, och en kvinnas graviditetsperiod är tid under risk för missfall. Exempel: Vi studerar 10 gravida kvinnor för att beräkna deras tid under risk för missfall. v de tio kvinnorna födde 7 stycken barn efter 9 månader. Deras tid under risk är 9 månader. En kvinna gjorde abort efter 1 månad, hennes tid under risk är då 1 månad eftersom hon inte kan få missfall efter att hon gjort en abort. Två kvinnor fick missfall, en fick det efter 1 månad och den andra efter 2 månader. Dessa kvinnors tid under risk är alltså 1 respektive 2 månader. Tid under risk brukar anges som persontid, t.ex. personår, personmånader eller persondagar. Ett personår motsvarar en observerad person under ett år, men kan även samlas in genom att man observerar två personer under sex månader, eller 365 personer under en dag. Exempel: I studien av de gravida kvinnorna bidrar sju av kvinnorna med 9 personmånader vardera, två kvinnor med 1 personmånad (en abort och ett missfall) samt en kvinna med 2 personmånader (missfall). Lägger vi ihop detta får vi i studien 67 personmånader, vilket även kan uttryckas som 5.6 personår Sjukdomsmått Prevalens Prevalensen (P; eng: prevalence) definieras som andelen sjuka i en population vid ett givet tillfälle. P = antal sjuka / totalt antal Prevalensen i en population kan påverkas av flera olika faktorer. Prevalensen ökar om Sjukdomen är långvarig Patienter med obotlig sjukdom lever längre ntalet nya fall ökar Sjuka personer flyttar in Friska personer flyttar ut Mottagliga personer flyttar in Bättre diagnosmöjligheter Prevalensen minskar om Sjukdomen är kortvarig Sjukdomens letalitet är hög ntalet nya fall minskar Friska personer flyttar in Sjuka personer flyttar ut Tillfrisknadsfrekvensen ökar Eftersom antalet sjuka som minst kan vara 0 och som mest kan vara alla i populationen ligger prevalensen alltid mellan 0 och 1. Man kan också ange prevalensen som en procentsats. Exempel: I en grupp med 34 läkarstuderande är 12 förkylda idag. Förkylningsprevalensen bland de 34 läkarstuderande är 12/34=35%. 23

Statistik och epidemiologi T5

Statistik och epidemiologi T5 Statistik och epidemiologi T5 Anna Axmon Biostatistiker Yrkes- och miljömedicin Biostatistik kursmål Dra slutsatser utifrån basala statistiska begrepp och analyser och själva kunna använda sådana metoder.

Läs mer

Medicinsk statistik II

Medicinsk statistik II Medicinsk statistik II Läkarprogrammet termin 5 VT 2013 Susanna Lövdahl, Msc, doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Dagens föreläsning Fördjupning

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer

Statistik och epidemiologi T5

Statistik och epidemiologi T5 Statistik och epidemiologi T5 Anna Axmon Biostatistiker Yrkes- och miljömedicin Dagens föreläsning Fördjupning av hypotesprövning Repetition av p-värde och konfidensintervall Tester för ytterligare situationer

Läs mer

Medicinsk statistik I

Medicinsk statistik I Medicinsk statistik I Läkarprogrammet T5 VT 2013 Susanna Lövdahl, Msc, Doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Medicinsk statistik VT-2013 Tre stycken

Läs mer

Medicinsk statistik II

Medicinsk statistik II Medicinsk statistik II Läkarprogrammet T5 HT 2014 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus Hypotesprövning Man sätter upp en nollhypotes (H0) och en mothypotes (H1) H0: Ingen effekt H1:

Läs mer

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E Innehåll I. Grundläggande begrepp II. Deskriptiv statistik (sid 53 i E) III. Statistisk inferens Hypotesprövnig Statistiska analyser Parametriska analyser Icke-parametriska analyser 1 II. Beskrivande statistik,

Läs mer

Medicinsk statistik I

Medicinsk statistik I Medicinsk statistik I Läkarprogrammet T5 VT 2014 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus Medicinsk statistik Varför behöver Ni kunskap i medicinsk statistik? Självständigt arbete Framtida

Läs mer

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Analys av medelvärden Jenny Selander jenny.selander@ki.se 524 800 29, plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Jenny Selander, Kvant. metoder, FHV T1 december 20111 Innehåll Normalfördelningen

Läs mer

Gamla tentor (forts) ( x. x ) ) 2 x1

Gamla tentor (forts) ( x. x ) ) 2 x1 016-10-10 Gamla tentor - 016 1 1 (forts) ( x ) x1 x ) ( 1 x 1 016-10-10. En liten klinisk ministudie genomförs för att undersöka huruvida kostomläggning och ett träningsprogram lyckas sänka blodsockernivån

Läs mer

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Analytisk statistik. Mattias Nilsson Benfatto, PhD. Analytisk statistik Mattias Nilsson Benfatto, PhD Mattias.nilsson@ki.se Beskrivande statistik kort repetition Centralmått Spridningsmått Normalfördelning Konfidensintervall Korrelation Analytisk statistik

Läs mer

ST-fredag epidemiologi och biostatistik 2017

ST-fredag epidemiologi och biostatistik 2017 ST-fredag epidemiologi och biostatistik 2017 Emma Larsson. ST-läkare, PhD. PMI, KS Solna Gabriella Jäderling. Överläkare, PhD. PMI KS Solna Mikael Eriksson. Specialistläkare, doktorand. PMI KS Solna. Max

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts

Läs mer

2 Dataanalys och beskrivande statistik

2 Dataanalys och beskrivande statistik 2 Dataanalys och beskrivande statistik Vad är data, och vad är statistik? Data är en samling fakta ur vilken man kan erhålla information. Statistik är vetenskapen (vissa skulle kalla det konst) om att

Läs mer

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 4 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Icke-parametriska test Mann-Whitneys test (kap 8.10 8.11) Wilcoxons test (kap 9.5) o Transformationer (kap 13) o Ev. Andelar

Läs mer

Vid Medicinsk statistik - Frågestund ges tillfälle att fråga om övningarna.

Vid Medicinsk statistik - Frågestund ges tillfälle att fråga om övningarna. Räkneövningar i Medicinsk statistik ISEX T5 HT 014 Vid Medicinsk statistik - Frågestund ges tillfälle att fråga om övningarna. 1. I en pilotstudie där man ville undersöka en kräm som verkade lokalt smärtstillande

Läs mer

Hur skriver man statistikavsnittet i en ansökan?

Hur skriver man statistikavsnittet i en ansökan? Hur skriver man statistikavsnittet i en ansökan? Val av metod och stickprovsdimensionering Registercentrum Norr http://www.registercentrumnorr.vll.se/ statistik.rcnorr@vll.se 11 Oktober, 2018 1 / 52 Det

Läs mer

F3 Introduktion Stickprov

F3 Introduktion Stickprov Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever

Läs mer

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment EDAA35, föreläsning 4 KVANTITATIV ANALYS Idag Kvantitativ analys Kamratgranskning Analys Exempel: exekveringstid Hur analysera data? Hur vet man om man kan lita på skillnader och mönster som man observerar?

Läs mer

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Analytisk statistik. Tony Pansell, optiker Universitetslektor Analytisk statistik Tony Pansell, optiker Universitetslektor Analytisk statistik Att dra slutsatser från det insamlade materialet. Två metoder: 1. att generalisera från en mindre grupp mot en större grupp

Läs mer

Sänkningen av parasitnivåerna i blodet

Sänkningen av parasitnivåerna i blodet 4.1 Oberoende (x-axeln) Kön Kön Längd Ålder Dos Dos C max Parasitnivå i blodet Beroende (y-axeln) Längd Vikt Vikt Vikt C max Sänkningen av parasitnivåerna i blodet Sänkningen av parasitnivåerna i blodet

Läs mer

Föreläsning 1. 732G60 Statistiska metoder

Föreläsning 1. 732G60 Statistiska metoder Föreläsning 1 Statistiska metoder 1 Kursens uppbyggnad o 10 föreläsningar Teori blandas med exempel Läggs ut några dagar innan på kurshemsidan o 5 räknestugor Tillfälle för individuella frågor Viktigt

Läs mer

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid EDAA35, föreläsning 4 KVANTITATIV ANALYS Idag Kvantitativ analys Slump och slumptal Analys Boxplot Konfidensintervall Experiment och test Kamratgranskning Kursmeddelanden Analys Om laborationer: alla labbar

Läs mer

Mata in data i Excel och bearbeta i SPSS

Mata in data i Excel och bearbeta i SPSS Mata in data i Excel och bearbeta i SPSS I filen enkät.pdf finns svar från fyra män taget från en stor undersökning som gjordes i början av 70- talet. Ni skall mata in dessa uppgifter på att sätt som är

Läs mer

, s a. , s b. personer från Alingsås och n b

, s a. , s b. personer från Alingsås och n b Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen

Läs mer

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten Agenda Statistik Termin 11, Läkarprogrammet, VT14 I: Grundläggande begrepp och beskrivande statistik II: Exempel på typisk forskning III. Frågestund Martin Cernvall martin.cernvall@pubcare.uu.se Grundläggande

Läs mer

Parade och oparade test

Parade och oparade test Parade och oparade test Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning: möjliga jämförelser Jämförelser mot ett

Läs mer

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa. Betrakta kopparutbytet från malm från en viss gruva. Anta att budgeten för utbytet är beräknad på att kopparhalten ligger på 70 %. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten

Läs mer

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Deskriptiv statistik Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Deskriptiv statistik Tabeller Figurer Sammanfattande mått Vilken

Läs mer

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar) 1. a) F1(Sysselsättning) F2 (Ålder) F3 (Kön) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar) nominalskala kvotskala nominalskala ordinalskala ordinalskala b) En möjlighet är att beräkna

Läs mer

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande

Läs mer

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

STATISTISK POWER OCH STICKPROVSDIMENSIONERING STATISTISK POWER OCH STICKPROVSDIMENSIONERING Teori UPPLÄGG Gemensam diskussion Individuella frågor Efter detta pass hoppas jag att: ni ska veta vad man ska tänka på vilka verktyg som finns vilket stöd

Läs mer

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD 6.4 Att dra slutsatser på basis av statistisk analys en kort inledning - Man har ett stickprov, men man vill med hjälp av det få veta något om hela populationen => för att kunna dra slutsatser som gäller

Läs mer

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik. Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik Urvalsstorlek Mätnivå/skaltyp Fördelning av data Studiedesign Frida Eek

Läs mer

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015 MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Lösningsförslag till tentamen på Statistik och kvantitativa undersökningar STA100, 15 hp Fredagen den 13 e mars 015 1 a 13 och 14

Läs mer

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva Stat. teori gk, ht 006, JW F14 HYPOTESPRÖVNING (NCT 10., 10.4-10.5, 11.5) Hypotesprövning för en proportion Med hjälp av data från ett stickprov vill vi pröva H 0 : P = P 0 mot någon av H 1 : P P 0 ; H

Läs mer

EXAMINATION KVANTITATIV METOD vt-11 (110204)

EXAMINATION KVANTITATIV METOD vt-11 (110204) ÖREBRO UNIVERSITET Hälsoakademin Idrott B Vetenskaplig metod EXAMINATION KVANTITATIV METOD vt-11 (110204) Examinationen består av 11 frågor, flera med tillhörande följdfrågor. Besvara alla frågor i direkt

Läs mer

Föreläsning 5. Kapitel 6, sid Inferens om en population

Föreläsning 5. Kapitel 6, sid Inferens om en population Föreläsning 5 Kapitel 6, sid 153-185 Inferens om en population 2 Agenda Statistisk inferens om populationsmedelvärde Statistisk inferens om populationsandel Punktskattning Konfidensintervall Hypotesprövning

Läs mer

2. Test av hypotes rörande medianen i en population.

2. Test av hypotes rörande medianen i en population. Stat. teori gk, ht 006, JW F0 ICKE-PARAMETRISKA TEST (NCT 15.1, 15.3-15.4) Ordlista till NCT Nonparametric Sign test Rank Icke-parametrisk Teckentest Rang Teckentest Teckentestet är formellt ingenting

Läs mer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad

Läs mer

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik Grundläggande statistik Påbyggnadskurs T1 Odontologisk profylaktik FÖRELÄSNINGSMATERIAL : KORRELATION OCH HYPOTESTESTNING t diff SE x 1 diff SE x x 1 x. Analytisk statistik Regression & Korrelation Oberoende

Läs mer

EXAMINATION KVANTITATIV METOD vt-11 (110319)

EXAMINATION KVANTITATIV METOD vt-11 (110319) ÖREBRO UNIVERSITET Hälsoakademin Idrott B Vetenskaplig metod EXAMINATION KVANTITATIV METOD vt-11 (110319) Examinationen består av 10 frågor, flera med tillhörande följdfrågor. Besvara alla frågor i direkt

Läs mer

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011 Avd. Matematisk statistik Tobias Rydén 2011-09-30 SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011 Förberedelser. Innan du går till laborationen, läs igenom den här handledningen. Repetera också i

Läs mer

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK TERM Analytisk statistik Bias Confounder (förväxlingsfaktor)) Deskriptiv statistik Epidemiologi Fall-kontrollstudie (case-control study)

Läs mer

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195. Lägesmått Det kan ibland räcka med ett lägesmått för att beskriva datamaterial Lägesmåttet kan vara bra att använda då olika datamaterial skall jämföras Vilket lägesmått som skall användas: Typvärde Median

Läs mer

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt. Stat. teori gk, vt 006, JW F0 ICKE-PARAMETRISKA TEST (NCT 13.1, 13.3-13.4) Or dlista till NCT Nonparametric Sign test Rank Teckentest Icke-parametrisk Teckentest Rang Teckentestet är formellt ingenting

Läs mer

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 2 Statistik; teori och tillämpning i biologi 1 Normalfördelning Samplingfördelningar och CGS Fördelning för en stickprovsstatistika (t.ex. medelvärde) kallas samplingfördelning. I teorin är

Läs mer

Agenda. Statistik Termin 10, Läkarprogrammet, VT15. Agenda (forts.) Forskningsprocessen. Data - skalnivåer. Den heliga treenigheten

Agenda. Statistik Termin 10, Läkarprogrammet, VT15. Agenda (forts.) Forskningsprocessen. Data - skalnivåer. Den heliga treenigheten Agenda Statistik Termin 10, Läkarprogrammet, VT15 I: Grundläggande begrepp och beskrivande statistik II: Exempel på typisk forskning III. Frågestund Martin Cernvall martin.cernvall@pubcare.uu.se Grundläggande

Läs mer

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Liksom konfidensintervall ett hjälpmedel för att

Läs mer

Repetitionsföreläsning

Repetitionsföreläsning Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 16 augusti 2007 9 14

Tentamen för kursen. Linjära statistiska modeller. 16 augusti 2007 9 14 STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 16 augusti 2007 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus

Läs mer

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29 UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN

Läs mer

Statistik Termin 10, Läkarprogrammet, HT16

Statistik Termin 10, Läkarprogrammet, HT16 I: Grundläggande begrepp och beskrivande statistik II: Exempel på typisk forskning III. Frågestund Statistik Termin 10, Läkarprogrammet, HT16 Martin Cernvall martin.cernvall@pubcare.uu.se Måndag 29/8 -

Läs mer

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1 Standardfel (Standard error, SE) Anta vi har ett stickprov X 1,,X n där varje X i has medel = µ och std.dev = σ. Då är Det sista kalls standardfel (eng:standard error of mean (SEM) eller (SE) och skattas

Läs mer

Att välja statistisk metod

Att välja statistisk metod Att välja statistisk metod en översikt anpassad till kursen: Statistik och kvantitativa undersökningar 15 HP Vårterminen 2018 Lars Bohlin Innehåll Val av statistisk metod.... 2 1. Undersökning av en variabel...

Läs mer

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska Innehåll I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Hypotesprövnig Statistiska analyser Parametriska analyser Icke-parametriska analyser Univariata analyser Univariata analyser

Läs mer

Statistik. Statistik. Statistik. Lars Walter Fil.lic. Statistik

Statistik. Statistik. Statistik. Lars Walter Fil.lic. Statistik Statistik Lars Walter Fil.lic. Statistik Linköping universitet Stockholms universitet Karolinska sjukhuset Sveriges Lantbruksuniversitet Linköpings universitet Folkhälsocentrum, LiÖ FoU-enheten, LiÖ Statistik

Läs mer

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 (2015-04-22) OCH INFÖR ÖVNING 7 (2015-04-29)

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 (2015-04-22) OCH INFÖR ÖVNING 7 (2015-04-29) LUNDS UNIVERSITET, MATEMATIKCENTRUM, MATEMATISK STATISTIK BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 (2015-04-22) OCH INFÖR ÖVNING 7 (2015-04-29) Aktuella avsnitt i boken: Kap 61 65 Lektionens mål: Du ska

Läs mer

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1. En rät linje ett enkelt samband Y β 1 Lutning (slope) β 0 Skärning (intercept) 1 Y= β 0 + β 1 X X En rät linje + slumpbrus Y Y= β 0 + β 1 X + brus brus ~ N(0,σ) X Observationspar (X i,y i ) Y Ökar/minskar

Läs mer

Hypotestestning och repetition

Hypotestestning och repetition Hypotestestning och repetition Statistisk inferens Vid inferens använder man urvalet för att uttala sig om populationen Centralmått Medelvärde: x= Σx i / n Median Typvärde Spridningsmått Används för att

Läs mer

8 Inferens om väntevärdet (och variansen) av en fördelning

8 Inferens om väntevärdet (och variansen) av en fördelning 8 Inferens om väntevärdet (och variansen) av en fördelning 8. Skattning av µ och Students T-fördelning Om σ är känd, kan man använda statistikan X µ σ/ n för att hitta konfidensintervall för µ. Om σ inte

Läs mer

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13 Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare

Läs mer

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder Föreläsning 9 Statistiska metoder 1 Dagens föreläsning o Regression Regressionsmodell Signifikant lutning? Prognoser Konfidensintervall Prediktionsintervall Tolka Minitab-utskrifter o Sammanfattning Exempel

Läs mer

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Vi har en ursprungspopulation/-fördelning med medelvärde µ. P-värde P=probability Sannolikhetsvärde som är resultat av en statistisk test. Anger sannolikheten för att göra den observation vi har gjort eller ett sämre / mer extremt utfall om H 0 är sann. Vi har

Läs mer

13.1 Matematisk statistik

13.1 Matematisk statistik 13.1 Matematisk statistik 13.1.1 Grundläggande begrepp I den här föreläsningen kommer vi att definiera och exemplifiera ett antal begrepp som sedan kommer att följa oss genom hela kursen. Det är därför

Läs mer

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 1 Statistik; teori och tillämpning i biologi 1 Kursens uppbyggnad 9 föreläsningar Föreläsningsunderlag läggs ut på kurshemsidan 5 lektioner Uppgifter från kursboken enligt planering 5 laborationer

Läs mer

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 3 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Inferens om två populationer (kap 8.1 8.) o Parvisa observationer (kap 9.1 9.) o p-värde (kap 6.3) o Feltyper, styrka, stickprovsstorlek

Läs mer

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 (2015-04-29) OCH INFÖR ÖVNING 8 (2015-05-04)

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 (2015-04-29) OCH INFÖR ÖVNING 8 (2015-05-04) LUNDS UNIVERSITET, MATEMATIKCENTRUM, MATEMATISK STATISTIK BIOSTATISTISK GRUNDKURS, MASB ÖVNING 7 (25-4-29) OCH INFÖR ÖVNING 8 (25-5-4) Aktuella avsnitt i boken: 6.6 6.8. Lektionens mål: Du ska kunna sätta

Läs mer

7.3.3 Nonparametric Mann-Whitney test

7.3.3 Nonparametric Mann-Whitney test 7.3.3 Nonparametric Mann-Whitney test Vi har sett hur man kan testa om två populationer har samma väntevärde (H 0 : μ 1 = μ 2 ) med t-test (two-sample). Vad gör man om data inte är normalfördelat? Om vi

Läs mer

Uppgift a b c d e Vet inte Poäng 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Uppgift a b c d e Vet inte Poäng 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 TENTAMEN: Dataanalys och statistik för I, TMS136 Onsdagen den 5 oktober kl. 8.30-13.30 på M. Jour: Jenny Andersson, ankn 5317 Hjälpmedel: Utdelad formelsamling med tabeller, BETA, på kursen använd ordlista

Läs mer

2.1 Minitab-introduktion

2.1 Minitab-introduktion 2.1 Minitab-introduktion Betrakta följande mätvärden (observationer): 9.07 11.83 9.56 7.85 10.44 12.69 9.39 10.36 11.90 10.15 9.35 10.11 11.31 8.88 10.94 10.37 11.52 8.26 11.91 11.61 10.72 9.84 11.89 7.46

Läs mer

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två

Läs mer

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D Statistikens grunder Mattias Nilsson Benfatto, Ph.D Vad är statistik? Statistik är en gren inom tillämpad matematik som sysslar med insamling, utvärdering, analys och presentation av data eller information.

Läs mer

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4 MÄLARDALENS HÖGSKOLA Akademin för hållbar samhälls- och teknikutveckling Statistik Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp Tillåtna hjälpmedel: Miniräknare (Formelsamling bifogas

Läs mer

Linjär regressionsanalys. Wieland Wermke

Linjär regressionsanalys. Wieland Wermke + Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån

Läs mer

Studietyper, inferens och konfidensintervall

Studietyper, inferens och konfidensintervall Studietyper, inferens och konfidensintervall Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Studietyper Experimentella studier Innebär

Läs mer

Biostatistik: Begrepp & verktyg. Kvantitativa Metoder II: teori och tillämpning.

Biostatistik: Begrepp & verktyg. Kvantitativa Metoder II: teori och tillämpning. Biostatistik: Begrepp & verktyg Kvantitativa Metoder II: teori och tillämpning Lovisa.Syden@ki.se BIOSTATISTIK att hantera slumpmässiga variationer! BIO datat handlar om levande saker STATISTIK beskriva

Läs mer

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Sid (7) Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Uppgift Nedanstående beräkningar från Minitab är gjorda för en Poissonfördelning med väntevärde λ = 4.

Läs mer

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler Innehåll I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Hypotesprövnig steg 1 5 Steg 4 Statistiska analyser Parametriska analyser Icke-parametriska analyser 1 Hypotesprövning

Läs mer

Uppgift a b c d e Vet inte Poäng

Uppgift a b c d e Vet inte Poäng TENTAMEN: Dataanalys och statistik för I2, TMS135 Fredagen den 12 mars kl. 8:45-11:45 på V. Jour: Jenny Andersson, ankn 8294 (mobil:070 3597858) Hjälpmedel: Utdelad formelsamling med tabeller, BETA, på

Läs mer

732G01/732G40 Grundläggande statistik (7.5hp)

732G01/732G40 Grundläggande statistik (7.5hp) 732G01/732G40 Grundläggande statistik (7.5hp) 2 Grundläggande statistik, 7.5 hp Mål: Kursens mål är att den studerande ska tillägna sig en översikt över centrala begrepp och betraktelsesätt inom statistik.

Läs mer

OBS! Vi har nya rutiner.

OBS! Vi har nya rutiner. KOD: Kurskod: PM2315 Kursnamn: Psykologprogrammet, kurs 15, Metoder för psykologisk forskning (15 hp) Ansvarig lärare: Jan Johansson Hanse Tentamensdatum: 14 januari 2012 Tillåtna hjälpmedel: miniräknare

Läs mer

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning i Matematisk Statistik med Metoder MVE490 Tid: den 16 augusti, 2017 Examinatorer: Kerstin Wiklander och Erik Broman. Jour:

Läs mer

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) SF1901: Sannolikhetslära och statistik Föreläsning 9. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski 21.02.2012 Jan Grandell & Timo Koski () Matematisk statistik 21.02.2012

Läs mer

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA 12.1 ANOVA I EN MULTIPEL REGRESSION Exempel: Tjänar man mer som egenföretagare? Nedan visas ett utdrag ur ett dataset som innehåller information

Läs mer

Grundläggande Biostatistik. Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet

Grundläggande Biostatistik. Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet Grundläggande Biostatistik Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet Formell analys Informell data analys Design and mätning Problem Formell analys Informell data analys Hur

Läs mer

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2 MÄLARDALENS HÖGSKOLA Akademin för hållbar samhälls- och teknikutveckling Statistik Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp Exempeltenta 2 Tillåtna hjälpmedel: Miniräknare (Formelsamling

Läs mer

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Tentamen på Statistik och kvantitativa undersökningar STA101, 15 hp Torsdagen den 22 mars 2018 TEN1, 9 hp Tillåtna hjälpmedel: Miniräknare

Läs mer

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 7 MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel

Läs mer

OBS! Vi har nya rutiner.

OBS! Vi har nya rutiner. KOD: Kurskod: PC1203 och PC1244 Kursnamn: Kognitiv psykologi och metod och Kognitiv psykologi och utvecklingspsykologi Provmoment: Metod Ansvarig lärare: Linda Hassing Tentamensdatum: 2012-11-17 Tillåtna

Läs mer

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test? ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test? Mikael Eriksson Specialistläkare CIVA Karolinska Universitetssjukhuset, Solna Grund för hypotestestning 1. Definiera noll- och alternativhypotes,

Läs mer

Metod och teori. Statistik för naturvetare Umeå universitet

Metod och teori. Statistik för naturvetare Umeå universitet Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån

Läs mer

Tentamen i Vetenskaplig grundkurs (MC001G/MC014G/MC1016), STATISTIK

Tentamen i Vetenskaplig grundkurs (MC001G/MC014G/MC1016), STATISTIK Tentamen i Vetenskaplig grundkurs (MC001G/MC014G/MC1016), 161102 STATISTIK Maxpoäng är 17 p. G 10 p; VG 14,5 p; Ge fullständiga svar men skriv ändå kortfattat och tydligt! Ange dina svar direkt i tentamen!

Läs mer

Forskningsmetodik 2006 lektion 2

Forskningsmetodik 2006 lektion 2 Forskningsmetodik 6 lektion Per Olof Hulth hulth@physto.se Slumpmässiga och systematiska mätfel Man skiljer på två typer av fel (osäkerheter) vid mätningar:.slumpmässiga fel Positiva fel lika vanliga som

Läs mer

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17 1/17 F8 Skattningar Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 14/2 2013 Inledande exempel: kullager Antag att diametern på kullager av en viss typ är normalfördelad N(µ,

Läs mer

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels 7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 2 Diskreta observationer Kontinuerliga observationer 3 Centralmått Spridningsmått Innehåll 1 2 Diskreta observationer Kontinuerliga observationer 3 Centralmått Spridningsmått Vad är statistik?

Läs mer

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2 MÄLARDALENS HÖGSKOLA Akademin för hållbar samhälls- och teknikutveckling Statistik Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp Exempeltenta 2 Tillåtna hjälpmedel: Miniräknare (Formelsamling

Läs mer

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning i Matematisk Statistik med Metoder MVE490 Tid: den 22 december, 2016 Examinatorer: Kerstin Wiklander och Erik Broman.

Läs mer