INNEHÅLL DEL II: STATISTISK INFERENS SLUMPMÄSSIGA SAMPEL

Transkript

1

2 INNEHÅLL 1. Vad är statistik? DEL I: ATT BESKRIVA DATA 2. Att beskriva en variabels fördelning 3. Sambandet mellan två variabler: Korrelationer 4. Sambandet mellan två variabler: Regressionslinjen 5. Statistiska samband kontra orsakssamband 6. Multipel regression 7. Att beskriva tidsseriedata DEL II: STATISTISK INFERENS SLUMPMÄSSIGA SAMPEL 8. Statistisk inferens the big picture 9. Att beskriva populationen 10. Sampling och samplingfördelningar 11. Test gällande medelvärden och koefficienter 12. Test gällande en grupp koefficienter ANOVA 13. Test av samband i korstabeller 14. Icke-parametriska tester DEL III: FLER VERKTYG INOM REGRESSIONSANALYS 15. Interaktioner & icke-linjära effekter 16. Valet av modell 17. Heteroskedasticitet & viktning 18. Linjära sannolikhetsmodeller och logistisk regression 19. Naturliga experiment och instrument DEL IV: STATISTISK INFERENS KOMPLEX SAMPLING 20. Stora sampel från ändliga populationer 21. Stratifierade sampel och viktning 22. Klustrade sampel och paneldata

3 Kapitel 1: VAD ÄR STATISTIK? För en tid sedan lyssnade jag på en debatt om lågkolhydratkost. En av debattörerna berättade att hon fått gallsten efter att hon påbörjat dieten. Hur ska man väga ett sådant argument? De flesta tycker kanske inte att argumentet är särskilt tungt; debattören hade kanske fått gallsten oavsett, eller så fick hon gallsten på grund av dieten medan många andra tvärtom undviker gallsten på lågkolhydratkost detta är omöjligt att avgöra utifrån en persons erfarenheter. Vi kallar den här typen av argument för anekdotiska en person berättar om sina personliga upplevelser. Statistiska belägg är motpolen till anekdotiska belägg. Istället för att berätta om en persons erfarenheter så samlar vi in ett datamaterial som täcker flera personer. Detta skulle exempelvis vara fallet om vi låter 200 försökspersoner byta till lågkolhydratkost medan 200 andra får äta enligt tallriksmodellen. Sen jämför vi förekomsten av gallstensbesvär i grupperna. När man utför en sådan undersökning börjar man ofta med att beskriva data, t.ex. 10 procent av personerna i lågkolhydratgruppen fick gallstensbesvär medan denna siffra var 7 procent i kontrollgruppen [de som fick äta enligt tallriksmodellen]. Att sammanfatta data på det här sättet kallas för beskrivande statistik. Här är tre andra exempel på beskrivande statistik: 60 procent av de utfrågade anser att homosexuella par ska få adoptera. Företagets marknadsandel har ökat med 100 procent på ett decennium. Personerna som besvarade enkäten var 40 år i genomsnitt. Beskrivande statistik handlar med andra ord om att sammanfatta ett datamaterial. Vi kan göra detta genom summerande mått, såsom medelvärden och procentsatser, eller genom att använda figurer, såsom pajdiagram och histogram.

4 Förutom att beskriva data vill vi också dra generalla slutsatser med hjälp av data. Vi vill, med andra ord, inte enbart lära oss om eventuella gallstensbesvär bland försökspersonerna som råkade ingå i studien, utan vi vill kunna säga något generellt om hur lågkolhydratkost påverkar gallstensbesvär hos människor överlag. När vi använder ett datamaterial för att dra generalla slutsatser kallar vi detta för statistisk inferens. Vilka slutsatser kan man då dra utifrån datamaterialet om lågkolhydratkost? Kan vi säga att risken för att få gallstensbesvär är 3 procentenheter högre om man äter lågkolhydratkost än om man äter enligt tallriksmodellen? Nej, det vi vet är att skillnaden är 3 procentenheter i studien, men vi vet inte hur stor den verkliga skillnaden är; skulle vi upprepa studien med nya försökspersoner så skulle vi få ett annat resultat; antagligen ett resultat som pekar i samma riktning, men knappast exakt samma siffror. Det finns med andra ord en viss osäkerhet kring den verkliga skillnaden. En viktig del av den statistiska inferensen är att sätta siffror på den osäkerheten, exempelvis genom att använda statistiska felmarginaler. ( Skillnaden mellan grupperna är 3 ± 2 procentenheter. ) Beskrivande statistik och statistisk inferens bildar tillsammans de två stora bitarna i pusslet statistiska metoder. Det är också dessa två bitar som den här boken handlar om. Fortsättningen av boken är uppbyggd enligt följande. Vi börjar med att lära oss hur man beskriver data. Det är bokens första del. I bokens andra del diskuterar vi sannolikheter och fördelningar kunskap vi kommer att dra nytta av när vi lär oss statistisk inferens. Statistisk inferens är temat för bokens tredje och fjärde delar, där den tredje delen behandlar slumpmässigt dragna sampel och den fjärde klustrade och stratifierade sampel. Den sista delen tar upp några blandade teman, som trots sin lite slitna plats på slutet kan vara nog så nyttiga. Då sätter vi igång!

5 Kapitel 2: ATT BESKRIVA EN VARIABEL Här visas ett utdrag av data som beskriver livslängden i världens länder: 61, 77, 71, 51, 76, 76, 74, 82, 81, 71, 75, 76, 70, 75, 70, 80, 74, 59, 68, 67, 76, 47, 74, 78, 73, 56, 54, 72, 55, 81, 75, 50, 51, 80, 75, 74, 61, 50, 58, 80, 50, 77, 79, 80, 78, 79, 61, 73, 76, 71, 72, 53, 62, 74, 63, 70, 80, 82, 63, 59, 74, 81, 61, 81, 71, 73, 72, 56, 54, 66, 63, 74, 83, 74, 83, 74, 82, 66, 71,... Den här uppräkningen av siffror är förstås svår att överblicka. För att kunna använda informationen så måste vi börja med att sammanställa den på ett överskådligt sätt. I det här kapitlet lär vi oss hur. En möjlighet är att rita upp en tabell eller figur som illustrerar materialet. Den populäraste figuren är histogram och vi tittar närmare på dem i avsnitt 2.2. En annan möjlighet är att sammanfatta data genom summerande mått. Det populäraste måttet är medelvärdet och vi tittar närmare på medelvärdet och andra mått i avsnitt 2.4 och 2.5. Men innan vi går in på dessa frågor ska vi se på hur man ställer upp ett datamaterial i en datamatris.

6 2.1 DATAMATRISEN För att samla in data så kan man exempelvis använda sig av enkäter: 1. Kön: Kvinna: Man: 2. Ålder: 3. Min hälsa är: Mycket svag: Relativt svag: God: Utmärkt: 4. Hur många hästar ser du på bilden? Anta att sex personer besvarar den här enkäten. Vi kallar det här datamaterialet för ett sampel. För att kunna jobba med samplet börjar vi med att sammanställa det i en datamatris: id Kön Ålder Hälsa Hästar 1 Man 32 God 5 2 Kvinna 48 Utmärkt 4 3 Kvinna 20 God 5 4 Kvinna 66 Ganska svag 3 5 Man 45 Mycket svag 2 6 Man 35 Utmärkt 2

7 I det här samplet är observationsenheten en person, dvs. vi har samlat in data gällande personer. I andra studier kanske man istället samlar in data gällande hushåll, kommuner, företag eller länder. I det sista fallet så är observationsenheten ett land. Varje rad i datamatrisen är en observation. Här har vi sex rader, dvs. sex observationer. Antalet observationer säger med andra ord hur många personer som besvarat enkäten. Varje kolumn i matrisen är en variabel. Variabler är egenskaper som vi mäter hos personerna. Kön, Ålder, Hälsa och Hästar är variabler. Som du ser så kan vi beskriva variabler med ord eller siffror. Variabler som naturligt mäts på en numerisk skala kallas för kvantitativa variabler. Ålder och Hästar är kvantitativa variabler. Andra exempel på kvantitativa variabler är längd, vikt, priser, löner, temperatur, antalet poäng på ett prov eller inflationstakten. Variabler som beskrivs med kategorier kallas för kvalitativa variabler. Kön och Hälsa är kvalitativa variabler. Andra exempel på kvalitativa variabler är yrke, religion, bostadskommun, ögonfärg eller trivsel på jobbet (dålig, okej, bra). I matrisen ovan har vi använt ord för att beskriva kategorierna, men vi kan också ge värden till de olika kategorierna. Exempelvis kunde vi ersätta man med värdet 0 och kvinna med värdet 1. Kön skulle ändå vara en kvalitativ variabel eftersom de valda värdena inte har någon numerisk betydelse. Med generella beteckningar beskriver vi en datamatris så här: id X Y Z 1 x 1 y 1 z 1 2 x 2 y 2 z 2 3 x 3 y 3 z 3 4 x 4 y 4 z n x n y n z n X, Y och Z betecknar variabler. Den första observationen på variabeln X betecknas x 1, den andra observationen betecknas x 2,..., den sista observationen betecknas x n. n betecknar med andra ord antalet observationer. Vi kan också beteckna en observation på X med x i, men här har vi valt att inte specifikt ange dess ordning. x i är helt enkelt den i:te observationen, där i kan vara 1, 2, 3,..., eller n.

8 Övningsuppgifter: Se här.

9 2.2 FÖRDELNINGEN FÖR EN VARIABEL När vi matat in data i en datamatris så är de dags att se vad vi kan lära oss av materialet: Hur ser variablernas fördelningar ut? När vi beskriver en variabels fördelning så betyder det att vi visar hur den variabeln fördelar sig över olika värden på talaxeln, eller hur variabeln fördelar sig över olika kategorier. För att se detta kan vi använda frekvenstabeller och frekvensdiagram. Frekvenstabeller och frekvensdiagram Nedan visas två frekvenstabeller som bygger på data från föregående avsnitt: Kön Frekvens Kvinna 3 Man 3 Den här frekvenstabellen visar att tre kvinnor och tre män besvarade enkäten. Frekvens är alltså ett annat ord för antal. Hästar Frekvens Den här frekvenstabellen visar att 2 personer såg två hästar; 1 person såg tre hästar; 1 person såg fyra hästar och 2 personer såg fem hästar. Nedan visas en frekvenstabell där vi också inkluderat en kumulativ frekvens och en relativ frekvens: Hästar Frekvens Kumulativ Relativ Frekvens frekvens / / / /3 En person såg tre hästar; den kumulativa frekvensen visar att tre personer såg tre hästar eller färre. På samma sätt visar den kumulativa frekvensen att sex personer såg fem hästar eller färre.

10 Frekvens Relativ frekvens är ett annat ord för andel. Här ser vi exempelvis att en tredjedel av personerna såg två hästar, och att en sjättedel såg fyra hästar. Samma information som vi beskriver med frekvenstabeller kan vi också beskriva grafiskt med frekvensdiagram: Antal män och kvinnor 3 3 Hur många hästar såg du på bilden? 2 1 män kvinnor Ett frekvensdiagram är en figur som illustrerar en variabels fördelning. Vanligtvis sätter vi variabelns värden eller kategorier på x-axeln; y-axeln visar frekvensen eller den relativa frekvensen. (I figuren till vänster är y-axeln osynlig men skulle vi rita ut den så skulle den visa frekvensen.) Frekvensdiagram som görs upp för kvalitativa data kallas också för stapeldiagram; figuren uppe till vänster är ett stapeldiagram. Finns det något man ska tänka på när man gör upp ett frekvensdiagram? Jo, här är en sak. x-axeln kan börja där det passar data bäst (här tänker vi oss att x-axeln visar variabelns värden). I frekvenstabellen uppe till höger så börjar x-axeln vid 1. Men y-axeln bör börja vid 0. Annars får man en förvrängd bild av datamaterialet, vilket figurerna nedan visar. I figuren till höger börjar y-axeln vid 6. Detta ger intrycket av att talet 2 är starkt överrepresenterat, fastän detta egentligen inte är fallet.

11 frekvens frekvens Tydligt frekvensdiagram x Missvisande frekvensdiagram x Histogram Nedan visas livslängden i några av världens länder: 60,524 77,185 70,874 51,498 75, ,142 Totalt täcker samplet cirka 200 länder och om vi ritar upp datamaterialet i ett frekvensdiagram så får vi följande figur: Det är svårt att få en bra bild av fördelningen utifrån den här figuren. Som vi nu ska se så kan man göra bilden klarare genom att först dela in data i grupper. Ett frekvensdiagram baserat på gruppindelat data kallas för ett histogram. I figuren nedan har vi valt att dela in länderna i tretton grupper så att den första gruppen är länder med en livslängd på 45 till 48 år; den andra gruppen är länder med en livslängd på 48 till 51 år;...; den sista gruppen är länder med en livslängd på 81 till 84 år.

12 Livslängd Frekvens 45, , , , , , Att beskriva fördelningar normalfördelningen och lognormalfördelningen Vissa histogram dyker upp i så pass många olika sammanhang att man gett dem speciella namn. Vi ska nu se på två sådana fördelningar normalfördelningen och lognormalfördelningen. Normalfördelningen: Se histogrammet nedan. Vi säger att den här variabeln är normalfördelad. Vi känner igen en normalfördelning på att den är symmetrisk, dvs. den vänstra halvan är en spegelbild av den högra. Vi hittar de flesta observationerna kring mitten; när vi rör oss mot allt större värden så blir de snart allt ovanligare och detsamma gäller när vi rör oss mot allt mindre värden. Normalfördelningen är den viktigaste fördelningen inom statistiken. En orsak är att många variabler följer en normalfördelning, åtminstone ungefärligt. Här är några exempel:

13 Längden för en kvinna, barnets födelsevikt, blodtrycket hos en ung person och vilopulsen hos en frisk vuxen. Många tester konstrueras så att testpoängen ska följa en normalfördelning, exempelvis intelligenstester. Lognormalfördelningen: I histogrammen nedan visas två exempel på lognormalfördelningar. Lognormalfördelningen ser ofta ut som en normalfördelning bara att den har en längre svans till höger än till vänster. Histogrammet nere till vänster är ett exempel på det. Histogrammet till höger visar också en lognormalfördelning, men den här är ännu snedare och liknar därför inte längre en normalfördelning. Gemensamt för alla lognormalfördelningar är att variabeln bara antar positiva värden. Lognormalfördelningen är vanlig inom alla vetenskaper. Variabler som mäts i pengar (såsom priser, löner och intäkter) följer ofta lognormalfördelningar. Variabler som mäts i stora mängder följer också ofta lognormalfördelningar, t.ex. befolkningsstorleken i olika städer, antalet elever i olika skolor, antalet biobesökare en fredag eller försäljningskvantitet. Här är en viktig egenskap hos lognormalfördelningen: Då vi tar logaritmen av värdena så får vi en normalfördelning: För att se varför så ska vi fundera lite på vad logaritmering gör. Och som vi kommer att se i kommande kapitel så har vi ofta nytta

14 av att logaritmera data. Därför är det bra att redan nu veta vad det betyder. Vi gör detta bäst genom ett exempel: Låt oss säga att Adam fått en löneökning från 2000 till 2200 euro, och att Eva fått en löneökning från 4000 till 4400 euro. Uttryckt i euro har Evas lön ökat mer än Adams, men på en logaritmisk skala så har Adams och Evas löner ökat exakt lika mycket. Den logaritmiska skalan bryr sig med andra ord om procentuella skillnader och inte absoluta: När ett värde ökar med en viss procent på den vanliga skalan, så är ökningen en viss konstant på den logaritmiska skalan. Du kan testa detta med din miniräknare genom att slå in log(2200) log(2000); du kommer att se att skillnaden blir lika stor som log(4400) log(4000). Det här gäller oavsett om du använder en logaritm med basen 10 eller, exempelvis, den naturliga logaritmen. Figuren nedan visar hur vi kan visualisera den logaritmiska skalan. På en logaritmisk skala är avståndet mellan 1 och 10 lika stort som det mellan 10 och 100: log(100)-log(10) = log(10)- log(1). På motsvarande sätt är, exempelvis, avståndet mellan 1 och 2 lika stort som det mellan 2 och 4; avståndet mellan 1 och 5 är lika stort som det mellan 5 och 25. Vi kan nu se varför en fördelning med en längre svans till höger blir symmetrisk genom logaritmering. Nedan visas en sned fördelning: När vi logaritmerar värdena så pressar vi ihop skalan så att stora värden straffas extra hårt: Avståndet mellan 1 och 2 blir lika stort

15 som det mellan 2 och 4; avståndet mellan 2 och 4 blir lika stort som det mellan 4 och 8: Men varför skulle man någonsin vilja logaritmera data istället för att beskriva det i originalform? Vi kommer bättre att se varför i kommande kapitel. I det här skedet ska vi bara introducera det som är en viktig del av förklaringen: Den logaritmiska skalan stämmer ofta bättre överens med hur vi de facto ser på olika värden. Om priset på en bil stiger med 10 euro så skulle detta knappast spela någon roll för en bilköpare, men om priset på en schampoflaska stiger med 10 euro så skulle detta antagligen vara avgörande. Om Kalle får euro mer i arvet efter sin mor än hans syster Anna, så skulle Anna knappast göra någon affär av detta om hon själv fick 5 miljoner euro, men däremot nog om hon bara fick De här exemplen visar att relativa skillnader ofta är viktigare än absoluta, och detta är exakt vad den logaritmiska skalan reflekterar. Det finns flera logaritmer, t.ex. en logaritm med basen 10 eller den naturliga logaritmen. Inom statistiken är det vanligt att man använder den naturliga logaritmen som betecknas ln(...). Så varför är den här logaritmen så populär? Jo, för data får en naturlig förklaring när vi använder denna: Anta att en aktie kostar 100 euro ena dagen och 101 euro andra dagen; det är en enprocentig ökning i priset. När vi tar den naturliga logaritmen av dessa priser och beräknar skillnaden så får vi värdet 0,01: ln(101)-ln(100) 0,01

16 Eller anta att en mäklare värderar ett hus till euro men att huset säljs till euro; det är en femprocentig minskning. Loggar vi priserna och tar skillnaden så får vi värdet -0,05: ln(95000)-ln(100000) -0,05 Lärdomen: När vi använder den naturliga logartimen så representerar skillnaden mellan två loggade värden den procentuella skillnaden mellan värdena. Den här regeln fungerar bra då den procentuella skillnaden är liten (mindre än ~10 procent), men blir mindre träffsäker för stora skillnader. Anta att aktien istället hade ökat i värde med 20 procent från 100 euro till 120. Den loggade skillnaden blir då ln(120)-ln(100) 0,18 och inte 0,20. I kapitlets Appendix (A.1: Logaritmer) kan du läsa mer om logaritmer. Att beskriva fördelningar - summerande mått I förra avsnittet lärde vi oss att vi ibland kan beskriva en fördelning genom att ange vilken fördelningsfamilj den tillhör, såsom normalfördelningen eller lognormalfördelningen. Låt oss säga att vi mätt intelligenskvoten för 200 brottslingar. Om vi säger att brottslingarnas intelligenskvot är normalfördelad så ger detta andra en snabb bild av hur fördelningen ser ut. Däremot berättar detta inget om huruvida brottslingarna är dumma eller smarta, eller om det kanske finns stora skillnader i intelligens mellan en brottsling och en annan. Det är här läges- och spridningsmåtten kommer in. Lägesmåtten beskriver på lite olika sätt var på tallinjen vi hittar observationerna ( Är brottslingarna dumma eller smarta? ). Spridningsmåtten beskriver hur utspridda observationerna är över tallinjen ( Finns det stora skillnader i intelligens mellan en brottsling och en annan? ) I kommande avsnitt ska vi se på några vanliga läges- och spridningsmått. När vi beskriver dem så använder vi ofta något som kallas för ett summatecken. Första steget är därför att lära oss vad det betyder. Övningsuppgifter: Se här.

17 2.3 SUMMATECKNET, Σ Vi använder summatecknet, Σ, för att beskriva en summa på ett kortfattat sätt. Anta att vi har gjort tre mätningar på en variabel X. Vi betecknar dem med x 1, x 2 och x 3. Summan av observationerna kan vi beskriva som: 3 x i = x 1 + x 2 + x 3 i=1 Här är ett konkret exempel: Anta att observationerna har värdena 1, 0 och 2. Summan blir då 3: 3 x i = = 3 i=1 Under summatecknet står det i = 1; ovanför summatecknet står det 3. Det här betyder att vi summerar från den första observationen till den tredje. Om samplet består av n stycken observationer så beskriver vi summan som: n x i = x 1 + x x n i=1 Ofta är det en självklarhet att vi summerar från den första observationen (1) till den sista (n). För enkelhetens skull kan vi därför lämna bort i = 1 och n och bara skriva: x i = x 1 + x x n Det är inte alltid som vi vill summera över observationerna i samplet; ibland vill vi summera över någon funktion av dessa observationer. Här är ett exempel där vi summerar över de kvadrerade värdena på x: x i 2 = x x x n 2 För samplet (1, 0, 2) blir denna summa 5: x i 2 = = 5 Vi kan jämföra detta med:

18 2 ( x i ) = (x 1 + x 2 + x 3 ) 2 = ( ) 2 = 9 Summan nedan beskriver att vi summerar över en skillnad skillnaden mellan en observation och värdet 1: (x i 1) = (x 1 1) + (x 2 1) + + (x n 1) För samplet (1, 0, 2) så blir denna summa 0: (x i 1) = (x 1 1) =1 1 Vi kan jämföra detta med: + (x 2 1) =0 1 + (x 3 1) =2 1 = 0 x i 1 = x 1 + x 2 + x 3 1 = = 2 Övningsuppgifter: Se här.

19 2.4 LÄGESMÅTT Lägesmåtten beskriver var på tallinjen vi hittar observationerna i ett sampel. De viktigaste lägesmåtten är medelvärdet och medianen. Andra vanliga lägesmått är typvärdet, kvartiler och percentiler. Medelvärdet Medelvärdet beräknas som summan av observationerna delat med antalet observationer. Om vi mäter medelvärdet för en variabel som betecknas x så betecknar vi medelvärdet med x : x = x i n = x 1 + x x n n Exempel: I samplet nedan så är genomsnittsåldern 41 år. Vi får medelvärdet genom att ta summan av alla åldrar (246) och dela med antalet personer (6). På motsvarande sätt kan vi räkna ut att personerna i genomsnitt såg 3,5 hästar. id Kön Ålder Hälsa Hästar 1 Man 32 God 5 2 Kvinna 48 Utmärkt 4 3 Kvinna 20 God 5 4 Kvinna 66 Ganska svag 3 5 Man 45 Mycket svag 2 6 Man 35 Utmärkt 2 Men hur tolkar vi medelvärdet? Vad betyder det när vi säger att genomsnittsåldern är 41 år? Här är två tolkningar: 1) Om vi ser på observationerna som tyngder på en våg så är medelvärdet den axel som gör att vågen balanserar exakt: 2) Medelvärdet är din bästa gissning. Eleverna i klass 6a på St. Henriks lågstadium bor i genomsnitt två kilometer från skolan. Kalle går på den här klassen. Hur lång är hans skolväg? Utan någon annan information så är två kilometer din bästa gissning. Vissa på klassen bor närmare skolan,

20 andra bor längre ifrån, men sett över alla personer så tar dessa fel ut varandra; medelvärdet har rätt i genomsnitt. Exempel: Hur är det då med variabeln kön: Kan vi räkna ut medelvärdet för kön? I så fall måste vi först sätta värden på variablernas kategorier. Låt oss ge männen värdet 0 och kvinnorna värdet 1: id Kön Ålder Hälsa Hästar 1 Man = 0 32 God 5 2 Kvinna = 1 48 Utmärkt 4 3 Kvinna = 1 20 God 5 4 Kvinna = 1 66 Ganska svag 3 5 Man = 0 45 Mycket svag 2 6 Man = 0 35 Utmärkt 2 Medelvärdet blir då 0,5: andelen kvinnor i samplet = 0,5. Medelvärdet är Det här gäller alltid: Om vi räknar ut medelvärdet för en variabel som bara antar två värden 0 och 1 så är medelvärdet andelen 1:or i samplet. Av den här orsaken brukar man använda just siffrorna 0 och 1 för variabler med bara två kategorier. Vi kallar den här typen av variabler för binära. Man brukar ofta namnge binära variabler enligt kategorin som har värdet 1: Istället för att kalla en variabel för kön så kallar vi den för kvinna om kvinnor har värdet 1 och män värdet 0. Istället för att kalla en variabel för modersmål så kallar vi den för svenska om personer med svenska som modersmål har värdet 1 och personer med finska som modersmål har värdet 0. Istället för att kalla en variabel för utbildningskategori så kallar vi den för högutbildad om högutbildade har värdet 1 och de lågutbildade har värdet 0. Exempel: Hur är det då med variabeln hälsa? Kan vi räkna ut medelvärdet för den variabeln? Rent tekniskt sett så är det förstås möjligt om vi ger värden till de olika kategorierna. Men ett sådant medelvärde har ingen meningsfull betydelse. Medelvärdet beror då på hur vi väljer att koda variabeln, och valet är godtyckligt.

21 Medianen Vi inledde det här kapitlet med att säga att medelvärdet hör till de viktigaste lägesmåtten. Men när har vi intresse av andra lägesmått? För att se detta så ska vi fundera över följande: I USA ligger den genomsnittliga årsinkomsten kring dollar, men 65 procent av befolkningen tjänar mindre än detta. Det här kan låta paradoxalt men är sant, dvs. en majoritet kan ligga under snittet. Det kan då vara intressantare att fundera över hur mycket en representativ person tjänar. Det är här medianen kommer in: Medianen är den mittersta observationen i samplet. Exempel: Fem kompisar går ut och äter tillsammans. Här är notan för varje person då vi ordnat dem från den som betalade minst till den som betalade mest: 16, 20, 25, 33, 35 Medianen är 25 euro, eftersom 25 är det mittersta värdet. Exempel: Hur stor är medianåldern? id Kvinna Ålder Hälsa Hästar God Utmärkt God Ganska svag Mycket svag Utmärkt 2 Då vi rangordnar observationerna från den minsta till den största så får vi: 20, 32, 35, 45, 48, 66 Två åldrar 35 och 45 ligger lika mycket på mitten. Medianen blir då snittet av dessa två, dvs. (35+45)/2 = 40. På motsvarande sätt kan vi räkna ut att medianen för variabeln hästar är 3,5. För det här samplet är genomsnittsåldern 41 år; medianen är 40. Personerna såg 3,5 hästar i genomsnitt och medianen är också 3,5. Det är inte ovanligt att medelvärdet och medianen har ungefär samma värden. Så på vilket sätt skiljer sig de här måtten från varandra? Det finns tre tillfällen då skillnaderna blir extra tydliga:

22 1) Medelvärdet är känsligt inför extrema värden, så kallade outliers. Tänk dig följande sampel: 1, 2, 3, 4 och 5. Både medelvärdet och medianen har värdet 3. Men vad händer om värdet 5 plötsligt ändrar till 1000? Jo, medelvärdet ökar dramatiskt, men medianen är fortfarande 3. 2) Medelvärdet och medianen har olika värden i skeva fördelningar. Figur A visar fördelningen för inkomst per person i världens länder. Man säger att den här fördelningen är skev åt höger; det finns en del länder där inkomsterna är betydligt högre än i andra länder dessa skapar fördelningens högra svans. I ett genomsnittligt land är inkomsten ungefär dollar per person men medianen är bara 7000 dollar; medelvärdet dras upp av de höga inkomsterna i fördelningens högra svans. Figur B visar fördelningen för livslängden i världens länder. Man säger att den här fördelningen är skev åt vänster. I ett genomsnittligt land är livslängden 70,0 år men medianen är 72,5 år; medelvärdet dras ner av de korta livslängderna i fördelningens vänstra svans. 3) Vi kan beräkna medelvärdet för kvantitativa och binära data. Medianen är dessutom lämplig för data på ordinalnivå. Exempel: Kan vi räkna ut medianen för variabeln hälsa? För att göra detta så måste vi först ge värden till de olika kategorierna. Låt oss ge mycket svag hälsa värdet 1; Ganska svag hälsa värdet 2; god hälsa värdet 3 och utmärkt hälsa värdet 4:

23 id Kvinna Ålder Hälsa Hästar God = Utmärkt = God = Ganska svag = Mycket svag = Utmärkt = 4 2 Medianen blir då 3, vilket representerar god hälsa. Det här värdet är naturligtvis godtyckligt; om vi hade valt att koda hälsokategorierna på ett annat sätt så hade vi fått en annan median. Vi hade exempelvis kunnat ge mycket svag hälsa värdet -10; ganska svag hälsa värdet -5; god hälsa värdet 0 och utmärkt hälsa värdet 10. Då hade medianen blivit 0. Men notera här att den fortfarande representerar kategorin god hälsa. Det här innebär att medianen i praktiken inte påverkas av hur vi kodar variabeln så länge kodningen beaktar hälsokategoriernas rangordning. Det är därför meningsfullt att beräkna medianen för variabeln hälsa trots att den är en kvalitativ variabel. Hälsa är ett exempel på en variabel med data på ordinalnivå. Ordinalnivå är kvalitativa data där det finns en naturlig rangordning av kategorierna: utmärkt hälsa god hälsa svag hälsa mycket svag hälsa. Vi kan representera den här rangordningen med siffror (t.ex ) men skillnaden mellan olika värden har ingen kvantitativ betydelse. Exempel: Om Kalle har en hälsa på 4 och Lisa en hälsa på 3 så visar detta att Kalle har bättre hälsa än Lisa, men inte hur mycket bättre. Kvalitativa variabler där kategorierna inte kan rangordnas på ett meningsfullt sätt har data på nominalnivå. Här är några exempel: Din lön mäts på en kvantitativ skala din socioekonomiska ställning (låg, medel, hög) mäts på ordinalnivå. Din hårlängd (i centimeter) mäts på en kvantitativ skala din hårfärg mäts på nominalnivå. Försäljningspriset för en bil mäts på en kvantitativ skala bilens märke mäts på nominalnivå. Sockerhalten i en semla mäts på en kvantitativ skala den upplevda sötman (säg på en skala mellan 1 och 5) mäts på ordinalnivå. Det finns också gråzoner i skarvet mellan ordinalnivå och kvantitativa data. Detta gäller bland annat olika index och poäng som ges till personer i psykologiska tester. Om man, exempelvis, vill mäta hur extrovert en person är så kan man göra detta

24 genom att låta personen ta ställning till ett antal frågor (se figuren nedan). Svaren poängsätts och summeras ihop och bildar en så kallad likert-skala. Eller om man vill mäta hur demokratiskt ett land är kan man värdera detta utifrån ett antal faktorer och skapa ett index. Den här typen av data kan betraktas som ordinalnivå eftersom extroversion eller graden av demokrati inte naturligt mäts på numeriska skalor. Ofta behandlar man ändå den här typen av data som kvantitativt, genom att exempelvis beräkna medelvärden. Typvärdet Typvärdet är det värde som förekommer flest gånger i samplet. Om flera värden är lika vanliga så finns det flera typvärden. Exempel: Typvärdena för variabeln hästar är 2 och 5. id Kvinna Ålder Hälsa Hästar Kvartiler Figuren nedan illustrerar vad vi menar med kvartiler. Lådan representerar ett datamaterial som vi rangordnat och delat upp i fyra jämnstora delar. Vi får då tre skarvar som vi betecknar med Q 1, Q 2 och Q 3 detta är datamaterialets kvartiler.

25 Den första kvartilen (Q 1) är en observation som är större än en fjärdedel av observationerna och mindre än tre fjärdedelar. Den andra kvartilen (Q 2) är en observation som är större än hälften av observationerna och mindre än hälften. (Den andra kvartilen och medianen är samma mått.) Den tredje kvartilen (Q 3) är en observation som är större än tre fjärdedelar av observationerna och mindre än en fjärdedel. Låt oss säga att vi mäter lönerna för ett sampel ungdomar på sitt första sommarjobb. Om den första lönekvartilen är 7 euro per timme så betyder det att en fjärdedel av ungdomarna tjänar mindre än 7 euro och tre fjärdedelar mer. Om den tredje lönekvartilen är 10 euro per timme så betyder det att tre fjärdedelar tjänar mindre än 10 euro och en fjärdedel mer. För att illustrera kvartilerna kan man använda något som kallas för ett låddiagram. Här har vi gjort upp ett låddiagram för livslängden i världens länder: Lådans botten är den första kvartilen som här har värdet 64; en fjärdedel av länderna har en livslängd som är kortare än 64 år och tre fjärdedelar en livslängd som är längre. Lådans tak är den tredje kvartilen som här har värdet 76; tre fjärdedelar av länderna har en livslängd som är kortare än 76 år. Inom lådan ryms med andra ord 50 procent av världens länder de mittersta 50 procenten. Lådans mittstreck är medianen. Om vi räknar ut lådans längd så ser vi att den är 12 år (76-64 = 12). Vi kallar detta avstånd för kvartilavståndet.

26 Förutom lådan så innehåller låddiagrammet också en gaffel som märker ut datamaterialets största och minsta observationer. Om datamaterialet innehåller en eller flera extra stora eller små värden så märks dessa också ut skilt, som i figuren nedan: Deciler och percentiler Vi får decilerna genom att dela in data i tio jämnstora grupper: Det här betyder att det finns totalt nio deciler (de nio skarvarna i figuren ovan). Exempel: Fyra tiondelar av observationerna är mindre än den fjärde decilen; sex tiondelar är större. Ibland talar man också om decilgrupper. Exempel: Vi mäter inkomst per person i världens länder. Om Angola hör till den första decilgruppen så betyder det att Angola hör till de tio procent fattigaste länderna i världen. Notera att det bara finns nio deciler, men tio decilgrupper. På motsvarande sätt får vi percentilerna genom att dela in data i 100 jämnstora grupper. Exempel: Den 90:e percentilen är en observation som är större än 90 procent av observationerna men mindre än 10 procent. När vi mäter inkomst per person i världens länder så är den 90:e percentilen dollar. Det betyder att inkomsten per person än lägre än dollar i 90 procent av länderna, och högre i tio procent.

28 2.5 SPRIDNINGSMÅTT Nedan visas två histogram. Båda fördelningarna har samma medelvärde och median. Det finns dock en viktig skillnad mellan fördelningarna: spridningen. I figuren till vänster ligger observationerna relativt nära varandra; i figuren till höger finns det betydligt större skillnader mellan observationerna. I det här avsnittet ska vi lära oss hur vi kan beskriva den här egenskapen hos en fördelning. De viktigaste måtten är variansen och standardavvikelsen. Variansen och standardavvikelsen Hur skulle man gå tillväga för att beskriva spridningen för en variabel? En naturlig utgångspunkt är att se hur mycket observationerna varierar kring medelvärdet; tenderar observationerna ligga tajt samlade kring medelvärdet eller långt från medelvärdet? Variansen och standardavvikelsen är två mått som bygger på den tanken. Variansen mäter ungefär den genomsnittliga kvadrerade avvikelsen mellan en observation och medelvärdet. Vi betecknar variansen med s 2 : s 2 = (x i x ) 2 n 1 = (x 1 x ) 2 + (x 2 x ) (x n x ) 2 n 1 Standardavvikelsen är den positiva kvadratroten ur variansen. Vi betecknar den med s:

29 s = s 2 Exempel: Vi gör tre mätningar på en variabel X och får värdena: 2, 1, 3. Hur stor är variansen och standardavvikelsen? Medelvärdet är 2. Summan av de kvadrerade avvikelserna blir då 2: (x i x ) 2 = (2 2) 2 + (1 2) 2 + (3 2) 2 = 2 Notera vad som skulle hända om vi inte kvadrerade: En positiv avvikelse (3-2) skulle tas ut av en negativ (1-2) och summan skulle bli noll. Detta gäller i alla datamaterial, dvs. om man summerar ihop alla observationers avvikelser från medelvärdet så blir summan alltid 0. Vi får variansen genom att dela kvadratsumman (2) med antalet observationer minus ett (3-1 = 2). Variansen blir då 1: s 2 = 2 2 = 1 Standardavvikelsen blir därför också 1: s = 1 = 1 Exempel: Hur stor är åldersvariansen? id Kvinna Ålder Hälsa Hästar När vi har lite större datamaterial kan det ta tid att räkna ut variansen för hand. En formel som gör uppgiften snabbare ges nedan: s 2 = (x i x ) 2 n 1 = x i 2 nx 2 n 1 Vi börjar med att räkna ut summan av de kvadrerade åldrarna, x i 2. Exempelvis är den första personen 32 år och 32 2 = Summan av alla kvadrerade åldrar är 11334:

30 id Ålder Ålder Σ = Medelåldern är 41 år och åldersvariansen blir då 249,6: s 2 = x i 2 n x 2 n 1 = = 249,6 Standardavvikelsen är då 15,8: 249,6 15,8 Att tolka variansen och standardavvikelsen Vi såg just att standardavvikelsen för ålder är cirka 16 år. Men vad betyder det? Generellt gäller att en stor standardavvikelse betyder att det är stor spridning i data; en liten standardavvikelse att spridningen är liten. En standardavvikelse på noll betyder att det inte finns någon variation alls, dvs. alla observationer i data har exakt samma värde. Negativa standardavvikelser finns inte. En standardavvikelse på 16 betyder ungefär att en genomsnittlig person i samplet har en ålder som ligger 16 år från snittet. Det är, så att säga, standard att ligga 16 år från snittet. För att lära oss mer om variansen och standardavvikelsen så ska vi ännu se på tre egenskaper hos dessa: 1) Om vi flyttar en fördelning på tallinjen så förändras inte variansen eller standardavvikelsen. I figuren nedan har vi två fördelningar; i den vänstra har vi originalet och i den högra har vi plussat på 10 till varje observation. Som vi ser så förändrar detta inte spridningen i data. Variansen eller standardavvikelsen påverkas därför inte heller.

31 2) Standardavvikelsen mäts i samma enhet som variabeln. Anta att kvinnor i genomsnitt är 168 centimeter med standardavvikelsen 5 centimeter. Uttryckt i meter så är kvinnor i snitt 1,68 meter med standardavvikelsen 0,05 meter. Standardavvikelsen uttrycks alltså i samma enhet som variabeln. Detta gäller dock inte variansen. Om kvinnor i snitt är 1,68 meter med standardavvikelsen 0,05 meter så är variansen 0,0025 kvadratmeter. Av den här orsaken är det populärare att rapportera standardavvikelsen i olika undersökningar. 3) regeln: För normalfördelade variabler gäller att ungefär 95 procent av observationerna ryms inom ± två standardavvikelser från snittet, och så gott som 100 procent ryms inom ± tre standardavvikelser från snittet. Anta att längden för en kvinna är normalfördelad. Om kvinnor i snitt är 168 centimeter med standardavvikelsen 5 centimeter så betyder det att ungefär 95 procent av kvinnor är mellan 158 och 178 centimeter (se figuren nedan). Och nästan alla kvinnor är mellan 153 och 183 centimeter; 153 ligger tre standardavvikelser under snittet och 183 tre standardavvikelser över.

32 Man kan undra varför vi delar med n-1 (och inte n) när vi beräknar variansen och standardavvikelsen. Det finns naturligtvis en förklaring, men här lämnar vi den till kapitlets Appendix (A.2 Variansen: Varför dela med n-1?). Övningsuppgifter: Se här.

33 Datareferenser Länderdata (livslängd, inkomster) hämtat från gapminder.com.

34 APPENDIX. A.1 Logaritmer Vad menas med en logaritm med basen 10? Se tabellen nedan. På den vanliga skalan ökar värdena med en faktor på 10 för varje rad; på den logaritmiska skalan ökar värdena med talet ett på varje rad. Vi kallar detta för en logaritm med basen 10. Exempelvis ser vi att log(100) = 2. Det betyder att vi måste ta 10 upphöjt i 2 för att få värdet 100. På samma sätt ser vi att log(1000) = 3: Vi måste ta 10 upphöjt i 3 för att få värdet När vi ställer oss frågan: Vad är logaritmen av 1000? så är det med andra ord bara ett kortare sätt att fråga: Vad ska jag ta 10 upphöjt i för att få 1000? Vanlig skala Log 10-skala Inom statistiken är det vanligt att man använder en logaritm med basen e, där e är ett tal som har värdet 2, Den här logaritmen kallas för den naturliga logaritmen och betecknas ln(...). Då ett värde ökar med en faktor e 2,72 på den vanliga skalan så är ökningen ett på ln-skalan: Vanlig skala ln-skala 1 0 e 2,72 1 e e 7,39 2 e e e 20,09 3 e e e e 54, När vi ställer oss frågan: Vad är den naturliga logaritmen av 10 så är det alltså bara ett kortare sätt att fråga: Vad ska jag ta talet e upphöjt i för att få värdet 10?. Vi såg tidigare att ln(101) ln(100) 0,01 och att detta visar att 101 är en procent mer än 100. Men varför blir det så när vi tar den naturliga logaritmen?

35 - När ett tal ökar med en faktor e 2,72 (dvs. 172 procent) på den vanliga skalan så är ökningen 1 på den naturliga logaritm-skalan. - Det går cirka 100 stycken 1-procentiga ökningar på en 172-procentig ökning. - När ett tal ökar med en procent på den vanliga skalan så är ökningen 1/100 = 0,01 på den naturliga logaritmskalan. A.2 Variansen: Varför dela med n-1? Ett bra variationsmått ska mäta variationen i data och inget annat. Vi vill exempelvis inte att variationsmåttet beror av sampelstorleken. Anta exempelvis att vi vill jämföra lönespridningen bland lärare och tandläkare, och att lönespridningen egentligen är lika stor i båda grupperna. Vårt datamaterial består av enbart tio tandläkare men hundratals lärare. För att kunna jämföra yrkesgrupperna är det då viktigt att vi har ett spridningsmått som inte beror av sampelstorleken. Variationsvidden är ett exempel på ett variationsmått som inte uppfyller det kravet. Variationsvidden är skillnaden mellan den största observationen i data och den minsta. Ju större sampel desto större tenderar maxlönen bli och tvärtom för den minsta lönen; variationsvidden ökar alltså med sampelstorleken. I en jämförelse av lärarna och tandläkarna så skulle vi då felaktigt dra slutsatsen att lärarna har mer varierade löner än tandläkarna, då en korrekt slutsats vore att samplet är större för lärarna än tandläkarna. Så varför delar vi med n-1 när vi beräknar variansen? Jo, när vi beräknar variansen genom att dela med n-1 så ser vi till att variansen inte beror av samplets storlek. Men om vi istället beräknar variansen genom att dela med n så tenderar variansen bli lite mindre i små sampel än i stora. Det är inte särskilt lätt att direkt se förklaringen. Men tänk så här: Variansen mäter ju hur mycket observationerna varierar kring medelvärdet. Och medelvärdet är det balanserande värdet. I ett litet datamaterial så måste medelvärdet bara balansera mellan ett fåtal observationer och får på så vis chansen att i snitt ligga lite närmare dessa observationer, än i ett stort datamaterial. Men den här effekten kan vi uppväga genom att dela med n-1.

36 Det är bra att variansen (när vi delar med n-1) inte varierar med samplets storlek, men det här är inte heller hela förklaringen till denna praxis. Orsaken till att vi delar med n-1 är att variansen då får en bra egenskap som kallas för väntevärdesriktighet. I det här skedet ska vi inte gå närmare in på det begreppet, men väntevärdesriktighet implicerar, bland annat, just det här att variansen inte varierar systematiskt med datamaterialets storlek.

37 Kapitel 3: SAMBANDET MELLAN VARIABLER - KORRELATIONER I förra kapitlet lärde vi oss hur man beskriver fördelningen för en variabel. Oftast är vi dock intresserade av att studera sambandet mellan variabler. Vi ska nu se tre exempel på vad det kan betyda. 3.1 SAMBAND Exempel: Finns det ett samband mellan etnisk bakgrund och hälsa? I National Health Interview Survey intervjuas tusentals amerikaner angående sin hälsa. Figuren nedan visar visar att cirka 60 procent av latinamerikaner och svarta anser sig ha mycket god hälsa; bland vita är motsvarande siffra cirka 70 procent. Andel som upplever sig ha mycket god hälsa (%) Latinamerikaner Svarta Vita Så vad menar vi med ett samband? När vi säger att det finns ett samband mellan två variabler x och y så menar vi att kunskap om den ena variabeln (x) lär oss något om den andra (y). I exemplet ovan så finns det ett samband mellan etnicitet och hälsa; om vi vet personens etniska bakgrund så lär det oss något om personens hälsa. I det här fallet så skulle det inte finnas något samband mellan variablerna om andelen med mycket god hälsa var lika stor i alla tre grupper. Exempel: Tjänar högutbildade mer än lågutbildade? Figuren nedan visar lönerna i tre utbildningsgrupper: personer med enbart grundskoleutbildning, personer med gymnasie- eller

38 yrkesutbildning och sådana med högskole- eller universitetutbildning. Som du ser så är lönerna jämförelsevis låga bland personer med enbart grundskoleutbildning, men betydligt högre bland personer med högskole- eller universitetsutbildning. Det finns också flera undantag personer med grundskoleutbildning som tjänar tusenlappar mer än andra med högskoleutbildning men den generella trenden i data är tydlig. Det finns med andra ord ett samband mellan utbildningsnivå och lön. Hur kan vi karaktärisera detta samband? En viktig skillnad kan göras mellan positiva och negativa samband. Vi kallar ett samband för positivt då höga värden på en variabel (x) hänger samman med höga värden på en annan (y). Och tvärtom: Låga värden på x hänger samman med låga på y. Vi kallar ett samband för negativt då höga värden på en variabel (x) hänger samman med låga värden på en annan (y). Och tvärtom: Låga värden på x hänger samman med höga på y. I det här exemplet är sambandet positivt, dvs. en hög utbildningsnivå hänger samman med hög lön. [Notering: Data för exemplet ovan är fejkat.] Exempel: Begås det mindre brott om risken för att åka fast är hög? Vi mäter antalet brott per person och risken för att åka fast i 89 amerikanska orter. Ett utdrag av data ges nedan:

39 Ort Risk att åka fast Brottslighet 1 0, , , , , , , , , , , , Figuren nedan illustrerar sambandet med hjälp av ett spridningsdiagram. På x-axeln visas risken för att åka fast; på y- axeln visas antalet brott per person. Varje prick i diagrammet representerar en observation, dvs. en ort. Exempelvis ser vi att det finns en ort där risken för att åka fast är ~0,7. På den orten begås det ~0,02 brott per person. I tabellen ovan är detta ort #89. Vad visar spridningsdiagrammet? För det första ser vi att det finns ett samband mellan variablerna; brottsligheten skiljer sig systematiskt mellan orter där risken för att åka fast är hög och sådana där risken är låg. Vi ser också att sambandet är negativt; hög risk för att åka fast är förknippat med låg brottslighet. Att karaktärisera samband - korrelationskoefficienter Vi har sett att samband ofta kan karaktäriseras som positiva eller negativa. I kommande avsnitt ska vi fundera vidare på hur man kan karaktärisera samband genom att mäta styrkan i dessa. I detta syfte använder vi korrelationskoefficienter. Det finns olika sätt att mäta styrkan i ett samband, dvs. olika korrelationskoefficienter, men de flesta har följande gemensamt:

40 De antar värden mellan -1 och 1, där 1 betyder att det finns ett perfekt positivt samband mellan variablerna och -1 att det finns ett perfekt negativt samband mellan variablerna; en korrelation på 0 betyder att det inte finns något samband (eller att sambandet varken är positivt eller negativt). Så vad menar vi då med ett perfekt negativt eller positivt samband? Man kan här tänka sig lite olika betydelser och därför finns det också olika korrelationskoefficienter. I nästa avsnitt ska vi diskutera det vanligaste korrelationsmåttet: Pearsons korrelationskoefficient. När vi då talar om perfekta samband så menar vi linjära samband. Övningsuppgifter: Se här.

41 3.2 PEARSONS KORRELATIONSKOEFFICIENT Pearsons korrelationskoefficient är det vanligaste korrelationsmåttet. Den mäter styrkan i det linjära sambandet mellan två variabler och antar värden mellan -1 och 1, där positiva värden betecknar positiva samband och negativa värden negativa samband. Se figur A nedan: Då x ökar så ökar också y i genomsnitt. Vi har då en positiv korrelation mellan variablerna. En korrelation på 1 betyder att alla observationer kan ritas längs med en uppåtlutande linje (figur B). Se figur A nedan: Då x ökar så minskar y i genomsnitt. Vi har då en negativ korrelation mellan variablerna. En korrelation på -1 betyder att alla observationer kan ritas längs med en nedåtlutande linje (figur B). Spridningsdiagrammen nedan representerar en korrelation på noll: Då x ökar så varken ökar eller minskar y i genomsnitt.

42 Generellt gäller att då korrelationskoefficienten närmar sig 1 eller -1 så samlas observationerna allt tajtare kring en rät linje. Figurerna nedan illustrerar detta, där r betecknar Pearsons korrelationskoefficient: Hur Pearsons korrelationskoefficient beräknas Korrelationen mellan två variabler, x och y, beräknas genom att dela kovariansen med produkten av standardavvikelsen för x och standardavvikelsen för y. Så vad är då kovariansen? Kovariansen mellan x och y beskriver hur mycket variablerna svänger ihop. Vi betecknar denna med s xy:

43 Sonens inkomst (y) s xy = (x i x )(y i y ) = x iy i nx y n 1 n 1 Som du ser så ges här två formler för kovariansen. Båda ger förstås samma resultat, men den senare är lättare att använda vid manuella beräkningar. Exempel: Finns det ett samband mellan faderns och sonens inkomst? För enkelhetens skull tänker vi oss här att vi bara har fyra observationer, dvs. fyra par av fäder och söner. I tabellen nedan representerar x faderns inkomst och y sonens. Inkomsterna mäts i tusentals euro (så att värdet 1 representerar en inkomst på tusen euro). I snitt tjänar både fäder och söner 2500 euro: x = y = 2,5. Hur stor blir kovariansen mellan faderns och sonens inkomst? x (far) y (son) Faderns inkomst (x) Vi kan börja med att beräkna x i y i = x 1 y 1 + x 2 y 2 + x 3 y 3 + x 4 y 4 som finns i täljaren för kovariansen. Från tabellen nedan ser vi att denna summa blir 29: x y x y (far) (son) Σ = 29 Kovariansen blir då 4/3: s xy = x iy i nx y n 1 = ,5 2,5 4 1 = 4 3 Så vad betyder en kovarians på 4/3? En positiv kovarians betyder att det finns ett positivt samband mellan variablerna; en

44 negativ kovarians att sambandet är negativt; en kovarians på noll betyder att det inte finns något linjärt samband. I det här exemplet har vi en positiv kovarians, dvs. ett positivt samband. Därutöver är det svårt att tolka kovariansen; storleken beror också på vilka enheter vi använder för att mäta x- och y- variablerna. Men vi kan göra kovariansen enhetsfri genom att dela den med produkten av standardavvikelsen för x och standardavvikelsen för y. Det mått vi då får kallas för Pearsons korrelationskoefficient och betecknas med r: s xy r = s x s y I exemplet ovan gäller att standardavvikelsen för sonens och faderns inkomster är lika stora, och lika med 5/3. Produkten av dem är 5/3. Korrelationen blir då 0,8 vilket representerar ett stark positivt samband: r = s xy s x s y = 4/3 5/3 = 0,8 Vi ska här notera två egenskaper hos korrelationskoefficienten: 1) Det spelar ingen roll vilken variabel som är x, och vilken som är y. Om vi vände på det så att x var sonens inkomst och y faderns så skulle korrelationskoefficienten ändå få värdet 0,8. 2) Det spelar ingen roll vilka enheter vi använder för att mäta variablerna. Vi kunde exempelvis mäta faderns inkomst i euro och sonens i tusentals euro och ändå få korrelationen 0,8. Icke-linjära samband I spridningsdiagrammet nedan är korrelationen 0: Då x ökar så varken ökar eller minskar y i genomsnitt. Men den här beskrivningen av sambandet är rätt torftig, dvs. den säger mycket litet om hur sambandet de facto ser ut.

45 Generellt gäller att ju bättre ett samband beskrivs av en kurva istället för en linje, desto mindre informativt blir Pearsons korrelationskoefficient som mått. Vi ska nu se ytterligare exempel på detta: Exempel: Spridningsdiagrammet nedan beskriver sambandet mellan inkomst och livslängd i världens länder. Inkomst mäts som inkomst per person i landet; livslängd är den genomsnittliga livslängden. Vi ser att livslängden i snitt är högre i rika länder än i fattiga. Det finns med andra ord en positiv korrelation mellan variablerna; Pearsons korrelationskoefficient har värdet 0,62. Men vi ser också att sambandet beskrivs bäst genom en kurva; då vi rör oss från de allra fattigaste länderna till något rikare länder så ökar livslängden dramatiskt, men efter dollar finns det inte längre något samband att tala om; alla dessa länder har höga livslängder. I det här exemplet gör Pearsons korrelationskoefficient ett ganska dåligt jobb med att beskriva sambandet mellan variablerna. Finns det något som vi kan göra för att förbättra den beskrivningen? En möjlighet är att ändra skalan på y- eller x- axeln så att sambandet blir linjärt. Logaritmering är det vanligaste sättet att åstadkomma detta.

46 Logaritmisk skala Vi har tidigare sett att logaritmering innebär att vi beskriver variabeln på en ny skala. Om vi logaritmerar inkomsterna i exemplet ovan så får vi en skala där avståndet mellan och är lika stort som det mellan och : Detta ger oss följande spridningsdiagram: Vi ser att log-skalan ger oss ett data som bättre passar en rät linje:

47 Vi beräknar sedan Pearsons korrelationskoefficient på samma sätt som tidigare, bara att x-variabeln nu är ln(inkomst) istället för inkomst. Ett utdrag av data ges nedan: land inkomst ln(inkomst) livslängd Afghanistan 1 349,7 7, ,524 Albanien 6 969,31 8, ,185 Algeriet 6 419,13 8, ,874 Angola 5 838,16 8, ,498 Antiqua & Barbuda , , Finland , , Zimbabwe 545,345 6, ,142 Korrelationen mellan ln(inkomst) och livslängd är 0,79. Man kan undra om det inte är fusk att ändra skalan på det här viset? Men nej, snarare är det tvärtom. När vi beräknar Pearsons korrelationskoefficient och använder den vanliga skalan så tänker vi oss att en viss ökning i inkomst hänger samman med en viss ökning i livslängd; med den logaritmiska skalan tänker vi oss istället att en viss procentuell ökning i inkomst hänger samman med en viss ökning i livslängd. Den logaritmiska skalan ger oss här en bättre representation av sambandet. Så hur vet man om, och när, det är lämpligt att logaritmera en variabel? Och vilken eller vilka variabler ska man i så fall logaritmera? Här är tre tips: 1) Logaritmering innebär att vi pressar ihop den axeln så att stora värden straffas extra hårt. Med hjälp av

48 ln(y) y spridningsdiagram kan vi visualisera vilken axel det vore lämpligt att pressa ihop (dvs. logga) för att få ett linjärt samband. Exempel: Se spridningsdiagrammet nedan. För vilken axel skulle en loggad skala vara lämplig? x Om ditt svar är y-axeln så har du tänkt rätt. När vi logaritmerar y så får vi följande spridningsdiagram: x 2) Det är ofta lämpligt att logaritmera en variabel som har en fördelning med en längre svans till höger, dvs. ett antal extra höga värden. Exempel: Om vi ritar upp fördelningen för inkomster i världens länder så ser vi att det är fallet här:

49 Variabler som mäts i pengar, i stora antal eller kvantiteter har som regel en längre svans till höger och sådana variabler brukar logaritmeras nästan rutinmässigt. Exempel: Spridningsdiagrammet nedan visar sambandet mellan kroppsvikt och hjärnans vikt för 62 olika djurarter. Kroppsvikten mäts i kilo och hjärnans vikt i gram. Från frekvensdiagrammen nedan ser vi att båda variablerna har fördelningar som är skeva till höger: När vi använder en logaritmisk skala för dessa variabler så får vi ett linjärt samband. Här har korrelationskoefficienten värdet 0,96:

50 När vi använder den logarimiska skalan för både kroppsvikt och hjärnans vikt så tänker vi oss att en viss procentuell förändring i kroppsvikt hänger samman med en viss procentuell förändring i hjärnans vikt. Och som vi ser från spridningsdiagrammet ovan så är detta en bra beskrivning av sambandet. Grovt räknat så gäller att en ökning i kroppsvikten med en faktor på 10 hänger samman men en ökning i hjärnans vikt med en faktor på 10. 3) Vi logaritmerar bara variabler för vilka det är meningsfullt att mäta förändringar i procent. Detta utesluter alla variabler som antar negativa värden (negativa värden har ingen logaritm; detsamma gäller talet 0). Vi skulle exempelvis inte logaritmera temperaturen (mätt på en celsius-skala) för det är inte meningsfullt att tala om procentuella förändringar i temperatur; 16 grader är inte 60 procent varmare än 10 grader. Vad är en bra korrelation? Hur hög bör en korrelation vara för att vara bra? Är 0,6 en bra korrelation? Är -0,5 en bra korrelation? Svaret är att det inte finns några bra eller dåliga korrelationer. Vi använder korrelationskoefficienter för att beskriva ett mönster i data på motsvarande sätt som vi använder medelvärdet för att beskriva tyngdpunkten i en fördelning. Och på samma sätt som det inte finns några medelvärden som är bättre än andra, så finns det heller inga korrelationskoefficienter som är bättre eller sämre än andra. Men medelvärdet kan ge en haltande beskrivning av en variabels läge då fördelningen är skev; på motsvarande sätt kan också Pearsons korrelationskoefficient ge en haltande

51 beskrivning av förhållandet mellan två variabler då förhållandet är icke-linjärt. I det här avsnittet har vi sett hur vi kan använda en logaritmisk skala för att göra sambandet linjärt. En annan möjlighet är att använda ett annat korrelationsmått som inte gör ett lika starkt antagande gällande variablernas förhållande till varandra. Vi ska återkomma till den punkten i avsnitt 3.4. Men först ska vi fundera på hur man mäter styrkan i sambandet mellan binära variabler. Övningsuppgifter: Se här.

52 3.3 BINÄRA DATA OCH ODDSKVOTER Oftast använder vi Pearsons korrelationskoefficient för att mäta sambandet mellan två kvantitativa variabler. Men det finns inget som hindrar oss från att beräkna korrelationen mellan en kvantitativ och en binär variabel, eller mellan två binära variabler. När två variabler korrelerar så betyder det att y i genomsnitt ökar (alternativt minskar) då x ökar, och som vi sett i kapitel 2 så är det meningsfullt att beräkna medelvärden för både kvantitativa och binära variabler. Det går därför också bra att tala om korrelationer då en eller båda variablerna är binära. Exempel: Vi vill ta reda på om mentorskap kan hjälpa missbrukare att förbli drogfria efter rehabilitering. Av 100 personer som genomgått rehabilitering lottar vi ut 50 som får en personlig mentor medan de andra 50 inte får det. För varje person mäter vi om han eller hon var drogfri ett år senare: Procent drogfria Nej Ja Mentor? I detta exempel har korrelationskoefficienten värdet 0,10. (Att få en mentor är då kodat som 1 och att inte få en mentor som 0; att förbli drogfri är kodat som 1 och att återfalla i missbruk är kodat som 0). Det finns med andra ord ett svagt positivt samband mellan att få en mentor och att förbli drogfri. En nollkorrelation hade här inneburit att andelen drogfria varit lika stor i båda grupperna; en perfekt korrelation att alla förblivit drogfria i den ena gruppen, men ingen i den andra. Även om det går bra att räkna ut korrelationskoefficienten för binära data så är det kanske inte lika vanligt som för kvantitativa data. Det är lättare och intuitivare att beskriva sambandet på andra sätt. I det här exemplet kan vi exempelvis beskriva sambandet genom att säga att 60 procent av dem som fick en

53 mentor förblev drogfria, medan denna siffra var 50 procent bland dem som inte fick en mentor. Ett annat vanligt sätt att beskriva sambandet mellan två binära variabler är genom oddskvoter. Så vad menas med ett odds? I skålen nedan finns tre bollar varav två röda. Om vi slumpmässigt drar en av bollarna så är sannolikheten för att få en röd boll två tredjedelar. Men oddset för att få en röd boll är två: Det går två röda bollar på varje svart boll. Ett odds är med andra ord ett annat sätt att beskriva en sannolikhet. I skål A nedan är oddset för att dra en röd boll ett; det går en röd boll på varje svart boll. I skål B är oddset för en röd boll ett halvt; det går en röd boll per två svarta: 1/2). Vi kan omvandla en sannolikhet (p) till ett odds genom följande formel: odds = p 1 p Exempel fortsättning. Hur stort är oddset för att förbli drogfri för en person som fick en mentor? Andelen som förblev drogfria var 0,6; oddset blir då 1,5: oddset = 0,6/(1-0,6) = 1,5 För varje person som återföll i missbruk fanns det 1,5 personer som förblev drogfria. Hur stort är oddset för att förbli drogfri för en person som inte fick en mentor? Andelen som förblev drogfria var 0,5; oddset blir då 1: oddset = 0,5/(1-0,5) = 1

54 För varje person som återföll i missbruk fanns det en person som förblev drogfri. Oddskvoten är kvoten mellan dessa två odds: Oddskvoten = 1,5/1 = 1,5 Det finns med andra ord ett positivt samband mellan att få en mentor och förbli drogfri: Oddset för att förbli drogfri är 50 procent högre bland dem som fick en mentor än bland dem som inte fick det. Övningsuppgifter: Se här.

55 3.3 SPEARMANS RANGKORRELATION Pearsons korrelationskoefficient mäter styrkan i det linjära sambandet mellan två variabler; Spearmans rangkorrelation mäter styrkan i det monotona sambandet mellan två variabler: Precis som Pearsons korrelationskoefficient så kan också Spearmans rangkorrelation anta värden mellan -1 och 1. Men Spearmans rangkorrelation antar värdet 1 om det finns ett positivt och strikt monotont förhållande mellan x och y. Det här betyder att y alltid ökar då x ökar (och att x alltid ökar då y ökar). Rangkorrelationen antar värdet -1 om det finns ett negativt och strikt monotont förhållande mellan x och y: y minskar alltid då x ökar och tvärtom. Värdet 0 betyder att det varken finns någon tendens för y att öka eller minska då x ökar. Här är tre exempel på positiva och strikt monotona samband. I alla dessa spridningsdiagram har Spearmans rangkorrelation värdet 1: Här är tre exempel på negativa och strikt monotona samband. I alla dessa spridningsdiagram har Spearmans rangkorrelation värdet -1: I spridningsdiagrammen nedan har Spearmans rangkorrelation värdet 0 det finns ingen generell tendens för y att öka eller minska då x ökar:

56 Hur Spearmans rangkorrelation beräknas Spearmans rangkorrelation beräknas som Pearsons korrelationskoefficient, bara att vi använder rankingen av variablernas värden istället för rådata. Exempel: Du vill ta reda på om det finns ett samband mellan avgångsbetyget från högstadiet och framtida lönekrav. För enkelhetens skull tänker vi oss här att samplet enbart består av fem personer: Person Avgångsbetyg Lönekrav 1 7, , , , , Vi börjar med att skapa nya variabler som anger rankingen av de gamla variablernas värden. Vi ger personen med det lägsta betyget rankingen 1; personen med det näst lägsta betyget rankingen 2, osv.: Person Betyg Rang(Betyg) Lönekrav Rang(Lönekrav) 1 7, => 1,5 2 6, => 1,5 3 8, , , Det är inte lika självklart hur man rankar lönekraven eftersom två personer har samma lönekrav, dvs euro. Vi använder då något som kallas för medelrangmetoden: Personerna med

57 lönekraven på 2000 euro har plats nummer 1 och 2 och får då båda rankingen 1,5, dvs. snittet av 1 och 2. (Och om tre personer hade haft detta lönekrav så hade de alla tre fått rankingen 2, dvs. (1+2+3)/3.) Vi kan nu beräkna korrelationen mellan Rang(Betyg) och Rang(Lönekrav) på samma sätt som tidigare. Detta ger ett värde på 0,87 vilket representerar en stark positiv korrelation. Pearson vs Spearman För typiska spridningsdiagram så antar Pearsons och Spearmans korrelationskoefficienter mer eller mindre samma värde: Så när skiljer sig dessa mått från varandra och hur kompletterar de varandra? Det finns tre tillfällen då skillnaderna blir extra tydliga: 1) Spearmans rangkorrelation blir generellt sett högre då sambandet beskrivs bättre av en kurva än av en linje. Figuren nedan visar sambandet mellan inkomst och livslängd i världens länder. Pearsons korrelationskoefficient har här värdet 0,62; Spearmans rangkorrelation har värdet 0,83.

58 2) Spearmans rangkorrelation är okänslig inför avvikande observationer, så kallade outliers. I små sampel så kan en eller ett par avvikande observationer ha stort inflytande på Pearsons korrelationskoefficient. Figurerna nedan illustrerar detta. Diagram A visar ett datamaterial där korrelationen skulle ha varit perfekt om det inte vore för den ena avvikande observationen. Men denna har stort inflytande på Pearsons korrelationskoefficient som här har värdet 0,52; Spearmans rangkorrelation påverkas inte i lika hög grad utan har värdet 0,99. Diagram B visar ett datamaterial där korrelationen hade varit ~0 om det inte vore för den ena avvikande observationen. Denna har stort inflytande på Pearsons korrelationskoefficient som här får värdet 0,41; Spearmans rangkorrelation påverkas inte lika mycket utan har värdet 0,06. 3) Pearsons korrelationskoefficient lämpar sig för kvantitativa och binära data. Spearmans rangkorrelation lämpar sig dessutom för data på ordinalnivå.

59 Exempel: Figuren nedan illustrerar sambandet mellan utbildningsnivå och lön. Utbildningsnivå är en variabel med data på ordinalnivå, dvs. en kvalitativ variabel där kategorierna kan rankas på ett meningsfullt sätt. I det här fallet är det högst tveksamt att använda Pearsons korrelationskoefficient. Det finns inget entydligt sätt att koda utbildningskategorierna. Vi kunde exempelvis använda värdena 1, 2 och 3, eller kanske värdena 9, 12 och 17 (vilket ungefär motsvarar hur många år dessa utbildningar tagit). Pearsons korrelationskoefficient skulle här anta olika värden beroende på valet av kodning och valet är godtyckligt. Det är helt enkelt inte meningsfullt att tala om ett linjärt samband mellan utbildningskategori och lön. Detta är ofta fallet då vi har data på ordinalnivå, dvs. det är då tveksamt att använda Pearsons korrelationskoefficient. Men Spearmans rangkorrelation utnyttjar som sagt bara rangordningen av variablernas värden och då spelar kodningen ingen roll så länge kodningen avspeglar kategoriernas rangordning. I detta exempel har Spearmans rangkorrelation värdet 0,35. I det här avsnittet har vi lärt oss om Spearmans rangkorrelation som är det mest använda korrelationsmåttet för data på ordinalnivå. Ett annat liknande mått som också lämpar sig för data på ordinalnivå är Kendalls tau. Läs mer om detta korrelationsmått i Appendix (A.1: Kendalls tau). Övningsuppgifter: Se här.

60 APPENDIX A. 1: Kendalls tau Kendalls tau är ett korrelationsmått som också bygger på rankingen av observationernas värden. Det har därför en del likheter med Spearmans rangkorrelation. Precis som Pearsons och Spearmans korrelationskoefficienter så kan också Kendalls tau anta värden mellan -1 och 1. Vi beräknar Kendalls tau (r k) som: r k = antalet samstämda par antalet osamstämda par totala antalet par Exempel: Två domare, Kalle och Anna, bedömer fem stycken danspar i Let s Dance. Resultatet: Danspar Poäng enligt Kalle Poäng enligt Anna Är domarna samstämda eller inte? Vi säger att domarna är samstämda om, säg, båda tycker att danspar #1 är bättre än danspar #2. Vi säger att domarna är osamstämda om den ena tycker att danspar #1 är bättre än #5, medan den andra tycker tvärtom. På det här viset jämför vi Kalles och Annas poängsättning för varje kombination av danspar:

61 Jämförelse av danspar Samstämda Osamstämda 1 & 2 x 1 & 3 x 1 & 4 x 1 & 5 x 2 & 3 x 2 & 4 x 2 & 5 x 3 & 4 x 3 & 5 x 4 & 5 x Σ = 9 Σ = 1 Vi kan nu räkna ut att Kendalls tau har värdet 0,8: r k = antalet samstämda par antalet osamstämda par totala antalet par = = 0,8 Kendalls tau har en tydlig tolkning; den är en skillnad mellan två sannolikheter: Sannolikheten för att Anna och Kalle ska tycka lika minus sannolikheten för att Anna och Kalle ska tycka olika. Om vi slumpmässigt väljer ut två danspar så är sannolikheten för att Anna och Kalle tycker lika 80 procentenheter högre än sannolikheten att de tycker olika. Analysen blir lite mer komplicerad om Anna (eller Kalle) gett lika många poäng till två eller flera danspar. Det finns olika sätt att behandla sådana situationer, men vi går inte in på detaljerna här.

62 Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0, Det finns dock två tydliga skillnader mellan diagrammen som korrelationskoefficienten inte lyckas beskriva: 1) Datamolnet i det vänstra diagrammet lutar brantare än datamolnet i det högra. 2) Datamolnet i det vänstra diagrammet ligger på en högre nivå än datamolnet i det högra. För att beskriva dessa två egenskaper hos ett samband nivå och lutning använder vi regressionslinjen.

63 y 4. 1 REGRESSIONSLINJEN: NIVÅ OCH LUTNING Regressionslinjen är en linje som är anpassad för att beskriva data så bra som möjligt: x Vi kan beskriva den här linjen genom funktionen för en rät linje: y = a + bx. I figuren ovan ges regressionslinjen av: y = 8 + 2x Vi använder här en hatt (^) ovanför y:et. På så vis gör vi en distinktion mellan regressionslinjen (y ) och de faktiska värdena på y-variabeln (y). Om vi istället skrev y = 8 + 2x så skulle detta inte stämma för varje observation i data, utan enbart för de observationer som råkar ligga exakt på linjen. Värdet 8 i den här ekvationen kallas för interceptet och visar var linjen skär y-axeln. Genom att variera interceptet flyttar vi linjen upp och ner i diagrammet:

64 Värdet 2 i den här ekvationen (y = 8 + 2x) kallas för koefficienten för x. Den visar hur mycket y förändras då x ökar med en enhet. Här har koefficienten för x värdet 2: Då x ökar med en enhet så ökar y med 2 enheter. Genom att variera koefficienten för x så ändrar vi linjens lutning: Beroende och oberoende variabel Exempel: Vi vill analysera sambandet mellan antalet sovrum och hyrespriser i Brooklyn, New York. Totalt täcker data 44 lägenheter:

65 Hyra (dollar) Lägenhet Sovrum Hyra Hyrespriser, Brooklyn (NY) Sovrum Vi kallar y-variabeln (hyra) för beroende variabel eller utfallsvariabel; x-variabeln (sovrum) kallas för oberoende variabel. Terminologin kommer från att hyran beror av antalet sovrum. När vi gör en regression tänker vi oss att en variabel, x, kan påverka eller prediktera en annan, y. I det här exemplet är det antalet sovrum som predikterar hyrespriset. Därför är hyrespriset beroende variabeln och antalet sovrum oberoende. I ett spridningsdiagram kommer alltid den beroende variabeln (y) på y-axeln. Här är ytterligare två exempel: Vi studerar sambandet mellan rökning under graviditeten och barnets födelsevikt. Rökning är då oberoende variabel (x) och barnets födelsevikt beroende (y). Vi studerar sambandet mellan arbetserfarenhet och lön. Arbetserfarenhet är då oberoende variabel (x) och lön beroende (y). Att beräkna regressionslinjen Exempel fortsättning. Spridningsdiagrammet nedan visar sambandet mellan antalet sovrum och hyrespriser i Brooklyn:

66 Hyra (dollar) Hyrespriser, Brooklyn (NY) Sovrum För att få fram regressionslinjen ska vi beräkna värdena för a och b i regressionsekvationen: hyra = a + b sovrum Vi får b som kovariansen genom variansen för x: b = s xy s x 2 kovariansen mellan x och y = variansen för x När vi vet b så gäller det ännu att sätta nivån på linjen som: a = y bx När man använder de här formlerna för att beräkna regressionslinjen så säger man att man använder metoden OLS (från engelskans ordinary least squares; svenska: minstakvadratmetoden. Uttal: O-L-S.). 1 OLS ger oss en linje som uppskattar hur medelvärdet för y varierar med olika värden på x hur genomsnittlig hyra varierar med antalet sovrum. Regressionslinjen kan som regel inte gå exakt genom medelvärdena, men regressionslinjen är den bästa linjära approximationen för hur genomsnittlig hyra varierar med antalet sovrum. I kapitlets Appendix (A.1: OLS eller minstakvadratmetoden) kan du läsa mer om bakgrunden till regressionslinjen. 1 Det finns också andra sätt att beräkna regressionslinjer, men OLS är helt klart populärast. Om du ber ett statistisk programpaket ta fram en regressionslinje så använder den OLS som default.

67 Hyra (dollar) Hyrespriser, Brooklyn (NY) Sovrum I detta exempel är kovariansen mellan antalet sovrum och hyran är 767,87; variansen för antalet sovrum är 1,28: b = kovariansen variansen för x = 767,87 1, Genomsnittlig hyra (y ) är 3025,93 och genomsnittligt antal sovrum (x ) är 2,5: a = y bx = 3025,93 600,37 2, Regressionslinjen ges då av: hyra = sovrum Regressionslinjens tolkning Exempel fortsättning. Vi hade regressionslinjen: Så vad säger den? hyra = sovrum hyra är den predikterade hyran. Den predikterade hyran är en uppskattning av den genomsnittliga hyran och hur denna varierar med antalet sovrum. hyra är också vår bästa gissning: Om vi vet att en lägenhet har, säg, två sovrum uppskattas hyran vara 2725 dollar: hyra = sovrum = dollar är alltså en uppskattning av hur mycket det i snitt kostar att hyra en lägenhet i Brooklyn med två sovrum. Vi kan också få en sådan uppskattning genom att direkt beräkna det genomsnittliga hyrespriset bland alla lägenheter i data med två =2

68 sovrum. Men regressionslinjen är en förbättring på den uppskattningen eftersom vi nu tar hjälp av hela vårt datamaterial. Detta bygger dock på att förhållandet mellan hyrespriset och antalet sovrum också är linjärt. På motsvarande sätt kan vi räkna ut att den predikterade hyran för en lägenhet med tre rum är 3325 dollar: hyra = sovrum = 3325 Och att den predikterade hyran för en lägenhet med fyra sovrum är 3925 dollar: =3 hyra = sovrum = 3925 Vi kan till och med prediktera hyran för en lägenhet med fem sovrum trots att vi inte har en enda sådan lägenhet i data: =4 hyra = sovrum = 4525 =5 Exempel fortsättning. Vi hade regressionslinjen: hyra = sovrum Hur tolkas regressionskoefficienten (som här har värdet 600)? Jo, denna säger att hyran predikteras öka med 600 dollar för varje ytterligare sovrum. Eller med lite andra ord: För varje ytterligare sovrum så stiger hyran i snitt med 600 dollar. På motsvarande sätt tolkar vi alltid regressionskoefficienten: b visar att då x ökar med en enhet så förändras y i snitt med b enheter. Vi kan se att detta stämmer genom att testa oss fram, dvs. mäta hur mycket hyran predikteras öka då antalet sovrum ökar med ett. Nedan har vi predikterat hyran för en lägenhet med k stycken sovrum (där k kan vara vad som helst). Sen jämför vi detta med en lägenhet med ett sovrum mer, dvs. k+1 stycken sovrum. Predikterad hyra för en lägenhet med k antal rum: hyra = k Predikterad hyra för en lägenhet med k+1 antal rum: hyra = (k + 1)

69 Skillnaden: [ (k + 1)] ( k) = 600 Exempel fortsättning. Vi hade regressionslinjen: hyra = sovrum Hur tolkas interceptet (som här har värdet 1525)? Interceptet visar var linjen skär y-axeln. Ofta har interceptet ingen annan naturligare tolkning. Vi skulle kunna säga att interceptet är den predikterade hyran för en lägenhet med noll stycken sovrum: hyra = sovrum = 1525 Men eftersom det inte är meningsfullt att tala om en lägenhet med noll sovrum så är det kanske bättre att tänka på interceptet som den siffra som sätter nivån. =0 Procent och procentenheter Det är inte ovanligt att vi jobbar med variabler som mäts i procent (t.ex. arbetslöshet eller andelen kvinnor i styrelsen). I dessa fall är det viktigt att vara noggrann med enheten. Vi ser bäst varför genom ett exempel. Exempel: Spridningsdiagrammet nedan visar sambandet mellan sysselsättningsgrad och självmordsfrekvens bland män i 169 länder. Variabeln sysselsättning mäter hur stor procent av männen i landet som är sysselsatta; variabeln självmord mäter antalet självmord per hundratusen män.

70 Regressionslinjen ges av: självmord = 32,6 0,25 sysselsättning Då sysselsättningsgraden ökar med en procentenhet så minskar antalet självmord i snitt med 0,25 per hundratusen män. Notera här att det vore missvisande att säga följande: Då sysselsättningsgraden ökar med en procent så minskar antalet självmord i snitt med 0,25 per hundratusen män. Varför? Jo, det vi egentligen vill säga är att när sysselsättningen ökar med ett, till exempel från 60 till 61 procent, så minskar antalet självmord i snitt med 0,25 per hundratusen män. Men en ökning från 60 till 61 procent än inte en enprocentig ökning, utan en ökning med 1,7 procent (61/60 1,017). Däremot är det en ökning med en procentenhet. Residualer Exempel: Vi ska återgå till exemplet med hyrespriser i Brooklyn. Vi såg tidigare hur vi kan prediktera hyran för lägenheter med olika antal sovrum. I tabellen nedan har vi predikterat hyran för varje lägenhet i data: Lägenhet Sovrum Hyra Predikterad hyra Exempelvis ser vi att lägenhet #2 har en hyra på 4600 dollar men en predikterad hyra på 3325 dollar. Den här lägenheten kostar alltså 1275 dollar mer än predikterat utifrån antalet sovrum. Vi kallar den här skillnaden för residualen. Residualen visar felet ; hur mycket lägenhetens faktiska hyra avviker från den predikterade. Residualen för lägenhet #1 är -325 dollar; lägenheten kostar 325 dollar mindre än predikterat. I tabellen nedan visas residualen för varje lägenhet i data:

71 Lägenhet Sovrum Hyra Predikterad hyra Residual Medelvärde: 2, Om vi beräknar medelvärdet för alla residualer så kommer vi att se att det blir noll; regressionslinjen överskattar hyran för vissa lägenheter och underskattar den för andra, men i genomsnitt har regressionslinjen rätt. På motsvarande sätt så är snittet för de predikterade hyrorna lika med snittet för de faktiska. Det är ett annat sätt att säga samma sak; regressionslinjen har rätt i genomsnitt. Det här innebär inte att regressionslinjen inte kan göra brutalt felaktiga prediktioner ibland. Detta kan hända eftersom vi lever i en komplex värld som inte låter sig predikteras så lätt. Detta kan också hända om förhållandet mellan y och x inte är linjärt trots att vi beskriver det så. Vi ska återkomma till den punkten i avsnitt 4.4. Övningsuppgifter: Se här.

72 4. 2 REGRESSIONER MED DUMMYVARIABLER Exempel: Vi ska fortsätta med exemplet gällande hyrespriser i Brooklyn. Anta nu att vi enbart valt ut en- och tvårummare till vår analys. Det finns inget som hindrar oss från att göra en regressionslinje trots att x-variabeln enbart har två värden. Såhär ser data då ut: Lägenhet Sovrum Hyra Variabeln sovrum kallas nu för en dummy-variabel; det är en x- variabel som enbart antar två olika värden. Dummy-variabler brukar dock kodas med värdena 0 och 1 (det underlättar tolkningen av resultaten). Så låt oss döpa om variabeln sovrum till tvåa; variabeln tvåa antar värdet 1 om lägenheten har två sovrum och värdet 0 om lägenheten har ett sovrum: Lägenhet Tvåa Hyra Regressionslinjen ges av: hyra = tvåa. predikterade hyran för en tvåa är då 2828 dollar: Den hyra = tvåa = = 2828 =1 Och att den predikterade hyran för en etta är 2115 dollar: hyra = tvåa = 2115 =0 I det här fallet är prediktionen för en tvårummare (2828 dollar) den genomsnittliga hyran bland tvårummarna i data. Prediktionen för en etta (2115 dollar) är den genomsnittliga

73 Hyra (dollar) hyran bland enrummarna i data. Regressionslinjen går med andra ord exakt genom snittet för en- och tvårummare. Regressionskoefficienten (på 713 dollar) är den genomsnittliga skillnaden i hyra mellan två- och enrummare. Hyrespriser, Brooklyn (NY) Tvåa Exempel: Vi har frågat 20 stycken sista årets läkarstuderande om deras lönekrav på första jobbet, dvs. vilken är den lägsta lön de kunde tänka sig att acceptera? Tabellen nedan visar lönekraven och personernas kön (variabeln kvinna antar värdet 1 för kvinnor och 0 för män): Id Kvinna Lönekrav Genomsnittligt lönekrav bland männen är 3300 euro och bland kvinnorna 3100 euro. Regressionslinjen ges då av: lönekrav = kvinna

74 Koefficienten för kvinna visar att lönekravet i snitt är 200 euro lägre bland kvinnorna än bland männen. Det kan verka onödigt krångligt att beskriva det som bara är två medelvärden med hjälp av en regressionsekvation. Varför skulle vi i exemplet ovan använda en regressionsekvation då det är både lättare och intuitivare att säga att männen snittar 3300 euro och kvinnorna 3100? Det finns faktiskt ingen poäng, åtminstone inte än så länge. Men i kommande kapitel kommer vi att märka nyttan av att kunna använda dummy-variabler i ekvationer. Övningsuppgifter: Se här.

75 4. 3 FÖRKLARINGSGRADEN Om vi kör en regression i ett program som kan hantera statistiska data så får vi fram ett resultat som ser ut ungefär såhär: Den här regressionen är gjord i Excel, men regressionsutskriften är uppbyggd på liknande sätt oavsett vilket dataprogram du använder. Data är Brooklyn hyresdata som vi är bekanta med från tidigare (här har vi inkluderat lägenheter med ett till fyra sovrum). Som du ser innehåller utskriften många siffror. Alla är dock inte lika intressanta och i det här skedet ska vi bara koncentrera oss på några av dem. För det första: Var syns regressionslinjen i den här utskriften? Eller med andra ord: Var syns värdena för a och b i uttrycket hyra = a + b sovrum? Jo, vi hittar dem i den tredje tabellen, i kolumnen Koefficienter : Det som kallas för Konstant i tabellen är interceptet (a) som har värdet 1525,09... ; koefficienten för antal sovrum (b) har värdet 600, Vi ska också titta lite mer på en annan siffra ur regressionsutskriften, nämligen förklaringsgraden som betecknas R 2 :

76 Förklaringsgraden anger andelen av variation i y som kan förklaras av x. Vi har R 2 = 0,25: 25 procent av variationen i hyrespriser kan förklaras av antalet sovrum. Förklaringsgraden är alltså en andel och kan därför anta värden mellan 0 och 1. Då förklaringsgraden har värdet 0 så kan variationen i y inte alls förklaras av x. Eller med andra ord: x hjälper oss inte alls att prediktera y. Då förklaringsgraden har värdet 1 så betyder det att all variation i y kan förklaras av x. Eller med andra ord: Då vi använder regressionslinjen, hyra = sovrum, för att prediktera hyran för en lägenhet så får vi alltid ut lägenhetens faktiska hyra. Det här skulle betyda att residualen är exakt lika med noll för varje lägenhet i data. (Kom ihåg att residualen är skillnaden mellan lägenhetens faktiska hyra och den predikterade.) Förklaringsgraden kan beräknas som kvadraten på Pearsons korrelationskoefficient. Men för att se vad som händer bakom beräkningarna så kan följande formel vara till större nytta: R 2 variansen i residualerna = 1 variansen i y Om variansen i residualerna är stor så innebär det att de faktiska hyrespriserna ofta är mycket större eller mycket mindre än predikterat. I extremfallet är variansen i residualerna lika stor som variansen i faktiska hyrespriser. Då blir kvoten i uttrycket ovan 1 och R 2 blir 0. Om variansen i residualerna är liten så betyder det att de faktiska hyrespriserna ligger nära det som predikterats utifrån antalet

77 rum. I extremfallet är variansen i residualerna 0 (alla residualer har värdet 0) och R 2 blir då 1. Övningsuppgifter: Se här.

78 4. 4 LOGARITMERAD SKALA Exempel: I avsnitt 4.1 tittad vi på sambandet mellan sysselsättningsgrad och självmord bland män i 169 länder: Variabeln sysselsättning mäter procenten sysselsatta män; variabeln självmord mäter antalet självmord per hundratusen män. Från spridningsdiagrammet kan man ana sig till att sambandet kunde beskrivas bättre av en linje om vi loggade y- variabeln. Här visas sambandet då självmorden beskrivs på en logaritmisk skala: Vi räknar ut regressionslinjen på samma sätt som tidigare, bara att den beroende variabeln nu är ln(självmord) istället för självmord. Ett utdrag av data ges nedan:

79 Land Sysselsättning Självmord ln(självmord) Afghanistan 83,4 4,8848 1, Albanien 61,6 9, , Algeriet 65,4 5, ,63803 Angola 83,0 21,473 3, Finland 59,2 28,1194 3, Zimbabwe 75,3 18,836 2, Regressionslinjen ges av: ln (självmord) = 3,5 0,015 sysselsättning Då sysselsättningsgraden ökar med en procentenhet så minskar den naturliga logaritmen av självmordsfrekvensen i snitt med 0,015 enheter. Eller med andra ord: Då sysselsättningsgraden ökar med en procentenhet så minskar självmordsfrekvensen i snitt med 1,5 procent. Som du märker så får vi en procentuell effekt då utfallet är loggat. Hur kommer det sig? Jo, tidigare (avsnitt 2.2) såg vi att skillnaden mellan två loggade värden representerar den procentuella skillnaden mellan värdena. Exempel: Om ln(självmord) ökar med 0,01 enheter så representerar detta en enprocentig ökning i självmordsfrekvensen. Och om ln(självmord) minskar med 0,015 enheter så är det en 1,5-procentig minskning i självmordsfrekvensen => Då sysselsättningsgraden ökar med en procentenhet så minskar självmordsfrekvensen i snitt med 1,5 procent. Exempel: I avsnitt 3.2 tittade vi på förhållandet mellan inkomst och livslängd i världens länder:

80 Där inkomst mäter inkomst per person i landet; livslängd mäter genomsnittlig livslängd i landet. Vi såg också att vi här kan logga inkomsterna för att få ett linjärt samband: Här ges regressionslinjen av: livslängd = 19,0 + 5,8 ln(inkomst) Då den naturliga logaritmen av inkomst ökar med en enhet ökar livslängden i snitt med 5,8 år. Eller med andra ord: Då inkomsterna ökar med en procent så ökar livslängden i snitt med 0,058 år. Som du ser så beskriver vi nu inkomstökningar i procent (och inte i absoluta tal). Hur kommer det sig? Vi har: Då den naturliga logaritmen av inkomst ökar med 1 enhet ökar livslängden i snitt med 5,8 år. Eller: Då den naturliga logaritmen av inkomst ökar med 0,01 enheter då inkomsterna ökar med 1 procent så ökar livslängden i snitt med 0,058 år. I tabellen nedan visas hur koefficienterna tolkas i olika fall, dvs. beroende på om y är loggad, om x är loggad, eller om bägge är loggade:

81 ln (y) = 2 + 0,1 x Då x ökar med en enhet så ökar y med 0,1 100 = 10 procent. ln (y) = 2 + 0,1 ln (x) Då x ökar med en procent så ökar y med 0,1 procent. y = 2 + 0,1 ln (x) Då x ökar med en procent så ökar y med 0,1/100 = 0,001 enheter. De här tolkningarna gäller dock enbart ungefärligt, och då de procentuella effekterna blir allt större så blir dessa approximationer allt sämre. Om y ökar eller minskar med mer än ~10 procent så kan man istället använda exakta omvandlingsformler. I regressioner med loggat utfall och ologgad x-variabel så är detta inte ovanligt. Anta exempelvis att vi får följande resultat: ln (y) = 2 + 0,2 x Den exakta omvandlingen: Om x ökar med en enhet så ökar y med (e 0,2 1) procent. I kapitlets Appendix (A.1: Log-procenter) visas de exakta omvandlingsformlerna för alla tre fall, dvs. beroende på om y loggats, x loggats eller bägge. Övningsuppgifter: Se här.

82 Appendix A.1: OLS eller minsta-kvadratmetoden Inom statistiken gör vi ofta prediktioner eller uppskattningar (Hur mycket predikteras det kosta att hyra en lägenhet i Brooklyn med två sovrum?). Till vår hjälp tar vi naturligtvis data. Men hur gör vi en bästa prediktion utifrån data? Vad som är bäst är delvis en subjektiv fråga. Vi vill naturligtvis pricka så nära som möjligt och ju större fel desto sämre. Men hur ska vi värdera ett fel på 0,5 enheter mot ett fel på, säg, 10 eller 100 enheter? När vi gör en regression med OLS har vi en kvadratisk förlustfunktion vi väljer den regressionslinje som minimerar summan av de kvadrerade felen (residualerna). Låt oss ta ett exempel på vad detta kan betyda i ett lite annat sammanhang: I Kalles klass går tre elever. Eleverna bor 1, 2 och 6 kilometer från skolan. Hur lång väg har Kalle till skolan? Utan någon annan information så måste du gissa. Anta att du har en kvadratisk förlustfunktion; om du gissar 1 km och om sanningen är 6 km så blir felet 5 och förlusten 25. Så vad ska du gissa för att minimera den förväntade förlusten? Jo, 3 km, dvs. medelvärdet. Det här är ingen tillfällighet med en kvadratisk förlustfunktion så är medelvärdet alltid vår bästa gissning. Om du är bekant med derivering kan du se detta på följande sätt: Uttrycket nedan beskriver förlusten som en funktion av din gissning (y ). Hur stor förlusten blir beror ju förstås på vad som är sant (1, 2 eller 6 km) men vi kan helt enkelt summera ihop de tre möjligheterna:

83 Förlust = (1 y ) 2 + (2 y ) 2 + (6 y ) 2 = 41 18y + 3y 2 För att hitta den prediktion (y ) som minimerar förlusten så deriverar vi denna med avseende på y, sätter lika med 0 och löser ut y. Detta ger y = 3. (Och andra derivatan är positiv så detta är den gissning som ger den lägsta förlusten.) Då vi kör en regression så har vi samma situation bara att y = a + bx. Detta ger oss de formler som vi såg tidigare i kapitlet. Regressionslinjen kan alltså betraktas som ett slags medelvärde ett betingat medelvärde. A.2: Log-procenter ln (y) = 2 + 0,1 x Då x ökar med en enhet så ökar y med (e 0,1 1) ,5 procent. ln (y) = 2 + 0,1 ln (x) Då x ökar med en procent så ökar y med (0,01 0,1 1) 100 0,11 procent. y = 2 + 0,1 ln (x) Då x ökar med en procent så ökar y med 0,1 ln(1,01) 0,001 enheter.

84 Kapitel 5: STATISTISKA SAMBAND KONTRA ORSAKSSAMBAND En statistisk analys börjar alltid med en frågeställning, dvs. vi samlar in och analyserar data i syfte att besvara en viss fråga. Här är några exempel på sådana frågeställningar: - Leder högre utbildning till högre lön? - Leder arbetslöshet till högre risk för brottslighet? - Orsakar tobak cancer? - Leder sömnstörningar till högre risk för depression? - Leder satsningar på reklam till högre försäljningssiffror? Ofta gäller den här frågeställningen ett orsakssamband; vi vill veta om x orsakar y. Men vi får nöja oss med att besvara en liknande men annorlunda fråga: Korrelerar x och y? - Tjänar personer med hög utbildning mer än sådana med låg? - Är brottsligheten högre i regioner där arbetslösheten är hög? - Är det vanligare med cancer bland storrökare än bland personer som röker lite eller inte alls? - Finns det en korrelation mellan sömnstörningar och depression? - Finns det en korrelation mellan satsningar på reklam och försäljningssiffror? Här är det viktigt att notera skillnaden mellan den frågeställning vi egentligen vill besvara, och den frågeställning vi faktiskt besvarar med hjälp av data. Om vi ser att personer med hög utbildning tjänar mer än sådana med låg utbildning så kan det vara lätt att dra slutsatsen att hög utbildning orsakar högre lön. Men en sådan slutsats kommer inte från data; det enda data

85 berättar är att det finns en korrelation. Så vad är egentligen skillnaden? Vad menar vi när vi talar om orsakssamband? Vägen du aldrig tog När du var ~18 år gammal så stod du inför ett val: Söka till universitetet eller gå direkt in i arbetslivet. Om du läser detta så valde du antagligen att söka till universitetet. Men man kan ju fråga sig hur saker och ting hade blivit om du valt annorlunda, dvs. om du hade valt att gå direkt in i arbetslivet. Genom att jämföra din lön i dessa två scenarion (och göra denna jämförelse för många andra personer) så skulle vi kunna säga om högre utbildning faktiskt orsakar högre lön. I tabellen nedan har vi gjort ett sådant tankeexperiment. Data gäller tio personer, där variabeln uni har värdet 1 för personer som valde universitetet och värdet 0 för dem som valde arbetslivet. Variabeln lön 1 är personens lön givet en universitetsutbildning; lön 0 är lönen utan universitetsutbildning. Enbart de röda lönerna visar det som faktiskt hände; de svarta lönerna representerar de kontrafaktiska utfallen. Den genomsnittliga kausala effekten av att skaffa sig en universitetsutbildning är 500 euro. (I litteraturen kallar man också detta för den genomsnittliga behandlingseffekten eller average treatment effect på engelska.) Person Uni Lön 0 Lön 1 Kausal effekt medel = 500 Den här typen av jämförelse kan vi naturligtvis aldrig göra i praktiken, dvs. vi kan bara observera konsekvenserna av de val personer faktiskt gör. I praktiken blir vi därför tvungna att

86 gissa hur saker hade gått annars: Hur mycket hade de universitetsutbildade tjänat om de aldrig utbildat sig? En naturlig utgångspunkt är att se på lönerna för personer som gjorde det andra valet, dvs. de som gick direkt in i arbetslivet. Men är dessa personer verkligen en bra jämförelsegrupp? I exemplet ovan är den genomsnittliga lönen bland universitetsutbildade 3360 euro och bland övriga 2320 euro; det är en skillnad på 1040 euro. (Eller uttryckt som en regression: lön = uni.) Den genomsnittliga löneskillnaden mellan grupperna är ungefär dubbelt större än den genomsnittliga kausala effekten. Det här är en rätt grov överskattning. Så finns det något sätt att förbättra den här uppskattningen? Experimentella versus observationella studier För att se om universitetsexamen orsakar högre lön så vill vi jämföra löner för universitetsutbildade med de löner de skulle ha fått om de aldrig gått på universitetet. Detta kan vi förstås inte göra i praktiken, vilket betyder att kausala effekter aldrig kan observeras. Så hur kan man någonsin uttala sig om kausalitet? Nyckeln ligger i att hitta en lämplig jämförelsegrupp, dvs. en grupp av individer som på ett trovärdigt sätt kan representera det kontrafaktiska utfallet. Randomiserade experiment är det bästa sättet att skapa en sådan jämförelsegrupp. Så vad är ett randomiserat experiment? Vi ser detta bäst genom ett exempel: Är kognitiv beteendeterapi bättre på att bota höjdskräck än klassisk psykoterapi? Bland 100 personer med höjdskräck lottar vi ut 50 som får kognitiv beteendeterapi medan de övriga 50 får psykoterapi. Vi mäter därefter terapins framgång (mätt på någon skala) i respektive grupp. Eftersom vi använt lottning så finns det inga andra systematiska skillnader mellan grupperna än just terapiformen. Om vi då observerar en tydlig skillnad i utfall mellan grupperna så kan vi anta att terapiformen är orsaken. Det som karaktäriserar ett randomiserat experiment är att slumpen avgör vem som får vilken behandling. Men anta nu att vårdpersonalen eller personerna själva väljer terapiform. Eventuella skillnader i utfall mellan grupperna kan då bero på en rad olika faktorer, och inte enbart terapiformen. Kanske extra svåra fall slussas till psykoterapi, bara för att ta ett exempel. När

87 vi jämför utfall mellan personer som själva valt sin behandling, eller där yttre omständigheter valt deras situation, så kallar vi det för en observationell studie. Så varför utför vi inte alltid randomiserade experiment? I många fall (kanske de flesta) är randomiserade experiment inte en realistisk möjlighet. Detta gäller inte minst inom de sociala vetenskaperna. Det skulle exempelvis vara oetiskt att låta slumpen avgöra om en viss person ska få studera vidare. Och det skulle bli folkuppror om slumpmässigt utvalda personer i samhället plötsligt tvingades byta föräldrar eller tvingades ta dubbelt längre fängelsedomar än andra. Observationella data är därför det som vi ofta får jobba med i praktiken, men då är det också bra att vara medveten om begränsningarna. Vi ska nu se närmare på dem. Tre invändningar mot att tolka korrelationer som bevis för kausalitet (varav två är bra) Vi har observerat en korrelation mellan reklam och försäljningssiffror; företag som satsas mycket på reklam har i snitt bättre försäljningssiffror. Men betyder det här att reklam leder till bättre försäljningssiffror? Här kommer tre invändningar (varav bara två är bra): 1. Vissa företag som satsar hårt på reklam har ändå dåliga försäljningssiffror Korrelationer handlar om generella mönster i data, och man hittar som regel alltid observationer som avviker från detta mönster. Men detta är inte ett argument mot att tolka korrelationer som bevis för orsakssamband. När vi talar om orsakssamband så menar vi inte att detta samband nödvändigtvis gäller för alla, utan bara att det gäller i snitt. På motsvarande sätt kan vi säga att cellgifter hjälper mot leukemi även om det naturligtvis också finns flera fall där det inte hjälpt. Här följer de två giltiga invändningarna: 2. Omvänd kausalitet Anta att satsningar på reklam inte leder till bättre försäljningssiffror, men att höga försäljningssiffror leder till att man har råd

88 att satsa mer på reklam. Det här är ett exempel på omvänd kausalitet. Här är ett annat exempel: En het politisk fråga i USA gäller dödsstraffen. Leder de faktiskt till färre mord? Motståndarna säger nej och stödjer sig då på statistik som visar att antalet mord per invånare är högre i stater med dödsstraff än i stater utan. Man hävdar då att dödsstraffen i sig har en förhårdnande inverkan på samhällsklimatet vilket förklarar den höga mordfrekvensen i stater med dödsstraff. Men är det här verkligen historien bakom siffrorna? Eller kan det vara tvärtom; att stater med hög mordfrekvens är mer benägna att ta till dödsstraff. 3. Bakomliggande faktorer kan förklara korrelationen Vi kan observera att företag som satsar mycket på reklam har bättre försäljningssiffror, men är det reklamen i sig som är förklaringen, eller skulle dessa företag haft bättre försäljningssiffror oavsett? Kanske det finns andra bakomliggande faktorer som förklarar försäljningssiffrorna, dvs. sådana faktorer som är gemensamma för företag som satsar på reklam och för företag som har höga försäljningssiffror. Exempel: Företag som satsar på reklam kanske också satsar mer på kundservice och på att skapa en het produkt. Då är det möjligt att dessa faktorer, och inte reklamen i sig, förklarar de höga försäljningssiffrorna. I dessa exempel är kundservice och produktkvalitet bakomliggande faktorer. Det finns flera exempel på fall där bakomliggande faktorer visat sig vara förklaringen till ett samband. En tid trodde man att hormonbehandlingar minskar på risken för stroke bland kvinnor i klimakteriet. Det finns ett samband; kvinnor som använder hormonbehandlingar är underrepresenterade bland strokepatienter. I dag har forskarna dock ändrat åsikt och anser att hormonbehandlingar sannolikt ökar risken för stroke (om än bara marginellt). Så varför visar data på det motsatta förhållandet? Förklaringen är att det finns skillnader i social bakgrund mellan grupperna; kvinnor som använder hormonbehandlingar tenderar ha högre socioekonomisk ställning, bättre diet och de tränar mer i genomsnitt. Dessa bakomliggande faktorer korrelerar också med risken för stroke. Här är ett annat exempel. I en uppmärksammad studie kom man fram till att barn som sover med lampan tänd oftare är närsynta. Kanske detta är en delförklaring till närsynthet hos barn? Nja,

89 senare forskning visade att barn som sover med lampan tänd oftare har närsynta föräldrar, och att närsynta föräldrar oftare har närsynta barn. Man ska med andra ord vara försiktig med att dra allt för långtgående slutsatser utifrån korrelationer. Här är något att tänka på: Du kan plocka vilka två samhällsekonomiska variabler som helst och du kommer sannolikt att hitta en korrelation mellan dem. Här är bara ett exempel: Finns det ett samband mellan cigarettkonsumtionen i ett land och mordfrekvensen? Som figuren nedan visar så är svaret ja, och korrelationen är ganska stark (r = -0,49): Ju mer rökning desto mindre mord. Vad beror det på? En möjlighet är att rökning påverkar folks beteende så att de blir mindre benägna att mörda. Men snarare handlar det om att rökning hänger samman med andra kulturella och samhällsekonomiska faktorer som i sin tur korrelerar med mordfrekvens. Kan man någonsin uttala sig om kausalitet utifrån observationella data? Det är definitivt en större utmaning att besvara kausala frågor med hjälp av observationella data, men det är inte omöjligt. I dag är det exempelvis väletablerat att rökning har en kausal effekt på risken för att få cancer, trots att man aldrig utfört ett enda experiment på människor. Forskare är också eniga om att utbildning leder till högre löner, och man kan också säga ungefär hur stor effekten är. Inte heller här har man någonsin utfört ett randomiserat experiment.

90 Tricket är att hitta en jämförelsegrupp som är så lika behandlingsgruppen som möjligt, och att kontrollera för kvarvarande skillnader mellan grupperna. Exempel: Tidigare såg vi att det finns ett relativt starkt samband mellan rökning och mordfrekvens (r = -0,49; figur A). Men när vi kontrollerar för inkomst per person så försvagas sambandet märkbart (r = -0,21; figur B). Att kontrollera för inkomst betyder att vi ställer oss följande fråga: Finns det fortfarande en korrelation mellan rökning och mordfrekvens om vi jämför länder med samma inkomstnivå? Om korrelationen beror på ett orsakssamband så förväntas svaret bli ja. Men här försvagas korrelationen märkbart, och då vi ytterligare kontrollerar för världsdel så finns det inte längre någon korrelation att tala om (r = -0,09; figur C). I nästa kapitel ska vi se på hur vi i praktiken gör för att kontrollera för bakomliggande faktorer. Vi använder då det som kallas för multipel regressionsanalys. Tips: Brukar du gilla Ted talks? Lyssna då på detta tal av Esther Duflo om hur randomiserade experiment lärt oss om bekämpning av fattigdom. Övningsuppgifter: Se här.

91 Kapitel 6: MULTIPEL REGRESSION I kapitel 4 tittade vi på enkel regression som visar hur utfallsvariabeln varierar som en funktion av en oberoende variabel: y = a + bx Anta att y är priset för en lägenhet och att x är antalet sovrum. Regressionslinjen visar då hur priset varierar med antalet sovrum. Vi kan exempelvis använda regressionslinjen för att uppskatta hur mycket vi kan tjäna på att sälja en lägenhet med tre sovrum. Men vi vet också att priset beror på flera andra faktorer, såsom lägenhetens läge, husets byggnadsår och kvalitét, osv. I en multipel regression inkluderar vi flera sådana oberoende variabler (x 1, x 2,..., x k): y = a + b 1 x 1 + b 2 x b k x k Genom att ta in flera oberoende variabler så kan vi få mer träffsäkra prediktioner. Anta att lägenheten i fråga är nybyggd och har havsutsikt. Om vi bara beaktar att lägenheten har tre sovrum så kommer vi antagligen att underskatta försäljningspriset, men om vi dessutom beaktar lägenhetens andra egenskaper så får vi sannolikt en uppskattning som stämmer bättre överens med lägenhetens faktiska försäljningspris. Som det här exemplet visar så kan vi använda multipel regressionsanalys för att få mer träffsäkra prediktioner. Men vanligtvis använder vi multipel regressionsanalys i ett annat syfte; för att kontrollera för inflytandet hos bakomliggande faktorer. Vi ska nu se vad det betyder.

92 6. 1 ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER Exempel: Vi samplar 200 personer och mäter hur mycket de väger. Regressionen nedan visar att männen i genomsnitt väger 79 kilo, och att kvinnorna i snitt väger 13 kilo mindre: vikt = 79 13kvinna Varför väger kvinnor mindre än män? En viktig orsak är antagligen att kvinnor i snitt är kortare än män. Anta nu att vi också har data för personernas längder. Vi har då möjlighet att ställa oss följande fråga: Om vi jämför kvinnor och män som är lika långa, ser vi då fortfarande en skillnad i vikt mellan könen? Vi kan få en uppskattning av svaret på den här frågan genom att inkludera längden som en oberoende variabel i regressionen: Ett utdrag av data visas nedan: vikt = a + b 1 kvinna + b 2 längd id kvinna längd vikt Hur kan vi på bästa sätt använda data för att beräkna värdena för a, b 1 och b 2 i regressionsekvationen? Precis som vid enkel regression så använder vi minsta-kvadratmetoden (OLS). OLS ger oss en regressionsekvation som uppskattar hur medelvärdet för utfallsvariabeln (y) varierar med x-variablerna. I en multipel regression är det dock tidskrävande att räkna ut koefficienternas värden för hand. Här överlåter vi jobbet till datorer (se Appendix för formlerna). Detta ger oss resultatet: vikt = 46 4kvinna + 0,7längd där vikt är den predikterade vikten, dvs. en uppskattning av hur genomsnittlig vikt varierar beroende på kön och längd. Vi kan använda den här regressionen för att prediktera vikten för personer med olika egenskaper:

93 En kvinna som är 170 centimeter predikteras väga 69 kilo: vikt = 46 4 kvinna =1 + 0,7 längd =170 = 69 En man som är 170 centimeter predikteras väga 73 kilo: vikt = 46 4 kvinna =0 + 0,7 längd =170 = 73 Som du ser så predikteras en kvinna väga 4 kilo mindre än en man (69 73 = -4) givet att båda är lika långa. Här gör vi jämförelsen då längden sätts lika med 170 centimeter, men hade vi valt en annan längd (säg 160 centimeter) så hade viktskillnaden fortfarande varit 4 kilo. Det här visar hur vi tolkar koefficienten för kvinna: Kvinnor väger i snitt 4 kilo mindre än män, givet samma längd. I en statistisk rapport skulle man vanligtvis skriva att kvinnor väger i snitt 4 kilo mindre än män, kontrollerat för längd. På motsvarande sätt tolkar vi koefficienten för längd: Då längden ökar med en centimeter så ökar vikten i snitt med 0,7 kilo, kontrollerat för kön. Notera att det här är motsvarande tolkning som i en enkel regression, bara att vi nu också kontrollerat för kön. Skillnaden mellan enkel och multipel regression Exempel forts. Vi sa att kvinnor i snitt väger 4 kilo mindre än män, givet samma längd. Men hur går denna jämförelse till i praktiken? Flera personer i data är ensamma om sin längd (exempelvis är den kortaste personen i data ensam om att vara 145 centimeter). Så vad är det egentligen som händer när vi kontrollerar för längd? Som du ser nedan så ökar koefficienten för kvinna från -13 till -4, men varför? vikt = 79 13kvinna vikt = 46 4kvinna + 0,7längd Jo, männen i data är i snitt 179 centimeter långa; kvinnorna är 166. Det är en längdskillnad på 13 centimeter. Och hur mycket adderar 13 centimeter till vikten? Jo, 9 kilo: Varje centimeter adderar 0,7 kilo till vikten (13*0,7 = 9). Och 9 kilo är också hur mycket koefficienten för kvinna förändras då vi kontrollerar för

94 längden ( = -4). Slutsatsen: I snitt väger kvinnor 13 kilo mindre än män, men 9 kilo av skillnaden kan förklaras av att kvinnor i snitt är 13 centimeter kortare än män. För att få en bättre känsla för vad som händer när vi kontrollerar för något så ska vi ännu se på två exempel: Exempel: Vi mäter sambandet mellan längd och läsförmåga för ett sampel lågstadiebarn: läsförmåga = ,2 längd där läsförmåga mäts genom ett test där man kan få allt mellan 0 och 100 poäng; längd mäts i centimeter. Från regressionen ser vi att varje extra centimeter i snitt adderar 1,2 poäng till läsförmågan. Men är det verkligen längden i sig som spelar roll? Eller är det snarare så att långa barn läser bättre eftersom de i genomsnitt är äldre? Vi kontrollerar nu för barnets ålder med resultatet: läsförmåga = ,02 längd + 8,9 ålder Som du ser så försvinner nu praktiskt taget hela effekten av längd. Då vi jämför barn av samma ålder så finns det med andra ord inget samband mellan längd och läsförmåga. Exempel: Är kvinnor bättre bilförare än män? I regressionen nedan är olyckor en variabel som mäter antalet trafikolyckor som personen varit inblandad i under det senaste året; kvinna är en dummy som antar värdet 1 för kvinnor och värdet 0 för män. Regressionen visar att män i snitt varit inblandade i 0,25 trafikolyckor och att kvinnor i snitt varit inblandade i 0,15 olyckor. olyckor = 0,25 0,1 kvinna Men kanske kvinnor varit inblandade i färre trafikolyckor eftersom de kör mindre bil? Vi kontrollerar nu för antalet kilometer som personen kört per vecka: olyckor = 0,01 + 0,01 kvinna + 0,0025 km Koefficienten för kvinna blir nu praktiskt taget noll. Då vi jämför män och kvinnor som kör lika mycket så finns det ingen skillnad i olycksfrekvens mellan könen.

95 Grafisk presentation Då vi vill illustrera sambandet mellan två variabler är det naturligt att använda spridningsdiagram. Men hur kan vi presentera sambandet mellan tre variabler? En möjlighet är att kombinera flera spridningsdiagram i ett. Vi ska se ett exempel på det här. Exempel. Vi vill ta reda på om universitetsutbildning ger högre lön. Vi har ett data som består av ett hundratal personer där vissa tog en universitetsexamen efter gymnasiet, medan andra gick direkt in i arbetslivet. Vi mäter därefter genomsnittlig månadslön för dessa personer mellan 35 och 40 års ålder (variabeln lön). I regressionen nedan är uni en dummy som antar värdet 1 för personer med universitetsexamen och 0 för dem med gymnasieutbildning. Vi kontrollerar också för avgångsbetyget från gymnasiet (variabeln betyg): lön = uni + 200betyg I snitt tjänar universitetsutbildade 500 euro mer än gymnasieutbildade då vi kontrollerar för gymnasiebetyget. Vi ser också att lönen i snitt stiger med 200 euro för varje ytterligare betygspoäng då vi kontrollerar för utbildningsnivå. Vårt mål är att illustrera dessa två effekter grafiskt. Vi vet redan hur vi kan beskriva sambandet mellan lön och betyg genom ett spridningsdiagram. Låt oss göra det, men först enbart för personer med gymnasieutbildning. För dessa beskrivs sambandet av: lön = uni + 200betyg = betyg =0 I spridningsdiagrammet nedan har vi ritat ut detta samband tillsammans med observationerna för den här gruppen:

96 För personer med universitetsutbildning beskrivs sambandet av: lön = uni + 200betyg = betyg =1 I spridningsdiagrammet nedan har vi ritat ut detta samband tillsammans med observationerna för den här gruppen: Vi kombinerar dessa två spridningsdiagram i ett med resultatet:

97 Det vertikala avståndet mellan dessa två linjer är 500 euro, dvs. den genomsnittliga löneskillnaden mellan grupperna då vi kontrollerat för gymnasiebetyget. Förklaringsgraden Exempel: Regressionen nedan visar hur lönen skiljer sig mellan svarta och vita basketspelare i USA: lön = ,13svart där lön är årslön mätt i tusentals dollar. I det här datamaterialet tjänar svarta spelare i snitt nästan dollar mer än vita. Vi kontrollerar nu för antalet poäng som spelaren gjort per match: lön = ,11svart + 111,24poäng När vi kontrollerar för poäng så sjunker löneskillnaden till cirka dollar. Det här visar att svarta spelare i snitt gör något fler poäng än vita; när vi kontrollerar för antalet poäng minskar därför lönegapet. Slutligen kontrollerar vi ännu för erfarenhet (erf) och antalet returer per match (ret): lön = 168 0,61svart + 80,79poäng + 82,96erf + 77,79ret I den här regressionen är löneskillnaden mellan svarta och vita spelare praktiskt taget noll. Det finns med andra ord inget lönegap efter att vi kontrollerat för ett antal relevanta skillnader i egenskaper mellan grupperna. Om vi kör den sista regressionen i ett statistiskt programpaket så får vi ett resultat som ser ut såhär:

98 Den här regressionen är gjord i statistikprogrammet STATA, men uppställningen ser ungefär likadan ut oavsett vilket program du använder. Vi hittar variablernas koefficienter i den nedre tabellen, kolumnen Coef. Uppe till höger ges förklaringsgraden (R 2 ) som har värdet ~0,55. Den visar att cirka 55 procent av variationen i löner kan förklaras av de oberoende variablerna (etnicitet, antalet poäng per spel, erfarenhet och antalet returer per spel). Förklaringsgraden har med andra ord motsvarande betydelse som i en enkel regression; den visar hur mycket av variationen i y-variabeln som kan förklaras av x-variablerna. Så hur räknar vi ut förklaringsgraden? När vi har en enkel regression, dvs. en oberoende variabel, så kan vi räkna ut förklaringsgraden som kvadraten på korrelationskoefficienten. När vi har en multipel regression så kan vi göra på motsvarande sätt; förklaringsgraden är då kvadraten på korrelationskoefficienten, där korrelationskoefficienten mäter sambandet mellan y och de predikterade värdena på y. Alternativt använder vi formeln: R 2 variansen i residualerna = 1 variansen i y Här kan det vara läge att fundera lite över vad en residual betyder i en multipel regression. Precis som i en enkel regression så är residualen skillnaden mellan sanningen och prediktionen. Exempel: Den första spelaren i data svart, han har gjort 24,5 poäng per spel, han har 9 års erfarenhet och har gjort 11,2 returer per spel. Predikterad lön:

99 lön = 167,63 0,61 svart =1 + 77,79 ret =11,2 + 80,79 poäng 24, ,96 erf =9 Den här spelaren predikteras tjäna 3429 enheter (dvs. ~3,4 miljoner dollar). Hans egentliga lön är 3625 enheter (~3,6 miljoner dollar). För den här spelaren är residualen alltså 196 enheter eller dollar; han tjänar nästan dollar mer än predikterat. På det här viset kan vi ta fram residualen för varje spelare i data. Om regressionsekvationen är en bra beskrivning av data så kommer residualerna att ligga relativt tajt samlade kring noll och vi har liten spridning i residualerna (dvs. en låg varians i residualerna). Förklaringsgraden blir då nära 1. Men ju mer sanningen tenderar kasta från prediktionen desto större blir variansen i residualerna och desto lägre blir förklaringsgraden. Logaritmerad skala I kapitel 4 ( Sambandet mellan variabler regressionslinjen ) så diskuterade vi hur man tolkar koefficienterna i en regression där en eller båda variablerna mäts på en logaritmerad skala. I en multipel regression går det också bra att logga en eller flera variabler. Tolkningen är helt analog med den som gavs i kapitel 4: ln (y) = 2 + 0,1 x Då x ökar med en enhet så ökar y med 0,1 100 = 10 procent. ln (y) = 2 + 0,1 ln (x) Då x ökar med en procent så ökar y med 0,1 procent. y = 2 + 0,1 ln (x) Då x ökar med en procent så ökar y med 0,1/100 = 0,001 enheter. Exempel: Se följande löneekvation: ln (lön) = 0, ,102utb + 0,015erf

100 där utb mäter personens utbildning i antal år; erf mäter arbetserfarenhet i antal år. Då utbildningen ökar med ett år så ökar lönen i snitt med ~10 procent då vi kontrollerar för arbetserfarenhet. Då arbetserfarenheten ökar med ett år så ökar lönen i snitt med 1,5 procent då vi kontrollerar för utbildning. Det går också bra att lägga in dummyvariabler i den här regressionen: ln (lön) = 0, ,102utb + 0,015erf + 0,072kontor där kontor är en dummy som antar värdet 1 för kontorsarbetare och 0 för övriga. Regressionen visar att kontorsarbetarna i snitt tjänar ~7 procent mer än övriga då vi kontrollerar för utbildning och arbetserfarenhet. Presentation av resultaten Hur presenterar man resultatet från en multipel regression? Tabellen på nästa sida visar ett exempel. Den är klippt ur artikeln Body mass index as indicator of standard of living in developing countries. Författarna har här kört tre regressioner med tre olika utfall: BMI, weight och height. I kolumnen längst till vänster visas de oberoende variablerna. I kolumnerna parameter estimate visas koefficienterna; kolumnerna som heter P-value ignorerar vi tillsvidare. Låt oss se på några av koefficienterna. Gender är en dummy för kvinnor: Kontrollerat för alla andra x-variabler så har kvinnorna i snitt nästan en enhet högre BMI än männen, de väger i snitt ~5 kilo mindre än männen och är ~11 centimeter kortare. Vidare ser vi exempelvis att personer från hushåll med höga inkomster i snitt har högre BMI; de väger mer i genomsnitt och är i snitt något längre (kontrollerat för alla andra oberoende variabler). Tillgång till elektricitet har ignorerbara effekter på utfallsvariablerna medan tillgång till rent vatten har positiva effekter på BMI och vikt. Författarna har också mätt hur mycket jordbruksland hushållet brukar, och de har logaritmerat denna variabel ( Log(no. of acres farmed á 1) ). Det här betyder att författarna tänker sig att en procentuell ökning i jordbruksarealen hänger samman med en viss förändring i utfallsvariabeln. Det verkar rimligt; om

101

102 jordbruksarealen ökar med en kvadratmeter så lär detta ha större betydelse för ett hushåll som brukar 10 kvadratmeter än för ett hushåll som brukar kvadratmeter. Genom att logaritmera jordbruksarealen så beaktar man exakt detta; en ökning med en enhet på den logaritmerade skalan representerar då en viss procentuell ökning i jordbruksarealen. Det här sättet att presentera resultatet från en multipel regression är standard. x-variablerna visas oftast i första kolumnen; i nästa kolumn kommer koefficienterna. Förutom koefficienterna inkluderar man också ofta förklaringsgraden och antalet observationer. I tabellen ovan visas förklaringsgraden på sista raden. Exempelvis ser vi att 16 procent av variationen i BMI kan förklaras av de oberoende variablerna. Antalet observationer visas högst uppe till vänster (N á 4228). Övningsuppgifter: Se här

103 6. 2 REGRESSIONER MED FAKTORVARIABLER Exempel: Vi vill testa om lågkolhydratkost är effektivt som bantningsmetod. Ett antal överviktiga försökspersoner slumpas in i två jämnstora grupper; en som får äta lågkolhydratkost och en annan som får äta kalorisnål kost. I tabellen nedan visas data. Utfallsvariabeln är viktnedgång som mäter procentuell viktnedgång under loppet av sex månader. För enkelhetens skull tänker vi oss här att enbart tio personer ingår i studien. De som fick lågkolhydratkost (variabeln lågkol) är utmärkta i rött: Id Kost Lågkol Viktnedgång 1 Kalorisnål Kalorisnål Kalorisnål Kalorisnål Kalorisnål Lågkolhydrat Lågkolhydrat Lågkolhydrat Lågkolhydrat Lågkolhydrat 1 14 Regressionslinjen ges av: viktnedgång = lågkol De som åt kalorisnålt gick i genomsnitt ner 4 procent; de som åt lågkolhydratkost gick i genomsnitt ner 7 procent. Anta nu att vi istället jämför kalorisnål kost med medelhavskost (variabeln medelhav) där de som fick denna kost är utmärkta i blått: Id Kost Medelhav Viktnedgång 1 Kalorisnål Kalorisnål Kalorisnål Kalorisnål Kalorisnål Medelhav Medelhav Medelhav Medelhav Medelhav 1 9 Regressionslinjen ges av:

104 viktnedgång = medelhav De som åt kalorisnålt gick i genomsnitt ner 4 procent; de som åt medelhavskost gick i genomsnitt ner 5 procent. Anta nu att vi har data för alla tre dieter. Såhär ser data ut då vi slått ihop det: Id Kost Lågkol Medelhav Viktnedgång 1 Kalorisnål Kalorisnål Kalorisnål Kalorisnål Kalorisnål Lågkolhydrat Lågkolhydrat Lågkolhydrat Lågkolhydrat Lågkolhydrat Medelhav Medelhav Medelhav Medelhav Medelhav Vi hade regressionerna: viktnedgång viktnedgång = lågkol = medelhav Vi kan nu lika bra kombinera dessa två enkla regressioner i en multipel: viktnedgång = lågkol + 1 medelhav Den här regressionen visar exakt samma sak som de två enskilda. Vi kan också testa oss fram för att se att detta är fallet: Som tidigare har vi att genomsnittlig viktnedgång är 4 procent bland dem som åt kalorisnålt: viktnedgång = lågkol =0 + 1 medelhav =0 = 4 Och att genomsnittlig viktnedgång är 7 procent bland dem som åt lågkolhydratkost:

105 Viktnedgång (%) viktnedgång = lågkol =1 + 1 medelhav =0 = = 7 Och att genomsnittlig viktnedgång är 5 procent bland dem som åt medelhavskost: viktnedgång = lågkol =0 + 1 medelhav =1 = = 5 Notera här att lågholhydratkost och medelhavskost jämförs med kalorisnål kost: Koefficienten för lågkol visar att lågkolhydratgruppen i snitt gick ner 3 procentenheter mer än de som åt kalorisnålt; koefficienten för medelhav visar att de som åt medelhavskost i snitt gick ner 1 procentenhet mer än de som åt kalorisnålt. Interceptet visar att de som åt kalorisnålt i snitt gick ner 4 procent. Av den här anledningen kallar man ibland den kalorisnåla gruppen för referensgrupp. Figuren nedan illustrerar detta: kalorisnål lågkolhydrat medelhavskost +1 Det finns ingenting som säger att vi bör använda just kalorisnål kost som referensgrupp. Vi kunde lika bra välja en av de andra dieterna. Säg att vi istället valde lågkolhydratkost som referens. Då får vi regressionen: viktnedgång = 7 3 kalorisnål 2 medelhav Den här regressionen visar att de som åt kalorisnålt i snitt gick ner tre procentenheter mindre än de som åt lågkolhydratkost; de som åt medelhavskost gick i snitt ner två procentenheter mindre än de som åt lågkolhydratkost. (Men det här visste vi ju redan.) Så vad är poängen med att använda en regression för att beskriva det som bara är skillnaden mellan tre medelvärden? Jo, det här

106 exemplet visar hur vi kan ta in en kvalitativ variabel (kost) i en regression genom att göra om den till en rad dummyvariabler (lågkol, medelhav). Ibland kallar man en sådan kvalitativ variabel (kost) för en faktor och därifrån kommer namnet för det här delkapitlet. Om vi kör den här regressionen i ett statistiskt programpaket så inkluderar vi två av dieterna som dummyvariabler. Nedan har vi använt lågkol och medelhav; utfallet är viktnedgång: Notera att förklaringsgraden (R-squared) har värdet 0,0740: 7,4 procent av variationen i viktnedgång kan förklaras av kosten. Vi ska ännu se på ett annat exempel: Exempel: Hur varierar tentresultat beroende på hur mycket man sovit natten innan tenten? Efter en stor tentamen låter vi studenterna fylla i en enkät där de uppskattar hur många timmar de sov natten innan. De kan välja mellan följande alternativ: 0-2 timmar, 2-4 timmar, 4-6 timmar och 6+ timmar. I tabellen nedan visas ett utdrag av data. Variabeln sömn är kodad enligt följande: 1 = 0-2 timmar 2 = 2-4 timmar 3 = 4-6 timmar 4 = 6+ timmar Variabeln resultat mäter procenten rätt på tenten:

107 Id Sömn Resultat Här har vi beskrivit genomsnittligt resultat för varje sömngrupp : Sömn Medelvärde # obs. 1 (0-2 timmar) 49, (2-4 timmar) 61,9 8 3 (4-6 timmar) 66, (6+ timmar) 78,0 50 Samma information som presenteras i tabellen ovan kan vi också beskriva genom en regression: resultat = 49,8 + 12,1sömn2 + 16,3sömn3 + 28,2sömn4 I regressionen ovan är sömn2 en dummy som antar värdet 1 för dem som sov 2-4 timmar och värdet 0 för övriga; sömn3 är en dummy som antar värdet 1 för dem som sov 4-6 timmar och värdet 0 för övriga; sömn4 är en dummy för dem som sov 6+ timmar och värdet 0 för övriga. Referensgruppen är de som sovit 0-2 timmar. Precis som i tabellen ovan så visar den här regressionen att personer som sov 2-4 timmar i snitt skrev 12,1 procentenheter bättre än de som sov 0-2 timmar; personer som sov 4-6 timmar skrev i snitt 16,3 procentenheter bättre än de som sov 0-2 timmar; personer som sov 6+ timmar skrev i snitt 28,2 procentenheter bättre än de som sov 0-2 timmar; de som sov 0-2 timmar skrev i snitt 49,8 procent. Vi kan också se att de här tolkningarna stämmer genom att jämföra genomsnittligt tentresultat mellan olika grupper: De som sov 0-2 timmar skrev i snitt 49,8 procent rätt: resultat = 49,8 + 12,1 sömn2 =0 = 49,8 + 16,3 sömn3 =0 + 28,2 sömn4 =0

108 De som sov 2-4 timmar (sömn2 = 1) skrev i snitt 12,1 procentenheter bättre än de som sov 0-2 timmar: resultat = 49,8 + 12,1 sömn2 =1 = 49,8 + 12,1 + 16,3 sömn3 =0 + 28,2 sömn4 =0 De som sov 4-6 timmar (sömn3 = 1) skrev i snitt 16,3 procentenheter bättre än de som sov 0-2 timmar: resultat = 49,8 + 12,1 sömn2 =0 = 49,8 + 16,3 + 16,3 sömn3 =1 + 28,2 sömn4 =0 De som sov 6+ timmar (sömn4 = 1) skrev i snitt 28,2 procentenheter bättre än de som sov 0-2 timmar: resultat = 49,8 + 12,1 sömn2 =0 = 49,8 + 28,2 + 16,3 sömn3 =0 + 28,2 sömn4 =1 Nedan visas ett utdrag av data, samt datautskriften från en regression där vi inkluderat variablerna sömn2, sömn3 och sömn4 som oberoende variabler: Id Sömn Sömn2 Sömn3 Sömn4 Resultat

109 Anta att vi nu också frågat studenterna hur många timmar de jobbat med kursen per vecka (variabeln timmar). Ett utdrag av data ges nedan: Id Sömn Sömn2 Sömn3 Sömn4 Timmar Resultat Vi har då möjlighet att ställa oss följande fråga: Om vi jämför studenter som jobbat lika mycket, finns det då fortfarande skillnader i resultat beroende på sömngrupp? Vi kan få en uppskattning av svaret på den här frågan genom att inkludera antalet arbetstimmar (timmar) som en oberoende variabel i regressionen: resultat = a + b 1 sömn2 + b 2 sömn3 + b 3 sömn4 + b 4 timmar Här är utskriften då vi kör regressionen med hjälp av statistikprogrammet STATA: Regressionsekvationen: resultat = 19,1 + 2,6sömn2 + 6,3sömn3 + 10,6sömn4 + 4,2timmar Som du märker så minskar nu skillnaderna mellan sömngrupperna. Exempel: Tidigare såg vi att de som sovit 6+ timmar i snitt skrivit 28,2 procentenheter bättre än de som sovit 0-2 timmar. Men då vi kontrollerar för antalet arbetstimmar så

110 sjunker skillnaden till 10,6 procentenheter. Det här betyder att personer som sovit 6+ timmar i snitt jobbat mer under kursens lopp, vilket delvis förklarar varför de klarar sig bättre på tenten. Precis som tidigare så kan vi använda den här regressionen för att gör prediktioner. Exempel: För en person som sovit 4-6 timmar (sömn3 = 1) och jobbat 12 timmar per vecka så predikteras tentresultatet bli 75,8 procent: resultat = 19,1 + 2,6 sömn2 =0 + 4,2 timmar =12 + 6,3 sömn3 =1 = 19,1 + 6,3 + 4,2 12 = 75,8 + 10,6 sömn4 =0 Från regressionsutskriften ser vi också att förklaringsgraden har värdet ~0,77: 77 procent av variationen i tentresultat kan förklaras av sömn och antal arbetstimmar. I det här exemplet kontrollerade vi för antal arbetstimmar, men inget hindrar oss från att kontrollera för fler variabler (t.ex. kön, huvudämne, genomsnittligt resultat på tidigare kurser,...). Grafisk presentation Spridningsdiagrammen nedan visar sambandet mellan resultat och arbetstimmar för varje enskild sömngrupp. Exempel: Regressionslinjen i den första gruppen (0-2 sovtimmar) fås som: resultat = 19,1 + 2,6 sömn2 =0 + 4,2timmar + 6,3 sömn3 =0 = 19,1 + 4,2timmar + 10,6 sömn4 =0 Vi har ritat ut denna regressionslinje tillsammans med observationerna för den här gruppen i spridningsdiagrammet nere till vänster. På motsvarande sätt har vi fått regressionslinjerna i de andra tre sömngrupperna. Exempel: Regressionslinjen i den andra gruppen (2-4 timmar) fås som: resultat = 19,1 + 2,6 sömn2 =1 + 4,2timmar + 6,3 sömn3 =0 + 10,6 sömn4 =0

111 = 19,1 + 2,6 + 4,2timmar = 21,7 + 4,2timmar När vi kombinerar dessa fyra spridningsdiagram i ett så blir resultatet: Det vertikala avståndet mellan två linjer visar skillnaden i genomsnittligt resultat mellan dessa sömngrupper då vi kontrollerat för antalet arbetstimmar. Som du märker så är det här diagrammet ganska svårläst, och skulle vi mäta sovtiden genom fler grupper så skulle spridningsdiagrammet bli ännu svårare att läsa. Orsaken är att det här diagrammet illustrerar allt: hur tentamensresultat

112 varierar med antal arbetstimmar och beroende på sovgrupp, samt den allmänna spridningen i data. Vi kan få ett tydligare diagram genom att enbart illustrera en aspekt; den aspekt som är av huvudsakligt intresse för oss. I det här exemplet är vi först och främst intresserade av skillnader i tentamensresultat beroende på sömn. Figuren nedan illustrerar detta; den visar hur genomsnittligt tentamensresultat varierar beroende på sömngrupp då vi kontrollerat för antalet arbetstimmar. På engelska kallas detta för ett profile plot vilket kan översättas till profildiagram på svenska. Hur har vi åstadkommit det här diagrammet? Jo, vi utgår från regressionen: resultat = 19,1 + 2,6sömn2 + 6,3sömn3 + 10,6sömn4 + 4,2timmar Den genomsnittliga studenten har pluggat 10,3 timmar per vecka. För en genomsnittlig student så varierar tentamensresultatet med sömn enligt: resultat = 19,1 + 2,6sömn2 + 6,3sömn3 + 10,6sömn4 + 4,2 timmar =10,3 19,1 + 2,6sömn2 + 6,3sömn3 + 10,6sömn4 + 43,3 = 62,4 + 2,6sömn2 + 6,3sömn3 + 10,6sömn4 Vi kan nu använda den här regressionen för att prediktera tentresultatet för de fyra olika sömngrupperna. En genomsnittlig student som sovit 0-2 timmar predikteras skriva 62,4 procent:

113 resultat = 62,4 + 2,6 sömn2 =0 + 6,3 sömn3 =0 + 10,6 sömn4 =0 = 62,4 En genomsnittlig student som sovit 2-4 timmar (sömn2 = 1) predikteras skriva 65 procent: resultat = 62,4 + 2,6 sömn2 =1 + 6,3 sömn3 =0 + 10,6 sömn4 =0 = 65,0 Och på motsvarande sätt kan vi räkna ut att en genomsnittlig student som sovit 4-6 timmar predikteras skriva 68,7 procent rätt och att en genomsnittlig student som sovit 6+ timmar predikteras skriva 73,0 procent rätt. Dessa fyra prediktioner (62,4; 65,0; 68,7 och 73,0) är uppskattningar av hur genomsnittligt tentamensresultat varierar beroende på sömngrupp för en genomsnittlig student som pluggat 10,3 timmar per vecka. Det är också dessa prediktioner som visas i profildiagrammet ovan. Figuren nedan visar en annan variant på ett profildiagram. Här har vi kört samma regression som ovan, men skilt för manliga och kvinnliga studenter. I figuren nedan ges kvinnornas linje i rött och männens i blått. Figuren antyder att de manliga studenterna är känsligare inför sovtid; deras resultat varierar mer beroende på sömngrupp. Men här kan man notera att vi bara har ~50 observationer per kön och ännu färre observationer per sömngrupp varför vi inte bör dra alltför djärva slutsatser. I Appendix (A.2. Profildiagram för två grupper) visas mer konkret hur vi tagit fram dessa linjer, men principen är exakt samma som tidigare.

114 Övningsuppgifter: Se här

115 APPENDIX. A.1 Formlerna bakom regressionsekvationen Vi ska börja med att jämföra med en enkel regression. Vi har ett sampel och vill beräkna värdena för a och b i regressionslinjen: y = a + bx. Vi använder formlerna: b = kovariansen mellan x och y variansen för x a = y bx Anta nu en regression med två oberoende variabler: y = a + b 1 x 1 + b 2 x 2. Vi kan räkna ut värdet för b 1 som: b 1 = kovariansen mellan r och y variansen för r där r är residualerna från en regression med x 1 som beroende variabel och x 2 som oberoende variabel. För att få fram värdet för b 1 kan vi med andra ord köra en regression med y som beroende variabel och r som oberoende variabel. Koefficienten för x 2 (b 2) beräknas på motsvarande sätt. Interceptet ges av: a = y b 1 x 1 b 2 x 2 Om vi har fler än två oberoende variabler, säg tre, så får vi regressionsekvationen på motsvarande sätt. Exempel: y = a + b 1 x 1 + b 2 x 2 + b 3 x 3. b 1 = kovariansen mellan r och y variansen för r där r är residualerna från en regression med x 1 som beroende variabel och x 2 och x 3 som oberoende variabler. Interceptet ges då av: a = y b 1 x 1 b 2 x 2 b 3 x 3 A.2 Profildiagram för två grupper Exempel: Följande regression visar hur tentresultat varierar beroende på sömngrupp och antal arbetstimmar:

116 Justerat medelvärde resultat = 19,1 + 2,6sömn2 + 6,3sömn3 + 10,6sömn4 + 4,2timmar Vårt mål är att illustrera hur genomsnittligt resultat varierar med sömngrupp då vi kontrollerat för antalet arbetstimmar. Och vi vill göra detta skilt för män och kvinnor: Genomsnittligt tentamensresultat beroende på sovtid - kontrollerat för skillnader i arbetstid Sömn (timmar) kvinna=0 kvinna=1 Steg ett är att köra regressionen men skilt för män och kvinnor. När vi enbart använder kvinnorna så får vi resultatet: resultat = 23,8 + 0,2sömn2 + 4,5sömn3 + 4,4sömn4 + 4,2timmar Och när vi enbart använder männen så får vi resultatet: resultat = 17,2 1,6sömn2 + 7,0sömn3 + 14,9sömn4 + 4,1timmar För att jämföra män och kvinnor så beskriver vi deras regressionsekvationer för en genomsnittlig student som pluggat 10,3 timmar per vecka: resultat resultat = 23,8 + 0,2sömn2 + 4,5sömn3 + 4,4sömn4 + 4,2 timmar =10,3 = 67,1 + 0,2sömn2 + 4,5sömn3 + 4,4sömn4 = 17,2 1,6sömn2 + 7,0sömn3 + 14,9sömn4 + 4,1 timmar =10,3 = 59,4 1,6sömn2 + 7,0sömn3 + 14,9sömn4

117 I figuren ovan har vi använt dessa två regressioner för att beskriva hur tentamensresultat varierar beroende på sömntid för respektive kön.

118 Kapitel 7: ATT BESKRIVA TIDSSERIEDATA De sampel vi sett på hittills har varit exempel på tvärsnittsdata. Det betyder att vi samlat in data för alla individer (eller hushåll/företag/länder...) vid en viss tidpunkt. Om vi mäter inkomst per person i 200 länder år 2014 så är det ett exempel på tvärsnittsdata. För att lära sig om hur saker utvecklas över tid använder vi istället tidsseriedata. Vi har en tidsserie då vi gör upprepade mätningar för en och samma individ (eller hushåll/företag/land/...) över flera tidsperioder. Exempel: Vi mäter inkomst per person i Finland mellan åren 1800 och Tabellerna nedan visar hur skillnaden mellan tvärsnittsdata och tidsseriedata ser ut då data sammanställts i en datamatris. Tvärsnittsdata gäller olika länder år 2013; tidsserien gäller Finland mellan åren Tvärsnittsdata Land Inkomst Livslängd Afghanistan ,2 Albanien ,8 Algeriet ,3 Angola , Zimbabwe ,0 Tidsseriedata År Inkomst Livslängd , , , , ,6 I det här kapitlet ska vi fundera över hur man beskriver tidsseriedata. Allt som vi lärt oss hittills om hur man beskriver sampel genom beskrivande mått såsom medelvärden, standardavvikelser, korrelationer och regressioner gäller också för tidsserier. Men för att illustrera tidsserier använder vi oftast tidsseriediagram. Vi ska börja med att se några exempel på sådana.

119 7. 1 TIDSSERIEDIAGRAM OCH UTJÄMNING Tidsseriediagram illustrerar en variabels utveckling över tiden. Här ges några exempel: Exempel: Arbetslösheten har sjunkit nästan varje år sedan krisen på 90-talet. Trots detta jobbar finländare hela tiden allt mindre. Figuren nedan visar antalet arbetade timmar under en vecka för en genomsnittlig finländare under åren Exempel: Figuren nedan illustrerar det som kallas för Moores lag: att antalet transistorer i mikroprocessorer ökat med en exponentiell takt över tiden. Exempel: Nedan visas genomsnittlig BMI bland amerikanska kvinnor mellan åren 1980 och BMI mäter relationen

120 mellan vikt och längd; högre värden innebär att man väger mer relativt sin längd. Exempel: Figuren nedan visar procenten deltidsanställda män bland alla finländska manliga löntagare under åren Data visas per kvartal, där första och tredje kvartalen märkts ut skilt. När vi illustrerar en variabels utveckling över tid är syftet ofta att beskriva den generella trenden i data. För att göra det mönstret synligare så kan vi börja med att jämna ut serien, dvs. rensa den på kortsiktiga fluktuationer så att den långsiktiga trenden blir tydlig. Ett populärt sätt att åstadkomma detta är genom glidande medelvärden.

121 Centrerat glidande medelvärde Vi ser bäst vad glidande medelvärden gör genom ett exempel: Exempel: Figuren nedan visas hur mycket en genomsnittlig finländare jobbade per vecka under åren År 2000 jobbade den genomsnittliga finländaren 33,6 timmar per vecka. Året innan (1999) var denna siffra 33,9 timmar och året efter (2001) 33,3 timmar. Medelvärdet över de här tre åren är 33,6 timmar, dvs. (33,6+33,9+33,3)/3 = 33,6. Vi kallar detta för ett centrerat glidande medelvärde för år 2000: Vi har beräknat medelvärdet genom att använda tre år centrerade kring år I tabellen nedan har vi beräknat ett centrerat glidande medelvärde (CGM) för varje år i tidsserien, förutom det första och sista året. Det första året (1980) faller bort eftersom vi inte har data för år 1979 och det sista året (2007) eftersom vi inte har data för år År Arbetstimmar CGM , ,7 35, ,4 35, ,1 35, ,9 34, ,0 33, ,0 32, ,7 - I det här exemplet använde vi tre år för att beräkna det glidande medelvärdet. Men vi kan också använda fler, t.ex. fem. Tabellen nedan visar att det centrerade glidande medelvärdet för år 1982 då blir 35,34 timmar; detta är snittet beräknat över de fem åren där 1982 ligger mitterst. Notera nu att vi förlorar två värden i början och slutet av serien.

122 År Arbetstimmar CGM , , ,4 35, ,1 35, ,9 34, ,0 32, , ,7 - Syftet med att beräkna glidande medelvärden är att få en utjämnad serie som inte innehåller lika mycket variation kring den långsiktiga trenden, dvs. vi vill göra den långsiktiga trenden tydlig. I figurerna nedan visas originaldata, samt serierna med glidande medelvärden beräknade utifrån tre och fem år. Exempel: Nedan visas procenten deltidsanställda män bland alla manliga löntagare under åren Data är på kvartalsnivå. Vi kan se att de deltidsanställda ökat över tiden, men om vi kunde jämna ut säsongsvariationen så skulle detta bli ännu tydligare. Vi ska nu se hur vi kan använda centrerade glidande medelvärden i detta syfte.

123 Tabellen nedan visar de första två åren av den här tidsserien. I den fjärde kolumnen har vi räknat ut det centrerade glidande medelvärdet utifrån fem kvartal. För det tredje kvartalet år 1997 så blir det glidande medelvärdet 6,1 procent. År Kvartal Procent deltidsanställda CGM, 5 kvartal , , ,4 6, ,7 6, ,9 6, ,0 6, ,0 6, ,0 6, Detta medelvärde (6,1) är delvis säsongsutjämnat eftersom det är en sammanvägning av värden från alla fyra kvartal. Men det första kvartalet har fått dubbelt större inflytande än något av de andra kvartalen; det första kvartalet tas ju med två gånger. Vi kan lösa detta genom att ge dessa två värden hälften så mycket vikt: CGM = 0,5 5,8 + 5,7 + 5,4 + 6,7 + 0,5 6,9 4 = 6,0375 Notera att vi nu delar med fyra och inte fem, eftersom två av observationerna bara räknas hälften så mycket; det är som om vi bara hade använt fyra observationer. Vi säger att det här är ett centrerat glidande medelvärde utifrån fyra kvartal. Tabellen nedan visar detta glidande medelvärde för de första två åren:

124 År Kvartal Procent deltidsanställda CGM, 4 kvartal , , ,4 6, ,7 6, ,9 6, ,0 6, ,0 6, ,0 6, Till vänster visas rådata; till höger den säsongsutjämnade serien: Säsongsvariation uppstår ofta i serier där man mäter något flera gånger om året såsom kvartalsvis eller månadsvis. Anta exempelvis att vi vill göra en säsongsutjämning utifrån månadsdata, och att vi ska beräkna det glidande medelvärdet för augusti månad ett visst år: Feb, Mars, April, Maj, Juni, Juli, Aug, Sep, Okt, Nov, Dec, Jan, Feb Vi vill då beräkna medelvärdet utifrån alla tolv månader så att alla får samma inflytande i det glidande medelvärdet. I det här fallet använder vi då alla värden mellan februari-februari, men ger värdena för februari månad hälften av vikten. Vad använder vi tidsserier till? I det här avsnittet har vi sett hur man kan illustrera en tidsserie. Vi ska nu gå över till att se hur vi kan analysera tidsseriedata. Men för att göra detta så måste vi först fundera på vilken typ av frågor det är vi vill besvara. Generellt kunde man dela frågeställningarna i tre typer:

125 1) Beskriva den historiska utvecklingen i en tidsserie. Exempel: Har klyftorna mellan rika och fattiga i Finland minskat eller ökat över tid? 2) Prognostisering; vi använder historiska mönster för att förutspå framtiden. Exempel: Vi använder historiska data över bostadspriser för att göra prognoser för framtida priser. 3) Förklara hur den historiska utvecklingen påverkats av andra faktorer. Exempel: Kan reklamutgifterna förklara variationen i försäljningssiffror över tid? Oavsett om man vill beskriva en historisk utveckling eller göra prognoser så är utgångspunkten densamma; vi börjar med att beskriva mönstret i tidsserien. I nästa avsnitt (7.2) ska vi se hur vi kan beskriva olika sorters trender i data. Vi kan använda de historiska trenderna för att göra prognoser, men som vi kommer att se i avsnitt 7.3 så finns det också andra strukturer i data som kan utnyttjas för prognostisering. I avsnitt 7.4 ska vi se på hur man kan förklara utvecklingen i en tidsserie med hjälp av andra saker som inträffat historiskt. Övningsuppgifter: Se här

126 7. 2 ATT BESKRIVA TRENDER ÖVER TID När vi talar om trender så menar vi att medelvärdet för serien varierar systematiskt över tid. I det här kapitlet ska vi fundera över hur vi kan beskriva ett sådant mönster i data. Nedan visas tidsserierna från föregående avsnitt: Hur kan vi karaktärisera dessa tidsserier? Vi kan tänka på tidsserien som uppbyggd av två komponenter: En deterministisk komponent och därutöver slumpmässiga fluktuationer. Den deterministiska komponenten är det regelbundna mönstret i tidsserien. I figur A ser vi en nedåtgående trend över tiden; i figur B ser vi en tilltagande ökning över tiden; figur C har en uppåtgående trend men den verkar avta lite mot slutet; figur D har en uppåtgående trend men också tydlig säsongsvariation, dvs. andelen deltidsanställda varierar systematiskt beroende på kvartal. Förutom säsongsvariation så finns det också tidsserier som karaktäriseras av cyklisk variation. Figur E nedan är ett exempel på detta. Här ser vi arbetslösheten i USA mellan åren 1947 och Arbetslösheten har periodvis gått upp och periodvis ner, men till skillnad från säsongsvariation så är dessa växlingar inte knutna till regelbundna säsonger. Vi diskuterar cyklisk variation i nästa avsnitt (7.3).

127 Linjär trend Exempel: Figuren nedan visas hur mycket en genomsnittlig finländare jobbade per vecka under åren Vi ser att en linjär trend skulle kunna passa som en beskrivning av utvecklingen över tid, men hur kan vi mäta en sådan trend? Jo, vi kan använda regressionslinjen där vi låter tiden vara oberoende variabel: arbetstimmar Här visas ett utdrag av data: = a + b tid

128 År Tid Arbetstimmar , , , , ,7 Som du ser så har vi här skapat en variabel, tid, som antar värdet 0 det första året i data (1980); värdet 1 det andra året i data (1981); värdet 2 året därpå, osv. Vi kör nu en regression med antalet arbetstimmar som utfall och tid som oberoende variabel: arbetstimmar = 35,35 0,094 tid Vi kan använda den här regressionen för att göra prediktioner. År 1980 (tid = 0) predikteras arbetsveckan vara 35,35 timmar lång: arbetstimmar = 35,35 0,094 tid =0 = 35,35 27 år senare (tid = 27) predikteras arbetsveckan vara ~32,8 timmar: arbetstimmar = 35,35 0,094 tid 32,8 =27 Vi kan också använda regressionen för att sia om framtiden. År 2015 (tid = 35) prognostiseras man jobba 32,06 timmar per vecka: arbetstimmar = 35,35 0,094 tid = 32,06 =35 Kan man lita på den här prognosen? Den här prognosen bygger på antagandet om att trenden kommer att fortsätta som tidigare, och detta är nog inte alltid trovärdigt, i synnerhet om vi vill blicka långt in i framtiden. I det här exemplet använde vi variabeln tid som oberoende variabel, men vi kunde lika bra ha använt variabeln år och fått exakt samma prediktioner. Men genom att använda variabeln tid som startar från noll så får interceptet också en naturlig betydelse; interceptet (35,35) visar då prediktionen för det första året i data (1980). I diagrammet nedan har vi ritat in regressionslinjen i rött. Den visar att arbetstiden i snitt minskat med 0,094 timmar (~6

129 minuter) per år. Grovt räknat så har arbetstiden minskar med cirka en timme per decennium. Exponentiell trend Tidigare har vi sett att man ibland kan logaritmera y- eller x- variabeln för att få en regressionslinje som bättre passar data. Det går också bra att logga y-variabeln då vi har att göra med tidsseriedata. Figuren nedan visar utvecklingen i Finlands loggade befolkningsmängd mellan åren 1870 och I rött visas regressionslinjen: Regressionslinjen ges av: ln (befolkningsmängd) = 11,37 + 0,014 år Regressionslinjen visar att befolkningsmängden stigit med ungefär 1,4 procent årligen under den här perioden. När en

130 variabel på det här viset ökar med en viss procent årligen så kallar vi det för expontiell tillväxt. Kvadratisk trend Exempel: Diagrammet nedan visar utvecklingen i BMI bland amerikanska kvinnor. I rött visas regressionslinjen: Som du ser så överskattar regressionslinjen BMI under de första åren; underskattar BMI i mitten av perioden och överskattar BMI under de sista åren. Skillnaden mellan den linjära trenden och den verkliga utvecklingen är hårfin, men systematisk. Det här betyder att vi kan hitta ett bättre sätt att beskriva utvecklingen över tid. I det här exemplet skulle en kvadratisk trend passa bra. Så vad menas med en kvadratisk trend? För att se vad en kvadratisk trend betyder så ska vi börja med att jämföra med en linjär trend. Figuren nedan beskriver en positiv linjär trend; ökningen mellan tidpunkt 0 och 1 är lika stor som ökningen mellan tidpunkt 5 och 6 eller som den mellan tidpunkt 9 och 10; för varje period så ökar y med en enhet.

131 Y y Tid y ökning Tid Men låt oss nu anta att ökningen är positiv men avtagande. Se tabellen nedan. Mellan tidpunkt 0 och 1 så ökar y med 1 enhet; därefter är ökningen 0,9 enheter, därefter 0,8 enheter, därefter 0,7 enheter, osv. Detta är ett exempel på en kvadratisk trend; ökningen minskar med 0,1 enheter för varje period. Tid y ökning ,9 +0,9 3 2,7 +0,8 4 3,4 +0,7 5 4,0 +0,6 6 4,5 +0,5 7 4,9 +0,4 8 5,2 +0,3 9 5,4 +0,2 10 5,5 +0, Tid Vi beskriver den här utvecklingen genom en kvadratisk ekvation: y = 0 + 1,05tid 0,05tid 2 Den här ekvationen visar två saker: 1) Exakt vid tidpunkt 0 så ökar y med 1,05 enheter. 2) Ökningen i y minskar med 2 0,05 = 0,1 enheter för varje period. Här är ett annat exempel på en kvadratisk trend men här är ökningen i y tilltagande; mellan tidpunkt 0 och 1 så ökar y med 1 enhet, därefter är ökningen 1,2 enheter, därefter 1,4 enheter, därefter 1,6 enheter, osv. Ökningen ökar med 0,2 enheter för varje period.

132 y y Tid y ökning ,2 +1,2 3 5,6 +1,4 4 7,2 +1,6 5 9,0 +1,8 6 11,0 +2,0 7 13,2 +2,2 8 15,6 +2,4 9 18,2 +2, ,0 +2, Tid Vi beskriver den här trenden genom ekvationen: y = 2 + 0,9tid + 0,1tid 2 Här är ett exempel där minskningen i y tilltar med 1 enhet per period; mellan tidpunkt 0 och 1 så minskar y med 5 enheter, därefter med 6 enheter, därefter med 7 enheter, osv. År y förändring År Vi beskriver den här trenden genom ekvationen: y = 100 4,5tid 0,5tid 2 Exempel forts: Diagrammet nedan visar trenden i BMI bland amerikanska kvinnor:

133 Den här utvecklingen skulle beskrivas bra av en kvadratisk trend, men hur anpassar vi en sådan trend till data i praktiken? Jo, vi gör detta genom att köra en multipel regression där vi både inkluderar tiden och tiden i kvadrat som oberoende variabler. Här ges ett utdrag av datamaterialet: År Tid Tid 2 BMI , , , , , ,97255 Som du ser så har vi här skapat en ny variabel som heter tid; den antar värdet 0 det första året i data (1980) och värdet 1 året därpå (1981), osv. Om vi kör en regression som inkluderar både variablerna tid och tid 2 så får vi resultatet: Regressionen:

134 bmi = 25,0 + 0,135tid 0,000447tid 2 Koefficienten för tid är positiv vilket visar att vi har en positiv trend åtminstone från början av perioden; koefficienten för tid 2 är negativ vilket visar att trenden är avtagande. Precis som tidigare så kan vi använda regressionen för att göra prediktioner. År 1984 (tid = 4) så predikteras amerikanska kvinnor ha ett genomsnittligt BMI på ~25,5: bmi = 25,0 + 0,135 tid =4 0, tid 2 25,5 =4 2 Tjugo år senare (tid = 24) så predikteras BMI ha stigit till ~28 enheter: bmi = 25,0 + 0,135 tid =24 0, tid 2 28,0 =24 2 Regressionslinjen (eller kurvan) nedan i rött visar dessa prediktioner för varje år i serien. Som vi ser så sammanfaller regressionslinjen nästan exakt med den verkliga trenden i blått: Hur realistisk är den här modellen om vi vill sia långt in i framtiden? Tja, precis som för andra trendmodeller så bygger prognoserna på att trenden håller i sig, vilket sällan är helt realistiskt på längre sikt. Kvadratiska trender har också den egenskapen att de förr eller senare når antingen en toppen eller botten, vilket inte nödvändigtvis passar in så bra på utvecklingen i egentliga data. I BMI-exemplet så prognostiseras vi nå toppen av kurvan år 2131, varefter trenden prognostiseras vända. I detta fall ligger dock toppen så pass långt in i framtiden att den inte har någon praktisk betydelse.

135 Trendbrott Exempel: Figuren nedan visar procenten amerikaner som välkomnar en ökad invandring [fejkat data]. Vi vill ta reda på om inställningen förändrats i och med 9/11. I regressionen nedan är post911 en dummy som antar värdet 1 efter terrordådet och värdet 0 före. Procent mäter procenten som välkomnar en ökad invandring: procent = 21,0 7,5post911 I snitt har andelen som välkomnar en ökad invandring minskat med 7,5 procentenheter efter 9/11: Men vi kan också se att det redan fanns en viss negativ trend före terrordådet. En del av skillnaden kan därför bero på en allmänt kallare attityd till invandring över tiden. Vi kontrollerar därför

136 ännu för den allmänna trenden i tidsserien genom att inkludera variabeln tid: procent = 22,1 4,5post911 0,43 tid När vi beaktat den nedåtgående trenden så ser vi fortfarande en negativ effekt av 9/11; andelen som välkomnar en ökad invandring har minskat med 4,5 procentenheter. Säsongsvariation Exempel: Figuren nedan visar procenten deltidsanställda män kvartalsvis mellan åren 1997 och 2014: Om vi anpassar en regressionslinje till den här tidsserien så får vi resultatet:

137 Som du ser så ligger regressionslinjen som regel för lågt i första kvartalet varje år och för högt i tredje kvartalet. Finns det något sätt att beakta att procenten deltidsanställda varierar systematiskt beroende på kvartal? Låt oss först ignorera den positiva trenden och bara tänka oss följande regression: deltid = a + b 1 kvartal2 + b 2 kvartal3 + b 3 kvartal4 där deltid mäter procenten deltidsanställda män. Kvartal2 är en dummy som antar värdet 1 detta kvartal och värdet 0 alla andra kvartal; kvartal3 och kvartal4 är på motsvarande sätt dummyn för det tredje och fjärde kvartalet. Nedan visas ett utdrag av data: År-kvartal Tid Kvartal2 Kvartal3 Kvartal4 deltid , , , , , , , , Om vi kör den här regressionen i ett statistiskt programpaket så får vi följande resultat:

138 deltid = 8,27 0,65kvartal2 1,11kvartal3 + 0,06kvartal4 Vi kan använda den här regressionen för att prediktera procenten deltidsanställda för olika kvartal. För det första kvartalet blir prediktionen 8,27 procent: deltid = 8,27 0,65kvartal2 =0 = 8,27 1,11kvartal3 =0 + 0,06kvartal4 =0 Detta är bara medelvärdet beräknat över alla observationer i första kvartalet. I andra kvartalet predikteras andelen deltidsanställda vara 7,62 procent: deltid = 8,27 0,65 kvartal2 =1 = 7,62 1,11kvartal3 =0 + 0,06kvartal4 =0 Och på motsvarande sätt kan vi räkna ut prediktionerna för kvartal tre (7,16 procent) och kvartal fyra (8,33 procent). Om vi ritar upp tidsserien tillsammans med dessa prediktioner så får vi följande figur:

139 Som du ser så var detta inte särskilt lyckat. Men kanske kan vi kombinera regressionen med kvartalsdummyn och regressionen med den linjära trenden, för att på så vis få en regression som beaktar bägge aspekterna: + Svaret är ja. Vi kör då följande regression: deltid = a + b 1 kvartal2 + b 2 kvartal3 + b 3 kvartal4 + b 4 tid Vilket ger resultatet: deltid = 6,96 0,69kvartal2 1,19kvartal3 + 0,018kvartal4 + 0,039tid Vi kan använda den här regressionen för att prediktera procenten deltidsanställda i varje tidsperiod. I figuren nedan har vi ritat ut dessa prediktioner (i rött) tillsammans med tidsserien (i blått):

140 Övningsuppgifter: Se här

141 7. 3 ATT BESKRIVA CYKLISKA MÖNSTER Exempel: Nedan ser du arbetslösheten i USA mellan 1947 och Den här serien karaktäriseras av cyklisk variation; arbetslösheten går upp och ner, men dessa växlingar är inte knutna till regelbundna säsonger. Hur kan vi använda det historiska mönstret för att göra prognoser för framtida arbetslöshet? Arbetslöshet styrs bland annat av ekonomiska chocker, och precis som namnet antyder så är chocker oväntade. För att prognostisera arbetslösheten så ställer vi oss därför en lättare fråga: Hur förväntas arbetslösheten utvecklas givet att inga chocker inträffar? För att besvara den här frågan så finns det ett tydligt mönster i data som vi kan utnyttja: Arbetslösheten ett år hänger samman med arbetslösheten föregående år. Spridningsdiagrammet nedan illustrerar detta; i tabellen under ges ett utdrag av data. Korrelationen mellan arbetslösheten ett år och arbetslösheten året innan är 0,78; om arbetslösheten är hög ett år så tenderar den också vara hög året därpå och tvärtom. När vi på detta vis korrelerar en variabel med en tidigare version av sig själv så kallar vi det för en autokorrelation.

142 År Arbetslöshet Arbetslösheten året innan , ,8 3, ,9 3, ,3 5, ,3 5, ,2 7,4 Regressionslinjen i spridningsdiagrammet ovan beskrivs av: arbetslöshet = 1,37 + 0,77 arbetslösheten året innan År 2014 var arbetslösheten 6,2 procent. Med hjälp av regressionen så kan vi prognostisera att arbetslösheten sjunker till ~6,14 procent år 2015: arbetslöshet = 1,37+ 0,77 arbetslösheten året innan =6,2 = 6,144 Och att den vidare sjunker till ~6,10 procent år 2016 (eftersom vi saknar data för år 2015 så pluggar vi in prognosen för år 2015 på platsen för arbetslösheten året innan ): arbetslöshet = 1,37+ 0,77 arbetslösheten året innan =6,144 6,101 Kan vi alltså förvänta oss en stadigt sjunkande arbetslöshet varje år givet att inga chocker inträffar? Nej, arbetslösheten närmar sig så småningom en jämvikt, dvs. ett läge där arbetslösheten förblir konstant från ett år till ett annat. Denna jämviktnivå ligger vid en

143 arbetslöshet på ~6 procent; om arbetslösheten är 6 procent ett år så predikteras den vara 6 procent också året därpå: arbetslöshet 6,0 = 1,37+ 0,77 arbetslösheten året innan =6,0 Den här regressionen predikterar att arbetslösheten på sikt dras mot 6 procent; om arbetslösheten ligger lägre så predikteras den öka och om arbetslösheten ligger högre så predikteras den sjunka. Figuren nedan illustrerar tidsserien tillsammans med prognoserna för år : I praktiken kommer arbetslösheten också att styras av slumpmässiga chocker, så att den egentliga arbetslösheten ständigt kastas från vägen mot jämvikten: arbetslöshet = 1,37+ 0,77 arbetslösheten året innan + slumpmässig avvikelse Vi kallar detta för en autoregressiv process. En autoregressiv process av första ordningen är en tidsserie där ett värde bestäms som en linjär funktion av föregående värde plus en slumpmässig avvikelse. De slumpmässiga avvikelserna antas vara opredikterbara chocker; de kan vara positiva eller negativa, men sett över långa loppet så summerar de till noll. Om ett värde bestäms som en linjär funktion av fler föregående värden samt slumpen så kallar vi det för en autoregressiv process av högre ordning. Autoregressiva processer är det populäraste sättet att beskriva cykliska mönster i data.

144 I exemplet ovan så såg vi att jämviktsnivån för arbetslösheten låg på 6 procent. Har alla autoregressiva processer på detta sätt en jämvikt dit tidsserien dras på sikt givet att inga nya chocker inträffar? Nej, men en autoregressiv process av första ordningen där -1 < b < 1 har en sådan jämvikt. Du kan testa dig fram och se att detta är fallet. Ta exempelvis denna process där b = 1,5: arbetslöshet = 3 + 1,5 arbetslösheten året innan + slumpavvikelse Här gäller precis som förut att om arbetslösheten är 6 procent ett år så är den 6 procent också året därpå givet att inga chocker inträffar. Men chocker inträffar hela tiden, och minsta lilla störning som leder till en högre arbetslöshet tenderar föra oss in på ett galopperande spår med ständigt höjda arbetslöshetsnivåer. Du kan se att detta stämmer genom att prognostisera arbetslösheten givet att denna var, säg, 7 procent året innan och därefter skriva fram prognosen ett år i taget. På motsvarande sätt gäller att en arbetslöshet under 6 procent predikteras föra in oss på ett spår med ständigt sjunkande arbetslöshetsnivåer. (Ingen av dessa scenarion är förstås överensstämmande med det cykliska mönster vi ser i arbetslösheten över tid.) När man beskriver cykliska mönster i data med hjälp av en autoregressiv process av första ordningen så brukar man ofta kräva att -1 < b < 1 så att serien på sikt prognostiseras röra sig mot en jämvikt. Man brukar då kalla detta krav för stationäritetsvillkoret. Vi ska nu se ytterligare tre exempel på autoregressiva processer: 1) Negativ autokorrelation Säg att vi istället har en negativ korrelation mellan arbetslösheten ett år och arbetslösheten året därpå. Vad skulle det betyda? Jo, att en hög arbetslöshet ett år tenderar följas av en låg arbetslöshet nästa år och tvärtom; vi får då ett oscillerande mönster i data. Figuren nedan visar ett exempel på detta. En regressionslinje som beskriver tidsserien ges av: y = 9 0,5 y året innan

145 Den här tidsserien dras också mot en jämvikt på 6: y =6 = 9 0,5 y året innan =6 Men här närmar vi oss jämvikten i ett oscillerande mönster: I praktiken ser man dock sällan denna typ av mönster i samhällsekonomiska och finansiella tidsserier; det typiska är att värden korrelerar positivt med varandra över tid. Vad händer om stationäritetsvillkoret inte är uppfyllt i en serie med negativ autokorrelation? Låt oss testa. Anta att arbetslösheten bestäms av ekvationen:

146 arbetslöshet = 15 1,5 arbetslösheten året innan + slumpavvikelse Här gäller återigen att om arbetslösheten är 6 procent ett år så kommer den vara 6 procent nästa år givet att inga chocker inträffar. Men minsta lilla störning kastar nu in oss i ett mönster där arbetslösheten oscillerar allt kraftigare över tiden. Om arbetslösheten är 7 procent ett år så prognostiseras vi få följande utveckling: 7 4,5 8,25 2,63 11,06-1,59 17,39-11,09 31,63-711,65... Vartannat år hög arbetslöshet och allt högre med tiden; vartannat år låg arbetslöshet och allt lägre med tiden. 2) Random walk, b = 1 Nedan ser du ett specialfall av en autoregressiv process: y = y dagen innan + slumpmässig avvikelse En tidsserie där värdena på y bestäms enligt ekvationen ovan kallas för en random walk. Namnet kommer från att varje dag är ett direkt resultat av gårdagen plus en slumpmässig avvikelse; vi tar så att säga ett slumpmässigt steg från gårdagens värde för att komma till dagens värde. Men då slumpmässiga avvikelser är omöjliga att prediktera så är dagens värde vår bästa gissning för morgondagen: y = y dagen innan Så hur ser en random walk ut i praktiken? En random walk kan ofta liknas vid ett bergslandskap. Figur A och B nedan är två exempel på detta. I figur A har vi fått ett visst värde genom att ta föregående värde och addera till en slumpmässig avvikelse, dvs. ett tärningskast men i det här fallet har tärningen bara haft tre sidor: -1, 0 och 1. I figur B har vi gjort på motsvarande sätt men här är den slumpmässiga avvikelsen normalfördelad med medelvärde 0 och standardavvikelsen 1: i ~95 procent av fallen så har den slumpmässiga avvikelsen hamnat någonstans mellan - 2 och +2; i nära 100 procent av fallen så har denna avvikelse hamnat någonstans mellan -3 och +3.

147 Vi kan också tänka oss en random walk som dessutom innehåller en konstant, här värdet 1: y = 1 + y dagen innan + slumpmässig avvikelse Om vi bortser från slumpmässiga fluktuationer så visar den här modellen att dagens värde fås genom att ta gårdagens värde och addera till 1. Vi kallar detta för en random walk med drift; i detta exempel driver vi uppåt med, i snitt, en enhet per dag. Figuren nedan är ett exempel på detta. När stöter man på random walks i praktiken? Random walks är vanliga för att beskriva prisutvecklingen på olika tillgångar såsom aktier, guld och valutor. Figuren nedan visar utvecklingen för växelkursen mellan dollar och euro. I kapitlets Appendix (A.1) kan du läsa mer om varför prisutvecklingen på olika tillgångar ofta beskrivs bra av en random walk.

148 3) Autoregressiva processer av högre ordning Tidigare såg vi att arbetslösheten ett år kan predikteras med hjälp av arbetslösheten året innan: arbetslöshet = 1,37 + 0,77 arbetslösheten året innan Men inget hindrar oss från att använda fler tidigare år för att prediktera arbetslösheten. I regressionen nedan har vi utnyttjat två: arbetslöshet = 1,73 + 0,96 arbetslösheten året innan 0,26 arbetslösheten två år innan

149 År Arbetslöshet Arbetslösheten året innan Arbetslösheten två år innan , ,8 3, ,9 3,8 3, ,3 5,9 3, ,3 5,3 5, ,2 7,4 8,1 Serier där ett värde bestäms som en linjär funktion av två föregående värden plus slumpen kallas för en autoregressiv process av andra ordningen. Den här regressionen säger att arbetslösheten på sikt dras mot en jämviktsnivå på ~5,8 procent givet att inga chocker inträffar; om arbetslösheten ligger på 5,8 procent så predikteras den ligga kvar: arbetslöshet 5,8 = 1,73+ 0,96 arbetslösheten året innan =5,8 0,26 arbetslösheten två år innan =5,8 Figuren nedan visar denna långsiktiga jämvikt tillsammans med prognoserna för år : Vi kunde här också tänka oss att prediktera arbetslösheten med hjälp av arbetslösheten året innan, två år innan, tre år innan, osv. Men i det här fallet räcker det bra med två år; då vi vet arbetslösheten året innan och två år innan så har arbetslösheten tre år innan praktiskt taget ingen prediktiv förmåga.

150 Tidigare såg vi att autoregressiva processer av första ordningen har ett såkallat stationäritetsvillkor (-1 < b < 1) som ser till att serien på sikt prognostiseras närma sig en jämvikt. För autoregressiva processer av högre ordning så blir stationäritetsvillkoren lite krångligare. I Appendix (A.2) ges stationäritetsvillkoren för en autoregressiv process av andra ordningen. Kombinera olika komponenter En tidsserie kan innehålla både trender, säsongsvariation och cyklisk variation. Vi kan bygga regressioner som beaktar alla dessa komponenter. Exempel: Regressionen nedan visar hur arbetsveckan minskat för en genomsnittlig finländare över tid: arbetstimmar = 35,35 0,094 tid där tid är en variabel som antar värdet 0 första året i data (1980), värdet 1 det andra året i data (1981), osv. Tidsseriediagrammet nedan illustrerar den här trenden: Vi ser att arbetsveckan fluktuerat runt den linjära trenden. Vi kan också visualisera detta grafiskt. Nedan visas den linjära trenden (till vänster) och de fluktuationer som blivit kvar efter att vi beaktat den linjära trenden (till höger). Figuren till höger visar med andra ord residualerna från regressionen ovan.

151 Som du ser så följer residualerna ett cykliskt mönster; kanske utvecklingen i dem kunde beskrivas genom en autoregressiv process? Svaret är ja; vi kör då en regression som både innehåller en linjär trend samt en autoregressiv komponent. Resultatet: arbetstimmar = 11,35 0,030tid + 0,68arbetstimmar året innan Prognosintervall Här är det trista med prognoser: De har alltid fel; chansen att prognosen får rätt till sista decimaltecknet är försvinnande liten. När man gjort en prognos så vill man därför också gärna göra upp ett prognosintervall, dvs. ett intervall som ringar in vad som kommer hända med stor sannolikhet (t.ex. 95-procentig sannolikhet). Figuren nedan visar prognoserna för arbetslösheten i USA mellan åren , tillsammans med prognosintervallen. För att göra prognoserna har vi här använt en autoregressiv process av andra ordningen.

152 Appendix (A.3 Prognosintervall) ger intuitionen bakom prognosintervall. Övningsuppgifter: Se här.

153 Livslängd 7. 4 ATT FÖRKLARA UTVECKLINGEN Kan den ökade livslängden i Finland under de senaste decennierna förklaras av den ekonomiska utvecklingen? Spridningsdiagrammet nedan visar sambandet mellan loggad inkomst och livslängd. Data gäller Finland under åren Inkomsterna är justerade för inflation. En regressionslinje som beskriver sambandet ges av: livslängd = 31,2 + 11,0 ln(inkomst) R 2 = 0, ln(inkomst per person) Då inkomsterna ökat med en procent så har livslängden i snitt ökat med ~0,1 år. Förklaringsgraden är 0,94; 94 procent av variationen i livslängd över tiden kan förklaras av inkomster (mätt på en loggad skala). Det är inte ovanligt att vi hittar starka samband med förklaringsgrader nära 1 då vi gör regressioner med tidsseriedata. Förklaringen ligger i att tidsserier ofta trendar; både livslängd och inkomst har ökat kontinuerligt i Finland under de senaste decennierna. Men det är många faktorer som ökat kontinuerligt i Finland under de senaste decennierna, såsom andelen av befolkningen som äger en dator, andelen vuxna som bor i singelhushåll, andelen som besökt Kanarieöarna,.... Oavsett vilken av dessa variabler som vi korrelerade med livslängd så skulle vi antagligen se ett starkt samband. Det här betyder naturligtvis inte att dessa faktorer orsakat den ökade livslängden. På engelska kallar man detta fenomen för spurious regression vilket kunde översättas till falsk regression; vi ser ett tydligt samband i data vilket beror på att bägge variablerna trendar. Vi

154 kan dock kontrollera för den allmänna trenden i data. Vi gör detta genom att inkludera tiden som en oberoende variabel: livslängd = 69,1 0,14 ln(inkomst) + 0,31 tid Vi ser nu att effekten av inkomst sjunkit till, praktiskt taget, noll. Efter att vi kontrollerat för den allmänna trenden i data så ser vi inget samband mellan inkomst och livslängd. I avsnitt 7.2 såg vi att det finns olika sätt att beskriva trender i data, och på samma sätt finns det också olika sätt att kontrollera för tidstrender. I exemplet ovan så kunde vi också testa inkludera tiden i kvadrat och se om detta påverkar resultatet. Eller om vi jobbar med kvartalsdata så är det ofta lämpligt att kontrollera för kvartalssvängningarna genom att inkludera kvartalsdummyn. I exemplet ovan är det kanske inte helt förvånande att vi inte ser en effekt av inkomst på livslängd. Säg att inkomsterna plötsligt ökar och att detta i sin tur leder till att vi har råd att satsa mer på hälsovården. När skulle vi förvänta oss att se effekterna av en sådan satsning? En liten del av effekten skulle kanske synas i data mer eller mindre direkt, men knappast hela effekten; att vi infört, säg, allmän cancer-screening skulle sannolikt synas på livslängden först år senare. I samhällsekonomiska och finansiella tidsserier är det inte ovanligt att effekten av x sker med en tidsfördröjning. Men vi kan beakta detta genom att inkludera laggade oberoende variabler. Vi ser bäst vad detta betyder genom ett exempel: Vi vill titta på sambandet mellan reklamutgifter och försäljningssiffror för ett företag. Till vår hjälp har vi tidsseriedata på årsnivå. Vi kör regressionen: ln (försäljning) = 10,8 + 0,53 ln (reklamutgifter) En enprocentig ökning i reklamutgifterna ger en 0,53 procent ökning i försäljningen. Men i det här fallet vore det rimligt att tänka sig att en del av den positiva effekten överförs till nästa år; om vi satsar mycket på reklam ett år så kanske detta syns i försäljningssiffrorna också året därpå. Vi inkluderar nu de laggade reklamutgifterna i regressionen, där de laggade reklamutgifterna mäter reklamutgifterna året innan. Resultatet: ln (försäljning) = 8,9 + 0,54 ln(reklamutgifter) +0,20 ln (reklamutgifter året innan)

155 Säg att vi bestämmer oss för att höja reklamutgifterna med en procent, och att därefter bibehålla denna nya nivå. Hur stor blir effekten på försäljningen i förhållande till hur det såg ut innan? Första året: +0,54 procent Andra året: +0,74 procent (=0,54 + 0,20) Alla år därefter: +0,74 procent Effekten på 0,74 procent kallas för den långsiktiga effekten. Precis som tidigare kunde vi också i den här regressionen tänka oss att kontrollera för den allmänna försäljningstrenden i data, t.ex. genom att inkludera en oberoende variabel för tiden. Övningsuppgifter: Se här.

156 Appendix A.1 Random walks och aktiepriser Spekulanter vill naturligtvis kunna göra detta: Låt oss säga att vi har en aktie som stigit mycket i värde på sistone. Vad betyder det? Har vi nått toppen? Är det läge att sälja? Om aktiepriset karaktäriseras av en random walk så är svaret nej; priset bestäms ju genom att ta gårdagens pris och därefter kasta tärning. Det är rimligt att anta att random walks är, om inte annat, relativt bra beskrivningar av aktiekurser. För säg att aktiepriserna exempelvis bestämdes av ekvationen: pris = ,5 priset i går + slumpavvikelse Jämviktspriset ligger på 100 euro. Säg att priset en dag är 120 euro; då prognostiseras priset vara 110 euro i morgon = läge att sälja i dag! Men du är förstås inte ensam om äga en dator; alla som vill göra snabba pengar skulle i detta fall kunna se att det är läge att sälja i dag. Och ser man på; priset har redan sjunkit. Genast det går att använda gårdagens pris för att prognostisera prisförändringar så upphör möjligheten att prognostisera prisförändringar. Och ja, jag vet att det ser ut som att förändringarna i aktiepriser är predikterbara:

157 Men det är just denna illusion som random walks ger upphov till. En not på slutet: Ofta brukar man beskriva utvecklingen i aktiepriser som en random walk med drift, vilket betyder att vi mycket väl kan göra långsiktiga vinster på aktiemarknaden. Däremot kan vi inte systematiskt göra större vinster än andra. A.2 Stationäritetsvillkoren för en autoregressiv process av andra ordningen Nedan ges en autoregressiv process av andra ordningen: y = a + b 1 y året innan + b 2 y två år innan + slumpavvikelse Stationäritetsvillkoren blir nu: 1) Om b 1 positiv: -1 < b 2 < 1 och summan (b 1 + b 2) < 1 2) Om b 1 negativ: -1 < b 2 < 1 och avståndet mellan b 1 och b 2 mindre än en enhet på talaxeln A.2 Prognosintervall Figuren nedan visar skillnaden mellan den egentliga arbetslösheten (i blått) och prediktionerna (i rött) då vi varje år gör prediktioner ett år in i framtiden. (Här har vi använt en

158 autoregressiv process av andra ordningen för att prediktera arbetslösheten.) Hur pass fel tenderar prediktionerna att pricka? Histogrammet nedan visar fördelningen för residualerna, där en residual är skillnaden mellan den egentliga arbetslösheten och prediktionen för det året. Residualerna har medelvärde ~0 och standardavvikelsen ~1. I ungefär 95 procent av fallen har prognosfelet landat någonstans mellan -2 och +2 (medelvärdet plus/minus två standardavvikelser). När vi gör en prognos ett år in i framtiden (här år 2015) kan vi alltså anta att prognosfelet hamnar någonstans mellan -2 och +2 med 95-procentig sannolikhet; så har det varit historiskt. Från figuren nedan så ser vi också att prognosen för år 2015 är ~6 procent och att prognosintervallet, i runda tal,

159 sträcker sig mellan 4 och 8 procent. När man gör prognosintervall med hjälp av ett statistiskt dataprogram så är det ungefär detta som händer, men programmet beaktar dessutom att vår uppskattning av själva processen är lite osäker. Prognosintervall tenderar vidgas ju längre fram vi siar, men intervallets bredd stabiliseras så småningom (se figuren ovan). Vi ska sätta ett stycke på att fundera över varför: Säg att vi vill göra upp ett prognosintervall för arbetslösheten år 2020 som här ligger sex år in i framtiden. Figuren nedan visar den egentliga arbetslösheten (i blått) och den predikterade arbetslösheten (i rött) då vi gör prognoser sex år framåt. Som du ser så ser så har vi inte så stor nytta av att känna till historiska chocker i detta fall; när vi vill blicka såpass långt framåt (som sex år) så kan vi inte göra mycket bättre än att använda seriens långsiktiga medelvärde. Och samma sak gäller om vi vill göra prognoser 7 år framåt i tiden eller, säg, 100 år. Eftersom vi använder seriens långsiktiga medelvärde oavsett så tenderar prognosfelet vara lika stort oavsett om vi blickar 6 eller 100 år framåt i tiden. Detta är orsaken till att prognosintervallets bredd stabiliseras efter några år.

160

161 Kapitel 8: STATISTISK INFERENS THE BIG PICTURE 8.1 SAMPEL KONTRA POPULATION Alla kapitel hittills har handlat om hur man beskriver data. Men varför beskriver vi data? Dels kan det finnas ett självändamål i detta vi vill helt enkelt lära oss om hur vårt datamaterial ser ut. Men huvudsyftet är oftast att generalisera. När vi gör generaliseringar utifrån data så kallas detta för statistisk inferens. Om vi mäter priset för 100 fastigheter i huvudstadsregionen så vill vi inte enbart lära oss om priserna för de fastigheter som vi råkat välja ut, utan vi vill säga något generellt om prisläget på fastighetsmarknaden i den regionen. Det datamaterial vi har tillgång till kallas för ett sampel detta är de 100 fastigheterna i exemplet ovan. Det här samplet kan ge oss en uppskattning av fastighetspriserna i regionen, t.ex. i genomsnitt kostar fastigheterna 5328 euro per kvadratmeter. Samplet kan däremot inte ge oss det exakta svaret; om vi upprepade studien med ett nytt urval fastigheter så skulle vi få ett annat resultat. Resultatet från ett sampel är därför osäkert. Men vi kan minska på osäkerheten genom att dra ett stort sampel; om vi mäter priset för 200 fastigheter istället för 100 så får vi ett säkrare resultat; och om vi mäter priset för 1000 fastigheter istället för 200 så får vi ett ännu säkrare resultat. Men först när vi samlat in data för alla fastighet i regionen så kan vi med säkerhet säga hur höga de genomsnittliga fastighetspriserna är. Den datamängd vi då har kallas för populationen. Populationen är hela den datamängd som krävs för att vi ska få veta sanningen med fullständig säkerhet. Ibland kan vi betrakta populationen som alla enheter av intresse, t.ex. alla fastigheter i huvudstadsregionen. Här är ytterligare två exempel: Exempel: Inför ett presidentval samplar vi 800 personer och frågar hur de tänkt rösta. Målet är att förutspå hur presidentvalet ska sluta. Populationen består då av alla röstberättigade medborgare som utnyttjar sin rösträtt, cirka tre miljoner personer; om vi hade ett datamaterial som täckte alla dessa personer så skulle vi med säkerhet veta hur presidentvalet slutar.

162 Exempel: Ett företag har 1218 anställda. Chefen vill veta hur många sjukdagar dessa tog ut under de 16 dagar som sommar-os pågick år Populationen består då av dessa 1218 anställda; om företaget håller register över alla anställda och deras sjukskrivningar så kan chefen få ett säkert svar på sin fråga. I de här exemplen består populationen av ett visst antal personer (alla som röstar, alla anställda). Men ibland kan populationen vara lite svårare att ta på än så. Som följande tre exempel visar så kan en population också vara oändligt stor: Exempel: En tärning i Las Vegas tros vara riggad så att den ger för många sexor. Vi vill testa detta och kastar tärningen 1000 gånger. Dessa 1000 kast är nu vårt sampel. Hur många kast krävs det innan vi med säkerhet kan säga om tärningen är riggad eller inte? Det finns ingen övre gräns. Ytterligare ett kast skulle alltid kunna lära oss lite mer. Populationen är i detta fall oändlig. Exempel: Vi vill ta reda på hur en viss medicin påverkar levervärdena hos möss. Vi testar medicinen på ett tiotal möss och uppmäter något försämrade levervärden. Detta betyder naturligtvis inte att vi nu har det fullständiga svaret. Hur många experiment måste vi göra förrän vi vet sanningen om medicinens effekt på levervärdena hos möss? Det finns ingen övre gräns. Ytterligare ett experiment skulle alltid kunna göra oss lite klokare. Också i detta exempel kan populationen ses som oändligt stor, och dessutom hypotetisk; just nu existerar det bara ett ändligt antal möss. (Men sett över tid så kommer det naturligtvis finnas en ständig ström av nya möss som vi hypotetiskt sett kunde experimentera med.) Exempel: I ett aktiebolag är 8 av 20 styrelsemedlemmar kvinnor, trots att företaget anställer lika många män som kvinnor. Vilken slutsats kan vi dra av detta? Jo, vi kan med säkerhet säga att 40 procent av styrelsemedlemmarna är kvinnor. Om vårt mål är att ta reda på om kvinnor är underrepresenterade i företagets styrelse så besvarar detta vår fråga; populationen är då dessa 20 personer. Men låt oss säga att vi vill veta om kvinnor är systematiskt underrepresenterade: Finns det en underliggande process som tenderar att resultera i en skev könsfördelning i styrelsen? I så fall räcker det inte att veta att 8 av 20 är kvinnor; en sådan skillnad kan vara en ren tillfällighet (förra året kanske 12 av 20 var kvinnor). Det vi då egentligen vill veta är hur stor

163 andel av styrelsemedlemmarna som skulle vara kvinnor sett över långa loppet. Som de här exemplen visar så kan en population vara oändligt stor och till och med hypotetisk. Men vi kan ändå tänka oss att det finns en underliggande sanning som vi försöker lära oss om. Hur stor är medicinens sanna genomsnittliga effekt på levervärdena? Faller kvinnor systematiskt bort i valet av styrelsemedlemmar? Estimat kontra parameter Hittills har vi lärt oss om hur man beskriver sampel. Vi har använt mått såsom medelvärdet, variansen, korrelationer och regressioner. Nu ska vi introducera en ny idé; att alla dessa mått egentligen används för att uppskatta det sanna medelvärdet, den sanna variansen, den sanna korrelationen eller den sanna regressionslinjen, dvs. motsvarande mått i populationen. Vi kallar då de olika måtten i samplet (t.ex. samplets medelvärde) för ett estimat vilket är ett annat ord för en uppskattning. Det sanna värdet kallas för en parameter (t.ex. det sanna medelvärdet). Ofta använder man vanliga bokstäver för att beteckna estimat, medan man använder grekiska bokstäver för att beteckna parametrar. Tabellen nedan visar detta. Men det finns också undantag; proportionen i ett sampel betecknas oftast med p medan den sanna proportionen brukar betecknas med p. Mått Sampel: Estimat Population: Parameter Uttalet för de grekiska bokstäverna Medelvärde x μ my Proportion p p Standardavvikelse s σ sigma Varians s 2 σ 2 Korrelation r ρ rho Regression a, b (y = a + bx) α, β alfa, beta Det som kännetecknar ett estimat är att det varierar från ett sampel till ett annat. Exempel: Om vi mäter det genomsnittliga priset för 100 fastigheter i huvudstadsregionen så är detta ett estimat; drar vi ett nytt urval fastigheter så kommer vi att få ett annat estimat. Det som kännetecknar en parameter är att den

164 har ett konstant värde. Det genomsnittliga priset för alla fastigheter i huvudstadsregionen är ett exempel på en parameter. En parameter kan alltså inte ha olika värden beroende på vilka fastigheter vi råkar sampla eller beroende på utfallet i ett experiment; parametern beskriver ju en underliggande sanning. Ibland när man bara talar om ett medelvärde eller en varians så kan det vara oklart om man avser estimatet eller parametern. Därför använder man ibland prefixet stickprovs- för estimat (stickprovsmedelvärdet, stickprovsvariansen,...). När man beskriver parametrar så kan man använda prefixet populations- (populationsmedelvärde, populationsvarians,...). Populationsmedelvärdet brukar dessutom ofta benämnas väntevärdet eller det förväntade värdet. Övningsuppgifter: Se här. 8.2 HYPOTESPRÖVNING Du får höra att en ny studie visar att kvinnor i snitt kan hålla andan en minut längre än män. Kan det verkligen stämma? Låt oss säga att du nu får veta att enbart tre män och tre kvinnor ingick i den här studien. Du ser, det förklarar saken. När vi jobbar med sampel så finns det alltid en möjlighet att det mönster vi ser i data bara beror på slumpen; att skillnaden mellan könen inte är verklig. I det här kapitlet ska vi se hur vi kan ta ställning till om ett visst mönster i data är verkligt eller inte; kan mönstret bortförklaras av slumpen? Nedan visas ett spridningsdiagram som representerar populationen eller sanningen. Vi har också ritat in populationens regressionslinje i diagrammet. Som du ser så är korrelationen mellan variablerna noll, ρ = 0. Ett annat sätt att säga samma sak är att populationens regressionslinje har lutningen 0: β = 0.

165 Nedan visas fyra spridningsdiagram med regressionslinjen utritad. Alla dessa sampel består av 100 observationer dragna från populationen ovan; en population där korrelationen är noll. Detta var de första fyra sampel jag råkade dra, och alla mönster som vi ser i dessa spridningsdiagram beror på slumpen. Här är något att tänka på: När du mäter korrelationen mellan två variabler i ett sampel så får du i princip aldrig en nollkorrelation, även då korrelationen mellan variablerna är noll i populationen. Varför? Av samma orsak som två stickprovsmedelvärden i princip alltid skiljer sig från varandra även om du drar samplen från samma population. Att två variabler korrelerar bevisar därför ingenting i sig självt. Att regressionslinjen lutar uppåt är på samma sätt inget bevis för att det faktiskt skulle finnas ett

166 positivt samband mellan variablerna. Först när detta mönster blir tillräckligt tydligt, så tydligt att det inte kan bortförklaras av slumpen, kan vi påstå att sambandet är verkligt. Här kan du testa din intuition. Nedan visas fyra spridningsdiagram (A, B, C och D). Två av de mönster som vi ser i figurerna nedan skulle mycket väl kunna bortförklaras av slumpen medan detta inte gäller för de andra två. Vilka två är detta? Om ditt svar är A och C så har du tänkt rätt. Mönstren i figur B och D skulle kunna skyllas på slumpen och de facto är detta också förklaringen; dessa sampel är dragna från populationer där korrelationen är noll. Detta gäller dock inte spridningsdiagram A och C. När vi säger att mönstret i figur A och C inte kan bortförklaras av slumpen så är detta en sanning med modifikation. Alla mönster i data kan bero på slumpen. Men så pass tydliga samband som vi ser i figur C får man av slumpen enbart i 15 fall på en miljon försök. Vi har med andra ord ett mycket starkt stöd för att påstå att det här sambandet är verkligt; den andra möjligheten är att vi har råkat dra ett av de där 15 samplen en försvinnande liten möjlighet. Man säger då att sambandet är statistiskt signifikant eller statistiskt säkerställt; vi har så att säga säkerställt att sambandet i data är verkligt. Oftast kräver vi dock inte såhär pass starka bevis; generellt gäller att vi kallar

167 ett samband för signifikant om det hör till de 5 procent allra extremaste samband man kan få bara av slumpen. Ett exempel ges i spridningsdiagrammet nedan. Kan det här sambandet bortförklaras av slumpen? Nja, inte så lätt. Det här sambandet hör nämligen till de 2 procent extremaste samband som man kan få bara av slumpen. (Och eftersom det hör till de 2 procent extremaste så hör det också till de 5 procent extremaste.) Detta tyder på att mönstret i data är verkligt och vi skulle kalla sambandet för signifikant eller statistiskt säkerställt. I det här skedet så kan det vara bra att fundera lite mer på vad vi menar med ett extremt samband, och hur vi kan mäta hur pass extremt ett visst samband är. För att göra detta så använder vi oss av test-statistikor. Test-statistikor En statistiska är ett samlingsnamn för alla mått som räknas utifrån observationerna i ett sampel. Stickprovsmedelvärdet är ett exempel på en statistiska (medan populationsmedelvärdet inte är det). En test-statistika är också ett mått som räknas utifrån observationerna i ett sampel. Vi kan tänka på en teststatistika som ett slags index som visar hur extremt ett visst sampel är. Test-statistikor kommer i lite olika varianter, men den mest använda är t-statistikan. T-statistikan antar allt större värden, positiva eller negativa, ju tydligare ett samband blir i data, dvs. ju svårare det blir att skylla sambandet på slumpen.

168 50 y Se spridningsdiagrammet nere till vänster. Här är korrelationen 0,002 och regressionslinjen har lutningen 0,001. Det mycket svaga samband som vi ser i det här samplet skulle mycket väl kunna skyllas på slumpen. T-statistikan har därför ett värde nära noll: t 0,0. (Eller kortare: T-värdet är nära noll.) I diagrammet till höger har vi motsvarande situation. Här har vi ritat upp data för två grupper (x = 0 och x = 1). Gruppernas medelvärden är 99,72 och 99,73. Den här hårfina skillnaden skulle mycket väl kunna skyllas på slumpen; t-värdet är också här nära noll, t 0,0. Ju svårare det är att bortförklara ett mönster i data med slumpen, desto mer avviker t-värdet från noll. Vi får stora positiva t-värden för tydliga och positiva samband; vi får stora negativa t-värden för tydliga och negativa samband. I spridningsdiagrammen nedan antar t-statistikan successivt allt större positiva värden: t = 2, x

169 y t = 3, x I spridningsdiagrammen nedan ser vi två tydliga och negativa samband; t-värdet är -5,0: I princip finns det ingen gräns för stort värde t-statistikan kan anta (positivt eller negativt). Se samplet nedan. Det består av observationer och korrelationen mellan variablerna är 0,99. Det här är ett mycket tydligt samband som svårligen kan skyllas på slumpen (vi skulle få dra biljontals och åter biljontals sampel innan vi fick ett såhär pass tydligt samband bara av slumpen). Här är t-värdet 2220.

170 Man kanske kan få intrycket av att t-värdet är direkt knutet till storleken på korrelationskoefficienten eller regressionslinjens lutning. Detta är också riktigt, men det är inte hela historien. Jämför spridningsdiagrammen nedan. Bägge har samma korrelation och samma regressionslinje (r = 0,37; b = 0,40) men t-värdet är betydligt större i spridningsdiagrammet till höger, dvs. det är svårare att skylla det här sambandet på slumpen. Skillnaden mellan spridningsdiagrammen är samplets storlek; i diagrammet till vänster har vi 30 observationer; i diagrammet till höger har vi 300. Det här är också naturligt; om vi bara har ett fåtal observationer så är det lättare hänt att vi får ett ganska starkt samband bara av slumpen. Exempel: Sover man mindre om man jobbar mycket? Spridningsdiagrammet nedan visar sambandet mellan jobb och sömn för ett sampel bestående av 706 amerikaner år Regressionslinjen ges av: sömn = ,15 jobb, där sömn och jobb mäts i minuter per vecka: Då arbetstiden ökar med en minut så minskar nattsömnen i snitt med 0,15 minuter.

171 Vi ser att det här är ett tydligt samband; det verkar i det närmaste omöjligt att få ett såhär pass tydligt samband i data bara av slumpen. T-värdet är därför -9,0; ett värde som avviker mycket från noll. Om vi kör den här regressionen i ett statistiskt programpaket så hittar vi t-värdet i kolumnen t, på raden för variabeln jobb: Som du ser finns det också ett annat t-värde i den här tabellen (92,17). Det här t-värdet är dock helt ointressant om vårt syfte är att ta reda på om sambandet mellan jobb och sömn är statistiskt signifikant. t-värdet av intresse hittas på raden för x-variabeln av intresse (jobb). Hur t-värdet beräknas T-värdet mäter effektens storlek men uttryckt i en annorlunda enhet. Vi uttrycker den nämligen i standardfel: t-värdet = effekten uttryckt i standardfel

172 Så vad är ett standardfel? Ett standardfel är en standardavvikelse, men en speciell sorts standardavvikelse. Vi ser detta bäst genom ett exempel: Se observationerna nedan. Här är standardavvikelsen ~0,57. 1,2 1,5 0,6 1,0 1,9 0,4 2,0 1,3 Men anta nu att dessa åtta värden är åtta koefficienter (b) från åtta regressioner som alla mäter samma samband. Orsaken till att koefficienterna har olika värden är att regressionerna är gjorda på åtta olika sampel. Standardavvikelsen (0,57) kallas då för ett standardfel för b. Standardfelet för b visar hur mycket koefficienten varierar från ett sampel till ett annat då vi drar upprepade sampel, givet någon viss sampelstorlek. Ett stort standardfel betyder att koefficienten kastar mycket från ett sampel till ett annat; ett litet standardfel betyder att koefficienten är relativt stabil. Standardfelet kan därför ses som ett mått på osäkerheten i uppskattningen av den sanna effekten, β. I praktiken har vi bara tillgång till ett sampel, vilket betyder att vi bara har en koefficient (b). Men det går också att beräkna standardfelet enbart utifrån ett sampel, dvs. vi kan använda samplet för att uppskatta hur mycket koefficienten skulle variera från ett sampel till ett annat om vi hade dragit upprepade sampel. En viktig ingrediens är samplets storlek; ju större sampel desto lägre standardfel (allt annat lika). Eller med andar ord: Ju större sampel desto stabilare koefficient från ett sampel till ett annat; om vi bara har ett fåtal observationer så är det lätt hänt att koefficienten kastar mycket från ett sampel till ett annat. Man kan beräkna standardfel för vilka estimat som helst, och inte enbart för regressionskoefficienter. Principen är alltid densamma; standardfelet mäter hur mycket estimatet varierar från ett sampel till ett annat. Standardfelet för ett stickprovsmedelvärde mäter alltså hur mycket stickprovsmedelvärdet varierar från ett sampel till ett annat (givet någon viss sampelstorlek). Exempel forts: Tidigare tittade vi på sambandet mellan jobb och sömn:

173 Effekten av jobb är -0,1507 minuter eller -9,0 standardfel (t = - 9,0). Vi får t-värdet genom att dela effekten (-0,1507) med standardfelet (0,0167). I tabellen ovan är Std Err. kort för Standard error, dvs. standardfelet. I en multipel regression får vi t-värden på motsvarande sätt. Anta nu att vi ännu kontrollerar för kön (dummyn man som antar värdet 1 för män och värdet 0 för kvinnor): Effekten av jobb är nu -0,1682 minuter eller -9,35 standardfel (t = -9,35). T-värdet fås genom att dela effekten (-0,1682) med standardfelet (0,0180). På motsvarande sätt ser vi att effekten av man är 88,8 minuter eller 2,58 standardfel. Exempel: Är brottslingar dummare än befolkningen överlag? Vi låter 120 brottslingar göra ett intelligenstest. Intelligenstestet är konstruerat så att det har ett genomsnittligt värde på 100 i befolkningen överlag, µ = 100. Bland brottslingarna är den genomsnittliga intelligensen 96,0 poäng, och standardfelet för medelvärdet är 1,46 poäng. Brottslingarna har alltså i snitt presterat 4 enheter sämre än befolkningen överlag ( = -4). Men är det här en

174 signifikant skillnad? Eller skulle den kunna skyllas på slumpen? I det här fallet är effekten -4 poäng eller -2,74 standardfel, dvs. t = - 4/1,46-2,74. Ett t-värde på -2,74 räknas som ganska högt (absolut sett). Men är det tillräckligt högt för att skillnaden ska vara signifikant? Vi ska nu se närmare på den frågan. P-värden Vi kallar ett samband för signifikant om sambandet hör till de 5 procent allra extremaste samband som man kan få bara av slumpen. Vi använder test-statistikor för att mäta hur extremt ett samband är i det här avseendet. T-statistikan antar allt större värden (positiva eller negativa) ju svårare det att skylla sambandet på slumpen. Men hur stort värde bör t-statistikan anta för att sambandet ska kallas för signifikant? Jo, större än +2 eller mindre än -2. Om vi mäter ett samband och får ett t-värde på 2 (eller -2) så säger vi att p-värdet är 0,05: Sambandet hör till de 5 procent mest extrema samband som man kan få bara av slumpen. Ju större t-värde (positivt eller negativt) desto lägre p-värde. Om vi mäter ett samband och får ett t-värde på 3,0 så betyder det att p-värdet är ungefär 0,003: Sambandet hör då till de 0,3 procent mest extrema samband som man kan få bara av slumpen. Sambandet är med andra ord statistiskt signifikant. När vi säger att t-värdet ska bli mindre än -2 eller större än +2 för att sambandet ska kallas signifikant så är detta en approximation. För stora sampel (~1000 observationer och uppåt) så ligger dessa gränser vid -1,96 och +1,96. För mindre sampel ( observationer) så ligger gränserna närmare -2 och +2. Gränserna varierar alltså med samplets storlek men närmar sig -1,96 och +1,96 då samplet blir allt större. Eller med anda ord: För ett stort sampel så betyder redan ett t-värde på 1,96 att p-värdet är 0,05. För ett mindre sampel så krävs det ett t-värde på 2,0 för att p- värdet ska bli 0,05.

175 För att få en bättre känsla för vad ett p-värde mäter så ska vi se på ett simuleringsexempel: Nedan visas ett spridningsdiagram som representerar populationen eller sanningen. Den sanna korrelationen är noll (ρ = 0) och regressionslinjen har lutningen noll (β = 0). Vi drar nu ett sampel från den här populationen. Samplet visas i spridningsdiagrammet nedan och består av 100 observationer. t- värdet är -0,25. Vi upprepar nu detta experiment: Vi drar ytterligare ett sampel (100 observationer) och får ett nytt t-värde, denna gång 0,12. Och vi slutar inte här. Vi drar ett tredje sampel (100 observationer) och räknar ut ett tredje t-värde som blir -0,54. Så här kan vi fortsätta och dra ett sampel efter ett annat (alltid 100 observationer) och räkna ut nya t-värden för varje sampel. Här visas t-värdena från de första 10 samplen: -0,25 0,12-0,54-0,58-1,41-0,71 1,24 0,12 1,44-1,40

176 Men vi stannar inte heller här. Totalt drar vi sampel och räknar ut t-värden. Ett utdrag visas i tabellen nedan: Sampel # t-värde 1-0,25 2 0,12 3-0,54 4-0,58 5-1, , , ,03 Här har vi ritat upp fördelningen för alla t-värden i ett histogram: I ~95 procent av fallen har t-värdet hamnat någonstans mellan -2 och +2. Eller med andra ord: När sanningen är att det inte finns något samband mellan två variabler så får vi ett t-värde någonstans mellan -2 och +2 i 19 fall av 20 i långa loppet; i 1 fall på 20 får vi ett t-värde utanför detta intervall. I sällsynta fall får vi t-värden som är extra stora (positiva/negativa). Ett av dessa sampel gav exempelvis ett t-värde på 3,0. Vi har ritat upp detta sampel i spridningsdiagrammet nedan:

177 Hur ovanligt är det att få ett så här pass tydligt samband i data bara av slumpen? Kanske ovanligare än man skulle gissa. Histogrammet nedan visar att detta enbart hänt i några enstaka fall; av alla sampel så är det totalt 34 som resulterat i ett t-värde på mindre än -3 eller större än +3. Med hjälp av en dator kan vi räkna ut den exakta sannolikheten; chansen för att få ett sampel där t-värdet blir mindre än -3 eller större än +3 är 0,3 procent. För det här samplet säger vi att p-värdet är 0,003: Detta samband hör till de 0,3 procent extremaste samband som man kan få bara av slumpen. Ju lägre p-värde desto starkare stöd har vi för att påstå att sambandet i data är verkligt. Och när p-värdet blir mindre än 0,05 så kallar vi sambandet för signifikant. Relationen mellan t-värdet och p-värdet

178 p-värdet Relationen mellan t-värdet och p-värdet är inte helt enkel. Som vi har sett så betyder ett t-värde på 2,0 att p-värdet är ~0,05 men detta varierar också lite beroende på samplets storlek. Figuren nedan visar relationen mellan t-värdet och p-värdet; det att kurvan på sina ställen är lite tjockare reflekterar det att p-värdet kan variera något beroende på samplets storlek. 1 Relationen mellan t- och p-värdet 0,8 0,6 0,4 0, ,5 1 1,5 2 2,5 3 3,5 Absolutbeloppet av t-värdet För normalstora sampel (~100 observationer och uppåt) så gäller: Absolutbeloppet av t-värdet p-värdet t > 1,7 p < 0,1 t > 2,0 p < 0,05 t > 2,7 p < 0,01 t > 3,4 p < 0,001 Exempel: Tidigare tittade vi på hur nattsömn (sömn) varierar med arbetstid (jobb) och kön (man):

179 Vi ser att männen i data i snitt sover ~89 minuter längre än kvinnorna (kontrollerat för arbetstid). Men är skillnaden mellan könen signifikant? Ja, t-värdet är 2,58 vilket är större än 2; p- värdet är alltså mindre än 0,05. Från tabellen ovan ser vi att p- värdet egentligen är 0,010 (se kolumnen P > t ). Det här sambandet hör alltså till de 1 procent extremaste som man kan få bara av slumpen. Vi har då ett starkt stöd för att påstå att sambandet är verkligt. Exempel forts. I samma dataset finns också information om personernas religiösa bakgrund (dummyn protestant som antar värdet 1 för protestanter och värdet 0 för övriga). Sover protestanter längre än andra religiösa grupper? Ja, i vårt sampel sover protestanterna i snitt ~26 minuter längre (se utskriften nedan). Men skillnaden är inte signifikant. T-värdet är 0,72 vilket ger ett p-värde på 0,471. Det här sambandet hör alltså till de ~47 procent extremaste som man kan få bara av slumpen. Det här sambandet är alltså inte särskilt extremt alls. De facto ser det här samplet precis ut så som man kunde förvänta sig om protestanter och övriga egentligen sover exakt lika länge i genomsnitt. Vi säger då att sambandet är insignifikant. Varför 5 procent? Om p-värdet blir mindre än 0,05 så kallar vi ett samband för signifikant. Men varför dra gränsen vid just 5 procent? Det finns faktiskt ingen bra orsak. 5 procent har blivit en tradition, men det är mer eller mindre en godtyckligt vald gräns; det finns ingen kvalitativ skillnad mellan ett p-värde på 0,051 och ett p-värde på 0,049. Om man vill vara lite mer nyanserad så kan man istället tala om att något är signifikant på en viss nivå:

180 - Sambandet är signifikant på 10-procentsnivån p-värdet mindre eller lika med 0,1. - Sambandet är signifikant på 5-procentsnivån p-värdet mindre eller lika med 0,05. - Sambandet är signifikant på 1-procentsnivån p-värdet mindre eller lika med 0,01. Ibland talar man också om att ett samband är på gränsen till signifikant (engelska: borderline significant) vilket betyder att p- värdet ligger någonstans mellan 0,05 och 0,1. Noll- och mothypotes Det här delkapitlet har titeln Hypotesprövning. Det vi har gjort här är att vi testat hypoteser, men vi har egentligen aldrig hänvisat till dem mer direkt. Så vilka är dessa hypoteser? När vi mäter ett samband i data så finns det alltid två möjligheter: Antingen så finns det inget egentligt samband och det samband vi ser i data beror på slumpen. Eller så är sambandet verkligt. Vi kallar dessa två motstridiga möjligheter för noll- och mothypotesen: Nollhypotesen: Inget samband (ingen effekt) Mothypotesen: Samband (effekt) När vi säger att ett samband är signifikant så kan vi också säga att vi förkastar nollhypotesen : Vi har bra stöd i data för att påstå att nollhypotesen är falsk. När vi säger att ett samband är insignifikant så kan vi också säga att vi inte förkastar nollhypotesen ; nollhypotesen kan vara falsk eller sann men vi har inte tillräckligt med stöd i data för att påstå att den är falsk. Beroende på situation kan vi också uttrycka noll- och mothypotesen ovan på lite olika sätt. På regressionsspråk : Nollhypotesen: β = 0 (den sanna effekten är 0). Om vi mäter sambandet mellan två variabler så är detta samma sak som att säga att ρ = 0 (den sanna korrelationen är 0). Mothypotesen blir då att β 0 eller att ρ 0.

181 Om x-variabeln är en dummy så kunde vi också uttrycka noll- och mothypotesen som följer: Nollhypotesen: Populationsmedelvärdena i de två grupperna är lika stora, μ 1 = μ 0. Mothypotesen blir då att populationsmedelvärdena inte är lika stora, μ 1 μ 0 Vi ska ännu se på ett exempel: Exempel: Är brottslingar dummare än befolkningen överlag? Vi låter 120 brottslingar göra ett intelligenstest. Intelligenstestet är konstruerat så att det har ett genomsnittligt värde på 100 bland befolkningen överlag (µ = 100). Bland brottslingarna är den genomsnittliga intelligensen 96,0 poäng, och standardfelet för medelvärdet är 1,46 poäng. Nollhypotesen: Inget samband (brottslingar är varken dummare eller smartare än folk överlag). Eller med andra ord: Populationsmedelvärdet är också 100 bland brottslingarn, µ b = 100. Mothypotesen blir då att det finns ett samband: µ b 100. I det här fallet blir t-värdet -2,74 och p-värdet blir 0,007. Brottslingarna har alltså signifikant lägre intelligenskvot än befolkningen överlag (0,007 < 0,05). Eller med andra ord: Vi kan förkasta nollhypotesen om att brottslingar har en genomsnittlig IQ på 100. Övningsuppgifter: Se här. 8.3 KONFIDENSINTERVALL Exempel forts. Nyss konstaterade vi att brottslingar har signifikant lägre IQ än befolkningen överlag. Men hur stor är skillnaden? I vårt sampel presterade brottslingarna i snitt 96 poäng på intelligenstestet. Men sanningen kunde ju mycket väl vara att snittet egentligen ligger vid 97 eller 95 poäng. Går det att ringa in sanningen, dvs. visa var det sanna medelvärdet ligger med stor säkerhet? Svaret är ja. Detta är vad konfidensintervall gör.

182 I det här fallet så ges ett 95-procentigt konfidensintervall för µ av: (93,1, 98,9). Det här betyder att sanningen ligger inom intervallet med 95-procentig säkerhet. Eller med andra ord: Brottslingarnas populationsmedelvärde ligger någonstans mellan 93,1 och 98,9 poäng med 95-procentig säkerhet. Vi kan få fram ett ungefärligt 95-procentigt konfidensintervall genom att ta estimatet plus/minus två standardfel. I det här fallet är estimatet 96,0 och dess standardfel är 1,46: Konfidensintervallets nedre gräns: 96,0 2 1,46 93,1 Konfidensintervallets övre gräns: 96, ,46 98,9 Det går att göra upp konfidensintervall för vilka parametrar som helst. Vi ska nu se ett exempel på ett konfidensintervall för populationens regressionskoefficient. Exempel forts. Tidigare såg vi att det fanns ett signifikant samband mellan jobb och sömn. Regressionskoefficienten (b) har värdet -0,151: Då arbetstiden ökar med en minut så minskar nattsömnen med 0,151 minuter. Standardfelet för koefficienten är 0,0167. Ett 95-procentigt konfidensintervall för β ges då av (- 0,184, -0,118), dvs. estimatet plus/minus två standardfel: Nedre gränsen: 0, ,0167 0,184 Övre gränsen: 0, ,0167 0,118 Den sanna effekten (β) ligger alltså någonstans mellan -0,184 och -0,118 med 95-procentig säkerhet. I regressionsutskriften nedan ges konfidensintervallets nedre och övre gränser i kolumnen 95 % Conf. Interval.

183 Det typiska är att göra upp just 95-procentiga konfidensintervall. Men det går också att välja en lägre eller högre konfidensgrad. Ett 90-procentigt konfidensintervall innehåller sanningen med 90- procentig säkerhet; ett 99-procentigt konfidensintervall innehåller sanningen med 99-procentig säkerhet. Så varför inte alltid rapportera 99-procentiga konfidensintervall (dessa är ju säkrare)? Kostnaden är intervallets bredd; ju större säkerhet desto bredare intervall. Ett 100-procentigt konfidensintervall är på det viset helt meningslöst; det skulle innefatta alla möjliga värden för parametern. Är konfidensintervall alltid symmetriska runt estimatet? De konfidensintervall vi sett på hittills har varit symmetriska runt estimatet (vi beräknar ju dem genom att ta estimatet plus/minus två standardfel). Det här gäller alltid då vi gör upp konfidensintervall för populationsmedelvärden eller för koefficienterna i en regression. Men det gäller inte alltid. Ett exempel är konfidensintervall för oddskvoter; dessa är inte symmetriska runt samplets oddskvot. Vi kan alltså inte beräkna dessa genom att ta estimatet plus/minus två standardfel. Men tolkningen är ändå exakt densamma; den sanna oddskvoten ligger inom intervallet med stor säkerhet. Övningsuppgifter: Se här. 8.4 ANTAGANDEN I vetenskapssammanhang pratar man ibland om the black box bakom ett fenomen. Med det menar man att man vet att något funkar (att en viss policy har effekt; att en viss medicin gör folk friska; att romarriket gick under för cirka 1500 år sedan) men att det är oklart varför. Svaret på frågan varför ligger så att säga i en svart låda. Det här kapitlet har knappt alls berört den svarta lådan bakom statistisk inferens. Vi har bara sagt att det är såhär det funkar, men väldigt lite om varför. Här är några av de större

184 frågorna som vi zappat förbi: Hur räknar vi ut ett populationsmedelvärde eller en sann regressionslinje? Och i synnerhet: Hur räknar vi ut dessa mått om vi har en oändligt stor population? (Jo, det går!) Varför funkar t-statistikan? När har man intresse av andra test-statistikor? Varför är konfidensintervall symmetriska runt estimatet (för det mesta)? Vi kommer att se på dessa frågor och flera andra under kommande kapitel; vi ska så att säga ta oss tid att öppna den svarta lådan. Men det finns en sak som är värd att diskutera redan nu: Allting är approximationer. Då vi gör ett statistiskt test så spottar datorn ut ett p-värde och ett konfidensintervall. Men dessa är ungefärliga. Säg att vi får ett p-värde på 0,046. Det är då mycket möjligt att p-värdet egentligen borde vara 0,0463. Och när vi gör upp ett konfidensintervall så heter det att sanningen ligger inom intervallet med 95-procentig säkerhet. Men det är mycket möjligt att sanningen egentligen ligger inom intervallet med 94,6-procentig säkerhet. De p-värden och konfidensintervall som datorn spottar ut är ungefärliga. (För att vara korrekt; det finns också så kallade exakta tester som ger exakta p-värden. Men det är ganska sällan som vi har tillfälle att använda dessa.) Varför är våra tester och konfidensintervall ungefärliga? Jo, de bygger på vissa antaganden. (Vi ska inte gräva ner oss i dessa nu, men i det här skedet är det bra att veta att de finns.) Om vi synar dessa antaganden i sömmarna med en matematisk stränghet så kommer vi att märka att de faktiskt aldrig är hundraprocentigt uppfyllda. Det här kan låta illa, men är inte så farligt som det låter; det har sällan någon praktisk betydelse att datorn ger ett p- värde på 0,047 fastän det egentligen borde vara 0,0467. Men säg att vi får ett p-värde på 0,047 fastän det egentligen borde vara 0,200. Det skulle ha praktisk betydelse. Kan det bli så pass fel? Svaret är ja. Så nu blir frågan: När blir det såhär fel? Jo, alla de tester vi tittat på hittills bygger på antagandet om att vi har oberoende dragningar. Det är i synnerhet då detta antagande inte stämmer som det kan gå riktigt fel. Så vad menas då med oberoende och beroende dragningar? Vi ser detta bäst genom ett exempel: Exempel: Den svenska reality-såpan FCZ bygger på idén om att nördar är dåliga fotbollsspelare. Programmet går ut på att en känd fotbollsspelare tränar med ett gäng nördar och i slutet

185 spelar de en match mot Djurgården. Men är nördar dåliga fotbollsspelare? Kanske ligger det något i det. Vi har experimenterat med att låta nördar och övriga skjuta mot ett mål på 30 meters avstånd. Data visar antalet träffar (1) och missar (0): Nördarna: 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1 Övriga: 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0 Bland nördarna har vi 2 träffar av 22. Bland övriga har vi 11 träffar av 22. Detta ser definitivt ut som en signifikant skillnad. Men låt oss nu säga att bland nördarna var alla skott förutom ett gjorda av Pelle (här utmärkt i rött): Nördarna: 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1 Övriga: 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0 Vi ser nu att det är fel att påstå att nördar är sämre på fotboll. Snarare visar experimentet att Pelle är dålig på fotboll. Det här visar vad som menas med beroende mätningar; att Pelle skjutit de första 21 skotten gör dessa mätningar beroende, dvs. de hänger ihop. I det här exemplet känner vi kanske intuitivt på oss att det är fel att behandla detta datamaterial precis på samma sätt som om alla Pelles skott vore skjutna av olika personer. Men ibland är det inte lika uppenbart. Tänk dig istället följande situation. Skotten är skjutna av olika nördar, men om en person träffar så höjer detta stämningarna så att nästa sannolikt också träffar; om en däremot missar så sänker detta stämningarna så att nästa sannolikt också missar. Data för nördarna kunde då se ut såhär: Nördarna: 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0 Återigen har vi beroende mätningar; observationerna hänger ihop; utfallet på ett skott hänger samman med utfallet på föregående. Det fenomen som vi ser här är något som ofta karaktäriserar tiddseriedata (exempel: försäljningen ett år hänger samman med försäljningen föregående år). Då vi jobbar med tvärsnittsdata så finns det i synnerhet ett tillfälle då dragningarna tenderar vara beroende. Detta inträffar då vi har dragit ett klustrat sampel. Klustrade sampel fås genom att först sampla grupper och därefter ta med alla (eller ett urval)

186 enheter från varje grupp. Exempel: Vi vill studera lönenivåer bland industriarbetare. Först samplar vi ett antal företag inom branschen och därefter tar vi med alla (eller ett urval) arbetare från varje samplat företag. Exempel: Vi vill mäta hur mattebetyg varierar med lärarens arbetserfarenhet. Först samplar vi ett antal klasser och därefter tar vi med eleverna från varje samplad klass. Exempel: Vi vill undersöka graden av läskunnighet bland invånarna i en afrikansk stam. Först väljer vi slumpmässigt ut ett antal byar; därefter samlar vi in data för personerna i de samplade byarna. Figuren nedan illustrerar varför vi generellt sett inte kan behandla klustrade sampel på samma sätt som om vi valt personerna helt slumpmässigt. Vi kan tänka oss att rutfälten nedan representerar en stad bestående av 25 stadsdelar. Figuren till vänster representerar ett slumpmässigt sampel av stadsborna. I figuren till höger har vi istället slumpmässigt valt ut fem stadsdelar och därefter samlat in data för personerna i de samplade stadsdelarna. Bägge samplen består av 60 observationer, men det slumpmässiga samplet är mer representativt för staden i sin helhet. Det är som om det klustrade samplet egentligen innehöll färre observationer än det gör. Om vi inte beaktar detta så blir resultaten från de statistiska testerna missvisande. När vi säger att det är ett antagande att vi har oberoende dragningar, så vore det kanske korrektare att säga att detta är ett antagande som vi gör när vi använder default-funktionerna på statistiska programpaket. Man gör alltså inget statistiskt fel om man drar ett klustrat sampel, men då måste man också beakta samplingstrategin. Hur detta går till i praktiken lämnar vi dock till senare.

188 Kapitel 9: ATT BESKRIVA POPULATIONEN Tidigare har vi lärt oss hur man beskriver sampel. Vi har till exempel använt frekvenstabeller och frekvensdiagram, medelvärden och standardavvikelser, korrelationer och regressioner. Syftet är att estimera motsvarande egenskaper hos populationen. Så nu blir frågan: Hur räknar vi egentligen ut dessa mått i populationen? Och i synnerhet: Hur räknar vi ut dem hos oändligt stora populationer? Då populationen är ändlig så är uppgiften relativt enkel; populationen är ju som ett sampel bara större. Nedan visas ett exempel. Exempel: Ett företag har 1200 anställda. Chefen vill veta hur många sjukdagar dessa tog ut under de 13 vardagar som sommar-os pågick år Populationen består då av dessa 1200 anställda. Frekvenstabellen nedan visar hur många av dessa som var sjuka 0 dagar, 1 dag, 2 dagar,..., 9 och 13 dagar. (Ingen var sjuk 10, 11 eller 12 dagar.) Sjukdagar Antal arbetare I genomsnitt var arbetarna sjuka 1,02 dagar. Medianen är 0 dagar och typvärdet är också 0 dagar. Hur stor är variansen? Vi får populationsvariansen som: σ 2 = (x i μ) 2 N

189 där μ betecknar populationsmedelvärdet och N betecknar antalet individer i populationen. I detta exempel blir variansen 5,3096 och populationens standardavvikelse blir då kvadratroten ur detta, eller ~2,30 dagar. Notera här att vi delar med N då vi räknar ut populationsvariansen. Då vi räknar ut sampelvariansen så delar vi istället med n-1. Varför? Jo, genom att dela med n-1 så ser vi till att sampelvariansen inte varierar systematiskt i storlek beroende på hur många arbetare vi samplar (se från minut 5 här). Populationen varierar ju dock inte i storlek, och då brukar man istället dela med N. På motsvarande sätt delar vi också med N när vi räknar ut kovariansen utifrån populationsdata. Förutom denna justering så beskriver vi populationen på samma sätt som samplet; om vi har data för hela populationen så kan vi räkna ut korrelationer och göra regressioner på exakt samma sätt som tidigare. Givet att populationen är ändlig vill säga. Men här kommer kruxet: Om populationen är oändligt stor så kan vi inte räkna frekvenser (antal arbetare) eller beräkna medelvärden genom att summera över ett oändligt antal observationer. Vi behöver därför ett nytt sätt att tänka kring populationsfördelningar. I det här kapitlet så ska vi se att alla populationer, ändliga som oändliga, kan beskrivas med hjälp av sannolikhetsfördelningar. För att lära oss om dessa så ska vi börja med att se vad en stokastisk variabel är.

190 9.1 STOKASTISKA VARIABLER En stokastisk variabel är en variabel som antar olika värden beroende på hur ett slumpmässigt försök utfaller. Utfallet på ett tärningskast är ett exempel på en stokastisk variabel. Det slumpmässiga försöket går då ut på att kasta tärningen. Vi kallar detta för ett slumpmässigt försök eftersom vi inte vet vad som ska hända på förhand, utan tärningen kan stanna på ett av flera olika utfall (1, 2, 3, 4, 5 eller 6). Den här mängden möjliga utfall kallas för utfallsrummet. Ofta betecknar man stokastiska variabler med stor bokstav (t.ex. X, Y eller Z) och utfallet med liten (x, y, z). Exempelvis kan vi använda X som beteckning för det okända utfallet på ett tärningskast, där utfallsrummet ges av x = 1, 2, 3, 4, 5, 6. Det kan här vara en idé att jämföra med variabler från matematiken. Där använder vi också X, Y och Z som beteckningar för variabler, där en variabel är ett okänt värde, till exempel lösningen till en ekvation. En stokastisk variabel X är också en beteckning för ett okänt värde, men det här värdet är okänt eftersom vi inte ännu utfört det slumpmässiga försöket; det är ännu oklart vilket utfall tärningskastet kommer att resultera i. För att få en bättre känsla för begreppet så ska vi ännu se på några exempel: Exempel: Året är 2012 och det är en månad kvar till presidentvalet. Det står mellan två kandidater: Pekka Haavisto och Sauli Niinistö. Vi vill förutspå hur presidentvalet kommer att sluta och frågar en slumpmässigt utvald person hur denna tänkt rösta. Innan vi frågat så vet vi förstås inte vad personen kommer att svara. Låt oss använda X som beteckning för det okända svaret. Vi kunde till exempel ge de möjliga svarsalternativen värdena 0 (för Sauli) och 1 (för Pekka). X är då en stokastisk variabel. Anta nu att vi frågar 100 slumpmässigt utvalda personer hur de tänkt rösta, och räknar ut hur stor procent som tänker rösta på Pekka. Innan vi frågat personerna så är det förstås oklart hur stor denna procent kommer att bli. Låt oss använda P som beteckning för den okända procenten. P är också ett exempel på en stokastisk variabel; slumpen avgör hur stor denna procent blir beroende på vilka 100 personer vi råkar fråga. Hur ser utfallsrummet ut för den variabeln? En möjlighet är att ingen tänkt rösta på Pekka: p = 0. En annan möjlighet är att 1 av 100 tänkt

191 rösta på Pekka: p = 1. En tredje möjlighet är att 2 av 100 tänkt rösta på Pekka: p = 2, och så vidare. Utfallsrummet ges av: p = 0, 1, 2,..., 100. Exempel: Vi vill undersöka effekten av en ny medicin som tagits fram för att sänka kolesterolhalten i blodet. Vi testar medicinen på en person och mäter förändringen i kolesterolhalten. Innan vi gjort mätningen är det naturligtvis oklart hur stor förändringen kommer att bli. Låt oss använda X som beteckning för det okända resultatet. Hur ser utfallsrummet ut för den variabeln? Anta att kolesterolhalten i bästa fall sjunker med 2 millimol per liter och i värsta fall ökar med 2 millimol per liter, och att alla värden däremellan är möjliga. Utfallsrummet ges då av: -2 x 2. Eller säg att vi testar medicinen på 100 personer. Målet är att räkna ut den genomsnittliga förändringen i kolesterolhalten bland dessa personer. Innan vi gjort försöket är det förstås oklart vilket medelvärde vi kommer att få. Det okända medelvärdet, X, är också en stokastisk variabel med utfallsrummet: -2 x 2. Exempel: P = Priset för en Amazon-aktie i morgon. I det här fallet går det slumpmässiga försöket ut på att vänta till i morgon och notera priset. Det här är med andra ord ett försök som vi i praktiken bara kan göra en gång. Men vi kan ändå se på det realiserade priset precis som på utfallet på ett tärningskast; aktien kan anta en rad olika priser och slumpen avgör utfallet (vissa priser lär dock vara mer sannolika än andra). Diskreta och kontinuerliga stokastiska variabler Notera att vi beskrev utfallsrummen på två olika sätt i exemplen ovan. Ibland beskrev vi utfallsrummet som en uppräkning av siffror, t.ex. x = 0, 1 eller x = 0, 1, 2, 3, 4,..., 100. Sen igen beskrev vi utfallsrummet genom ett intervall, t.ex. -2 x 2. Om utfallsrummet är en uppräkning av siffror så kallar vi variabeln för diskret; den kan då bara anta dessa distinkta värden. Om utfallsrummet är ett intervall av värden så är variabeln kontinuerlig; den kan då anta alla värden inom det intervallet, dvs. en kontinuerlig räcka värden. Hur är det då med variabeln P = Priset på en Amazon-aktie i morgon.? Diskret eller kontinuerlig? Strikt taget så är variabeln diskret eftersom aktier bara kan ha vissa distinkta priser (såsom

192 10:00 euro, 10:01 euro, 10:02 euro,...). Ofta beskriver man dock priser som kontinuerliga, dvs. man antar för enkelhetens skull att aktien kan få vilket pris som helst inom något visst intervall, t.ex. p > 0. Övningsuppgifter: Se här.

193 9.2 SANNOLIKHETSFÖRDELNINGEN FÖR EN DISKRET STOKASTISK VARIABEL Vi har sagt att en stokastisk variabel, X, betecknar det okända utfallet på ett slumpmässigt försök. Om vi slumpmässigt väljer ut en person ur befolkningen och frågar vem denna tänkt rösta på i presidentvalet så finns det två möjliga utfall: x = 0 (för Sauli) och x = 1 (för Pekka). Även om det på förhand är oklart vilken kandidat personen tänkt rösta på, så behöver de två möjligheterna förstås inte vara lika sannolika. Vi använder en sannolikhetsfördelning för att beskriva sannolikheten för respektive utfall. Frekvenstabellen nedan visar hur rösterna fördelade sig över de två presidentkandidaterna i valet 2012: Kandidat (x) Röster f(x) Sauli (x = 0) , Pekka (x = 1) , Tabellen ovan visar att ~1,8 miljoner röstade på Sauli och att ~1,1 miljoner röstade på Pekka. Den sista kolumnen i tabellen ovan har titeln f(x), där f(x) betecknar sannolikheten för att en person röstade på kandidat x. Sannolikheten för att en person röstade på Pekka är ungefär 37 procent: f(1) = 0, Vi kan också beskriva den sannolikheten som P(X = 1) = 0, Sannolikheten för att en person röstade på Sauli är ungefär 63 procent: f(0) = 0, eller P(X = 0) = 0, Notera här att sannolikheterna summerar till 1: f(0) + f(1) = 0, , = 1. Det här reflekterar det faktum att alla här röstade på endera kandidaten; sannolikheten för att rösta på Pekka eller Sauli är 1. Detta gäller alla diskreta sannolikhetsfördelningar; sannolikheterna summerar alltid till 1. Exempel: Vi låter X beteckna utfallet på ett tärningskast. Hur ser sannolikhetsfördelningen ut för den variabeln? Anta att tärningen är symmetrisk så att alla utfall är lika sannolika. Vi kan då beskriva sannolikhetsfördelningen: f(1) = 1/6, f(2) = 1/6, f(3) = 1/6, f(4) = 1/6, f(5) = 1/6, f(6) = 1/6 Eller kortare: f(x) = 1/6 där x = 1, 2, 3, 4, 5, 6. Nedan har vi också beskrivit sannolikhetsfördelningen i tabellform och grafiskt:

194 F(x) f(x) x f(x) 1 1/6 2 1/6 3 1/6 4 1/6 5 1/6 6 1/ Sannolikhetsfördelningen för utfallet på tärningskast x Tabellen nere till vänster visar också den kumulativa fördelningsfunktionen, F(x), för utfallet på ett tärningskast. Vi ser till exempel att F(2) = 1/3. Det betyder att sannolikheten är 1/3 för att få en tvåa eller ett mindre värde. F(x) är alltså en beteckning för en sannolikhet; sannolikheten för att få ett värde på x eller mindre. I figuren till höger har vi illustrerat den kumulativa fördelningsfunktionen grafiskt. x f(x) F(x) 1 1/6 1/6 2 1/6 1/3 3 1/6 1/2 4 1/6 2/3 5 1/6 5/6 6 1/ Fördelningsfunktionen för X x Vad är en sannolikhet? För att lära sig statistisk inferens så kommer man långt med en vardagskänsla för sannolikheter. Men vi ska sätta en paragraf på att fundera över vad en sannolikhet egentligen mäter. Vad betyder det när vi säger att sannolikheten för att få en sexa på ett tärningskast är en sjättedel? Jo, det betyder att en sjättedel av kasten resulterar i sexor, sett över långa loppet. Om vi kastar tärningen 100 gånger så kommer andelen sexor antagligen ligga ganska nära en sjättedel; om vi kastar tärningen gånger så kommer andelen sexor antagligen ligga mycket nära en

195 sjättedel, och när vi låter antalet kast gå mot oändligheten så går andelen sexor mot en sjättedel. Den här principen är ett exempel på de stora talens lag. Som en brasklapp i sammanhanget så har man också bekräftat den här lagen experimentellt. J. Kerrich, en krigsfånge under andra världskriget, experimenterade med att kasta mynt under sin tid i fångenskap. Totalt kastade han ett mynt gånger och kunde demonstrera att andelen krona närmade sig 50 procent ju fler kast. Efter kriget publicerade han sina resultat och blev professor i statistik. I dag kan dock var och en, med hjälp av en dator, upprepa experimentet på några få sekunder. I kapitlets Appendix (A.1 Sannolikhetslära) kan du läsa mer om sannolikheter och sannolikhetsregler. Övningsuppgifter: Se här.

196 f(x) f(x) 9.3 SANNOLIKHETSFÖRDELNINGEN FÖR EN KONTINUERLIG STOKASTISK VARIABEL När vi illustrerar sannolikhetsfördelningen för en diskret stokastisk variabel så kan vi använda stolpar: x När vi illustrerar sannolikhetsfördelningen för en kontinuerlig stokastisk variabel använder vi istället kurvor eller linjer: x Kurvan ovan beskrivs av ekvationen: f(x) = 2x/(x 2 +1) 2 där x > 0. Men vad betyder det? Det kan här vara lockande att tänka att f(x) betecknar sannolikheten för att få något visst värde x (detta är ju vad f(x) beskriver i det diskreta fallet). Men så är det inte. När vi jobbar med kontinuerliga variabler så är sannolikheten för att få ett visst värde alltid 0. Sannolikhetsfördelningen, f(x), speglar istället sannolikheten för att få ett utfall i närheten av ett visst värde x. Från figuren ovan ser vi till exempel att sannolikheten för att få ett värde nära 1 är betydligt större än sannolikheten för att få ett värde nära 2 eller nära 3. Vi ska snart återkomma till tolkningen av sannolikhetsfördelningen, f(x). Men först ska vi fundera på varför sannolikheten för att få ett visst värde alltid är 0 då variabeln är kontinuerlig. Vi ser detta bäst genom ett exempel:

197 Exempel: Du har glömt när bussen går från en viss hållplats, men du vet att den kommer religiöst var tionde minut. När du ställer dig på busshållplatsen vet du bara att du kan få vänta mellan 0 och 10 minuter, och att alla väntetider i det intervallet är möjliga (till exempel 0 minuter, 2 minuter, 8, minuter eller π = 3,14259 minuter). Hur stor är sannolikheten för att du inte behöver vänta alls? Anta först att sannolikheten för att bussen anländer inom den första minuten är lika stor som sannolikheten för att bussen anländer inom den andra minuten eller inom något annat intervall på en minut, t.ex. mellan 0,1 och 1,1 minuter efter att du anlänt till busshållplatsen. Sannolikheten för att bussen anländer inom den första minuten är då en tiondel. Men vi vill veta sannolikheten för att bussen anländer genast, så låt oss krympa på tidsintervallet: Hur stor är sannolikheten att bussen anländer inom den första sekunden? Det går 60 sekunder på en minut; sannolikheten blir då 1/600: (1/10)*(1/60) = 1/600 Hur stor är sannolikheten för att bussen anländer inom den första hundradelssekunden? Jo, den sannolikheten är 1/60000: (1/10)*(1/60)*(1/100) = 1/60000 Hur stor är sannolikheten att bussen anländer inom den första nanosekunden? Det går 10 miljoner nanosekunder på en hundradelssekund; sannolikheten blir då så gott som noll: (1/10)*(1/60)*(1/100)*(1/ ) 0 Slutsats: Sannolikheten närmar sig noll ju finare vi gör tidsintervallet. Sannolikheten för att bussen anländer exakt genast är därför noll: P(X = 0) = 0. Det här gäller för alla kontinuerliga stokastiska variabler: Sannolikheten för att en kontinuerlig stokastisk variabel ska anta ett visst värde är alltid noll. I det här exemplet beskrivs sannolikhetsfördelningen av uttrycket: f(x) = 0,1 där 0 x 10 Om vi illustrerar den här funktionen grafiskt så får vi följande figur:

198 f(x) Fördelningen för väntetiden x Vad säger den här sannolikhetsfördelningen? Jo, vi ser att sannolikheten för att få vänta ~1 minut är lika stor som sannolikheten för att få vänta ~3 minuter eller säg ~9,5 minuter; fördelningen har samma höjd (0,1) för alla värden på x. Vi kan också använda fördelningen ovan för att beräkna sannolikheten för att bussen anländer inom ett visst tidsintervall: Arean under fördelningen och mellan två värden beskriver sannolikheten för att få ett värde i det intervallet. Sannolikheten för att bussen anländer inom fem minuter är alltså den gröna arean: Vi kan nu räkna ut att sannolikheten för att bussen anländer inom fem minuter är 50 procent: P(X 5) = gröna arean = bredden 5 höjden 0,1 = 0,5 Om vi räknar ut hela arean under sannolikhetsfördelningen så ser vi att den är 1 (10*0,1 = 1). Detta gäller för alla kontinuerliga sannolikhetsfördelningar. I det här exemplet betyder det att sannolikheten är 1 för att bussen ska anlända någon gång inom 10 minuter från att jag kommer till busshållplatsen. Exempel: Hur länge kan man överleva efter att ha uppvisat symptom på rabies? Figuren nedan illustrerar sannolikhetsfördelningen för överlevnadstiden i dagar.

199 f(x) Överlevnad efter rabiessymptom x Vi beskriver den här fördelningen med uttrycket: f(x) = 0,2e 0,2x där x 0. Vi vill nu beräkna sannolikheten för att en drabbad dör inom loppet av två dagar: P(X 2). Det är den gröna arean i figuren nedan: I det här fallet är det knepigare att beräkna den exakta arean, men vi kan få en bra uppskattning genom att beräkna arean för motsvarande rektangel:

200 Rektangelns area ges av dess bredd gånger dess höjd. Eftersom höjden på kurvan ges av f(x) = 0,2e 0,2x så får vi höjden på rektangeln som: f(1) = 0,2e 0,2 1 = 0,1637 Vi kan nu räkna ut att sannolikheten för att dö inom loppet av två dagar är ungefär 33 procent: P(X 2) rektangelns area = bredden 2 höjden 0,1637 0,33 Om vi vill beräkna sannolikheten ännu exaktare så kan vi dela in den gröna arean i finare rektanglar, beräkna arean för varje rektangel och summera ihop: Men för att beräkna den exakta sannolikheten så måste vi integrera. Vi ska inte integrera här, men det kan ändå vara bra att fundera lite på vad det hade inneburit: Att integrera kan liknas vid att dela in sannolikhetsfördelningen i oändligt fina rektanglar och summera över dem som ligger inom ett visst intervall, t.ex. mellan 0 och 2. Om vi på det här viset summerar ihop rektanglarna som ligger mellan det minsta möjliga värdet (0) och upp till något tal x så får vi den kumulativa fördelnings-

201 funktionen, F(x). Den kumulativa fördelningsfunktionen visar sannolikheten för att X ska anta ett värde som är mindre eller lika med x: P(X x). I det här exemplet ges den kumulativa fördelningsfunktionen av: F(x) = 1 e 0,2x, där x 0 Vi kan nu räkna ut att sannolikheten för att dö inom två dagar är strax under 33 procent: P(X 2) = F(2) = 1 e 0,2 2 = 0,3297 Sannolikheten för att överleva längre än 2 dagar är då ~67 procent (1-0,33 = 0,67). Grafiskt är detta arean till höger om 2: Övningsuppgifter: Se här.

202 9.4 VÄNTEVÄRDET Tidigare har vi sett att vi kan beskriva fördelningen i ett sampel med mått såsom medelvärdet och variansen. Dessa har också sina motsvarigheter i populationen. I det här avsnittet ska vi lära oss om populationsmedelvärdet som också kallas för väntevärdet eller det förväntade värdet. Ett populationsmedelvärde är samma sak som ett medelvärde i ett sampel givet att populationen är ändlig. Men anta att populationen är oändligt stor; hur kan vi beräkna ett medelvärde utifrån ett oändligt antal observationer? Det här verkar som en omöjlig uppgift, men vi kan i alla fall närma oss svaret genom att beräkna medelvärdet utifrån väldigt många observationer. Vi ska se ett exempel på det här: Exempel: Tänk dig att vi kastar en symmetrisk tärning upprepade gånger. De första tio kasten råkade ge följande värden: 6, 3, 6, 3, 3, 6, 2, 4, 4, 1 Medelvärdet är 3,8. Men vi stannar inte här. Vi fortsätter nu att kasta tärningen. Efter 100 kast är medelvärdet 3,270. Efter 1000 kast är medelvärdet 3,459. Efter kast är medelvärdet 3,506. Efter kast är medelvärdet 3,502. Såhär kunde vi fortsätta att kasta tärningen och räkna ut medelvärdet utifrån ett allt större antal kast. Vilket medelvärde skulle vi få om vi lät antalet kast gå mot oändligheten? Om ditt svar är 3,5 så har du rätt. 3,5 är också väntevärdet för utfallet på ett tärningskast: Väntevärdet för en stokastisk variabel är snittet för alla utfall då antalet försök går mot oändligheten. Vi betecknar väntevärdet med E(X) eller µ. (Den grekiska bokstaven µ uttalas my.) När vi beräknar ett väntevärde behöver vi dock inte testa oss fram genom att upprepa ett slumpförsök otaliga gånger. Det räcker med att vi känner till sannolikhetsfördelningen för X. Då X är en diskret stokastisk variabel så beräknas väntevärdet som:

203 E(X) = x f(x) Den här formeln visar att vi ska summera över en produkt; produkten av ett värde som X kan anta och sannolikheten för att få det värdet. Med hjälp av den här formeln kan vi räkna ut att väntevärdet för utfallet på ett tärningskast är 3,5: E(X) = 3,5. x f(x) x f(x) 1 1/6 1/6 2 1/6 1/3 3 1/6 1/2 4 1/6 2/3 5 1/6 5/6 6 1/6 1 Σ = 3,5 Exempel: Tabellen nedan visar hur många sjukdagar som arbetarna på ett visst företag tog ut under sommar-os år I genomsnitt har arbetarna varit sjuka 1,02 dagar: E(X) = 1,02. Sjukdagar (x) Antal arbetare f(x) x*f(x) , ,0225 0, ,035 0, ,05 0, ,045 0, ,03 0, ,02 0, ,01 0, ,005 0, ,0025 0, ,015 0,195 = 1,02 Vi har nu sett två exempel på väntevärden för diskreta stokastiska variabler. Så hur beräknas väntevärdet för en kontinuerlig stokastisk variabel? Detta är rent tekniskt lite knepigare, eftersom vi då tar integralen av x f(x) istället för summan av x f(x). Intuitionen är dock densamma; väntevärdet är snittet för alla utfall då antalet försök går mot oändligheten. Väntevärdet för en funktion av x Anta att en variabel, X, kan anta tre olika värden (0, 1 och 2) med sannolikheterna 0,8, 0,1 och 0,1. Väntevärdet blir då 0,3:

204 E(X) = 0*0,8 + 1*0,1 + 2*0,1 = 0,3 Vad är väntevärdet för X 2? Om ditt svar är 0,3 2 = 0,09 så har du fel. Vi kan se detta genom att räkna ut väntevärdet: Variabeln X 2 kan anta tre värden (0 2, 1 2 och 2 2 ) med sannolikheterna 0,8, 0,1 och 0,1. Väntevärdet blir då 0,5: E(X 2 ) = 0*0,8 + 1*0,1 + 4*0,1 = 0,5 Vi ser alltså att E(X 2 ) inte är detsamma som [E(X)] 2. Det här gäller generellt för att alla icke-linjära funktioner av X. Exempel: E[ln(X)] är generellt inte detsamma som ln[e(x)]. I kapitlets Appendix (A.2: Egenskaper hos väntevärdet) kan du läsa mer om olika egenskaper hos väntevärdet. Övningsuppgifter: Se här.

205 9.5 VARIANSEN OCH STANDARDAVVIKELSEN Variansen för en stokastisk variabel X är den förväntade kvadrerade avvikelsen mellan ett utfall på X och dess väntevärde. Vi betecknar variansen med Var(X) eller σ 2 (där den grekiska bokstaven σ uttalas sigma ): Var(X) = E[(X μ) 2 ] = E(X 2 ) μ 2 Standardavvikelsen är kvadratroten ur variansen och betecknas σ. Exempel: Variansen för utfallet på ett tärningskast är ~2,917: Var(X) = E(X 2 ) 15,167 μ 2 =3,5 2 2,917 x f(x) x 2 x 2 f(x) 1 1/6 1 1/6 2 1/6 4 2/3 3 1/6 9 3/2 4 1/6 16 8/3 5 1/ /6 6 1/ Σ 15,167 Standardavvikelsen blir därför ~1,708, dvs. kvadratroten ur variansen. Exempel: Tabellen nedan visar antalet sjukdagar bland 1200 arbetare under sommar-os X betecknar hur länge en slumpmässigt utvald arbetare var sjuk, där det förväntade antalet sjukdagar är 1,02: µ = 1,02. Variansen är då 5,3096: Var(X) = E(X 2 ) 6,35 μ 2 1,02 2 = 5,3096

206 Sjukdagar (x) Antal arbetare f(x) x 2 *f(x) , ,0225 0, ,035 0, ,05 0, ,045 0, ,03 0, ,02 0, ,01 0, ,005 0, ,0025 0, ,015 2,535 = 6,35 I kapitlets Appendix (A.3 Egenskaper hos variansen) kan du läsa mer om olika egenskaper hos variansen. Övningsuppgifter: Se här.

207 9.6 ANDRA EGENSKAPER HOS POPULATIONEN Vi har nu sett hur man kan beskriva en population med hjälp av sannolikhetsfördelningar, väntevärden och varianser. Men alla egenskaper som vi tidigare beräknat hos ett sampel har också sina motsvarigheter i populationen. Kovariansen, korrelationskoefficienten, oddskvoten och regressionslinjen kan också beräknas med hjälp av populationsdata. Vi såg redan detta i kapitel 8 där vi presenterade samplets egenskaper jämte populationens: Mått Sampel: Estimat Population: Parameter Medelvärde x μ Proportion p p Standardavvikelse s σ Varians s 2 σ 2 Korrelation r ρ Regression a, b (y = a + bx) α, β Vi ska nu sätta lite mer tid på en av dessa: populationens regressionslinje. Populationens regressionslinje Populationens regressionslinje är inte märkvärdigare än samplets, men vi använder lite andra beteckningar för att beskriva populationens regressionslinje. Vi ska nu tänka oss att vi har tillgång till ett datamaterial som täcker hela populationen. Vi vill beskriva sambandet mellan utbildning och timlön. Vi mäter utbildning med en dummyvariabel högutbildad som antar värdet 1 för högutbildade och värdet 0 för lågutbildade. Anta att lågutbildade i snitt tjänar 14 euro i timmen och högutbildade 16 euro. Om det här vore ett sampel så kunde vi beskriva sambandet med regressionen: timlön = högutbildad För att beskriva detta samband i populationen så använder vi istället uttrycket: E(timlön högutbildad = x) = högutbildad

208 E(timlön högutbildad = x) kallas för ett betingat väntevärde. Ekvationen ovan beskriver hur populationsmedelvärdet varierar beroende på utbildning: För lågutbildade är snittlönen 14 euro: E(timlön högutbildad = 0) = högutb =0 För högutbildade är snittlönen 16 euro: E(timlön högutbildad = 1) = högutb =1 = 14 = 16 Men anta nu att vi mäter sambandet mellan lön och utbildning, där utbildning mäts som antalet skolår efter grundskolan. Säg att personer utan någon utbildning i snitt tjänar 10 euro i timmen, och att genomsnittlig timlön därefter ökar med 1 euro för varje skolår. Populationens regressionslinje ges då av: E(timlön utbildning) = utbildning Nu är det kanske inte helt realistiskt att den genomsnittliga timlönen ökar med exakt en euro oavsett om man går från 0 till 1 utbildningsår, eller om man går från 3 till 4 utbildningsår. Kanske genomsnittlig timlön snarare varierar med antalet utbildningsår enligt figuren nedan: Populationens regressionslinje är då den bästa linjära approximationen för det egentliga sambandet mellan genomsnittlig timlön och antalet utbildningsår: E(timlön utbildning) utbildning I figuren nedan ges populationens regressionslinje i rött:

209 På motsvarande sätt kan vi beskriva sambandet mellan genomsnittlig timlön och utbildning, kontrollerat för andra variabler (x): E(timlön utbildning, x) α + β 1 utbildning + β 2 x Där α, β 1 och β 2 betecknar parametrarna i en multipel regression. Istället för att beskriva förväntad timlön som en funktion av utbildning (och möjligtvis andra x-variabler) så kan vi också beskriva timlönen som en funktion av utbildning: Timlön i = α + β utbildning i + ε i Säg att vi ska sampla 100 personer. Vi kunde beteckna den första personens timlön och utbildning med Timlön 1 och utbildning 1, den andra personens timlön och utbildning med Timlön 2 och utbildning 2, osv. Timlön i och utbildning i betecknar alltså timlönen för person i, där i kan vara 1, 2,..., 100. Det är alltså timlön och utbildning för en slumpmässigt utvald person. Den här personen kan förstås ha en timlön som avviker från det förväntade givet dennes utbildning (α + β utbildning i ). Vi har betecknat denna avvikelse med ε. Man brukar kalla detta för feltermen. Motsvarigheten i ett sampel är residualen. Det här är ett exempel på en statistisk modell. En statistisk modell visar hur utfallet (Timlön i) varierar som en funktion av en eller flera variabler (utbildning, ε) och parametrar (α, β). När man gör en statistisk rapport är det inte ovanligt att man börjar med att beskriva en sådan modell för att visa vilka parametrar det är man estimerar (dvs. uppskattar värdet för).

211 APPENDIX. A.1 Sannolikhetslära Komplementregeln P(inte A) = 1 P(A) där A är en beteckning för något utfall, t.ex. att en slumpmässigt utvald person har nummer 40 i skostorlek, eller att det regnar i morgon. Exempel: Sannolikheten för att inte få en sexa på ett tärningskast är 5/6: P(X 6) = 1 P(X = 6) = 5/6 1 6 där X betecknar utfallet på tärningskastet. Additionsregeln ( eller ) P(A eller B) = P(A) + P(B) då A och B utesluter varandra Exempel: Sannolikheten för att få en etta eller en tvåa på ett tärningskast är 1/3: P(X = 1 eller X = 2) = P(X = 1) + P(X = 2) = 1/3 Här gäller att de två utfallen utesluter varandra; vi kan inte få både en etta och en tvåa på ett och samma tärningskast Om två utfall däremot inte utesluter varandra så har vi att: P(A eller B) = P(A) + P(B) P(A & B) Exempel: 5 procent av grundskolelever har ADHD och 5 procent har dyslexi; 1 procent har både och. Hur stor procent har ADHD, dyslexi eller båda diagnoserna? Jo, 9 procent: P(ADHD eller dyslexi) =

212 P(ADHD) 0,05 + P(dyslexi) 0,05 P(ADHD & dyslexi) 0,01 = 0,09 Här är ett tips: Det är ofta lättare att beräkna sannolikheter om vi tänker på det som ett konkret befolkningsproblem. Anta i exemplet ovan att det finns 100 grundskolelever; 5 med ADHD och 5 med dyslexi. Bland dessa finns också 1 person med båda diagnoserna. Det finns då totalt 9 elever som har någon diagnos, dvs. 9 procent. Multiplikationsregeln ( och ) P(A & B) = P(A) P(B) då A och B är oberoende Exempel: Vi kastar en tärning två gånger. Hur stor är sannolikheten för att få en etta på första kastet och en tvåa på andra? Jo, 1/36: P(X 1 = 1 & X 2 = 2) = P(X 1 = 1) P(X 2 = 2) = 1/ där X 1 betecknar utfallet på det första kastet och X 2 utfallet på det andra. I det här fallet har vi att de två utfallen är oberoende; sannolikheten för att få en tvåa på andra kastet är alltid 1/6, oavsett om det första kastet resulterade i en etta eller ej. Eller med andra ord: Sannolikheten för att få en tvåa på det andra kastet beror inte på om det första kastet resulterade i en etta eller inte. Ibland talar man också om att stokastiska variabler är beroende eller oberoende. I exemplet ovan är X 1 och X 2 oberoende stokastiska variabler eftersom sannolikheten för att få ett visst utfall på andra kastet inte beror på hur det första kastet utföll. 1 6 Om två utfall däremot är beroende så har vi att: P(A & B) = P(A) P(B A)

213 där P(B A) är sannolikheten för att B ska inträffa, givet att A inträffat. Exempel: Under en termin läser du två kurser i statistik, där den andra bygger på den första. 80 procent av deltagarna blir godkända på den första kursen och 80 procent på den andra, men av dem som blev godkända på den första så är det 95 procent som blir godkända på den andra. Hur stor är sannolikheten för att bli godkänd på bägge? Jo, 76 procent: P(G 1 & G 2 ) = P(G 1 ) 0,8 P(G 2 G 1 ) 0,95 = 0,76 där G 1 betecknar att man blir godkänd på den första kursen och G 2 att man blir godkänd på den andra. Eller se på det som ett konkret befolkningsproblem: Anta att 100 personer läser båda kurserna, varav 80 blir godkända på den första. Bland dessa blir 76 också godkända på den andra. Det är alltså 76 av 100 som blir godkända på båda kurserna. Exempel: En handelshögskola tar emot 28 procent av de sökande med gymnasieutbildning och 20 procent av dem med yrkesutbildning. Av de sökande är det 75 procent som har gymnasieutbildning och 25 procent som har yrkesutbildning. Hur stor procent av alla sökande blir antagna? Jo, 26 procent: P(antagen) = P(antagen & yrkes) 0,05 = 0,26 där P(antagen & yrkes) = P(yrkes) 0,25 + P(antagen & gymn. ) 0,21 P(antagen yrkes) = 0,05 Eller se på det som ett konkret befolkningsproblem: Anta att högskolan har 100 sökande; 75 med gymnasieutbildning och 25 med yrkesutbildning. Bland dem med gymnasieutbildning antas 21 personer (28 %) och bland dem med yrkesutbildning antas 5 personer (20 %). Totalt antas alltså 26 personer av 100 sökande, dvs. 26 procent. 0,2 Bayes sats P(A B) = P(A & B) P(B) = P(A) P(B A) P(B)

214 Exempel: En farlig sjukdom drabbar 2 procent av befolkningen. Alla testas nu för denna sjukdom. Testet visar rätt i 95 procent av fallen (oavsett om du är sjuk eller frisk). Du tar detta test och får ett positivt resultat. Bör du vara orolig? Nja, kanske inte så orolig som man först skulle tro; sannolikheten är ungefär 28 procent för att du har sjukdomen givet att testet visade positivt: 0,02 P(sjuk pos) = P(sjuk) där P(pos) = P(pos & sjuk) 0,019 0,95 P(pos sjuk) P(pos) 0,068 + P(pos & frisk) 0,049 = 0,279 = 0,068 Eller se på det som ett konkret befolkningsproblem: Anta att befolkningen består av 1000 personer varav 20 sjuka (2 %) och 980 friska. Testet visar positivt för 19 sjuka personer (95 %) och för 49 friska personer (5 %). Det finns alltså totalt 68 personer som får ett positivt resultat och bland dessa är 19 sjuka, dvs. ungefär 28 procent. En annan syn på sannolikheter: Bayesiansk sannolikhet Vi började det här avsnittet med att beskriva en sannolikhet. Vi sa att en sannolikhet är en långsiktig andel, till exempel andelen sexor som vi får i långa loppet om vi kastar en tärning upprepade gånger. Men den här synen på sannolikheter kan ibland kännas otillräcklig. Låt oss se på ett exempel: Exempel: Är Napoleon en verklig eller fiktiv person? Hur ska vi veta? Napoleon finns förstås inte dokumenterad på bild och alla som kunde tänkas ha träffat honom är sen länge döda. Men han nämns i böcker från den aktuella tiden. Anta att 80 procent av alla personer som beskrivs i samtida historieböcker är verkliga; 20 procent är mytiska. Bland de verkliga personerna så passar 5 procent in på följande profil: De är kungar eller krigsherrar som beskrivs i flera samtida verk med detaljerad levnadshistoria. Bland de mytiska personerna så passar 0,01 procent in på samma profil. Napoleon passar in på profilen. Hur stor är sannolikheten för att han är verklig? Jo, sannolikheten är 99,95 procent. Anta att det finns totalt personer som beskrivs i historiska verk. Bland dessa är

215 verkliga och fiktiva. Bland de verkliga så är det 4000 personer (5 %) som stämmer överens med profilen; bland de fiktiva så är det 2 personer (0,01 %) som stämmer överens med profilen. Sannolikheten för att Napoleon är verklig blir då 4000/4002 = 0,9995. Vi kan alltså vara 99,95 procent säkra på att Napoleon är verklig. Men vänta lite nu. Vi sa att en sannolikhet är en långsiktig andel: Är Napoleon verklig i 99,95 procent av fallen i långa loppet och mytisk i 0,05 procent av fallen? Eller hur ska vi tolka denna sannolikhet? Det finns också en annan tolkning av sannolikheter, som säger att en sannolikhet representerar vår osäkerhet gällande ett fenomen, eller vår bedömning av kunskapsläget. Vi kallar detta för en subjektiv eller Bayesiansk sannolikhet. Med en klassisk syn på sannolikheter så är frågan om Napoleon rent nonsens; Napoleon existerade eller så gjorde han det inte, och om vi inte vet vilket så ändrar detta inte på att Napoleon antingen fanns eller inte. Det är ett sätt att resonera. Men ofta använder man sannolikhetsbegreppet i en bredare mening... A.2 Fyra egenskaper gällande väntevärdet Vi ska se på fyra egenskaper gällande väntevärdet. Egenskap 1-3 gäller oavsett om variabeln är diskret eller kontinuerlig. 1) Väntevärdet för en konstant (k) är konstanten: E(k) = k Exempel: Om din telefonräkning alltid går på 10 euro så är den förväntade räkningen 10 euro. 2) Y = a + bx där a och b är konstanter E(Y) = E(a + bx) = E(a) + E(bX) = 1 + 2E(X) Exempel: Telefonbolaget bestämmer räkningen (R) som: R = 5 + 0,08T, där T är taltiden i minuter. Med andra ord: Det finns en fast kostnad på 5 euro och därefter ökar räkningen med 8 cent per talad minut. Anta att du i snitt talar i telefonen 140 minuter per månad: E(T) = 140. Vad förväntas din telefonräkning gå på? Jo, 16 euro och 20 cent:

216 E(R) = E(5 + 0,08T) = E(5) + E(0,08T) = 5 + 0,08 E(T) =140 =5 = 16,20 3) Y = a 1 X 1 + a 2 X a n X n, där a 1, a 2,... och a n är konstanter och där X 1, X 2,... och X n är stokastiska variabler: E(Y) = E(a 1 X 1 + a 2 X a n X n ) = E(a 1 X 1 ) + E(a 2 X 2 ) + + E(a n X n ) = a 1 E(X 1 ) + a 2 E(X 2 ) + + a n E(X n ) Exempel: En aktieportfölj består av tre aktier: A, B och C. Aktie A har en förväntad avkastning på 10 procent; aktie B en förväntad avkastning på 7 procent och aktie C en förväntad avkastning på 6 procent. Aktieportföljen består till 40 procent av aktie A; till 40 procent av aktie B och till 20 procent av aktie C. Den förväntade avkastningen för aktieportföljen (P) är då 8 procent. Såhär ser vi varför: Vi beskriver avkastningen för aktieportföljen som: P = 0,4 P A + 0,4 P B + 0,2 P C där P A, P B och P C är avkastningen för respektive aktie. Den förväntade avkastningen blir då: E(P) = E(0,4 P A + 0,4 P B + 0,2 P C ) = E(0,4 P A ) + E(0,4 P B ) + E(0,2 P C ) = 0,4 E(P A ) =10 + 0,4 E(P B ) =7 + 0,2 E(P C ) =6 = 8 4) Y är en godtycklig funktion av X: Y = g(x), där X är en diskret stokastisk variabel: E(Y) = g(x) f(x)

217 Exempel: Du är med i en gameshow där du får välja mellan tre lådor. I den ena är vinsten 1 euro; i den andra är vinsten 10 euro och i den tredje är vinsten 1000 euro. Du vet dock inte vilken låda som innehåller vilken vinst. Hur stor är din förväntade vinst, E(X)? Jo, 337 euro: E(X) = 1 (1/3) + 10 (1/3) (1/3) = 337 Men anta nu att du istället får den kvadrerade summan; om du öppnar lådan med 1 euro så får du 1 euro; om du öppnar lådan med 10 euro så får du 100 euro och om du öppnar lådan med 1000 euro så får du en miljon. Hur mycket pengar förväntas du nu gå hem med? Jo, euro: E(X 2 ) = g(x) f(x) = x 2 f(x) = x f(x) x 2 x 2 f(x) 1 1/3 1 0, / , / , Σ = Notera här att den nya förväntade vinsten på trehundratusen plus inte kan fås genom att kvadrera den gamla vinsten på 337 euro. Eller med andra ord: E(X 2 ) [E(X)] 2 På motsvarande sätt gäller generellt att: E[ln (X)] ln [E(X)] E( X) E(X) E(1/X) 1/E(X)

218 A.3 Fem egenskaper gällande variansen Vi ska se på fem egenskaper gällande variansen. Alla gäller oavsett om variabeln är diskret eller kontinuerlig. 1) Variansen för en konstant (k) är noll: Var(k) = 0 Exempel: Om din telefonräkning alltid går på 10 euro så finns det ingen variation i räkningens storlek och variansen blir noll. 2) Y = a + X, där a är en konstant: Var(Y) = Var(a + X) = Var(a) + Var(X) = Var(X) 0 Den här egenskapen visar att om vi flyttar en sannolikhetsfördelning på talaxeln, säg 10 enheter till höger, så ändrar inte detta på variabelns spridning och variansen ändrar inte heller. 3) Y = bx, där b är en konstant: Var(Y) = Var(bX) = b 2 Var(X) Exempel: Kvinnor är i snitt 168 centimeter långa med variansen 25. Uttryckt i meter så är kvinnor 1,68 meter långa med variansen 0,0025: Längd i meter = 1 Längd i cm 100 Var(Längd i meter) = ( ) Var(Längd i cm) = 0,0025 Här är ytterligare några exempel: Exempel: Hur stor är variansen för Y? 25 Y = 3X, där Var(X) = 10 => Var(Y) = Var(3X) = 3 2 Var(X) =10 Y = 2X, där Var(X) = 3 => Var(Y) = Var( 2X) = ( 2) 2 Var(X) =3 = 90 = 12 Vi kan också kombinera egenskap 2 & 3 gällande varianser:

219 Y = 2 + 3X, där Var(X) = 10 => Var(Y) = Var(2 + 3X) = Var(2) =0 Y = 5 2X, där Var(X) = 3 => Var(Y) = Var(5 2X) = Var(5) = Var(X) =10 + Var( 2X) ( 2) 2 3 = 90 = 12 4) Y = a 1 X 1 + a 2 X a n X n, där a 1, a 2,..., a n är konstanter och där X 1, X 2,..., X n är oberoende stokastiska variabler: Var(Y) = Var(a 1 X 1 + a 2 X a n X n ) = Var(a 1 X 1 ) + Var(a 2 X 2 ) + + Var(a n X n ) = a 1 2 Var(X 1 ) + a 2 2 Var(X 2 ) + + a 2 2 Var(X n ) Exempel: En aktieportfölj består till 50 procent av aktie A och till 50 procent av aktie B. Båda aktierna har en förväntad avkastning på 10 procent och samma varians, 100. Avkastningen för den ena aktien är oberoende av avkastningen för den andra. Aktieportföljens förväntade avkastning är 10 procent men hur stor är variansen? Vi beskriver avkastningen för aktieportföljen som: P = 0,5 P A + 0,5 P B där P A och P B är avkastningen för aktie A respektive B. Variansen för aktieportföljen blir då 50: Var(P) = Var(0,5 P A + 0,5 P B ) = 0,5 2 Var(P A ) ,5 2 Var(P B ) 100 = 50 Det här exemplet visar på principen om att inte lägga alla ägg i samma korg. Om vi enbart kör på aktie A har vi en förväntad avkastning på 10 procent men en varians på 100. Genom att välja bägge aktierna så har vi fortfarande en förväntad avkastning på 10 procent med variansen är nu halverad, dvs. vi får lägre risk helt gratis. Intuitionen är följande: För att aktieportföljen ska gå

220 riktigt dåligt så krävs det att bägge aktierna går riktigt dåligt; det krävs så att säga två tärningskast som båda landar etta uppåt. Men för att en aktie ska gå riktigt dåligt så krävs det bara att den aktien går riktigt dåligt; det krävs så att säga enbart att en tärning landar etta uppåt. Det här exemplet är delvis orealistiskt och här är orsaken: Avkastningen för två aktier är sällan oberoende eftersom båda påverkas av ekonomin i stort; om en aktie går bra så tenderar den andra gå bra.... Här kommer en bonusregel gällande varianser: 5) Y = ax + bz, där a och b är konstanter och där X och Z är stokastiska variabler (beroende eller oberoende): Var(Y) = Var(aX + bz) = a 2 Var(X) + b 2 Var(Z) + 2abCov(X, Z) där Cov(X, Z) är kovariansen mellan variablerna. Korrelationen mellan variablerna fås som: Corr(X, Z) = Cov(X, Z) σ X σ Z Exempel: En aktieportfölj består till 50 procent av aktie A och till 50 procent av aktie B. Beräkna variansen för aktieportföljens avkastning (P): P = 0,5 P A + 0,5 P B där P A och P B är avkastningen för aktie A respektive B. Både aktie A och B har en förväntad avkastning på 10 procent och en varians på 100. Korrelationen mellan avkastningen för aktie A och B är 0,5. Lösning: = 0,5 2 Var(P A ) =100 Kovariansen får vi som: Var(P) = Var(0,5 P A + 0,5 P B ) + 0,5 2 Var(P B ) + 2 0,5 0,5 Cov(P A, P B ) =100

221 Cov(P A, P B ) = Corr(P A, P B ) σ PA σ PB =0,5 =10 10 = 50 Vi kan nu räkna ut att variansen för aktieportföljens avkastning är 75: = 0,5 2 Var(P A ) = ,5 2 Var(P B ) = ,5 0,5 Cov(P A, P B ) =50 = 75 Variansen för aktieportföljen är fortfarande lägre än den varians vi skulle få på vår avkastning om vi enbart satsade på en av aktierna (då vore variansen 100).

222 Kapitel 10: SAMPLING OCH SAMPLINGFÖRDELNINGAR Statistisk inferens handlar om att använda jämförelsevis små sampel för att lära sig om betydligt större populationer. Det är därför viktigt att vi kan lita på att samplet liknar populationen. Om vi inte tror att samplet har några likheter med populationen så är det ingen idé att syssla med statistik! Tänk dig att vi samplar 400 personer från en afrikansk population där 20 procent är analfabeter: Hur stor är risken för att mer än 30 procent av personerna i samplet är analfabeter? Att mindre än 10 procent är analfabeter? Om vi utifrån samplet påstår att 10 procent är analfabeter så skulle det vara en rätt grov underskattning. Men kan vi lita på att samplet liknar populationen? En viktig pusselbit är själva samplingen. Om vi till exempel översamplar högutbildade stadsbor så skulle det inte vara konstigt om andelen analfabeter underskattades. I avsnitt 10.1 kommer vi att diskutera samplingstrategier närmare. Men även om vi drar ett slumpmässigt sampel så täcker det trots allt enbart en liten del av populationen. Hur stor är risken att vi råkar ha otur och få ett sampel som skiljer sig mycket från populationen? Vi undersöker denna fråga i avsnitt Och för att besvara den här typen av frågor så behöver vi först kännedom om normalfördelningen som diskuteras i avsnitt 10.2.

223 10.1 SAMPLING Hittills har vi lärt oss hur man kan beskriva sampel genom olika summerande mått och figurer. Men vi har inte funderat särskilt mycket på hur data har samlats in. Rent konkret kan processen se rätt olika ut beroende på vilken typ av data det är frågan om. Vi kan använda registerdata, dvs. administrativa data som samlats in av myndigheter, företag eller organisationer. Vi kan samla in data själva genom enkätundersökningar, experiment eller kontrollerade laboratorieundersökningar. Vi kan också samla in data själva genom att göra mätningar ute i naturen eller intervjua folk på gatan: Vad väger gäddorna i Östersjön? Hur mycket tjänar en prostituerad i Finland? Ibland samlar vi in data vid en viss tidpunkt (t.ex. år 2016) och andra gånger samlar vi in data upprepade gånger över tiden. Oavsett vilken procedur vi använder så har de flesta sampel en sak gemensamt de är utsatta för slumpmässig variation; om vi samlar in ett nytt sampel (med samma procedur) så får vi knappast exakt samma data. Även om de flesta sampel är slumpmässiga i det här avseendet, så menar vi här något mer specifikt när vi talar om slumpmässiga sampel. Slumpmässigt sampel Ett sampel är slumpmässigt draget om det består av en mängd oberoende dragningar från en viss populationsfördelning. 1 Ibland använder man förkortningen iid om slumpmässiga sampel vilket kommer från engelskans independently and identically distributed. Vi ser bäst vad det betyder genom ett exempel: Exempel: Vi vill ta reda på hur stor andel av befolkningen som är vänsterhänta. Anta att denna andel egentligen är 20 procent. Vi drar då ett slumpmässigt sampel om alla observationer dras från samma populationsfördelning, dvs. chansen för att få en vänsterhänt person är 20 procent vid varje dragning. Dessutom ska dragningarna vara oberoende. Exempel: Den första och andra dragningen är oberoende om chansen är 20 procent att den andra 1 I litteraturen hittar man också andra beskrivningar av vad som utgör ett slumpmässigt sampel. Men den definition vi använder här är mest ändamålsenlig i syfte att diskutera teorin bakom statistisk inferens.

224 personen är vänsterhänt, oavsett om den första personen visade sig vara vänster- eller högerhänt. Hur drar vi då ett slumpmässigt sampel i praktiken? Anta i exemplet ovan att populationen består av alla finländare, och att vi samplar ett hundratal personer. Vi kunde då välja ut dessa genom lottning så att alla individer ur populationen har samma chans att bli dragna vid varje ny dragning. Många tvärsnittsdata kan betraktas som slumpmässiga sampel. Tvärsnitt är sampel där variablerna mäts vid en viss tidpunkt, till exempel ett visst år. Anta att vi vill titta på sambandet mellan utbildning och lön. Vi har slumpmässigt lottat ut ett tusental finländare och mätt deras utbildning och lön år Det här är ett exempel på ett slumpmässigt draget tvärsnitt. Men alla slumpmässiga sampel fås inte genom att lotta individer från register. Anta att vi vill testa om en viss tärning är symmetrisk och kastar den ett hundratal gånger. De här 100 mätningarna är också ett exempel på ett slumpmässigt sampel; vi gör ju oberoende mätningar dragna från en viss fördelning. Vi ska nu se på några andra vanliga samplingsstrategier där samplet generellt sett inte kan betraktas som slumpmässigt draget. Detta gäller då vi har ett stort sampel från en ändlig population, ett stratifierat sampel, ett klustrat sampel, eller ett sampel med en tidsdimension. Ett stort sampel från en ändlig population Exempel: En lärare vill ta reda på hur många av hennes nya elever som redan kan läsa. Det går 20 elever i klassen och läraren testar tio av dessa. Det här samplet kan inte ses som slumpmässigt draget, åtminstone inte i en iid-bemärkelse. Om läraren råkar välja ut en elev som kan läsa så finns det därefter en elev mindre som kan läsa i resten av klassen, alltså har chansen ökat för att få en elev som inte kan läsa vid nästa dragning. Dragningarna är med andra ord beroende; de hänger ihop. Det här exemplet ligger ganska långt från den typen av populationer som vi vanligtvis är intresserade av. Men principen är exakt densamma; om vi drar ett stort sampel (utan återläggning) från en ändlig population så kan vi inte betrakta

225 observationerna som oberoende dragningar. Ett stort sampel är ett som är större än ~5 procent av populationen. Det kan här vara på sin plats att säga att man, i praktiken, så gott som aldrig samplar med återläggning. Och av goda orsaker. En kort analogi: Om vi vill lära oss hur många röda bollar det finns i skålen (se figuren nedan) så gör vi det snabbast genom att dra bollar utan återläggning. Stratifierade sampel Stratifierade sampel fås genom att dela in populationen i grupper och dra ett slumpmässigt sampel från varje grupp. Ett stratifierat sampel är med andra ord en kombination av två eller flera slumpmässiga sampel dragna från olika grupper. Detta skulle exempelvis vara fallet om vi först samplar ett antal kvinnor och därefter ett antal män. Ibland används stratifieringen för att få ett sampel som liknar populationen så mycket som möjligt; om populationen består av 51 procent kvinnor så väljer vi samplet så att det består av 51 procent kvinnor. Men ibland kan vi använda samplingen specifikt för att översampla en viss grupp. Om vi vill studera löneskillnader inom det militära så kanske vi väljer att översampla kvinnor för att garanterat få tillräckligt mycket data för bägge könen. Andra exempel på vanliga variabler som används för stratifiering är geografiska områden, etnicitet, modersmål, yrken och socioekonomisk status. Ett stratifierat sampel är inte ett slumpmässigt sampel eftersom observationerna då inte kan antas vara dragna från samma fördelning. Klustrade sampel

226 Klustrade sampel fås genom att först sampla grupper och därefter ta med alla (eller ett urval) observationer från varje samplad grupp. Detta skulle vara fallet om vi vill studera lönenivåer bland industriarbetare och först samplar ett antal företag inom branschen och därefter samlar in data för arbetarna i de samplade företagen. Eller säg att vi vill ta reda på om det finns betygsskillnader mellan privata och kommunala skolor. Först samplar vi ett antal skolor och därefter samlar vi in data för eleverna från varje samplad skola. I dessa exempel är observationerna inom en grupp (ett företag/en skola) antagligen inte oberoende; om vi samplar en skola och den första eleven visar sig ha höga betyg så är chansen också lite större att nästa elev från samma skola har höga betyg. Eller med andra ord; observationerna inom en skola hänger ihop. Man kan få intrycket av att stratifierade och klustrade sampel är mer eller mindre samma sak. Båda bygger på att dela in populationen i grupper. Men vid klustring samplar vi grupper, medan vi i stratifiering drar ett skilt sampel från varje grupp. Som vi kommer att se lite längre fram så kan detta ha stor betydelse för hur samplen beter sig. Sampel med en tidsdimension Vi har ett tvärsnittsdata då vi gör mätningarna vid en viss tidpunkt, till exempel år Men det finns också datamaterial där man samlar in data vid upprepade tillfällen. Vi kan dela in dessa datamaterial i olika typer: Tidsseriedata, poolade tvärsnitt och paneldata. Vi har en tidsserie då vi gör upprepade mätningar för en och samma enhet flera gånger över tiden. Exempel: Vi mäter arbetslöshetsgraden i Finland årligen mellan 1950 och Vi har ett poolat tvärsnitt då vi kombinerar flera tvärsnitt samplade vid olika tidpunkter. Detta skulle exempelvis vara fallet om vi samplar ett antal finländare år Sedan drar vi ett nytt sampel finländare år 2007 och ett tredje sampel år Det kombinerade (poolade) samplet kallas för ett poolat tvärsnitt. Paneldata innebär att vi först samplar ett antal individer (eller hushåll/företag/kommuner/...) och därefter följer dessa över två

227 eller flera tidsperioder. Exempel: Vi mäter längden för ett hundratal barn som började lågstadiet år Sedan mäter vi längden för samma barn år 2001, år 2002 och år Sampel som på dessa sätt innefattar en tidsdimension kan sällan betraktas som slumpmässiga sampel. Arbetslösheten år 1960 tenderar hänga samman med arbetslösheten år 1959; observationerna är alltså beroende. Och observationer dragna ett visst år kan sällan antas komma från samma fördelning som observationer dragna ett annat år. Bekvämlighetssampel och bortfall Ibland kan det vara svårt att avgöra om ett sampel kan betraktas som slumpmässigt draget eller inte. Det här händer i synnerhet då man har liten kontroll över insamlingen av data, eller då man använder det data som är lättast att komma över. Vi kallar den här typen av sampel för bekvämlighetssampel. Säg att vi vill göra en kundundersökning och samlar in data för de kunder som råkar köpa produkten en viss dag. Det är möjligt att de här kunderna är representativa för populationen, men detta kan vara svårt att avgöra. Ett vanligt fall av bekvämlighetssampling är insamling av data via nätet. Många företag och institutioner samlar in enkätdata via nätet. Det är då de personer som själva väljer att delta i undersökningen som utgör samplet. Det är rimligt att anta att dessa personer inte är helt representativa för populationen. Men fördelen är att man snabbt kan göra omfattande studier på många personer, i princip gratis. Också sampel med omfattande bortfall kan ses som en sorts bekvämlighetssampel. Bortfall inträffar när personer som blivit ombedda att delta i en undersökning avstår, t.ex. personer som inte besvarar enkäter. Bortfall kan också inträffa när personer inte svarar på alla enkätfrågor eller avbyter en undersökning, t.ex. slutar använda en medicin före testtiden gått ut. Varför spelar samplingstrategin roll? Samplingstrategin spelar roll eftersom den avgör hur samplet beter sig. I början av det här kapitlet så ställde vi oss följande

228 fråga: Anta att vi samplar 400 personer från en afrikansk population där 20 procent är analfabeter. Hur stor risken är att få ett sampel där mer än 30 procent, eller mindre än 10 procent, av personerna är analfabeter? Svaret är att det beror på hur vi dragit samplet. Figurerna nedan illustrerar varför. Figuren längs till vänster representerar ett slumpmässigt sampel. Vi kan t.ex. tänka på kvadraten som ett land från vilken vi slumpmässigt samplat invånare. I det stratifierade samplet har vi delat in landet i fyra regioner och dragit ett sampel från varje region. Detta tenderar leda till att det stratifierade samplet är mer representativt för landet i sin helhet. I det klustrade samplet har vi delat in landet i kommuner och först samplat tio kommuner och därefter valt ut personerna som bor i dessa. Det här tenderar göra det klustrade samplet mindre representativt för landet i sin helhet; fördelen är att den här strategin kan spara tid och pengar. Här är en annan analogi. Låt oss säga att du ska skriva ett prov och att läraren ska välja ut frågor från totalt 10 kapitel. Ett stratifierat sampel kan liknas vid att läraren väljer ut en fråga från varje kapitel. Ett klustrat sampel kan liknas vid att läraren slumpmässigt väljer ut ett par kapitel och ställer alla frågor från dessa. Ett slumpmässigt sampel kan liknas vid att läraren väljer ut frågorna planlöst. Vi kan här se varför det stratifierade samplet är ett bättre verktyg för att mäta kunskapsnivåerna än det klustrade samplet om du har otur så blir det sådana kapitel som du är svagare på och hela provet går dåligt; har du tur så blir det kapitel som du är duktig på och hela provet går utmärkt. Den stratifierade samplingen kommer dock att testa lite av varje, och ger därför en rättvisare bild av din kunskapsnivå. Vi måste alltså beakta samplingstrategin när vi uttalar oss om risken för att samplet ska avvika mycket från populationen. Ett

229 naturligt ställe att börja på är att se hur data beter sig då samplet är slumpmässigt draget. Dels är detta en vanlig samplingstrategi, vilket också syns i de statistiska programpaketen där detta är default-funktionen (om du inte anger något annat så analyserar programmet data som om det vore slumpmässigt draget). Dels så kan det underlätta analysen att jobba med slumpmässiga sampel; vi vet helt enkelt mycket om hur dessa sampel beter sig i långa loppet. Från och med nu och flera kapitel framöver är detta vårt antagande att samplet är slumpmässigt draget. Med ett viktigt tillägg: Om vi dragit ett sampel som stratifierar på en eller flera x- variabler i en regression analyserar vi data på samma sätt som om det vore slumpmässigt draget. Exempel: Anta att vi vill studera löneskillnader mellan könen och att vi dragit ett sampel som stratifierar på kön. Då analyserar vi detta datamaterial på samma sätt som om vi dragit ett slumpmässigt sampel individer. Så hur beter sig sampel vid upprepade dragningar? För att lära sig mer om detta så ska vi börja historien på ett kanske något otippat ställe. Vi ska nämligen tala om normalfördelningen. Det kommer snart att synas vad normalfördelningen har med sampling att göra. Övningsuppgifter: Se här.

230 10.2 NORMALFÖRDELNINGEN Sir Francis Galton var en statistiker som levde på 1800-talet. Han fascinerades av normalfördelningen och sa följande: A savage, if he could understand it, would worship it as a god. Så vad är det som är så speciellt med normalfördelningen? Galton hade noterat att längden för viktorianska engelsmän kunde ordnas och representeras grafiskt så att det bildades ett mönster i data (normalfördelningen). Samma mönster dök upp i alla möjliga sammanhang, t.ex. kunde variationen i längden på öronsnibbar och underarmar representeras av normalfördelningen. Galton var fascinerad: Let a large sample of chaotic elements be taken and marshalled in order of their magnitudes, and then, however wildly irregular they appeared, an unexpected and most beautiful form of regularity proves to have been present all along. Galton hypotiserade att normalfördelningen skulle kunna beskriva också personliga attribut hos personer, såsom intelligens. Vi kommer snart att se vilken betydelse normalfördelningen har för statistisk inferens, men först ska vi lära oss lite mer om den här fördelningen. Figuren nedan visar hur en normalfördelning ser ut: En variabel som följer en normalfördelning är en kontinuerlig stokastisk variabel som kan anta vilka värden som helst, från minus oändligheten till plus oändligheten. Vi kan beskriva den här fördelningen genom följande funktion: f(x) = 1 σ 2π e 0,5(x μ)2 σ2 Precis som för alla andra kontinuerliga stokastiska variabler så beskriver den här funktionen höjden på fördelningen vid olika värden på x. Som vi ser så ingår både väntevärdet (µ) och standardavvikelsen (σ) i den här funktionen. Det här betyder att vi får olika normalfördelningar genom att välja olika värden för µ och σ. Väntevärdet bestämmer var variabeln har sin tyngdpunkt;

231 genom att välja olika värden för µ så flyttar vi normalfördelningen till höger och vänster på tallinjen: µ = 5 µ= 10 µ = Standardavvikelsen bestämmer fördelningens spridning: σ = 0,5 σ = 1 σ = 2, Vi säger att µ och σ är normalfördelningens parametrar; dessa värden bestämmer tillsammans exakt vilken normalfördelning vi talar om. Om vi vill säga att en viss variabel är normalfördelad med väntevärde µ och standardavvikelsen σ så kan vi kortfattat skriva: X ~N(μ, σ) Exempel: Om vi vill säga att längden för viktorianska engelsmän är normalfördelad med väntevärdet 168 centimeter och standardavvikelsen 2 centimeter så kan vi skriva detta som: Längd~N(168, 2). (Notering: Kan längden för viktorianska engelsmän följa en normalfördelning? Sa vi inte just att en normalfördelad variabel kan anta vilka värden som helst mellan minus och plus oändligheten? Detta är ju inte fallet för en människas längd. Och nej, detta är förstås sant. Normalfördelningen är en statistisk modell och det finns, så vitt man vet, knappt något fenomen i hela universum som följer en normalfördelning till exakthet. Men

232 många fenomen följer en normalfördelning såpass nära att vi utan några problem kan behandla dessa variabler som om de vore normalfördelade.) Tre egenskaper hos normalfördelningen Vi ska se på tre egenskaper hos normalfördelningen: 1. Precis som för alla andra kontinuerliga sannolikhetsfördelningar så representerar arean inom ett visst intervall sannolikheten för att få ett värde i det intervallet. Och hela arean under fördelningen är 1. Exempel: Längden för viktorianska engelsmän följer en normalfördelning. Sannolikheten för att en slumpmässigt utvald viktoriansk engelsman ska vara minst 170 centimeter är arean till höger om 170. Från figuren nedan så ser vi att den sannolikheten är 0,16. Sannolikheten för att personen är 170 centimeter eller kortare är då arean till vänster om 170 (dvs. 0,84). 2. Symmetri: Normalfördelningen är symmetrisk runt väntevärdet, dvs. den vänstra halvan är en spegelbild av den högra. Exempel forts: Sannolikheten för att en viktoriansk engelsman är minst 170 centimeter är 16 procent. Sannolikheten för att han är 166 centimeter eller kortare är då också 16 procent:

233 regeln: Ungefär 95 procent av observationerna faller inom plus/minus två standardavvikelser från medelvärdet; nästan 100 procent faller inom plus/minus tre standardavvikelser från medelvärdet. Exempel forts: Viktorianska engelsmän är i snitt 168 centimeter med standardavvikelsen 2 centimeter. Ungefär 95 procent ligger då någonstans mellan 164 och 172 centimeter, dvs. medelvärdet plus/minus två standardavvikelser. Nästan 100 procent ligger någonstans mellan 162 och 174 centimeter, dvs. medelvärdet plus/minus tre standardavvikelser. Med hjälp av regeln kan vi exempelvis räkna ut att sannolikheten för att en viktoriansk engelsman är minst 172 centimeter är ungefär 2,5 procent:

234 Men säg att vi vill veta sannolikheten för att en viktoriansk man är 166 centimeter eller kortare: P(X 166) regeln hjälper oss inte här. Så hur räkna ut detta? I kapitel 9 så såg vi hur vi kan använda kumulativa fördelningsfunktioner, F(x), för att räkna ut den här typen av sannolikheter. Men här kommer kruxet: Normalfördelningens fördelningsfunktion kan inte beskrivas genom en vanlig (elementär) funktion. För att räkna ut sannolikheter utifrån normalfördelningen så måste vi använda oss av datorer. Eller så tar vi till stenåldersmetoden och använder tabeller vilket fortfarande funkar bra. Vi ska snart se hur det går till, men först ska vi lära oss om den standardiserade normalfördelningen. Den standardiserade normalfördelningen Exempel forts: Viktorianska engelsmän är i snitt 168 centimeter långa med standardavvikelsen 2 centimeter. Hur stor är sannolikheten att en slumpmässigt utvald viktoriansk man är som mest 166 centimeter, P(X 166)? Eller med andra ord: Hur stor är sannolikheten för att en slumpmässigt utvald viktoriansk man ligger minst en standardavvikelse under snittet? När vi på det här sättet uttrycker någonting i standardavvikelser från snittet så använder vi en standardiserad skala. Här är ytterligare några exempel: En man som är 174 centimeter ligger 3 standardavvikelser över snittet ( = 174). Han har en längd på x = 174 centimeter men en standardiserad längd på z = 3 standardavvikelser. En man som är 169 centimeter ligger 0,5 standardavvikelser över snittet: Han har en längd på x = 169 centimeter men en standardiserad längd på z = 0,5 standardavvikelser. Vi kan räkna ut det standardiserade värdet (z) som: z = x μ σ En man som är 166 centimeter ligger alltså en standardavvikelse under snittet, z = -1: z = x μ σ = = 1

235 Så vad har vi för nytta av att beskriva saker på en standardiserad skala? Jo, det finns nämligen uppgjorda tabeller för normalfördelningen då variabeln mäts på den här skalan. Vi ville alltså räkna ut sannolikheten för att en slumpmässigt utvald viktoriansk man är 166 centimeter eller kortare. Eller med andra ord: Hur stor är sannolikheten för att en viktoriansk man ligger minst en standardavvikelse under snittet: P(X 166) = P(Z -1,0) För att ta reda på detta så kan vi använda en tabell för den standardiserade normalfördelningen. Nedan visas en del av en sådan tabell: Såhär funkar den: Vi vill få fram P(Z < -1,00). I första kolumnen söker vi upp z-värdet -1,0:

236 På första raden söker vi upp den andra decimalen i z-värdet, dvs. 0 (z = -1,00): Tabellen visar att P(Z < -1,00) = 0,1587. Eller med andra ord: Sannolikheten för att en slumpmässigt utvald viktoriansk engelsman är 166 centimeter eller kortare är ungefär 16 procent: P(X 166) = P(Z -1,0) = 0,1587 Exempel: För att bli antagen till en viss utbildning krävs att man har minst 125 meritpoäng från gymnasiet. Nedan visas fördelningen för meritpoängen bland personer som tog studenten förra året. Hur stor procent skulle inte bli antagna till den här utbildningen? I genomsnitt har personerna 100 meritpoäng från gymnasiet (µ= 100) med standardavvikelsen 15 poäng (σ = 15).

237 En person som har 125 meritpoäng ligger 1,67 standardavvikelser över snittet, z = 1,67. Med hjälp av z-tabellen så kan vi räkna ut att ~95 procent ligger under denna gräns: P(X 125) = P(Z 1,67) = 0,9525 Och att ~5 procent ligger över gränsen: P(X 125) = P(Z 1,67) = 1 - P(Z 1,67) = 0,0475 0,9525

239 10.3 CENTRALA GRÄNSVÄRDESSATSEN Vi ska återvända till Sir Francis Galton. Han noterade att flera egenskaper hos människan följer en normalfördelning. Men varför? Kan det finnas en djupare underliggande förklaring? Svaret är ja. Anta för enkelhetens skull att en persons längd enbart bestäms av ett antal gener, säg 100 stycken. Alla gener bidrar tillsammans till en persons slutliga längd. Vi kan tänka oss att man kan ha både korta gener och långa ; ju fler långa gener desto längre blir man. Chansen att en persons alla 100 gener är långa är dock försvinnande liten och därför finns det väldigt få riktigt långa personer; på motsvarande sätt finns det väldigt få riktigt korta personer. I genetikens lotteri har de flesta fått en kombination av långa och korta gener vilket gör att den stora massan varken är särskilt korta eller långa utan ligger någonstans där mittemellan Det här är ett praktiskt exempel på hur centrala gränsvärdessatsen skapar normalfördelningar i kosmos: längden är normalfördelad eftersom den bestäms som ett medelvärde av många olika gener. Centrala gränsvärdessatsen säger att om vi gör många oberoende dragningar från en viss fördelning så kommer medelvärdet approximativt att följa en normalfördelning. Vi kan nu se vad det här har med sampling att göra. Det första vi ska notera är att ett slumpmässigt sampel är en mängd oberoende dragningar från en viss populationsfördelning. Det här betyder att medelvärdet i ett slumpmässigt sampel approximativt följer en normalfördelning oavsett hur populationsfördelningen ser ut. Den här approximationen blir bättre ju

240 större sampel. För att få en förståelse för vad detta betyder i praktiken så ska vi se på följande tankeexperiment: Exempel: Fördelningen nedan visar hur mycket finländare tjänar några år efter man tagit ut en universitetsexamen. I den här populationen ligger genomsnittslönen på 2800 euro, men en majoritet tjänar mindre än detta. Det här är en så kallad lognormalfördelning Lön Vi drar nu ett slumpmässigt sampel bestående av 100 personer från den här populationen: 3191, 2366, 2076, 2010,..., 3136 Snittlönen i det här samplet ligger på 2866 euro, dvs. 66 euro högre än det sanna genomsnittet. Men vi slutar inte här. Vi drar nu ett nytt sampel, återigen 100 personer: 1598, 2983, 3525, 2206,..., 5232 Här är snittlönen 2731 euro. Men vi slutar inte heller här utan fortsätter att dra nya sampel (alltid 100 personer) och räknar ut nya medelvärden. Totalt drar vi sampel och får medelvärden. I tabellen nedan visas ett utdrag av resultatet:

241 Sampel # Medelvärde Här har vi ritat upp fördelningen för alla medelvärden: Som du ser så har vi fått en normalfördelning. Det här är resultatet av centrala gränsvärdessatsen: Trots att populationen inte är normalfördelad så följer stickprovsmedelvärdena en normalfördelning, åtminstone ungefärligt. Fördelningen ovan kallas för samplingfördelningen för stickprovsmedelvärdet. Som vi ser så ligger medelvärdet i den här fördelningen på 2800 euro; samplen prickar alltså rätt i genomsnitt. Men vi ser också att det finns många sampel som prickat fel med tiotals och hundratals euro; standardavvikelsen ligger på 80 euro. I ~95 procent av samplen har snittlönen hamnat någonstans mellan 2640 och 2960 euro, dvs. medelvärdet plus/minus två standardavvikelser. (En notering: I det här fallet drog vi sampel; samplingfördelningen är den fördelning vi skulle få då vi låter antalet dragningar gå mot oändligheten. Men sampel är

242 Andel tillräckligt många för att duga som approximation för oändligheten.) Men det är inte bara stickprovsmedelvärdet som följer en normalfördelning tack vare centrala gränsvärdessatsen. Vi ska se på ytterligare två exempel: Exempel: 5 procent av finländare är finlandssvenskar: finska Språk svenska Vi samplar nu slumpmässigt 1000 finländare och mäter andelen finlandssvenskar i samplet. I samplet råkade vi få 4,1 procent finlandssvenskar. Sedan upprepar vi detta många gånger: Nästa sampel ger en andel på 5,4 procent, därefter 4,4 procent, därefter 6,0 procent, osv. I figuren nedan har vi ritat upp fördelningen för andelen finlandssvenskar utifrån sampel, alla bestående av 1000 personer var: Återigen har vi fått en normalfördelning. Som vi ser så har samplen i snitt gett en andel på 0,05 eller 5 procent; samplen prickar rätt i genomsnitt. Men vissa sampel har också prickat fel med en eller ett par procentenheter; standardavvikelsen ligger på 0,0069 eller 0,69 procent. I ~95 procent av samplen har

243 andelen finlandssvenskar hamnat någonstans mellan 3,62 och 6,38 procent, dvs. medelvärdet plus/minus två standardavvikelser. Fördelningen ovan kallas för samplingfördelningen för stickprovsandelen. Exempel: Nedan visas sambandet mellan två variabler i populationen. Vi har också ritat in populationens regressionslinje i rött. Den sanna regressionskoefficienten har värdet 0,1: β = 0,1. Vi drar nu upprepade sampel från den här populationen, alltid 60 observationer. Det första samplet gav en regressionskoefficient på 0,10; nästa sampel gav en regressionskoefficient på 0,09; därpå följande sampel gav en regressionskoefficient på 0,13, osv. Här visas fördelningen för regressionskoefficienterna från sampel, alla bestående av 60 observationer vardera: Återigen har vi fått en normalfördelning. Som du ser så har samplen i snitt gett en regressionskoefficient på 0,1; samplen prickar rätt i genomsnitt. Men det finns också en hel del variation mellan koefficienterna från olika sampel; standardavvikelsen

244 ligger på 0,037: i ~95 procent av samplen har regressionskoefficienten hamnat någonstans mellan 0,026 och 0,174 (medelvärdet plus/minus två standardavvikelser). Fördelningen ovan kallas för samplingfördelningen för regressionskoefficienten. En samplingfördelning visar alltså hur estimaten fördelar sig över olika värden då vi drar upprepade sampel, alltid av någon viss sampelstorlek. Tack vare centrala gränsvärdessatsen så är många samplingfördelningar approximativt normalfördelade, åtminstone om vi drar ett slumpmässigt sampel med tillräckligt många observationer. En grov tumregel brukar vara att samplet ska bestå av minst 30 observationer. Väntevärdet och variansen i två samplingfördelningar Exempel forts: Fördelningen nedan visar hur mycket finländare tjänar några år efter man tagit ut en universitetsexamen. I den här populationen ligger genomsnittslönen på 2800 euro (µ = 2800) och standardavvikelsen är 800 euro (σ = 800) Lön Nedan visas samplingfördelningen för stickprovsmedelvärdet då vi samplar 100 personer. I den här fördelningen är medelvärdet också 2800 euro (μ x = 800) men standardavvikelsen är 80 (σ x = 80).

245 Säg att vi drar ett slumpmässigt sampel (100 personer) från populationen. Hur stor är sannolikheten för att få ett sampel där snittlönen blir minst 3000 euro? 3000 euro ligger 2,5 standardavvikelser över medelvärdet, dvs. ( )/80 = 2,5. Med hjälp av en z-tabell kan vi då räkna ut att den sannolikheten är under 1 procent: P(X 3000) = P(Z 2,5) = 1 P(Z 2,5) =0,9938 = 0,0062 Det här exemplet visar hur vi kan räkna ut sannolikheten för att få ett sampel där medelvärdet skiljer sig mycket från sanningen givet att vi känner till standardavvikelsen i samplingfördelningen. I exemplet ovan så sa vi att standardavvikelsen var 80, men hur kom vi fram till detta värde? Tabellen nedan visar hur vi kan räkna ut standardavvikelsen i samplingfördelningen för ett stickprovsmedelvärde (x ) och standardavvikelsen i samplingfördelningen för en stickprovsandel (p ) givet att vi dragit ett slumpmässigt sampel.

246 Mått x Medelvärdet i samplingfördelningen μ x = μ x Standardavvikelsen i samplingfördelningen (slumpmässigt sampel) σ x = σ x n p(1 p) p μ p = p σ p = n De här formlerna visar två viktiga saker. För det första ser vi samplen prickar rätt i genomsnitt. Om vi drar sampel från en population där medelvärdet är 10 (μ x = 10) så kommer vi ibland att överskatta det sanna medelvärdet (x > 10) och ibland att underskatta det sanna medelvärdet (x < 10), men i genomsnitt i långa loppet blir det rätt (μ x = 10). För det andra så ser vi att standardavvikelsen minskar ju större sampel (n). Eller med andra ord: Ju större sampel desto mindre kastar estimatet från ett sampel till ett annat. Exempel: Vi samplar slumpmässigt 400 personer från en afrikansk population där 20 procent är analfabeter: Hur stor är risken för att mer än 30 procent av personerna i samplet är analfabeter? För att mindre än 10 procent är analfabeter? I figuren nedan har vi ritat upp samplingfördelningen för p. Vi vet att fördelningens medelvärde ligger vid 0,2 eftersom samplen prickar rätt i genomsnitt. Standardavvikelsen är 0,02: σ p = p (1 p)/n = 0,2 (1 0,2)/400 = 0,02

247 Från samplingfördelningen kan vi se att det nästan är omöjligt att råka dra ett sampel där andelen analfabeter blir mindre än 0,1 eller större än 0,3: 0,1 ligger 5 standardavvikelser under snittet: z = -5. Det är en sannolikhet som är så låg att den inte ens går att hitta i vår z-tabell. Med hjälp av en dator kan vi räkna ut att sannolikheten är 0, : I tre sampel på tio miljoner försök så blir andelen analfabeter mindre än 10 procent. Och i sex sampel på tio miljoner så får vi en andel som ligger antingen under 0,1 eller över 0,3. Det här är nog ett resultat som går mot de flestas intuition: Kan det verkligen vara så ovanligt att få ett sampel som avviker med bara 10 procentenheter från sanningen? Och svaret är ja. (Notering: Nu bygger det här svaret på normalapproximering vilket betyder att de sannolikheter som vi räknar ut också är approximativa. Men vi vet i alla fall att chansen för att få ett sampel där andelen analfabeter avviker med minst 10 procentenheter från sanningen är försvinnande liten.) Exempel forts: För några år sedan gjordes en populationsstudie där man fann att 20 procent av befolkningen var analfabeter. I dag samplade vi 400 personer och fann att 40 var analfabeter, dvs. 10 procent. I så fall skulle vi säga att det varit en signifikant nedgång i andelen analfabeter. Som vi sett så kan skillnaden på 10 procentenheter svårligen skyllas på slumpen. I så fall har vi råkat dra ett sampel som ligger 5 standardavvikelser från snittet vilket bara händer i 6 fall på 10 miljoner försök. Vi skulle då säga att p-värdet är 0, Eftersom p-värdet är långt under 0,05 har vi alltså starkt stöd för att påstå att nedgången är verklig. Det här exemplet visar att det finns en koppling mellan samplingfördelningar och p-värden. I nästa avsnitt ska vi se närmare på den kopplingen. Övningsuppgifter: Se här.

248 10.4 KOPPLINGEN TILL HYPOTESPRÖVNING: TEST GÄLLANDE EN PROPORTION Exempel: År 1994 var det folkomröstning om EU, där 60 procent av finländarna röstade för. Vi gör nu en gallupundersökning; målet är att ta reda på om understödet förändrats sen valet -94. Vi samplar slumpmässigt 150 personer och frågar hur de skulle rösta om det vore val i dag. Nollhypotesen: Ingen effekt, dvs. inget har hänt sedan valet och andelen ja-röstare är fortfarande 60 procent: p = 0,6. Mothypotesen: Det finns en effekt: p 0,6. Säg att ingenting förändrats sedan valet; nollhypotesen är korrekt. Samplingfördelningen för andelen ja-röstare skulle då se ut så här, där standardavvikelsen är 0,04: σ p = p (1 p)/n = 0,6 (1 0,6)/150 = 0,04 I ~95 procent av fallen får vi alltså ett sampel där andelen jaröstare ligger någonstans mellan 52 och 68 procent (dvs. medelvärdet plus/minus två standardavvikelser). Om vi får ett sampel där andelen ja-röstare ligger inom detta intervall så säger vi att skillnaden är insignifikant. Anta till exempel att 84 av 150 utfrågade säger att de skulle rösta för om det vore val i dag; det är en andel på 56 procent: p = 0,56. Detta motsvarar en nedgång på 0,04 enheter sedan valet -94, dvs. en nedgång på en standardavvikelse: z = -1 (-0,04/0,04 = -1). Men detta är inte tillräckligt mycket för att nedgången ska kallas för signifikant, dvs. skillnaden skulle kunna skyllas på slumpen. Men säg att vi får ett sampel där 78 av 150 utfrågade skulle rösta för om det vore val i dag; det är en andel på 52 procent: p = 0,52.

249 Detta motsvarar en nedgång på 0,08 enheter eller 2 standardavvikelser: z = -2 (-0,08/0,04 = -2). Vi har då fått ett sampel som hör till de ~5 procent extremaste som man kan få bara av slumpen: P(Z 2) 0,025 + P(Z 2) 0,025 0,05 Vi säger då att p-värdet är 0,05. Eftersom p-värdet är mindre eller lika med 0,05 så säger vi att nedgången är signifikant, dvs. vi har sett en signifikant nedgång i stödet för EU sedan folkomröstningen -94. Anta nu istället att vi får ett sampel där 105 av 150 utfrågade skulle rösta för om det vore val i dag; det är en andel på 70 procent: p = 0,70. Detta motsvarar en uppgång på 0,1 enheter eller 2,5 standardavvikelser: z = 2,5 (0,1/0,04 = 2,5). Eftersom 2,5 är större än 2 så vet vi att uppgången är signifikant. Men vi kan också räkna ut p-värdet lite mer exakt och ser då att det blir 0,0124: P(Z 2,5) 0, P(Z 2,5) 0,0062 = 0,0124

250 Vi har med andra ord fått ett sampel som hör till de 1,24 procent mest extrema som man kan få bara av slumpen. Eftersom p- värdet är mindre än 0,05 så är uppgången signifikant. Anta nu att vi istället får ett sampel där 69 av 150 utfrågade skulle rösta för om det vore val i dag; det är en andel på 46 procent: p = 0,46. Detta motsvarar en nedgång på 0,14 enheter eller 3,5 standardavvikelser: z = -3,5 (-0,14/0,04 = -3,5). Eftersom -3,5 är mindre än -2 så vet vi att p-värdet är mindre än 0,05. Om vi räknar ut p-värdet lite mer exakt så ser vi att det är 0,0004: P(Z 3,5) 0, P(Z 3,5) 0,0002 = 0,0004 Eftersom p-värdet är mindre än 0,05 så är detta en signifikant nedgång. Och eftersom p-värdet är mindre än 0,01 så är nedgången också signifikant på 1-procentsnivån. Exempel forts. Vi drar ett sampel och finner att 52 procent skulle rösta för om det var val i dag, p = 0,52. Nedan visas data i en datamatris: id Rösta för?

251 Om vi matar in data i ett statistiskt programpaket och testar om nedgången är signifikant så kan vi få ett resultat som ser ut så här: I rött har vi z-värdet (-2,0); i blått har vi p-värdet (0,0455): Samplet hör till de ~4,6 procent mest extrema som vi kan få bara av slumpen (vilket vi redan räknade ut, men då avrundat till 5 procent). Är den här nedgången signifikant på 1-procentsnivån? Nej, samplet hör till de 5 procent extremaste men inte till de 1 procent extremaste: p-värdet är större än 0,01. Konfidensintervall för en proportion, p Exempel forts. I tabellen nedan ges också ett 95-procentigt konfidensintervall för p, där p är andelen som skulle rösta för EU om det vore val i dag. Vi ser att den andelen ligger någonstans mellan ~0,44 och ~0,60: I populationen ligger andelen jaröstare någonstans mellan 44 och 60 procent. Hur kommer vi fram till det här intervallet? Jo, vi får ett ungefärligt 95-procentigt konfidensintervall genom att ta

252 estimatet (0,52) plus/minus två standardfel. Standardfelet för p är ~0,0408 (se tabellen ovan). Konfidensintervallet fås då som: Nedre gränsen: 0,52 2 0,0408 0,44 Övre gränsen: 0, ,0408 0,60 Så vad mäter standardfelet? Standardfelet är en standardavvikelse som mäter hur mycket estimatet varierar från ett sampel till ett annat. Notera att vi tidigare räknade ut någonting mycket liknande, nämligen standardavvikelsen i samplingfördelningen för p : σ p = p (1 p)/n = 0,6 (1 0,6)/150 = 0,04 Men den här samplingfördelningen stämmer bara om ingenting ändrat sedan 1994 så att andelen ja-röstare fortfarande är 60 procent; när vi vill se om en skillnad kan förklaras av slumpen så får vi börja med att anta att den gör det. När vi bygger konfidensintervall så har dock vi ingen orsak att utgå ifrån att p = 0,06. Standardfelet får vi därför som: s p = p (1 p )/n = 0,52 (1 0,52)/150 = 0,04079 Övningsuppgifter: Se här.

253 Kapitel 11: TEST GÄLLANDE MEDELVÄRDEN OCH KOEFFICIENTER Hypotesprövning handlar om att ställa sig själv frågan: Kan effekten i data skyllas på slumpen? Om det är svårt att avfärda effekten i data med slumpen så kallar vi resultatet för signifikant. I kapitel 8 såg vi hur vi kan använda t-värdet för att testa hypoteser gällande medelvärden och koefficienterna i en regression. Ju svårare det är att skylla ett mönster i data på slumpen desto större t-värde (positivt eller negativt). När t- värdet blir större än ~2 (alternativt mindre än -2) så kallar vi resultatet för signifikant. Det är nu dags att se närmare på varför. Och som vi kommer att märka så lutar sig mycket av inferensen på centrala gränsvärdessatsen; att samplingfördelningen för estimatet approximativt följer en normalfördelning för stora sampelstorlekar.

254 11.1 TEST GÄLLANDE ETT MEDELVÄRDE Exempel: Figuren nedan visar årslönen bland åringar som nyligen fått ett arv. I genomsnitt har personerna en årslön på euro (µ = ) med en standardavvikelse på 8000 euro (σ = 8000) Vi drar nu ett slumpmässigt sampel bestående av 400 personer från den här populationen. Vilket stickprovsmedelvärde kommer vi att få? Detta kan vi naturligtvis inte säga med säkerhet, men vi kan i alla fall ringa in var medelvärdet sannolikt kommer hamna. I figuren nedan har vi ritat upp samplingfördelningen för stickprovsmedelvärdet. Medelvärdet i den här fördelningen är euro; samplen prickar rätt i genomsnitt. Standardavvikelsen är 400 euro: σ x = σ x n = = 400 I ~95 procent av fallen får vi alltså ett sampel där arvtagarna har en genomsnittlig årslön någonstans mellan och euro (medelvärdet plus/minus två standardavvikelser).

255 Anta nu att vi inte vet hur stort populationsmedelvärdet är. Däremot vet vi att andra åringar har en genomsnittlig årslön på euro (µ = ) med en standardavvikelse på 8000 euro (σ = 8000). Vi vill veta om arvtagare i snitt tjänar annorlunda än detta. (Idén är att arvtagare kunde ha större möjligheter att gå ner i arbetstid). Nollhypotesen: Ingen effekt, dvs. arvtagare tjänar också euro i snitt: µ arv = Mothypotesen: Effekt, dvs. arvtagare tjänar inte euro i snitt: µ arv Om nollhypotesen är sann (µ arv = ) och om standardavvikelsen också kan antas vara 8000 euro bland arvtagare (σ arv = 8000) så betyder det att vi drar ett sampel där stickprovsmedelvärdet följer samplingfördelningen i figuren ovan. Vi kommer då att få ett sampel där genomsnittslönen bland arvtagarna hamnar någonstans mellan och euro i ~95 procent av fallen. Om vi får ett sampel där stickprovsmedelvärdet ligger inom detta intervall så säger vi att skillnaden mellan arvtagare och övriga är insignifikant. Säg att vi får ett stickprovsmedelvärde på euro; arvtagarna i vårt sampel tjänar då i snitt 400 euro mindre än övriga vilket är en skillnad på 1 standardavvikelse: z = -1 (-400/400 = -1). Den här skillnaden är dock så pass obetydlig att den skulle kunna skyllas på slumpen, dvs. den är insignifikant. Om vi däremot får ett sampel där stickprovsmedelvärdet ligger utanför detta intervall så säger vi att skillnaden är signifikant. Säg att vi får ett sampel där arvtagarna i snitt tjänar euro. Arvtagarna tjänar då i snitt 1200 euro mindre än övriga vilket är en skillnad på 3 standardavvikelser: z = -3 (-1200/400 = -3). Kan

256 den här skillnaden skyllas på slumpen? Nja, inte så lätt. Den här skillnaden hör till de 0,26 procent extremaste som man kan få bara av slumpen: P(Z 3) =0, P(Z 3) =0,0013 0,0026 Vi säger då att p-värdet är 0,0026. Eftersom p-värdet är mindre än 0,05 så är detta en signifikant skillnad, dvs. arvtagarna tjänar signifikant mindre än övriga. Och eftersom p-värdet är mindre än 0,01 så är skillnaden också signifikant på 1-procentsnivån. Eller med andra ord: Vi kan förkasta nollhypotesen. Vi ska se på ännu ett exempel: Exempel: Kommunen vill undersöka om väntetiden till kommunala tandläkare förlängts under de senaste åren. En omfattande studie som gjordes för några år sedan visade att väntetiden i snitt var 10 dagar (µ = 10) med en standardavvikelse på 6 dagar (σ = 6). Men har väntetiden ändrats sen dess? Nollhypotesen: Ingen effekt, dvs. genomsnittlig väntetid är fortfarande 10 dagar: µ idag = 10. Mothypotesen: Effekt, dvs. genomsnittlig väntetid är inte längre 10 dagar: µ idag 10. Vi drar nu ett slumpmässigt sampel, 144 observationer, och mäter den genomsnittliga väntetiden. Om nollhypotesen är sann (µ idag = 10) och om standardavvikelsen fortfarande är 6 dagar (σ idag = 6) så betyder det att vi drar ett sampel där stickprovsmedelvärdet följer samplingfördelningen i figuren nedan:

257 I den här fördelningen är medelvärdet 10; samplen prickar rätt i genomsnitt. Standardavvikelsen är 0,5: σ x = σ n = = 0,5 Säg att vi får ett stickprovsmedelvärde på 11,0 dagar. Det är en uppskattad ökning i genomsnittlig väntetid på 1 dag eller 2 standardavvikelser: z = 1/0,5 = 2. Kan den här skillnaden skyllas på slumpen? Nja, inte så lätt. Den här skillnaden hör till de ~5 procent extremaste som man kan få bara av slumpen: P(Z 2) 0,025 + P(Z 2) 0,025 0,05 P-värdet är med andra ord 0,05 och vi skulle alltså säga att det varit en signifikant ökning i genomsnittlig väntetid. T-värdet och t-fördelningen I de två exempel vi tittade på här så gjorde vi ett orealistiskt antagande. I exemplet ovan så räknade vi ut standardavvikelsen för stickprovsmedelvärdet (σ x = 0,5) och utgick då från att populationens standardavvikelse var 6 (σ x = 6). I praktiken har vi sällan några bra orsaker för att kunna göra sådana antaganden. Istället estimerar vi, dvs. uppskattar, standardavvikelsen i populationen (σ x ) med hjälp av samplets standardavvikelse (s x) och använder denna för att estimera standardavvikelsen för stickprovsmedelvärdet (σ x ). Det estimat vi då får kallas för ett standardfel.

258 Då vi drar ett slumpmässigt sampel så ges standardavvikelsen för stickprovsmedelvärdet av: σ x = σ x n Vi estimerar denna med standardfelet för stickprovsmedelvärdet: s x = s x n Exempel forts. Vi ville testa om genomsnittlig väntetid ökat under de senaste åren. För några år sedan låg den genomsnittliga väntetiden på 10 dagar (µ = 10). Nollhypotesen: µ idag = 10. Mothypotesen: µ idag 10. Vi drar ett slumpmässigt sampel, 144 observationer. Den genomsnittliga väntetiden blir 11 dagar (x = 11) med en standardavvikelse på 6 dagar (s x = 6). Standardfelet för stickprovsmedelvärdet är då 0,5 dagar: s x = s x n = = 0,5 Stickprovsmedelvärdet blev 11 dagar. Vi har alltså estimerat att den genomsnittliga väntetiden ökar med 1 dag eller 2 standardfel. Vi säger då att t-värdet är 2: t = effekten standardfelet = 1 0,5 = 2 Ett t-värde på 2 betyder att p-värdet är ~0,05; det här är en signifikant ökning i genomsnittlig väntetid. Så vad är skillnaden mellan t-värdet och z-värdet? t-värdet liknar z-värdet; den enda skillnaden är att vi har estimatets standardfel (s x ) i nämnaren istället för estimatets standardavvikelse (σ x ). Har detta någon praktisk betydelse? För stora sampel så är svaret nej. Eller med andra ord: Vi kan då räkna ut p-värdet som om t-värdet vore ett z-värde utan att känna av skillnaden. Men för små sampel så kan det ha en viss betydelse: Ett z-värde på 2 motsvarar ett p-värde på 0,046. I exemplet ovan fick vi ett t-värde på 2 vilket motsvarar ett p-värde på 0,047 då samplet består av 144 observationer. Hade vi istället haft 1000

259 f(x) observationer så hade ett t-värde på 2 motsvarat ett p-värde på 0,046; hade vi bara haft 30 observationer så hade p-värdet blivit 0,055. Exempel: Hur länge tar det att hitta ett nytt jobb efter en uppsägning? Figuren nedan visar populationsfördelningen för arbetslöshetstiden; i snitt är folk arbetslösa 5 månader (µ = 5) Arbetslöshet (månader) Politikerna har nu sänkt arbetslöshetsersättningen vilket kunde förväntas leda till kortare arbetslöshetsperioder. Vårt mål är att ta reda på om detta är fallet. Vi samplar slumpmässigt 1024 personer som förlorade jobbet efter reformen. För dessa personer låg arbetslöshetstiden i snitt på 4,5 månader (x = 4,5) med en standardavvikelse på 6,4 månader (s x = 6,4). Arbetslöshetstiden uppskattas alltså ha sjunkit med 0,5 månader, men skulle den här skillnaden kunna skyllas på slumpen? Eller är den signifikant? För att besvara den frågan så börjar vi med att räkna ut standardfelet som är 0,2: s x = s x n = 6, = 0,2 Vi uppskattade att den genomsnittliga arbetslöshetstiden minskat med 0,5 månader vilket motsvarar en nedgång på 2,5 standardfel: t = effekten standardfelet = 0,5 0,2 = 2,5

260 Hur stort är p-värdet? Ett t-värde på -2,5 betyder att p-värdet är mindre än 0,05; vi har alltså sett en signifikant nedgång i arbetslöshetstiden. Men om vi vill räkna ut p-värdet mer exakt så får vi använda oss av datorer. Så hur vanligt är det att få ett så här pass stort t-värde (mindre än -2,5 alternativt större än +2,5) bara av slumpen? I figuren nedan visas hur t-värdena fördelar sig över skalan; vi kallar detta för en t-fördelning. Om genomsnittlig arbetslöshetstid egentligen inte förändrats efter reformen så får vi ett t-värde någonstans mellan -2 och +2 i ~95 procent av fallen. Enbart i 1,26 procent av fallen så får vi ett t-värde som är mindre än -2,5 eller större än +2,5 (2*0,0063 = 0,0126). P-värdet är alltså 0,0126. Eller med andra ord: Samplet hör till de 1,26 procent mest extrema som man kan få bara av slumpen. Detta tyder på att nedgången är verklig och vi kallar den för signifikant. Men det finns inte bara en t-fördelning, utan många. Man säger att t-fördelningen har en parameter som bestämmer exakt vilken t-fördelning vi talar om. Vi kan jämföra detta med normalfördelningen som har två parametrar (µ och σ) som i sin tur bestämmer hur normalfördelningen ser ut. T-fördelningens parameter kallas för frihetsgradsantalet. När vi testar hypoteser gällande medelvärden så får vi frihetsgradsantalet som samplets storlek minus ett: n - 1. När frihetsgraderna ökar, dvs. när samplets storlek ökar, så närmar sig t-fördelningen en z- fördelning. I figuren nedan visas en z-fördelning, en t-fördelning med 30 frihetsgrader (fg = 30) och en med 10 frihetsgrader (fg = 10). Om vi hade tagit med en t-fördelning med fler än 30 frihetsgrader så hade vi med ögat inte kunnat särskilja denna från z-fördelningen.

261 z fg = 30 fg = Så vad betyder det här? Jo, när vi har små sampel så är det något lättare att, av bara slumpen, råka få ett stort t-värde (positivt eller negativt). Vi beaktar det här genom att använda olika t- fördelningar beroende på samplets storlek, dvs. beroende på frihetsgradsantalet. Kritiska värden Exempel forts. I exemplet ovan fick vi ett t-värde på -2,5 vilket gav ett p-värde på 0,0126. Nedgången i arbetslöshetstid är med andra ord signifikant, men inte på 1-procentsnivån. För att få ett p-värde på 0,01 eller mindre så skulle det i det här fallet krävts ett t-värde på -2,58 eller mindre (alternativt +2,58 eller större). Man säger då att det kritiska värdet på 1-procentsnivån är 2,58. På motsvarande sätt finns det också kritiska värden på 10- och 5- procentsnivån: - I det här exemplet så krävs det ett t-värde på minst 1,65 eller max -1,65 för att p-värdet ska bli 0,1 eller mindre, dvs. för att resultatet ska bli signifikant på 10-procentsnivån. Vi säger då att det kritiska värdet på 10-procentsnivån är 1,65. - Det krävs ett t-värde på minst 1,96 eller max -1,96 för att p- värdet ska bli 0,05 eller mindre, dvs. för att resultat ska bli signifikant på 5-procentsnivån. Vi säger då att det kritiska värdet på 5-procentsnivå är 1,96. - Det krävs ett t-värde på minst 2,58 eller max -2,58 för att p- värdet ska bli 0,01 eller mindre, dvs. för att resultatet ska bli

262 signifikant på 1-procentsnivån. Vi säger då att det kritiska värdet på 1-procentsnivån är 2,58. Eftersom vårt t-värde (-2,5) är mindre än -1,65 och mindre än - 1,96 så är resultatet signifikant på 10- och 5-procentsnivån. Eftersom t-värdet är större än -2,58 så är resultatet inte signifikant på 1-procentsnivån. Konfidensintervall Exempel forts. Vi noterade att det varit en signifikant nedgång i genomsnittlig arbetslöshetstid efter reformen. Vi uppskattade att den genomsnittliga arbetslöshetstiden sjunkit från 5 till 4,5 månader; men detta är ju bara ett estimat. Kanske sanningen istället är att arbetslöshetstiden sjunkit till 4,4 månader eller till 4,6 månader? För att ringa in sanningen så använder vi oss av konfidensintervall. Tidigare (kapitel 8) så har vi sett att vi kan göra upp ungefärliga 95-procentiga konfidensintervall genom att ta estimatet plus/minus två standardfel. Ett 95-procentigt konfidensintervall för den sanna genomsnittliga arbetslöshetstiden går då mellan 4,1 och 4,9 månader: Nedre gränsen: 4,5 2 0,2 = 4,1 Övre gränsen: 4, ,2 = 4,9 Men det här är som sagt ett ungefärligt intervall. Om vi vill vara mer noggranna så får vi ett 95-procentigt konfidensintervall genom följande formel: x ± kritiskt 5 standardfelet där kritiskt 5 är det kritiska värdet på 5-procentsnivån. I detta fall är det kritiska värdet 1,96 och standardfelet är 0,2. Detta ger oss följande konfidensintervall: Nedre gränsen: 4,5 1,96 0,2 = 4,108 Övre gränsen: 4,5 + 1,96 0,2 = 4,892 Det sanna medelvärdet ligger med andra ord någonstans mellan 4,108 och 4,892 månader med 95-procentig säkerhet. Notera här att värdet 5 inte ligger inom intervallet; detta är ett annat sätt att

263 visa att den genomsnittliga arbetslöshetstiden sjunkit signifikant sedan reformen (före reformen låg den på 5 månader). På motsvarande sätt får vi ett 99-procentigt konfidensintervall som: x ± kritiskt 1 standardfelet där kritiskt 1 är det kritiska värdet på 1-procentsnivån. I detta fall är det kritiska värdet på 1-procentsnivån 2,58. Detta ger oss följande konfidensintervall: Nedre gränsen: 4,5 2,58 0,2 = 3,984 Övre gränsen: 4,5 + 2,58 0,2 = 5,016 Det sanna medelvärdet ligger med andra ord någonstans mellan 3,984 månader och 5,016 månader med 99-procentig säkerhet. Notera här att värdet 5 ligger inom intervallet; detta är ett annat sätt att visa att nedgången i genomsnittlig arbetslöshetstid inte är signifikant på 1-procentsnivån. På motsvarande sätt får vi ett 90-procentigt konfidensintervall som: x ± kritiskt 10 standardfelet där kritiskt 10 är det kritiska värdet på 10-procentsnivån. Men varför funkar konfidensintervall? Läs mer om detta i kapitlets Appendix (A.1: Historien bakom konfidensintervallet).

265 11.2 TEST GÄLLANDE KOEFFICIENTER I förra avsnittet så såg vi hur vi kan testa hypoteser gällande medelvärden. Principen är exakt densamma då vi vill testa hypoteser gällande regressionskoefficienter (β). Vi ska nu se tre exempel på detta: Exempel: Har lågutbildade större familjer? Nedan visas ett spridningsdiagram för ett slumpmässigt sampel omfattande 177 amerikanska kvinnor år Utfallsvariabeln är antalet barn och den oberoende variabeln är kvinnans utbildning (mätt i antal år). Regressionslinjen visar att då utbildningen ökar med ett år så minskar antalet barn i snitt med 0,22: barn = 5,1 0,22 utbildning Men är effekten av utbildning signifikant? Eller skulle den kunna skyllas på slumpen? Nollhypotesen: Ingen effekt, dvs. β = 0 Mothypotesen: Effekt, dvs. β 0 Från spridningsdiagrammet så kanske vi kan ana oss till att detta samband antagligen är signifikant. Men för att vara säkra så räknar vi ännu ut t-värdet: t = effekten standardfelet = 0,22? där standardfelet är ett mått på hur mycket regressionskoefficienten (b) skulle variera från ett sampel till ett annat om vi

266 hade gjort upprepade dragningar. Men hur stort blir standardfelet? Det är lite knepigare att räkna ut standardfelet för b manuellt och vi lämnar själva formeln till kapitlets Appendix (A.2: Standardfelet för en regressionskoefficient). Men precis som tidigare så gäller att standardfelet minskar ju större samplet är (allt annat lika). Standardfelet minskar också ju starkare korrelationen är mellan variablerna (positiv eller negativ). Eller med andra ord: Ju tajtare observationerna är samlade runt regressionslinjen, desto lägre blir standardfelet. I det här exemplet så ligger standardfelet på 0,04: s b = 0,04. t- värdet blir då -5,5: t = effekten standardfelet = 0,22 0,04 = 5,5 t-värdet (-5,5) är mindre än -2; sambandet mellan utbildning och antal barn är signifikant. De kritiska värdena på 10-, 5- och 1- procentsnivån är 1,65, 1,97 respektive 2,60. Eftersom t-värdet (absolut sett) är större än det kritiska värdet på 1-procentsnivån så betyder det att p-värdet är mindre än 0,01; sambandet är också signifikant på 1-procentsnivån. Om vi vill räkna ut p-värdet ännu mer exakt så får vi använda oss av t-fördelningen: Sannolikheten för att bara av slumpen få ett sampel där t-värdet blir mindre än -5,5 eller större än +5,5 är 0, procent; en försvinnande liten möjlighet. Alltså kan vi vara ganska säkra på att det inte bara är slumpen utan att det finns ett verkligt samband mellan utbildning och fertilitet. Men hur stor är den sanna effekten? Ett 95-procentigt konfidensintervall visar att den sanna effekten (β) ligger någonstans mellan -0,30 och -0,14 med 95-procentig säkerhet: b 0,22 ± kritiskt 5 1,97 standardfelet 0,04 Nedre gränsen: 0,22 1,97 0,04 0,30

267 Övre gränsen: 0,22 + 1,97 0,04 0,14 Exempel forts: I samma datamaterial finns det också information för ett annat sampel kvinnor men insamlat år 1974, dvs. ett decennium tidigare (ovan tittade vi på ett sampel för år 1984). När vi slår ihop de två samplen (1974 och 1984) så får vi ett så kallat poolat tvärsnitt. Tabellen nedan visar ett utdrag av data, där år84 är en dummy som antar värdet 1 år 1984 och värdet 0 år id år år84 barn År 1974 hade kvinnorna i snitt 3,21 barn per person; år 1984 har denna siffra sjunkit med nästan ett helt barn. Standardfelet ges inom parentes. Men är minskningen signifikant? barn = 3,21 0,97 år84 (0,16) Nollhypotesen: Ingen effekt, β = 0. Eller med andra ord: I populationen så hade kvinnor i snitt lika många barn år 1974 som år 1984: µ 74 = µ 84. Mothypotesen: Det finns en effekt, β 0 eller µ 74 µ 84. T-värdet är ungefär -6,1 (-0,97/0,16-6,1) vilket visar att minskningen är starkt signifikant. Men vänta lite. Har vi inte sagt att de här testerna funkar under antagandet om att vi dragit ett slumpmässigt sampel? Men här har vi ju dragit ett poolat tvärsnitt, dvs. ett sampel som stratifierar på årtal. Och jo, det är riktigt. Men då vi dragit ett

268 sampel som stratifierar på en x-variabel i en regression (år84) så behandlar vi data på samma sätt som om det vore slumpmässigt draget. Exempel forts. Så varför har familjerna minskat i storlek så pass mycket på 10 år? En möjlighet är att kvinnor utbildar sig längre och satsar mer på karriären. Vi kontrollerar nu för utbildning genom att inkludera denna variabel som en oberoende variabel i regressionen. Ett utdrag av data visas i tabellen nedan: id år år84 utbildning barn Resultatet visas i regressionen nedan, där standardfel ges inom parentes: barn = 4,94 0,83 år84 0,14 utbildning (0,16) (0,031) När vi jämför kvinnor med samma utbildningsmängd så ser vi fortfarande att kvinnorna år 1984 i snitt har 0,83 barn färre än de år Detta är en signifikant nedgång: t = -0,83/0,16-5,19. Högre utbildning verkar med andra ord inte vara den huvudsakliga förklaringen bakom den nedåtgående trenden. I det här fallet så är det kritiska värdet på 1-procentsnivån 2,59. Ett 99-procentigt konfidensintervall för den sanna förändringen i fertilitet (kontrollerat för utbildning) ges då av: b 0,83 ± kritiskt 1 2,59 standardfelet 0,16 Vilket ger en nedre gräns på -1,24 och en övre gräns på -0,42.

270 11.3 ANTAGANDEN De konfidensintervall och p-värden som vi tittat på bygger på följande antaganden: 1) Slumpmässigt draget sampel Ett undantag är om vi dragit ett stratifierat sampel som stratifierar på en x-variabel i en regression. Exempel: För att studera löneskillnaden mellan könen så drar vi först ett slumpmässigt sampel kvinnor och därefter ett slumpmässigt sampel män. Sen kör vi regressionen: lön = a + b kvinna Det här är ett exempel på ett sampel som stratifierar på x- variabeln (kvinna) i en regression. Vi behandlar det här samplet på exakt samma sätt som om vi dragit ett slumpmässigt sampel, dvs. ett sampel där vi lottat ut ett antal personer varav vissa visar sig vara kvinnor och andra män. 2) Samplingfördelningen för estimatet (medelvärdet, koefficienten i en regression) är en normalfördelning. Samplingfördelningen för estimatet är en normalfördelning om utfallsvariabeln är normalfördelad. Samplingfördelningen är approximativt normalfördelad om vi dragit ett tillräckligt stort sampel (detta är vad centrala gränsvärdessatsen lär oss). Men vad är ett tillräckligt stort sampel? En tumregel är att samplet ska bestå av minst 30 observationer. Men 30-regeln stämmer inte alltid. Om utfallsvariabeln inte alls liknar en normalfördelning så kan det krävas betydligt fler observationer. När vi gör en regression så har vi dessutom ett tredje antagande: 3) Variansen för utfallsvariabeln varierar inte med x. Här avses variansen i populationen. Det är lättast att se vad detta betyder då vi har en regression med enbart en dummy-variabel. Säg att vi vill studera löneskillnaden mellan män och kvinnor, där utfallsvariabeln är lön. Detta antagande säger då att spridningen i löner ska vara lika stor bland män som bland kvinnor.

271 Figuren nedan visar ett annat exempel på hur data kan se ut rent visuellt då antagande #3 inte är uppfyllt. Här gäller att spridningen i y varierar kraftigt över olika värden på x. Då x < 0.2 så är variansen i y 0,28; då x > 0,8 så är variansen 423. Hur mycket ska vi bry oss? I praktiken är det oftast antagande #1 som är mest kritiskt. Det är i synnerhet då vi gjort beroende dragningar som de vanliga konfidensintervallen och p-värdena blir extra missvisande. Detta kan till exempel inträffa om vi dragit ett klustrat sampel. Antagande #3 kan också ibland visa sig vara kritiskt. Praktiska erfarenheter har dock visat att detta generellt är av mindre betydelse än antagande #1. Är det då så att statistisk inferens står och faller på att dessa tre antaganden alltid är uppfyllda? Svaret är nej. Det finns metoder för att hantera brott mot dessa antaganden. Vi ska nu se ett exempel på detta. Exempel: Påverkas maxpulsen av rökning? 50 rökare rekryteras till ett experiment. För varje person mäter vi maxpulsen en dag då de inte rökt. Därefter mäts maxpulsen igen en annan dag efter att de rökt ett antal cigaretter. Ett utdrag av data visas i tabellen nedan. Variabeln id identifierar en person; variabeln rökning är en dummy som antar värdet 1 om mätningen gjorts efter rökning och värdet 0 annars. Maxpulsen visar den uppmätta maxpulsen vid respektive tillfälle.

272 id rökning maxpuls Det här är inte ett exempel på ett slumpmässigt sampel eftersom vi har beroende mätningar; vi har gjort två mätningar för en och samma individ dessa mätningar hänger ihop. En person som har hög maxpuls utan att ha rökt tenderar ha hög maxpuls också efter rökning. Så hur ska vi analysera detta datamaterial? Tabellen nedan visar hur mycket en persons maxpuls förändrats, dvs. vi har jämfört maxpulsen efter rökning med den före rökning. Den första personen hade en maxpuls på 191 utan att ha rökt och en maxpuls på 194 efter att ha rökt; det är en förändring på 3 slag per minut. På motsvarande har vi mätt förändringen för varje person i data. Det sampel vi ser i den här tabellen skulle kallas för slumpmässigt draget; vi har nu bara en observation per person. id Förändring (d) Vi vill veta om maxpulsen förändras efter rökning: Nollhypotesen: Maxpulsen förändras inte i genomsnitt: μ d = 0. Mothypotesen: Maxpulsen förändras: μ d 0. I samplet har personerna i snitt ökat sin maxpuls med 3,5 slag per minut efter rökning (d = 3,5) med en standardavvikelse på

273 6,0 slag per minut (s d = 6,0). Standardfelet för stickprovsmedelvärdet är då 0,849 (6/ 50) och t-värdet är 4,12 (3,5/0,849). Rökning ger alltså en signifikant ökning i maxpulsen (4,12 > 2). Men låt oss säga att vi istället hade analyserat det första datamaterialet: id rökning maxpuls Regressionen nedan visar att maxpulsen i snitt ökat med 3,5 slag per minut efter rökning (detta är exakt samma estimat som vi fick innan). Standardfelet är 2,4. maxpuls = 197,4 + 3,5 rökning (2,4) I snitt har personerna höjt sin maxpuls med 3,5 slag per minut, men nu är effekten är inte längre signifikant: t = 3,5/2,4 1,46. Så betyder det här att t-värdet från regressionen är felaktigt? Svaret är ja. Problemet ligger i nämnaren; standardfelet är alldeles för stort. Övningsuppgifter: Se här.

274 APPENDIX.... under arbete...

275 Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA 12.1 ANOVA I EN MULTIPEL REGRESSION Exempel: Tjänar man mer som egenföretagare? Nedan visas ett utdrag ur ett dataset som innehåller information om 293 amerikanska manliga arbetare. Egenföretagare är en dummy som antar värdet 1 för egenföretagare och värdet 0 för andra arbetare; alder mäter personens ålder och ln(timlön) är timlönen mätt på en loggad skala. id egenföretagare alder ln(timlön) , , , , , , Regressionen nedan visar att egenföretagarna tjänar cirka 4 procent mer än övriga kontrollerat för ålder. Men skillnaden är inte signifikant, t = 0,041/0,100 = 0,41 (standardfel ges inom parentes). Däremot har ålder en signifikant effekt på lönen; för varje ytterligare år så ökar lönen med cirka 1 procent, t = 0,010/0,003 3,33. ln (timlön) = 1,30 + 0,041 egenföretagare + 0,010 alder (0,100) (0,003) Nedan visas resultatet då vi kört regressionen med hjälp av statistikprogrammet STATA:

276 I rött ges resultatet från t-testerna. Men dessa är inte de enda tester som finns med i regressionsutskriften. Regressionsutskriften innehåller också ett annat test som kallas för F-testet. Inrutat i blått finns det så kallade F-värdet (6,54) med tillhörande p-värde (0,0017). Så vad använder vi detta test till? Jo, här kan vi se om regressionsmodellen som helhet har signifikant förklaringsstyrka. Eftersom p-värdet (0,0017) är mindre än 0,05 så är svaret ja. Vi ska nu se närmare på vad det här betyder. Och vi ska börja med att repetera förklaringsgraden. Förklaringsgraden, R 2 I regressionen ovan så är förklaringsgraden 0,0432. (Du hittar förklaringsgraden under F-testet: R-squared = 0,0432.) Det betyder att 4,32 procent av variationen i loggade löner kan förklaras av x-variablerna (egenföretagare, alder). Förklaringsgraden är alltså en andel och kan därför anta värden mellan 0 och 1. Det kan vara bra att fundera på vad de två extremfallen betyder. Vad skulle det betyda om förklaringsgraden vore 1? Jo, det betyder att 100 procent av variationen i utfallsvariabeln (y) kan förklaras av x-variablerna; residualen är då noll för varje observation i data. Residualen visar skillnaden mellan det verkliga värdet på y och prediktionen. Exempel: Den första personen i data är inte egenföretagare (egenföretagare = 0) och 32 år gammal. Han predikteras då tjäna ~1,62 enheter: ln (timlön) = 1,30+ 0,041 egenföretagare =0 + 0,010 alder =32

277 = 1,62 Men personen tjänar egentligen ~1,96 enheter, dvs. ungefär 0,34 enheter mer än predikterat. Residualen är alltså ~0,34 enheter. På det här viset kan vi ta fram residualen för varje person i data: id egenföretagare alder ln(timlön) Prediktion Residual , , , , , , , , , , , , , , , , , , Om vi hade en regression där alla residualer vore noll så skulle x- variablerna prediktera utfallsvariabeln perfekt. Förklaringsgraden skulle vara 1. Vad skulle det betyda om förklaringsgraden vore 0? Jo, det betyder att 0 procent av variationen i y förklaras av x- variablerna. Det här skulle innebära att vi hade en regression där alla regressionskoefficienter vore 0: ln (timlön) = 1, egenföretagare + 0 alder Om vi ändå använde den här regressionen för att göra prediktioner så skulle alla personer i data ha en predikterad loggad lön på 1,69 enheter. 1,69 är den genomsnittliga loggade lönen i data. Det här skulle betyda att x-variablerna inte bidrar med någon information alls; om vi ska gissa hur mycket en person tjänar så gör vi bäst i att bara använda medelvärdet. F-värdet Exempel forts. I regressionen ovan så är förklaringsgraden 0,0432: Cirka 4 procent av variationen i löner kan förklaras av x- variablerna (egenföretagare, alder). Men detta är förklaringsgraden i samplet: Är det möjligt att populationens förklaringsgrad egentligen är noll? Det skulle betyda att den sanna effekten av att vara egenföretagare är noll (β egen = 0) och att den sanna effekten av ålder är noll (β alder = 0). Vi kallar denna möjlighet för nollhypotesen.

278 Den andra möjligheten är att åtminstone en av effekterna (β egen, β alder eller bägge) är olika noll. Eller med andra ord: Den sanna förklaringsgraden är större än noll. Vi kallar denna möjlighet för mothypotesen. Kan vi förkasta nollhypotesen om att populationens förklaringsgrad är noll? För att svara på den frågan så skulle vi vilja veta hur vanligt är det att få en förklaringsgrad på 0,0432 bara av slumpen. Är detta något som händer ofta då den sanna förklaringsgraden är noll, eller är detta något som händer sällan? Det går att räkna ut den sannolikheten: I det här fallet så är sannolikheten för att bara av slumpen få ett sampel där förklaringsgraden blir 0,0432 eller större 0,17 procent: P(R 2 0,0432) = 0,0017 Den uppmätta förklaringsgraden i samplet hör alltså till de 0,17 procent extremaste som man kan få bara av slumpen. Även om förklaringsgraden (0,0432) är liten, så är det alltså mycket osannolikt att få en såhär pass hög förklaringsgrad bara av slumpen. Vi säger då att regressionsmodellen har signifikant förklaringsstyrka: p-värdet är 0,0017 som är mindre än 0,05. Eftersom p-värdet är mindre än 0,01 så har regressionsmodellen också signifikant förklaringsstyrka på 1-procentsnivån. Notera här att p-värdet (0,0017) är samma p-värde som ges i regressionsutskriften, inringat i blått: F-testet används alltså för att ta reda på om regressionsmodellen har signifikant förklaringsstyrka. Men varifrån kommer då F- värdet på 6,54? F-värdet är en transformation av förklaringsgraden (R 2 ):

279 p F = (1 R 2 ) (n p 1) R 2 där p är antalet oberoende variabler. Vi kan nu räkna ut att F- värdet är 6,54: p 0,0432/2 F = (1 R 2 = ) (n p 1) (1 0,0432)/( ) 6,54 R 2 Ju större förklaringsgrad, desto större F-värde. Om förklaringsgraden istället hade varit 0,5 så hade vi fått ett F-värde på 145: p 0,5/2 F = (1 R 2 = ) (n p 1) (1 0,5)/( ) = 145 R 2 När vi vill ta reda på sannolikheten för att, bara av slumpen, få ett sampel där förklaringsgraden blir minst 0,0432 så är det samma sak som att ställa sig frågan: Hur stor är sannolikheten för att, bara av slumpen, få ett F-värde på minst 6,54? Eller med andra ord: P(R 2 0,0432) = P(F 6,54) Vi såg redan att den sannolikheten är 0,0017. Figuren nedan illustrerar detta: Det här är ett exempel på en F-fördelning. Om nollhypotesen är sann (den sanna förklaringsgraden är noll) så får vi ett sampel där F-värdet hamnar någonstans mellan 0 och 3 i 95 procent av fallen. (Ett F-värde någonstans mellan 0 och 3 motsvarar här en förklaringsgrad någonstans mellan 0 och 0,02.) Om vårt F-värde faller inom detta intervall (om R 2 blir mindre än 0,02) så är

280 resultatet insignifikant; den uppmätta förklaringsgraden i samplet skulle kunna skyllas på slumpen. I 5 procent av fallen får vi ett F-värde som är större än 3. Om vi får ett sampel där F- värdet blir 3,0 så betyder det att samplet hör till de 5 procent mest extrema som man kan få bara av slumpen och p-värdet är då 0,05; vi har då ett bra stöd för att påstå att den sanna förklaringsgraden är större än 0. Men vi fick ett F-värde på 6,54 vilket ger ett p-värde på 0,0017. Regressionsmodellen har med andra ord signifikant förklaringsstyrka också på 1-procentsnivån: p-värdet = 0,0017 < 0,01. I det här exemplet så är 3,0 det kritiska värdet på 5-procentsnivån. Det krävs med andra ord ett F-värde på 3,0 eller större för att resultatet ska vara signifikant på 5-procentsnivån (för att p- värdet ska bli mindre än 0,05). Det kritiska värdet på 1- procentsnivån är 4,7; det krävs ett F-värde på 4,7 eller större för att resultatet ska vara signifikant på 1-procentsnivån (för att p-värdet ska bli mindre än 0,01). Hur stora de kritiska värdena är varierar från fall till fall; sannolikheten för att bara av slumpen få ett sampel där F-värdet blir större än 6,54 beror också på antalet observationer (n) och antalet oberoende variabler (p). Det här betyder att F-fördelningens utseende varierar beroende på n och p. Man säger att F- fördelningen har två parametrar som bestämmer hur den ser ut. Vi kan jämföra detta med normalfördelningen som också har två parametrar (µ och σ) som bestämmer hur normalfördelningen ser ut. F-fördelningens parametrar kallas för frihetsgradsantalet i täljaren och frihetsgradsantalet i nämnaren. Frihetsgradsantalet i täljaren är antalet oberoende variabler (p); frihetsgradsantalet i nämnaren är antalet observationer (n) minus antalet oberoende variabler (p) minus ett (n-p-1): p F = (1 R 2 ) (n p 1) R 2 Säg att vi drar ett sampel och får ett F-värde på 6,54 (precis som tidigare). Precis som tidigare tänker vi oss att vi har 239 observationer, men anta att vi nu har 10 oberoende variabler: p = 10, n p 1 = 228. Figuren nedan visar hur den här F- fördelningen ser ut. Det kritiska värdet på 5-procentsnivån är nu 1,87 och på 1-procentsnivån 2,40. P-värdet är 0,

281 T-test kontra F-test Exempel forts. Vi beskrev noll- och mothypoteserna: Nollhypotesen: Den sanna effekten av att vara egenföretagare är noll (β egen = 0) och den sanna effekten av ålder är noll (β alder = 0). Eller med andra ord: Populationens förklaringsgrad är 0. Mothypotesen: Åtminstone en av effekterna är olika noll populationens förklaringsgrad är större än 0. Ett signifikant resultat betyder att vi kan förkasta nollhypotesen. Men behöver vi verkligen ett F-test för att avgöra detta? Vi vet ju redan att ålder har en signifikant effekt på lön: Om ålder har en signifikant effekt på lön så måste väl också F- testet per konstruktion visa att regressionsmodellen har signifikant förklaringsstyrka? Svaret är nej. Anta att nollhypotesen är sann; ingen av x-variablerna har någon effekt på utfallsvariabeln. Ju fler x-variabler vi inkluderar i regressionen, desto högre är sannolikheten för att åtminstone en effekt ändå

282 blir signifikant. Nedan visas ett exempel på detta. Här har vi en regression med 20 oberoende variabler (x1, x2,..., x20). Ingen av dessa har egentligen någon effekt på utfallsvariabeln; de effekter vi ser i data beror på slumpen. I de flesta fall har vi fått estimat som ligger nära 0 och som är icke-signifikanta. Men det finns ett misstag; t-testet visar att effekten av x4 är signifikant. Ju fler t-tester desto större är chansen för att åtminstone ett sådant här misstag begås. (På samma sätt som chansen för att få en sexa ökar ju fler gånger vi kastar en tärning.) Om, de facto, ingen av x-variablerna har någon effekt på utfallsvariabeln så kan vi ändå förvänta oss att 5 procent av effekterna blir signifikanta: Vi säger ju att en effekt är signifikant om den hör till de 5 procent extremaste som man kan få bara av slumpen i 5 procent av fallen är slumpen framme och ger oss ett signifikant resultat av misstag. I fallet ovan så är populationens sanna förklaringsgrad 0; ingen av de 20 x-variablerna har någon egentlig effekt på utfallsvariabeln. F-testet visar också att regressionsmodellen inte har en signifikant förklaringsstyrka (F = 0,89, p-värdet = 0,6023). På motsvarande sätt kan det också finnas situationer där F-testet blir signifikant trots att ingen av de enskilda t-testerna ger

283 signifikanta resultat. I vissa regressioner är det tydligt att någon (eller flera) x-variabler har en effekt på utfallsvariabeln, men det är svårt att peka ut vilken eller vilka. Detta inträffar då x- variablerna är starkt korrelerade. Vi kan förstå detta genom följande analogi: Säg att du gått ner tio kilo efter att du börjat träna och ändrat diet. Det kan då vara svårt att avgöra om träningen eller dieten var orsaken (eller om bägge bidrog). Träning och diet är så att säga starkt korrelerade; du började med bägge samtidigt. Men även om det är svårt att påstå att träningen har effekt eller att dieten har effekt så är det lätt att påstå att träningen eller dieten (eller bägge) har effekt, vilket skulle motsvara ett signifikant resultat på F-testet trots att ingen av de enskilda t-testerna är signifikanta. F-test och t-test används generellt sett för att besvara olika frågeställningar. Med ett undantag: Om vi bara har en oberoende variabel så är t-testet och F-testet exakt samma sak. Exempel forts. Nedan visas resultat från en regression med loggad timlön som utfallsvariabel och dummyn egenföretagare som oberoende variabel. Här har vi inte kontrollerat för ålder. Egenföretagarna tjänar i snitt drygt 4 procent mer än övriga arbetare, men skillnaden är inte signifikant (t = 0,42, p-värdet = 0,676). Regressionsmodellen har inte heller signifikant förklaringsstyrka (F = 0,17, p-värdet = 0,6765). Notera här att p- värdena är lika stora. Detta beror på att bägge testar exakt samma sak. När vi bara har en oberoende variabel så kommer vi från t-värdet till F-värdet genom att kvadrera t-värdet: 0,42 2 0,17. Variansanalys - ANOVA

284 Exempel forts. Nedan visas utskriften från en regression med loggad timlön som utfallsvariabel och variablerna egenföretagare och ålder som oberoende variabler. Vi kunde konstatera att regressionsmodellen har signifikant förklaringsstyrka (F = 6,54, p-värdet = 0,0017). När vi utfört ett sådant här F-test så kan vi också säga att vi gjort en variansanalys eller ANOVA (från engelskans ANalysis Of VAriances). Namnet kan verka långsökt, men det finns naturligtvis en förklaring. Utgångspunkten är att vi vill veta om x- variablerna kan förklara variationen i utfallsvariabeln. För att få en bättre känsla för begreppet variansanalys, så ska vi nu presentera F-värdet pånytt, men från en lite annan infallsvinkel: När vi gör en regression så kan vi tänka på detta som att vi konstruerar en modell som förklarar varför utfallsvariabeln varierar, till exempel varför vissa arbetare tjänar mer än andra. I det här exemplet beaktar vi att lönerna kan variera beroende på ålder och beroende på om man är egenföretagare eller inte. Men vi skulle knappast förvänta oss att dessa två variabler kan förklara alla skillnader i löner mellan individerna. Vi kan dela in den totala variationen i löner i två komponenter; variationen som kan förklaras av x-variablerna (egenföretagare, ålder) och variationen som inte kan förklaras av x-variablerna: totala variationen i y = förklarad variation + oförklarad variation Man använder ofta förkortningen SStotal för den totala variationen i y. Delen SS kommer från engelskans Sum of

285 Squares vilket innebär att vi räknar ut variationen som en summa av kvadrerade avvikelser: SStotal = (y i y ) 2 = (y 1 y ) 2 + (y 2 y ) (y n y ) 2 Variationen som kan förklaras av x-variablerna förkortas ofta SSregression: SSregression = (y i y ) 2 = (y 1 y ) 2 + (y 2 y ) (y n y ) 2 Notera här att om förklaringsgraden är 0 alla regressionskoefficienter har värdet 0 så kommer y i att vara lika med y för varje observation i data; SSregression blir då 0. (Vi kan få fram förklaringsgraden genom att dela SSregression med SStotal.) Den oförklarade variationen förkortas ofta SSresidual: SSresidual = residual i 2 = residual residual residual n 2 Notera här att om förklaringsgraden är 1 (alla residualer är 0) så kommer SSresidual att bli 0. När vi kör en regression så får vi dessa kvadatsummor (SS) i regressionsutskriften; ur det som kallas för ANOVA-tabellen. I statistikprogrammet STATA ser ANOVA-tabellen ut såhär (inrutad i rött):

286 Motsvarande tabell ges oavsett vilket statistikprogram du använder. I statistikprogrammet SPSS ser ANOVA-tabellen ut såhär (här har jag inte tagit med hela regressionsutskriften utan enbart själva ANOVA-tabellen): Den totala variationen i utfallsvariabeln är 84,294 som i sin tur är summan av den förklarade variationen (SSregression = 3,639) och den oförklarade variationen (SSresidual = 80,655). Nu visar det sig att vi också kan få fram F-värdet som en funktion av dessa kvadratsummor: F = SSregression p SSresidual/(n p 1) = 3,639/2 80,655/( ) = 1,819 0,278 = 6,542 I den här tabellen ges det tillhörande p-värdet i kolumnen Sig. ; p-värdet är 0,002. (Om vi använder formeln med R 2 så får vi naturligtvis exakt samma resultat.) Den här exercisen visar på mekaniken bakom F-värdet; ju större den förklarade variationen är jämfört med den oförklarade desto större blir F-värdet; vi får då ett allt starkare stöd för att påstå att x-variablerna faktiskt kan användas för att prediktera utfallsvariabeln. Ett signifikant resultat visar dock inte att alla x- variabler kan prediktera utfallsvariabeln; bara att vi har ett bra stöd för att påstå att åtminstone en av dem kan. Övningsuppgifter: Se här.

287 12.2 ANOVA I REGRESSIONER MED FAKTORVARIABLER Om du läser en statistisk rapport där man gjort en multipel regression så är chansen stor att de inte rapporterar resultatet från F-testet. Ofta ligger intresset i att estimera effekten av en x- variabel på utfallsvariabeln, kontrollerat för några andra variabler. Om regressionsmodellen har signifikant förklaringsstyrka eller inte är då irrelevant. Men det finns också fall där F-testet är av huvudsakligt intresse. Detta gäller inte minst då vi har regressioner med faktorvariabler. Vi ska se två exempel på det här. Exempel: Vi ska lansera en ny läskedryck och ska nu besluta oss för vilken färg vi vill använda på förpackningen. Vi utför följande experiment. Tio kvartersbutiker ingår i studien; fem av dessa lottas ut och får röda läskeburkar medan de andra fem får blåa. Efter en vecka mäter vi försäljningen i varje butik (mätt som antalet backar). Tabellen nedan visar data. Butik Färg Röd Försäljning 1 Blå Blå Blå Blå Blå Röd Röd Röd Röd Röd 1 6 I genomsnitt såldes 5 backar av de blåa burkarna och 7 backar av de röda. Det är en genomsnittlig skillnad på 2 backar. Eller uttryckt som en regression: försäljning = röd. Är skillnaden signifikant? Nästan. Standardfelet för skillnaden är 1 vilket ger ett t-värde på 2 (t = 2/1 =2). Detta motsvarar ett p- värde på 0,081. (I det här exemplet räcker ett t-värde på 2 inte riktigt till för att skillnaden ska bli signifikant på 5- procentsnivån. Detta beror på att samplet är så pass litet, bara tio observationer.) Men anta nu att vi istället hade gjort följande experiment: Vi använder nu 15 butiker varav fem lottas ut för att få röda burkar;

288 fem får blåa burkar och fem får vita. Ett utdrag av data visas nedan: Butik Färg Röd Blå Försäljning 1 Blå Blå Blå Blå Blå Röd Röd Röd Röd Röd Vit Vit Vit Vit Vit I genomsnitt såldes 5 backar av de blåa burkarna; 7 backar av de röda och 3 backar av de vita. Uttryckt som en regression så kan vi beskriva dessa skillnader som: försäljning = röd + 2 blå där referensgruppen är vita burkar. Den här regressionen visar att det i genomsnitt såldes 3 backar av de vita burkarna: försäljning = röd =0 = blå =0 Och att det i genomsnitt såldes 5 packar mer av de röda burkarna jämfört med de vita: försäljning = röd =1 = blå =0 Och att det i genomsnitt såldes 2 backar mer av de blåa burkarna jämfört med de vita: försäljning = röd =0 = blå =1

289 Färg kallas här för en faktor; när vi inkluderar information om burkarnas färg genom en rad dummy-variabler så har vi gjort en regression med en faktorvariabel. Har regressionen signifikant förklaringsstyrka? Svaret är ja: F- värdet är 8,57 och p-värdet är 0,0049: Regressionsmodellen har med andra ord också signifikant förklaringsstyrka på 1-procentsnivån (0,0049 < 0,01). Eller med andra ord: Vi kan förkasta nollhypotesen om att den sanna förklaringsgraden är noll. Men i det här exemplet så kan vi också formulera nollhypotesen på ett annat mer intuitivt sätt: Nollhypotesen: μ vita = μ röda = μ blå Om den sanna förklaringsgraden är noll så betyder det att försäljningen inte varierar beroende på burkens färg eller med andra ord: Genomsnittlig försäljning är lika stor oavsett färg: μ vita = μ röda = μ blå. Detta är i sin tur samma sak som att säga att det inte finns några verkliga genomsnittliga skillnader mellan röda och vita burkar, eller mellan blåa och vita burkar: β röda = 0, β blå = 0. Mothypotesen: Åtminstone en av grupperna (vita, röda, blåa) skiljer sig från de övriga. I det här fallet kunde vi konstatera att det finns signifikanta skillnader i genomsnittlig försäljning beroende på burkens färg. F-testet säger dock inte vilka färger som skiljer sig signifikant från andra; eller om det finns signifikanta skillnader mellan alla tre färger.

290 När man på det här viset testar om det finns skillnader i medelvärden mellan grupper så kallar man det för en envägsvariansanalys (envägs-anova). Exempel: Hur varierar tentresultat beroende på hur mycket man sovit natten innan tenten? Efter en stor tentamen låter vi studenterna fylla i en enkät där de uppskattar hur många timmar de sov natten innan. De kan välja mellan följande alternativ: 0-2 timmar, 2-4 timmar, 4-6 timmar och 6+ timmar. I tabellen nedan presenteras genomsnittligt resultat för varje sömngrupp (1-4). Sömngrupp Medelvärde # obs. 1 (0-2 timmar) 49, (2-4 timmar) 61,9 8 3 (4-6 timmar) 66, (6+ timmar) 78,0 50 Samma information som presenteras i tabellen ovan kan vi också beskriva genom en regression: resultat = 49,8 + 12,1 sömn2 + 16,3 sömn3 + 28,2 sömn4 där sömn2 en dummy som antar värdet 1 för dem som sov 2-4 timmar och värdet 0 för övriga; sömn3 är en dummy som antar värdet 1 för dem som sov 4-6 timmar och värdet 0 för övriga; sömn4 är en dummy för dem som sov 6+ timmar och värdet 0 för övriga. Referensgruppen är de som sovit 0-2 timmar. Den här regressionen visar exempelvis att de som sov 6+ timmar (sömn4 = 1) i snitt presterade 28,2 procentenheter bättre än de som sov 0-2 timmar. Så finns det signifikanta skillnader i genomsnittligt tentresultat beroende på sömngrupp? Regressionsutskriften nedan visar att svaret är ja (F = 11,84; p-värdet = 0,000).

291 Notera här att det här inte betyder att vi skulle ha visat att det finns skillnader mellan alla fyra grupper; utan bara att åtminstone en sömngrupp skiljer sig från de andra. Exempel forts. Anta att vi nu också frågat studenterna hur många timmar de jobbat med kursen per vecka (variabeln timmar). Ett utdrag av data ges nedan: Id Sömn Sömn2 Sömn3 Sömn4 Timmar Resultat Vi har då möjlighet att ställa oss följande fråga: Om vi kontrollerar för antalet arbetstimmar, finns det då fortfarande skillnader i resultat beroende på sömngrupp? Vi inkluderar då antalet arbetstimmar (timmar) som en oberoende variabel i regressionen vilket ger resultatet: Regressionsekvationen: resultat = 19,1 + 2,6 sömn2 + 6,3 sömn3 + 10,6 sömn4 + 4,2 timmar Som du märker så minskar nu skillnaderna mellan sömngrupperna. Exempel: Tidigare såg vi att de som sovit 6+ timmar i snitt skrivit 28,2 procentenheter bättre än de som sovit 0-2 timmar. Men då vi kontrollerar för antalet arbetstimmar så sjunker skillnaden till 10,6 procentenheter. (Det här betyder att

292 personer som sovit 6+ timmar i snitt jobbat mer under kursens lopp, vilket delvis förklarar varför de klarar sig bättre på tenten.) Tidigare såg vi att det fanns signifikanta skillnader i tentamensresultat beroende på sömngrupp. Men frågan blir nu: Finns det fortfarande signifikanta skillnader mellan sömngrupper efter att vi kontrollerat för tentamensresultat? Nollhypotesen: Kontrollerat för antalet arbetstimmar så finns det inga genomsnittliga skillnader i tentamensresultat beroende på sömngrupp. Eller med andra ord: β sömn2 = 0, β sömn3 = 0, β sömn4 = 0 Mothypotesen: Åtminstone en av grupperna skiljer sig från de övriga. Eller med andra ord: Åtminstone en av effekterna (β sömn2, β sömn3, β sömn4 ) är olika noll. Så kan vi förkasta nollhypotesen om inga skillnader? Från regressionsutskriften ovan så ser vi att regressionsmodellen har signifikant förklaringsstyrka (F = 81,21; p = 0,000). Men det här är inte samma sak som att fråga om det finns signifikanta skillnader mellan sömngrupper kontrollerat för antalet arbetstimmar. Regressionsutskriften ger oss inte svaret på den här frågan, men vi kan beställa detta F-test skilt: F-värdet är 4,87 och p-värdet är 0,0034. Det finns med andra ord fortfarande signifikanta skillnader i tentamensresultat beroende på sömngrupp, även efter att vi kontrollerat för antalet arbetstimmar. F-testet säger alltså inte att det finns skillnader mellan alla fyra sömngrupper (kontrollerat för antalet arbetstimmar) men bara att åtminstone en grupp skiljer sig från de andra. Rent konkret så kan vi räkna ut detta F-värde genom följande formel:

293 F = (R 2 2 med R utan )/(p med p utan ) 2 (1 R med )/(n p med 1) 2 där R med är förklaringsgraden i en regression där vi tagit med alla oberoende variabler; p med är antalet oberoende variabler i 2 den regressionen. R utan är förklaringsgraden i en regression där vi inte tagit med sömngrupperna som dummyvariabler, dvs. en regression med enbart en oberoende variabel: timmar. p utan är antalet oberoende variabler i den regressionen. Regressionsutskriften nedan visar att R med = 0,7737; p med = 2 4. Regressionsutskriften nedan visar 2 att R utan = 0,7390 och p utan = 1. Vi kan nu räkna ut att F-värdet är 4,87: F = (R 2 2 med R utan )/(p med p utan ) 2 (1 R med )/(n p med 1) = (0,7737 0,7390)/(4 1) (1 0,7737)/( ) 4,87

294 I det här fallet följer F-värdet en F-fördelning med (4-1) frihetsgrader i täljaren och ( ) frihetsgrader i nämnaren: De kritiska värdena på 5- och 1-procentsnivån är 2,71 och 4,00. Eftersom 4,87 är större än det kritiska värdet på 1-procentsnivån så är resultatet signifikant på 1-procentsnivån. Tidigare såg vi också att p-värdet var 0,0034. Det här F-testet är en generaliserad version av de F-tester vi sett på tidigare. Om vi vill testa om regressionsmodellen som helhet har signifikant förklaringsstyrka så vill vi, så att säga, se om en regression som inkluderar alla x-variabler är signifikant bättre på att prediktera utfallsvariabeln än en regression utan några x- variabler (bara ett intercept = medelvärdet för utfallsvariabeln). 2 En regression utan x-variabler har R utan = 0 och p utan = 0 vilket tar oss tillbaka till det gamla F-testet: F = (R 2 2 med R utan )/(p med p utan ) R 2 /p 2 = (1 R med )/(n p med 1) (1 R 2 )/(n p 1) Test gällande en delgrupp koefficienter I exemplet ovan så använde vi F-testet för att se om det finns signifikanta skillnader i tentamensresultat beroende på sömngrupp (kontrollerat för antalet arbetstimmar). Nollhypotesen gällde då en delgrupp av koefficienterna i regressionen:

295 β sömn2 = 0, β sömn3 = 0, β sömn4 = 0 Det finns dock inget som säger att dessa koefficienter (β) måste vara just koefficienter för dummy-variabler skapade utifrån en faktorvariabel (sömngrupp). F-testet kan generaliseras till att testa vilken delgrupp av koefficienter som helst. Exempel: Tabellen på nästa sida är klippt ur artikeln Stature and Status: Health, Ability and Labor Market outcomes. Här har man mätt sambandet mellan längd och lön för ett sampel brittiska män och kvinnor. Man har också kontrollerat för testresultat i ung ålder (Test scores ages 5 and 10) där testresultatet mäter antalet poäng på kognitiva tester. Se samplet för männen, den andra kolumnen. Regressionen: ln(earnings) = a + 0,004 height + b2 test5 + b 3 test10 där test5 är testresultat vid fem års ålder och test10 är testresultat vid 10 års ålder. Den enda regressionskoefficienten som ges i tabellen är den för height. På raden för Test scores ages 5 and 10 får vi istället ett F-test (F = 31,11, p-värdet = 0,000). Så vad visar det här F-testet? Jo, att testresultat i ung ålder har en signifikant effekt på löner i vuxen ålder (kontrollerat för längd). I den här studien är det ointressant att göra en skillnad mellan effekten av testresultat vid 5 och 10 års ålder; istället testar författarna om dessa variabler tillsammans bidrar till att förklara variationen i löner. Och svaret är ja (p-värdet 0).

296

297 Antaganden De villkor som gäller för t-testet gäller också för F-testet. Här är bara en kort repetition: 1) Slumpmässigt draget sampel eller ett sampel som stratifierat på en eller flera x-variabler i regressionen. 2) Utfallsvariabeln är normalfördelad för olika värden på x-variablerna, eller så har vi ett relativt stort sampel. 3) Variansen i utfallsvariabeln är jämnstor för olika värden på x- variablerna. Övningsuppgifter: Se här.

298 Kapitel 13: TEST AV SAMBAND I KORSTABELLER Hittills har vi lärt oss en hel del om hur man kan testa för olika sorters samband i data. Men i alla exempel hittills så har utfallsvariabeln varit kvantitativ (såsom löner, provresultat, priser eller livslängd), dvs. sådana variabler som naturligt mäts på en numerisk skala. I det här kapitlet så ska vi se hur man kan testa om det finns signifikanta samband mellan två kvalitativa variabler. Här är några exempel: - Finns det ett samband mellan kön och partipreferens? - Är det vanligare med skilsmässor bland personer med låg socioekonomisk status än bland sådana med hög? - I USA gäller att personer som är negativa till aborter också ofta är positiva till skattelättnader. Finns det också ett sådant samband i Finland? - Vad karaktäriserar personer som inte röstar i politiska val? Kön? Ointresse för politik? Att man är nöjd med läget som det är? 13.1 KORSTABELLER Korstabeller används för att beskriva sambandet mellan två kvalitativa variabler. Exempel: Är professionella placerare bättre på att sätta ihop en aktieportfölj än studenter? Vi har gjort ett experiment där 80 studenter och 20 professionella placerare fått sätta ihop aktieportföljer (var och en har satt ihop en egen portfölj). En månad senare mäter vi om aktieportföljerna ligger på plus eller minus. Bland studenterna ligger 22 portföljer på minus och 58 på plus. Bland proffsen ligger 3 portföljer på minus och 17 på plus: MINUS PLUS STUDENTER PROFFSEN 3 17

299 Finns det ett samband mellan variablerna? Ja, i samplet ser vi ett samband; proffsen har slutat på plus i 85 procent av fallen och studenterna i 72,5 procent. Men är skillnaden signifikant? Eller skulle den kunna skyllas på slumpen? Om du gissar att denna skillnad skulle kunna skyllas på slumpen så har du rätt. Lite längre fram så kommer vi att testa detta mer formellt. Exempel: Ett företag vill utvärdera sin hemsida. De skickar ut en enkät till 400 kunder. Korstabellen nedan visar hur många kunder som tycker att det är lätt respektive svårt att använda hemsidan, och hur detta varierar beroende på ålder. Exempel: Bland åringarna är det 51 personer som tycker att hemsidan är lätt att använda och 9 som tycker att den är svår. Bland 70-plussare är det 20 som tycker att hemsidan är lätt att använda och 21 som tycker att den är svår. LÄTT SVÅR ÅR ÅR ÅR ÅR ÅR Finns det ett samband mellan ålder och åsikt gällande hemsidan? Ja, andelen som tycker att hemsidan är svår att använda varierar med ålder. Figuren nedan illustrerar detta ännu tydligare: Procent som tycker att hemsidan är svår att använda 15 % 15 % 27 % 35 % 48 % 51 % Ålder Exempel: Korstabellen nedan visar data för 1000 tonårspojkar. Vi har mätt pojkarnas hemförhållande (kärnfamilj eller splittrad familj) och om de varit i kontakt med polisen (ingen gång, en gång, eller flera gånger). Exempel: Bland dem som växt upp i en kärnfamilj är det 596 pojkar som aldrig varit i kontakt med

300 polisen; 40 pojkar som varit i kontakt med polisen en gång och 24 pojkar som varit i kontakt med polisen fler gånger. INGA EN GÅNG FLERA KÄRNFAMILJ SPLITTRAD FAMILJ Finns det ett samband mellan variablerna? Ja, pojkar som växt upp i en splittrad familj är överrepresenterade bland dem som varit i kontakt med polisen. Figuren nedan visar detta tydligare. I övningsuppgift 3 ska du få visa att detta samband är signifikant. Procent som varit i kontakt med polisen minst en gång 10 % 16 % Alla (12 %) Kärnfamilj Hemförhållande Splittrad familj Exempel: Är kvinnor mer benägna att rösta rött än män? Vi har samlat in ett datamaterial för 100 personer; 50 män och 50 kvinnor. Bland männen är det 30 som röstar blått och 20 som röstar rött. Bland kvinnorna är förhållet det omvända; 20 röstar blått och 30 röstar rött. BLÅTT RÖTT MÄN KVINNOR Vi ser att det finns ett samband mellan variablerna i samplet; medan 60 procent av kvinnorna röstar rött så är det bara 40 procent av männen som röstar rött. Men är detta samband signifikant? Eller skulle det kunna skyllas på slumpen? För att testa detta så kan vi använda Pearsons chi2-test. Övningsuppgifter: Se här.

301 13.2 CHI2-TESTET I det här skedet ska vi bara se hur chi2-värdet beräknas (chi2 uttalas ki-två eller ki-i-kvadrat). Det kommer så småningom att bli klart hur vi använder denna test-statistika. Nedan visas formeln för chi2-värdet: χ 2 = (O c F c ) 2 celler Där O är en observerad frekvens; F är en förväntad frekvens. Vi ser bäst vad dessa frekvenser mäter genom ett exempel. Exempel forts. Bland männen är det 30 som röstar blått och 20 som röstar rött; bland kvinnorna är det 20 som röstar blått och 30 som röstar rött. Detta är de observerade frekvenserna. BLÅTT RÖTT totalt MÄN KVINNOR totalt I tabellen ovan har vi också lagt in de totala frekvenserna. Kolumnen totalt visar att vi har totalt 50 män och 50 kvinnor vilket summerar till 100 personer. Raden totalt visar att totalt 50 personer röstar blått och 50 röstar rött. De förväntade frekvenserna visar hur vi skulle förvänta oss att den här korstabellen såg ut om det inte finns något samband mellan kön och partipreferens. I korstabellen nedan har vi beskrivit de förväntade frekvenserna inom parentes. BLÅTT RÖTT Totalt MÄN (25) (25) KVINNOR (25) (25) totalt Hälften av personerna är män. Om det inte finns något samband mellan kön och partipreferens så förväntas hälften av alla som röstar blått vara män. Totalt 50 röstar blått; 25 av dessa förväntas vara män. Du hittar denna förväntade frekvens i första cellen (män, blått). På samma sätt förväntas hälften av alla som F c

302 röstar rött vara män. Totalt 50 röstar rött; 25 av dessa förväntas vara män. Du hittar denna förväntade frekvens i andra cellen (män, rött). På motsvarande sätt räknar vi ut de förväntade frekvenserna för kvinnorna. Men säg att det röda partiet var populärare än det blåa med totalt 80 av 100 röster: BLÅTT RÖTT Totalt MÄN KVINNOR totalt Tabellen nedan visar då de förväntade frekvenserna inom parentes. BLÅTT RÖTT Totalt MÄN (10) (40) KVINNOR (10) (40) totalt Eftersom hälften av personerna är män så förväntas hälften av alla som röstar blått vara män. Totalt 20 personer röstar blått; 10 av dessa förväntas vara män. Du hittar denna förväntade frekvens i första cellen (män, blått). På samma sätt förväntas hälften av alla som röstar rött vara män. Totalt 80 personer röstar rött; 40 av dessa förväntas vara män. Du hittar denna förväntade frekvens i andra cellen (män, rött). På motsvarande sätt kan vi resonera för kvinnorna. Men säg att vi nu dessutom har fler män än kvinnor så att 60 procent är män och 40 procent är kvinnor. Tabellen nedan visar då de förväntade frekvenserna inom parentes. BLÅTT RÖTT Totalt MÄN (12) (48) KVINNOR (8) (32) totalt Eftersom 60 procent är män så förväntas också 60 procent av alla som röstar blått vara män. Totalt 20 personer röstar blått; 12 av dessa förväntas vara män (0,6*20 = 12). Detta är den förväntade

303 frekvensen i första cellen (män, blått). Och på samma sätt förväntas 60 procent av alla de som röstar rött vara män. Totalt 80 personer röstar rött; 48 av dessa förväntas vara män (0,6*80 = 48). Detta är den förväntade frekvensen i andra cellen (män, rött). På motsvarande sätt kan vi resonera för kvinnorna. Exempel: Eftersom 40 procent är kvinnor så förväntas 40 procent av de 20 som röstar blått vara kvinnor, dvs. 8 personer (0,4*20 = 8). Detta var några exempel på hur man räknar ut förväntade frekvenser. Vi ska nu återgå till detta datamaterial som vi började med: BLÅTT MÄN O 1 = 30 (F 1 = 25) KVINNOR O 3 = 20 (F 3 = 25) RÖTT O 2 = 20 (F 2 = 25) O 4 = 30 (F 4 = 25) Vi kan nu se ut att chi2-värdet är 4: χ 2 = (O c F c ) 2 celler = (O 1 F 1 ) 2 F 1 + (O 2 F 2 ) 2 F 2 + (O 3 F 3 ) 2 F 3 + (O 4 F 4 ) 2 F 4 = 4 Cell O F O F (O F) 2 (O F) 2 /F = 4 F c Chi2-fördelningen Chi2-värdet blir alltid minst noll. Och ju mer de observerade frekvenserna avviker från de förväntade, desto större chi2-värde. Då chi2-värdet blir tillräckligt stort så säger vi att sambandet är signifikant. I exemplet ovan så gäller att vi, av bara slumpen, får ett sampel där chi2-värdet blir 4 eller större i 4 procent av fallen. Eller med

304 andra ord: Om det inte finns något samband mellan kön och partipreferens så är sannolikheten 4 procent för att få ett sampel där chi2-värdet blir minst 4. Det uppmätta chi2-värdet (4) hör alltså till de 4 procent mest extrema som man kan få bara av slumpen; p-värdet är då 0,04. Detta är ett signifikant samband: p- värdet = 0,04 < 0,05. Figuren nedan illustrerar detta: Den här fördelningen kallas för en chi2-fördelning. Om det inte finns något samband mellan kön och partipreferens så får vi ett sampel där chi2-värdet hamnar någonstans mellan 0 och 3,84 i 95 procent av fallen. Om vi får ett sampel där chi2-värdet hamnar någonstans inom detta intervall så säger vi att resultatet är insignifikant; det observerade sambandet i samplet är då så pass otydligt att det skulle kunna skyllas på slumpen. I 5 procent av fallen får vi ett sampel där chi2-värdet blir större än 3,84; i dessa fall så säger vi att resultatet är signifikant (p-värdet < 0,05). Och i 1 procent av fallen får vi ett sampel där chi2-värdet blir större än 6,64; i dessa fall så säger vi att resultatet är signifikant på 1- procentsnivån (p-värdet < 0,01). 3,84 och 6,64 är alltså de kritiska värdena på 5- och 1- procentsnivån. Eftersom vårt chi2-värde (4) är större än det kritiska värdet på 5-procentsnivån (3,84) så är sambandet signifikant. Men eftersom chi2-värdet (4) är mindre än det kritiska värdet på 1-procentsnivån (6,64) så är sambandet inte signifikant på 1-procentsnivån. Men detta visste vi ju redan eftersom p-värdet är 0,04 vilket är större än 0,01. Hur stora de kritiska värdena är varierar från fall till fall; sannolikheten för att bara av slumpen få ett chi2-värde på minst 4 beror också på antalet rader och kolumner i korstabellen. Man säger att chi2-fördelningen har en parameter som bestämmer hur den ser ut; genom att variera värdet på den här parametern

305 så får vi chi2-fördelningar med lite olika utseenden. Vi kallar den här parametern för frihetsgradsantalet. Frihetsgradsantalet fås genom att ta (r-1)*(k-1) där r är antalet rader och k är antalet kolumner. Här är några grafiska exempel: I exemplet med kön och partipreferens har vi alltså 1 frihetsgrad: BLÅTT RÖTT MÄN KVINNOR Men säg att vi istället haft följande korstabell: C SDP Gröna KD Saml Sannf SFP Vf MÄN KVINNOR Här har vi 7 frihetsgrader. Den här chi2-fördelningen visas nedan. Det kritiska värdet på 5-procentsnivån är nu 14,1 och på 1-procentsnivån 18,5. Med den här korstabellen så är det alltså betydligt lättare att få sampel med stora chi2-värden bara av slumpen, och vi beaktar detta genom att använda en lämplig chi2-fördelning.

306 Exempel: Är professionella placerare bättre på att sätta ihop en aktieportfölj än studenter? MINUS PLUS totalt STUDENTER PROFFSEN totalt Vi börjar med att räkna ut de förväntade frekvenserna; hur förväntas korstabellen se ut om det inte finns något samband mellan att vara proffs och sätta ihop en bra aktieportfölj: Första cellen (studenter, minus): 80 procent av personerna är studenter; alltså förväntas 80 procent av alla aktieportföljer som gått på minus vara gjorda av studenter. Totalt 25 aktieportföljer har gått på minus; 20 av dessa förväntas vara gjorda av studenter (0,8*25 = 20). Vi har skrivit in den förväntade frekvensen inom parentes i den här cellen: MINUS PLUS totalt STUDENTER (20) (F 2) PROFFSEN (F 3) (F 4) totalt På samma sätt kan vi räkna ut resten av de förväntade frekvenserna. Men här är ett knep som kan spara lite tid: Den andra förväntade frekvensen (F 2) måste vara 60; de förväntade frekvensen på raden STUDENTER måste summera till det totala antalet studenter (80): 20+60=80. Den tredje förväntade frekvensen (F 3) måste vara 5 eftersom de förväntade frekvenserna i kolumnen MINUS ska summera till det totala antalet aktieportföljer som gått på minus (25). Och på motsvarande sätt vet vi att den fjärde förväntade frekvensen (F 4) måste vara 15. Detta ger oss följande korstabell: MINUS PLUS totalt STUDENTER (20) (60) PROFFSEN (5) (15) totalt

307 Vi kan nu räkna ut att chi2-värdet är 1,33: χ 2 = (O c F c ) 2 1,33 celler Cell O F O F (O F) 2 (O F) 2 /F , , , ,2667 1,33 F c De kritiska värdena på 5- och 1-procentsnivån är 3,84 och 6,64. Det här sambandet är insignifikant (1,33 < 3,84). Exempel: Finns det ett samband mellan kundens ålder och hur svår man tycker att företagets hemsida är att använda? LÄTT SVÅR totalt ÅR ÅR ÅR ÅR ÅR totalt Vi räknar ut de förväntade frekvenserna: Första cellen (20-29 ÅR, lätt): 15 procent av personerna är år (60/400 = 0,15). Alltså förväntas 15 procent av de som tycker att hemsidan är lätt att använda vara åringar. Totalt 280 personer tycker att hemsidan är lättanvänd; 42 av dessa förväntas vara åringar (0,15*280 = 42). Vi har fyllt i denna förväntade frekvens i tabellen nedan.

308 LÄTT SVÅR totalt ÅR (42) ÅR ÅR ÅR ÅR totalt Tredje cellen (30-39 år, lätt): 19,5 procent av personerna är år (78/400 = 0,195). Alltså förväntas 19,5 procent av de som tycker att hemsidan är lätt att använda vara åringar. Totalt 280 personer tycker att hemsidan är lättanvänd; 54,6 av dessa förväntas vara åringar (0,195*280 = 54,6). LÄTT SVÅR totalt ÅR (42) ÅR (54,6) ÅR ÅR ÅR totalt På samma sätt räknar vi ut den förväntade frekvensen i cell 5, cell 7 och cell 9: LÄTT SVÅR totalt ÅR (42) ÅR (54,6) ÅR (62,3) ÅR (50,4) ÅR (42) totalt

309 Därefter kan vi utnyttja att de förväntade frekvenserna på en rad ska summera till det totala antalet på den raden, och att de förväntade frekvenserna i en kolumn ska summera till det totala antalet i den kolumnen: LÄTT SVÅR totalt ÅR (42) (18) ÅR (54,6) (23,4) ÅR (62,3) (26,7) ÅR (50,4) (21,6) ÅR (42) (18) (28,7) (12,3) totalt Vi kan nu räkna ut att chi2-värdet är 33,91: χ 2 = (O c F c ) 2 33,91 celler Cell O F O F (O F) 2 (O F) 2 /F , , ,6 11,4 129,96 1, ,4-11,4 129,96 5, ,3 2,7 7,29 0, ,7-2,7 7,29 0, ,4-3,4 11,56 0, ,6 3,4 11,56 0, , , ,7-8,7 75,69 2, ,3 8,7 75,69 6, ,91 F c De kritiska värdena på 5- och 1-procentsnivån är 11,1 och 15,1. Detta är signifikant samband, också på 1-procentsnivån (33,91 > 15,1).

310 Chi2-testet i statistiska programpaket Exempel forts. I exemplet ovan så såg vi att det fanns ett signifikant samband mellan ålder och åsikt gällande hemsidan. Vi vet också att p-värdet är mindre än 0,01 eftersom sambandet är signifikant på 1-procentsnivån. Men om vi vill räkna ut p-värdet mer exakt så får vi använda oss av datorer. Såhär ser data ut då vi beskriver det i en datamatris (det är alltså i den här formen som det förs in i ett statistiskt programpaket): Id Ålder Åsikt lätt lätt lätt svår lätt svår lätt Här är en jämförelse av programmen STATA och SPSS. Chi2- värdet är inringat i rött och p-värdet i blått. STATA: SPSS:

311 Bägge programmen visar naturligtvis samma sak, dvs. att p- värdet är nära 0. Alternativ till chi2-testet för data på ordinalnivå Exempel forts. I exemplet ovan såg vi att det fanns ett signifikant samband mellan ålder och åsikt gällande hemsidan. Men hur kan vi beskriva det här sambandet? En möjlighet är att använda Spearmans rangkorrelation som här får värdet 0,28. För att räkna ut denna med hjälp av ett statistiskt programpaket så får vi börja med att ge lämpliga numeriska värden till åldersgrupperna och åsiktskategorierna: Id Ålder Åsikt Åldersgrupp Svår lätt lätt lätt svår lätt svår lätt 2 0 Nedan visas resultatet när Spearmans rangkorrelation beräknas med hjälp av programpaketet STATA. Vi får också med ett p- värde på ~0,000:

312 Återigen kan vi konstatera att det finns ett signifikant samband mellan åldersgrupp och åsikt gällande hemsidan. Men här har vi använt ett t-test istället för ett chi2-test. Så vad är skillnaden? Med hjälp av t-testet har vi sett att det finns ett signifikant positivt samband mellan ålder och uppfattningen att hemsidan är svår att använda. Med hjälp av chi2-testet kunde vi konstatera att det finns signifikanta skillnader i åsikter beroende på ålder. Anta att unga personer skulle tycka att hemsidan är svår att använda, att medelålders tycker att den är lätt att använda och att gamla tycker att den är svår att använda. I så fall kunde korrelationen bli noll (och t-testet bli insignifikant) men chi2-testet kunde ändå ge ett signifikant resultat (tydliga skillnader mellan åldersgrupperna). Antaganden Chi2-testet bygger på följande antaganden: 1) Slumpmässigt sampel Det viktiga här är att vi gjort oberoende dragningar. (Om vi tagit ett stratifierat sampel, t.ex. först samplat 50 kvinnor och därefter 50 män så går det också bra om vi vill titta på sambandet mellan just kön och någon annan variabel.) 2) Tillräckligt många observationer. En tumregel brukar vara en förväntad frekvens på minst 5 i varje cell. Övningsuppgifter: Se här.

313 13.3 CHI2-TESTET FÖR ATT TESTA FÖRDELNINGSFORM Exempel: Nedan visas data hämtat från artikeln Sociodemographic risk factors in wife abuse: Results from a Survey of Toronto Women. Tabellen visar åldersfördelningen för 490 samplade kvinnor. Ålder Observerad frekvens Totalt 490 Författarna skriver att de försökt dra ett slumpmässigt sampel genom att ringa slumpmässigt utvalda hushåll. Har detta lyckats? Enligt folkbokföringen så gäller följande ålderfördelning för kvinnor i Toronto i åldern 20 till 44: Ålder Procent Totalt 100 Har författarna lyckats dra ett slumpmässigt sampel? Eller finns det en signifikant skillnad mellan den åldersfördelningen i samplet och populationsfördelningen? Vi kan använda chi2-testet för att svara på detta. Vi börjar med att fylla i de förväntade frekvenserna: Ålder Observerad Frekvens Förväntad Frekvens , ,8 Totalt

314 Eftersom populationen till 18 procent består av åringar, så förväntas 18 procent av personerna i samplet vara år. Vi har totalt 490 personer i samplet; 88,2 av dessa förväntas vara år (0,18*490 = 88,2). Detta är den förväntade frekvensen på första raden. På samma sätt har vi fått de andra två förväntade frekvenserna. Vi kan nu räkna ut att chi2-värdet är 7,20: = (103 88,2)2 88,2 χ 2 (O F)2 = F ( )2 ( ,8) , ,8 Är 7,20 ett tillräckligt stort värde för att vi ska kunna säga att skillnaden är signifikant? I det här fallet så är det kritiska värdet på 5-procentsnivån 5,99. Svaret är med andra ord ja: 7,20 > 5,99. Det verkar med andra ord som att författarna inte helt och hållet lyckats dra ett slumpmässigt sampel. En notering såhär på slutet: Tidigare såg vi att chi2-fördelningen varierar i utseende beroende på hur korstabellen ser ut (antal rader, antal kolumner). Vi särskiljer en chi2-fördelning från en annan genom det så kallade frihetsgradsantalet. I detta exempel får vi frihetsgradsantalet som antalet kategorier minus ett. Vi har med andra ord 2 frihetsgrader (3 ålderskategorier minus ett). Övningsuppgifter: Se här.

315 13.4 LOGISTISK REGRESSION (LOGIT) Exempel: Korstabellen nedan visar sambandet mellan kön och partipreferens. BLÅTT RÖTT totalt MÄN KVINNOR totalt procent av kvinnorna röstar rött; oddset för att rösta rött är ~1,632 för kvinnorna. 38 procent av männen röstar rött; oddset för att rösta rött är ~0,613 för männen. Oddset för att rösta rött är alltså ~2,662 gånger högre för kvinnorna än för männen: Oddskvoten är ~2,662. När vi på det här sättet beskriver hur oddset för att rösta rött varierar beroende på kön så har vi gjort en logistisk regression. En logistisk regression beskriver oddset för ett visst utfall som en multiplikativ modell av en eller flera oberoende variabler. I det här exemplet så kan vi beskriva den funktionen: Oddset för att rösta rött = 0,613 2,662 kvinna Den här ekvationen säger exakt samma sak som vi gjorde ovan i text, dvs. att männens odds är 0,613 och att kvinnornas odds är 2,662 gånger högre. Vi kan se detta genom att beräkna oddset för kvinnorna respektive männen. Vi får männens odds genom att sätta kvinna = 0: Oddset för att rösta rött = 0,613 2,662 0 =1 Vi får kvinnornas odds genom att sätta kvinna = 1: Oddset för att rösta rött = 0,613 2, ,662 = 0,613 = 1,632 När vi gör den här regressionen med hjälp av ett statistiskt programpaket så ser resultatet ut såhär:

316 Konstanten (0,613) är oddset då den oberoende variabeln har värdet 0. I det här fallet visar konstanten att oddset för att rösta rött är 0,613 för männen. Oddskvoten för variabeln kvinna (2,662) visar oddset för kvinnorna i förhållande till det för männen. Men varför är kvinnor mer benägna att rösta rött än män? En möjlig förklaring är att män i snitt tjänar mer än kvinnor, och att höginkomsttagare är mer benägna att rösta blått än låginkomsttagare. Anta att detta är hela förklaringen till skillnaden mellan könen. Data kunde då se ut så här: LÅGINKOMSTTAGARE: BLÅTT RÖTT totalt MÄN KVINNOR totalt HÖGINKOMSTTAGARE: BLÅTT RÖTT totalt MÄN KVINNOR totalt Bland låginkomsttagare är det 80 procent av kvinnor och 80 procent av män som röstar rött. Bland höginkomsttagare är det 20 procent av kvinnor och 20 procent av män som röstar rött. Eller med andra ord: Det finns inget samband mellan kön och partipreferens efter att vi kontrollerat för inkomst.

317 Här visas regressionsutskriften i STATA, där högink är en dummy som antar värdet 1 för höginkomsttagare och värdet 0 för låginkomsttagare: Oddskvoten för variabeln kvinna är 1: Oddset för att rösta rött är lika stort bland kvinnorna som bland männen efter att vi kontrollerat för inkomst. Eller med andra ord: Kvinnor och män har lika stor sannolikhet att rösta rött då vi jämför personer med samma inkomst. Oddskvoten för variabeln högink är 0,0625: Oddset för att rösta rött är 93,75 procent lägre bland höginkomsttagare än bland låginkomsttagare. Konstanten har värdet 4: Oddset för att rösta rött är 4 för manliga låginkomsttagare. Det här är alltså oddset då bägge oberoende variabler har värdet 0. Hur stort är oddset för att rösta rött för kvinnliga höginkomsttagare? Vi kan se detta genom att beskriva oddset som en funktion av kön och inkomst: Oddset för att rösta rött = 4 1 kvinna 0,0625 högink Vi kan nu till exempel se att oddset för att rösta rött är 0,25 bland kvinnliga höginkomsttagare: Oddset för att rösta rött = , = 0,25

318 Kvantitativa oberoende variabler I en logistisk regression är utfallet alltid en binär variabel (0/1). Men de oberoende variablerna kan vara kvantitativa eller kvalitativa. Vi ska nu se på ett exempel med en kvantitativ oberoende variabel: Exempel: Nedan visas data för personerna som steg ombord på Titanic år 1912: Namn biljettpris överlevde Allen, Miss. Elisabeth Walton 211, Allison, Master. Hudson Trevor 151,55 1 Allison, Miss. Helen Loraine 151,55 0 Allison, Mr. Hudson Joshua Creighton 151,55 0 Allison, Mrs. Hudson J C (Bessie Waldo 151,55 0 Daniels) Anderson, Mr. Harry 26,55 1 Andrews, Miss. Kornelia Theodosia 77, Andrews, Mr. Thomas Jr 0 0 Appleton, Mrs. Edward Dale (Charlotte 51, Lamson) Zimmerman, Mr. Leo 7,875 0 Vi vill beskriva oddset för att överleva som en funktion av biljettpriset. Nedan visas resultatet: Regressionen ovan visar att oddset för att överleva stiger med en faktor på ~1,0125 för varje extra dollar man betalat för biljetten. Eller med andra ord: Oddset för att överleva stiger med ~1,25 procent för varje extra dollar man betalat för biljetten.

319 Vi kan beskriva oddset för att överleva som en funktion av biljettpriset: Oddset för att överleva = 0,414 1,0125 pris För en person som betalat 0 dollar blir oddset: Oddset för att överleva = 0,414 1, =1 För en person som betalat 1 dollar blir oddset: Oddset för att överleva = 0,414 1, =1,0125 För en person som betalat 2 dollar blir oddset: Oddset för att överleva = 0,414 1, = 0,414 1,0125 1,0125 0,424 För en person som betalat 3 dollar blir oddset: = 0,414 0,419 Oddset för att överleva = 0,414 1,0125 1,0125 1,0125 0,430 Alltså: Oddset stiger med en faktor på 1,0125 (1,25 %) för varje extra dollar. För en person som betalat 10 dollar blir oddset: Oddset för att överleva = 0,414 1, = 0,469 I tabellen nedan visas oddset för att överleva för olika biljettpriser:

320 Biljettpris Oddset 0 0, , , , , , , , , ,473 Vi kan också skriva om dessa odds till sannolikheter. Exempel: Om oddset för att överleva är 3 så är sannolikheten för att överleva 0,75: Ett odds på 3 betyder att det går 3 överlevare på varje död person, dvs. 3 av 4 eller 75 procent överlever. Vi kan beräkna sannolikheten utifrån oddset med hjälp av formeln: p = odds 1 + odds Biljettpris Oddset P(överleva) 0 0,414 0, ,419 0, ,424 0, ,430 0, ,000 0, ,434 0, ,966 0, ,199 0, ,568 0, ,473 0,996 Nedan har vi illustrerat sambandet mellan biljettpriset och sannolikheten för att överleva grafiskt:

321 Sannolikhet Sannolikheten att överleva Titanic Biljettpris Vi ser med andra ord att sannolikheten närmar sig 1 ju högre biljettpris. Den når dock aldrig hela vägen upp till 1. På samma sätt så kommer sannolikheten aldrig att bli 0 eller negativ. Det här är karaktäristiskt för alla logistiska regressioner; sannolikheten för ett visst utfall hittas alltid någonstans mellan 0 och 1. Exempel forts: Vi kan också kontrollera för andra variabler. I tabellen nedan visas dessutom data för kön och åldersgrupp, där åldersgrupperna mäts genom fem kategorier: barn = 0-12 år; tonåring = år; ung vuxen = år; äldre vuxen = år; gammal = 50+.

322 Namn biljettpris kvinna åldersgrupp överlevde Allen, Miss. 211, Ung vuxen 1 Elisabeth Walton Allison, Master. 151,55 0 Barn 1 Hudson Trevor Allison, Miss. Helen 151,55 1 Barn 0 Loraine Allison, Mr. Hudson 151,55 0 Ung vuxen 0 Joshua Creighton Allison, Mrs. 151,55 1 Ung vuxen 0 Hudson J C (Bessie Waldo Daniels) Anderson, Mr. 26,55 0 Äldre vuxen 1 Harry Andrews, Miss. 77, Gammal 1 Kornelia Theodosia Andrews, Mr. 0 0 Äldre vuxen 0 Thomas Jr Appleton, Mrs. 51, Gammal 1 Edward Dale (Charlotte Lamson) Zimmerman, Mr. Leo 7,875 0 Ung vuxen 0 För att inkludera åldersgrupperna i regressionen så gör vi om dem till en rad dummy-variabler (precis som vi skulle göra i en vanlig regression). Nedan visas resultatet då barn används som referensgrupp: Oddskvoten för variabeln biljettpris är 1,0098: Oddset för att överleva ökar med en faktor på ~1,01 för varje extra dollar man spenderat på biljetten, kontrollerat för kön och ålder. Eller med

323 andra ord: Oddset för att överleva ökar med ~1 procent för varje extra dollar. Oddskvoten för variabeln kvinna är 10,88: Oddset för att överleva är nästan 11 gånger större för kvinnor i förhållande till män kontrollerat för biljettpris och ålder. Oddskvoten för variabeln tonåring är 0,399: Oddset för att överleva är ungefär 60 procent lägre bland tonåringar i förhållande till barn, kontrollerat för biljettpris och kön. (Här jämför vi tonåringar med barn eftersom barnen är den utelämnade referensgruppen.) Oddskvoten för variabeln gammal är 0,420: Oddset för att överleva är 58 procent lägre bland 50-plussare i förhållande till barn, kontrollerat för biljettpris och kön. Från regressionen ovan ser vi alltså att barnen har det bästa oddset att överleva, och att tonåringarna har det sämsta. Exempel forts. Från regressionen ser vi att p-värdena för varje oddskvot är mindre än 0,05. Alla dessa effekter är alltså signifikanta. Flera effekter är också signifikanta på 1- procentsnivån (p-värdet 0,01). Till exempel ser vi oddskvoten för biljettpriset har ett p-värde på 0,000. Det betyder att den här oddskvoten är signifikant större än 1 på 1-procentsnivån; en oddskvot på 1 hade ju betytt att biljettpriset inte har någon effekt på sannolikheten att överleva.

324 De z-värden som ges i tabellen ovan motsvarar t-värdena i en vanlig regression. Hur dessa z-värden beräknas överlämnas till Appendix. Tabellen ger oss också konfidensintervall för oddskvoterna. Exempelvis ser vi att konfidensintervallet för biljettprisets oddskvot går mellan 1,006 och 1,013; den sanna oddskvoten ligger någonstans inom intervallet med 95-procentig sannolikhet. Tabellen ovan ger oss också ett chi2-värde på 357,64 vilket ger ett p-värde på 0,0000. Det här visar att regressionsmodellen som helhet har signifikant förklaringsstyrka; vi kan dra slutsatsen att åtminstone en av de oberoende variablerna har en effekt på sannolikheten att överleva. Chi2-testet motsvarar alltså F-testet i en vanlig regression. Presentation av resultatet Nedan visas ett exempel på hur resultatet från en logistisk regression kan presenteras. Tabellen visar oddskvoten för respektive oberoende variabel med standardfel inom parenteser. Signifikanta effekter är utmärkta med stjärnor. Tabell: Logistisk regression (utfall: Överlevde Titanic) (1) VARIABLER Oddskvot Biljettpris 1.010*** ( ) Kvinna 10.88*** (1.710) Ålder (ref. Barn) Tonåring 0.399*** (0.129) Ung vuxen 0.540** (0.144) Äldre vuxen 0.472*** (0.138) Gammal 0.420** (0.144) Konstanten 0.361*** (0.0911) Observationer 1,045 Standardfel inom parenteser *** p<0.01, ** p<0.05, * p<0.1

325 Det är inte heller ovanligt att ange referensgruppen genom att sätta oddskvoten lika med 1 för denna. Ett exempel på detta ges nedan: Tabell: Logistisk regression (utfall: Överlevde Titanic) (1) VARIABLER Oddskvot Biljettpris 1.010*** ( ) Kön Man Kvinna Ålder Barn Tonåring *** (1.710) *** (0.129) Ung vuxen 0.540** (0.144) Äldre vuxen 0.472*** (0.138) Gammal 0.420** (0.144) Konstanten 0.361*** (0.0911) Observationer 1,045 Standardfel inom parenteser *** p<0.01, ** p<0.05, * p<0.1 Övningsuppgifter: Se här.

326 Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER När vi mäter en effekt i data så vill vi ofta se om denna skiljer sig mellan olika delgrupper. Vi kanske testar effekten av ett nytt träningsprogram och finner att träningsprogrammet ökat insulinkänsligheten hos deltagarna. Men är effekten lika stor bland kvinnor som bland män? Bland normalviktiga som bland överviktiga? Eller säg att vi mäter effekten av en ny reklamkampanj och finner att den ökat försäljningen. Men har den ökat försäljningen i alla kundgrupper? Eller har kampanjen funkat särskilt bra bland unga? Bland gamla? Då vi mäter skillnaden i en effekt mellan två delgrupper så kallas detta för en interaktionseffekt. Exempel: Vi mäter avkastningen på utbildning och finner att varje extra skolår ökar lönen med 100 euro i genomsnitt. Men är avkastningen lika stor bland kvinnor som bland män? Anta att männen har en genomsnittlig avkastning på 120 euro och kvinnorna en avkastning på 80 euro. Skillnaden i avkastning mellan könen (40 euro = ) kallas för en interaktionseffekt. I nästa avsnitt (15.1) ska vi se på hur vi kan formulera regressioner som mäter interaktionseffekter. I avsnitt 15.2 diskuterar vi standardiserade skalor och i avsnitt 15.3 diskuterar vi icke-linjära effekter och fixa effekter.

327 15.1 INTERAKTIONSEFFEKTER Exempel: Är traditionella kurser i klassrum bättre än nätkurser? 200 studerande anmäler intresse att gå en kurs. Dessa delas in i två grupper; 100 får gå den traditionella varianten och 100 får gå nätversionen. I slutet skriver alla samma prov. Regressionen nedan visar att de som gick nätkursen i snitt skrev lika bra på provet som de som gick den traditionella varianten: prov = nätkurs Vi kör nu samma regression som ovan, men skilt för män och kvinnor: Männen: Kvinnorna: prov = nätkurs prov = nätkurs Om vi enbart tittar på männen ser vi att de som gick nätkursen i snitt skrev 10 poäng sämre än de som gick den traditionella varianten. Bland kvinnorna är effekten den omvända; de som gick nätkursen skrev i snitt 10 poäng bättre än de som gick den traditionella varianten. Effekten av att gå nätkursen är alltså 20 poäng högre bland kvinnorna än bland männen; detta är en interaktionseffekt. I det här exemplet beskrev vi männens och kvinnornas regressioner skilt. Men vi kan också kombinera dessa två regressioner i en: prov = kvinna 10 nätkurs + 20(kvinna nätkurs) där (kvinna nätkurs) är produkten av variablerna kvinna och nätkurs. Den här variabeln antar värdet 1 för personer som både är kvinnor och som gick nätkursen, och värdet 0 för alla andra. Vi kallar en sådan produkt för en interaktionsterm. Regressionen ovan beskriver exakt samma sak som de två enskilda regressionerna (männens och kvinnornas). För att se detta kan vi skriva om regressionen ovan så att den bara gäller männen. Vi sätter då kvinna = 0 med resultatet: prov = kvinna =0 10 nätkurs + 20(kvinna =0 = nätkurs nätkurs)

328 Notera att det som blev kvar är just männens regression. Och på motsvarande sätt får vi kvinnornas regression genom att sätta kvinna = 1: prov = kvinna =1 10 nätkurs + 20(kvinna =1 = nätkurs + 20 nätkurs = nätkurs nätkurs) Interaktionstermen tillåter oss alltså att mäta om en effekt skiljer mellan olika grupper. Men låt oss ännu fundera på vad de olika koefficienterna betyder: prov = kvinna 10nätkurs + 20(kvinna nätkurs) I fet stil har vi det som är männens regression; vi får den genom att ignorera de termer som innehåller variabeln kvinna. Interceptet (75) visar alltså genomsnittligt provresultat bland män som gick den traditionella varianten. Koefficienten för nätkurs (-10) visar att männen som gick nätkursen snittade 10 poäng sämre än de män som gick den traditionella varianten. prov = kvinna 10 nätv + 20(kvinna nätkurs) I fet stil visas hur kvinnornas regression skiljer sig från männens. Koefficienten för kvinna (-10) visar att kvinnornas intercept ligger 10 poäng lägre än männens. Koefficienten för interaktionstermen (+20) visar att effekten av att gå nätkursen är 20 poäng högre bland kvinnorna än bland männen. Figuren på nästa sida illustrerar männens och kvinnornas regressioner skilt:

329 Poäng på provet Effekten av att ta nätkursen - skilt för män och kvinnor Traditionell Nätkurs Männens regression Kvinnornas regression När vi estimerar den här regressionen med hjälp av ett statistiskt programpaket så börjar vi med att skapa variabeln kvinna*nätkurs, nedan kallad kvinna_nätkurs: id kvinna nätkurs kvinna_nätkurs poäng På nästa sida ser du resultatet från en körning med dessa tre oberoende variabler (kvinna, skolår, kvinna_skolår):

330 Effekten av att gå nätkursen är ~20 poäng högre bland kvinnorna än bland männen, och denna skillnad är signifikant på 1- procentsnivån (t-värdet = 4,47; p-värdet = 0,000 < 0,01). Det går också bra att inkludera andra kontrollvariabler i den här regressionen. Nedan visas resultatet då vi också kontrollerat för ålder: prov = kvinna 11 nätkurs + 20(kvinna nätkurs) + 0,8 ålder Resultatet ändrade dock inte nämnvärt; effekten av att gå nätkursen är fortfarande 20 poäng högre bland kvinnorna än bland männen. [Exemplet ovan bygger på fejkade data.] Exempel: Regressionerna nedan visar hur lönen varierar med antalet skolår bland thailändska män och kvinnor. Data består av 213 män och 190 kvinnor. Lönen mäts i thailändska baht. Männen: Kvinnorna: lön = skolår lön = skolår Vi ser att avkastningen på varje ytterligare skolår är 2955 baht högre bland männen än bland kvinnorna ( = 2955). Vi vill testa om den här skillnaden mellan könen är signifikant. Vi kombinerar därför dessa två regressioner i en: lön = skolår 31939man (skolår man) där man är en dummy som antar värdet 1 för männen och värdet 0 för kvinnorna; (skolår*man) är interaktionstermen. Den här regressionen visar exakt samma sak som de två enskilda. Vi får

331 kvinnornas regression genom att ignorera de termer som innehåller variabeln man: lön = skolår 31939man (skolår man) I fet stil visas hur männens regression skiljer sig från kvinnornas: lön = skolår 31939man (skolår man) Männens intercept ligger alltså baht lägre än kvinnornas; avkastningen på ett skolår är 2955 baht högre bland männen än bland kvinnorna. I det här exemplet är männens intercept : En man som inte alls gått i skolan predikteras alltså ha en negativ lön. Hur kan det komma sig? Det här beror delvis på att alla män i data har minst 8 skolår. Prediktionerna för personer med långt färre skolår kan då bli rätt skakiga. Men en ännu viktigare förklaring är att en linjär modell passar data rätt dåligt i det här fallet, vilket figuren nedan visar. Lönen ökar inte linjärt med antalet skolår, utan snarare exponentiellt. I det här fallet passar det data bättre att använda ett logaritmerat utfall. Nedan har vi kört männens och kvinnornas regressioner då utfallet är logaritmerad lön: Männen: Kvinnorna: ln (lön) ln (lön) = 9,0 + 0,10 skolår = 9,4 + 0,06 skolår

332 För männen gäller att lönen i snitt ökar med 10 procent för varje ytterligare skolår. För kvinnorna är motsvarande siffra 6 procent. Det är en skillnad på 4 procentenheter: ln (lön) = 9,4 + 0,06skolår 0,4man + 0, 04(skolår man) Är skillnaden i avkastning mellan könen signifikant? Ja, standardfelet för interaktionseffekten är 0,011 vilket ger ett t- värde på ~3,6 och ett p-värde nära 0 (t-värdet = 0,04/0,011). Nedan visas spridningsdiagrammen, skilt för män och kvinnor: På följande sida har vi kombinerat dessa två spridningsdiagram i ett. Skillnaden i lutning mellan männens och kvinnornas regressionslinjer är 0,04, dvs. interaktionseffekten.

333 Det går också bra att kontrollera för andra variabler i den här regressionen. Nedan visas resultatet då vi också kontrollerat för arbetserfarenhet (erf = antalet år som personen jobbat hos nuvarande arbetsgivare): ln (lön) = 9,3 + 0,06skolår 0,4man + 0,04(skolår man) + 0,01erf Vi ser att lönen i snitt ökar med 1 procent för varje extra år hos nuvarande arbetsgivare, kontrollerat för skolår och kön. Men den här effekten är inte signifikant (t-värdet = 1,39; p-värdet = 0,165). I ett tredje steg tillåter vi dessutom att effekten av arbetserfarenhet skiljer sig mellan könen: ln (lön) = 9,2 + 0,06skolår 0,2man + 0,04(skolår man) + 0,02erf 0,01(erf man) Vi ser att kvinnornas lön i snitt ökar med 2 procent för varje extra år hos nuvarande arbetsgivare (kontrollerat för de andra oberoende variablerna). För männen är denna effekt 0,01 enheter lägre, det vill säga 1 procent. Den här skillnaden mellan könen är dock inte signifikant (t-värdet = -0,81, p-värdet = 0,418). Regressioner som innehåller interaktionstermer kan se rätt komplicerade ut och det tar lite tid att vänja sig. Om du känner dig osäker på tolkningen av en viss koefficient, kom då ihåg att du alltid kan skriva om regressionen skilt för de olika grupperna.

334 Nedan har jag gjort just detta; jag har använt regressionen ovan och skrivit om den skilt för män och kvinnor. Kvinnornas regression fås genom att ignorera alla termer som innehåller dummyn man (dessa försvinner ju då vi sätter man = 0): ln(lön) = 9,2 + 0,06skolår 0,2man + 0,04(skolår man) + 0,02erf 0,01(erf man) = 9, 2 + 0, 06skolår + 0, 02erf Männens regression fås genom att sätta man = 1: ln(lön) = 9,2 + 0,06skolår 0,2 man =1 + 0,02erf 0,01 (erf man) + 0,04 (skolår man) =1 =1 = 9,2 + 0,06skolår 0,2 + 0,04skolår + 0,02erf 0,01erf = 9, 0 + 0, 10skolår + 0, 01erf Notera här att skillnaden mellan männens och kvinnornas regressionskoefficienter är just interaktionseffekterna. Exempel: Koefficienten för skolår är 0,10 för männen och 0,06 för kvinnorna; skillnaden är 0,04, dvs. interaktionseffekten.

335 15.2 STANDARDISERAD SKALA Exempel: Regressionen nedan visar hur lönen varierar med antalet skolår och IQ. Regressionen bygger på data för 2061 amerikaner. ln(lön) = 5,58 + 0,026skolår + 0,004IQ Då intelligensen ökar med 1 poäng så ökar lönen i snitt med 0,4 procent, kontrollerat för antalet skolår. Men vad betyder det? Är det här en liten eller stor effekt? Ibland kan det vara svårt att bedöma om en viss effekt är stor eller liten enbart utifrån koefficientens storlek. Det är då vanligt att man använder en standardiserad skala: Istället för att mäta effekten av att intelligensen ökar med 1 poäng, så mäter vi effekten av att intelligensen ökar med 1 standardavvikelse. Intelligensen har här en standardavvikelse på 15,4 poäng: När intelligensen ökar med 1 standardavvikelse (=15,4 poäng) så ökar lönen i snitt med ~6 procent (15,4*0,004 = 0,0616) kontrollerat för utbildning. Vad har då större betydelse för lönen? Antalet skolår eller intelligensen? Vi ser förstås att koefficienten för antalet skolår är större än den för IQ. Men det här betyder inte att utbildning är mer betydelsefullt än intelligens. De här två variablerna mäts ju på olika skalor (år kontra poäng) och vi kan inte jämföra deras koefficienter rakt av. Vi får en bättre jämförelse om vi mäter båda variablerna i samma enhet, nämligen i antal standardavvikelser. Skolår har en standardavvikelse på 2,27 år: Då antalet skolår ökar med 1 standardavvikelse (=2,27 år) så ökar lönen i snitt med ~6 procent (2,27*0,026 = 0,05902) kontrollerat för IQ. Skolår och IQ har med andra ord ungefär samma betydelse för lönen då variablerna mäts i antal standardavvikelser.

336 15.3 ICKE-LINJÄRA EFFEKTER OCH FIXA EFFEKTER Vi har redan sett flera exempel på hur man kan använda en logaritmisk skala då det passar data bättre att mäta förändringar i procent. I kapitel 7 (Att beskriva tidsseriedata) såg vi också hur man kan beskriva kvadratiska trender i en serie över tid. Logaritmer och kvadratiska funktioner är de populäraste sätten att beskriva icke-linjära samband. Logaritmer används mer eller mindre rutinmässigt när vi har variabler som mäts i pengar eller stora kvantiteter (löner, priser, koldioxidutsläpp, befolkningsmängd). Kvadratiska funktioner används när vi vill beskriva att en viss variabel (x) har en avtagande eller tilltagande effekt på y. I det här avsnittet ska vi se ett par exempel på hur kvadratiska funktioner kan användas då vi jobbar med tvärsnittsdata. Vi ska också diskutera ett tredje sätt att beskriva icke-linjära effekter genom användningen av fixa effekter. Kvadratiska funktioner Exempel: Ju mer tid du sätter på att plugga desto bättre blir också tentresultatet. Men effekten av att gå från 0 till 1 studietimmar per vecka är säkert större än effekten av att gå från 11 till 12 timmar som i sin tur är större än effekten av att gå från 21 till 22 timmar. Den positiva effekten av att plugga ytterligare en timme är alltså positiv, men avtagande. Och i något skede om du går från, säg, 100 till 101 timmar så kanske effekten blir negativ. Anta nu att tentpoängen bestäms av antalet studietimmar enligt tabellen nedan.

337 timmar poäng förändring (per vecka) Om du går från att inte studera alls till att studera en timme per vecka så adderar du 14 poäng till tentresultatet. Om du går från en till två studietimmar per vecka så adderar du ytterligare 13 poäng till tentresultatet, och om du går från två till tre studietimmar adderar du ytterligare 12 poäng till tentresultatet. Avkastningen på att plugga ytterligare en timme minskar alltså med 1 poäng för varje timme. Det här är ett exempel på ett kvadratiskt samband. Regressionsmodellen nedan beskriver hur vi mäter ett sådant samband. Vi beskriver då tentresultatet (poäng) som en kvadratisk funktion av antalet arbetstimmar. (Här har vi också adderat till en felterm eftersom tentpoängen i verkligheten knappast bara bestäms av antalet studietimmar.) poäng = β 0 + β 1 timmar + β 2 timmar 2 + u Vi har nu ett datamaterial som täcker 100 studerande, deras arbetstimmar och resultatet på tenten. Vi estimerar modellen ovan med resultatet: poäng = ,5timmar 0,5timmar 2 Spridningsdiagrammet nedan illustrerar detta datamaterial med regressionsekvationen i rött.

338 Låt oss ännu fundera på vad den här regressionen berättar. Koefficienten för timmar är positiv; effekten av att plugga är positiv åtminstone i början. Koefficienten för timmar 2 är negativ; den positiva effekten av att plugga är avtagande, dvs. den blir mindre positiv ju mer du pluggar. I något skede når vi maxpunkten och efter det så lönar det sig inte att plugga ännu mer. Hur mycket predikteras tentpoängen förändras om vi ökar arbetstiden med en timme? Jo, det här beror helt och hållet på hur mycket vi pluggade i utgångsläget. Eller med andra ord: Avkastningen på att plugga ytterligare en timme är en funktion av hur många timmar vi pluggade innan. Vi kan få en bra bild av hur stor den här avkastningen är genom att derivera poäng med avseende på antalet timmar: poäng = ,5timmar 0,5timmar 2 δpoäng = 14,5 1 timmar δtimmar Exempel: Avkastningen på att plugga ytterligare en timme är ~4,5 poäng, givet att vi innan pluggade 10 timmar: δpoäng = 14,5 1 timmar δtimmar = 4,5 =10 Notering: När vi deriverar och sätter timmar = 10, så får vi egentligen lutningen på kurvan i just den punkten (10). 4,5 poäng är med andra ord snarare avkastningen då vi går från 9,5 till 10,5

339 studietimmar, men detta är tillräckligt nära för att duga bra som approximation. Exempel: Är det bra att vara hur smart som helst? Spridningsdiagrammet nedan visar sambandet mellan logaritmerad lön och IQ, och bygger på data för 2061 amerikaner. I rött har vi estimerat ett linjärt samband; i grönt har vi estimerat en kvadratisk funktion. Den kvadratiska funktionen passar data bättre, men hur tolkar vi den? ln(lön) = 4,62 + 0,0288 IQ 0,00012 IQ 2 Koefficienten för IQ är positiv; lönen ökar med högre IQ åtminstone till att börja med. Koefficienten för IQ 2 är negativ; den positiva effekten avtar ju smartare du är. Nedan har vi deriverat ln(lön) med avseende på IQ: δln (lön) δiq = 0,0288 0,00024 IQ Anta att vi har en person med en intelligenskvot på 100: Hur mycket predikteras lönen öka om intelligensen ökar med ytterligare 1 poäng? Jo, med ungefär 0,5 procent: 0,0288 0,00024 IQ = 0,

340 Anta nu att vi har en person med en intelligenskvot på 120: Hur mycket predikteras lönen öka om intelligensen ökar med ytterligare 1 poäng? Jo, inte alls: 0,0288 0,00024 IQ = Det lönar sig alltså inte att vara smartare än så; vid 120 poäng når lönekurvan sin höjdpunkt och därefter predikteras lönen börja sjunka igen. Det går förstås också bra att använda högre gradens polynom, t.ex. att beskriva lönen som en kubisk funktion av IQ: ln(lön) Eller fjärde gradens polynom: ln(lön) = β 0 + β 1 IQ + β 2 IQ 2 + β 3 IQ 3 + u = β 0 + β 1 IQ + β 2 IQ 2 + β 3 IQ 3 + β 4 IQ 4 + u I praktiken använder man dock sällan högre gradens polynom. Det här beror delvis på att det inte brukar behövas, och vi håller gärna modellen så enkel som möjligt. Det går förstås också bra att inkludera andra oberoende variabler i den här regressionen. Nedan har vi också inkluderat mammans utbildning (mätt i antal år): ln(lön) = 4,45 + 0,0306 IQ 0,00013 IQ 2 + 0,01mutb Då mammans utbildning ökar med ett år så ökar lönen i snitt med 1 procent, kontrollerat för IQ. Fixa effekter När vi säger att vi använder fixa effekter så betyder det att vi lägger in en dummy-variabel för varje värde på x. Exempel: Tar äldre pappor ut mer föräldraledighet? Eller är det istället dom yngre som tar ut mer föräldraledighet? Vi har ett datamaterial som består av 6340 nyblivna pappor i åldrarna Regressionen nedan visar att äldre pappor (33-45 år) i snitt tar ut 12 dagar mer ledighet än de yngre (20-32 år): ledighet = 15,9 + 12,0äldre

341 Nedan har vi kört motsvarande regression, men istället delat in papporna i fem åldersgrupper: år, år, år, år och år. Referensgruppen är de yngsta (20-24 år): ledighet = 10,1 + 7,3grupp2 + 13,4grupp3 + 18,0grupp4 + 18,1grupp5 där grupp2 är en dummy för pappor som är år; grupp3 är en dummy för pappor som är år; grupp4 är en dummy för de som är år och grupp5 är en dummy för de äldsta. Vi ser alltså att de yngsta (20-24 år) i snitt tar ut ~10 pappadagar. De äldsta (40-45 år) tar i snitt ut ~18 pappadagar mer än de yngsta. Men varför stanna där? Varför inte använda en dummy för varje ålder? Alltså en dummy för 21-åringar; en dummy för 22-åringar;... ; en dummy för 44-åringar och en sista för 45-åringar. (Här använder vi återigen de yngsta, 20-åringarna, som referens.) Nedan ser du ett utdrag av regressionen: ledighet = 7,4 + 1,3ålder21 + 1,5ålder22 + 3,8ålder ,8ålder45 Tabellen nedan ger hela regressionsutskriften:

342 Figuren nedan visar hur genomsnittlig pappaledighet varierar med ålder, och bygger på estimaten från föregående regression. I det här fallet så skulle vi säga att vi använt åldersfixa effekter. Det fina med fixa effekter är att du aldrig kan ta fel. Hur ser det egentliga sambandet mellan ålder och pappaledighet ut? Linjärt? Kvadratiskt? Kubiskt? Eller kanske genomsnittlig pappaledighet varierar oregelbundet med ålder så att ingen vanlig funktion passar bra som en beskrivning av sambandet? När vi använder ålderfixa effekter så anpassar vi oss totalt efter data; vi behöver inte försöka gissa. Det dåliga med fixa effekter är att vi måste estimera många parametrar (25 stycken + interceptet i det här fallet). Och det kan vara svårt att få en bra bild av sambandet. Av den anledningen brukar man så gott som aldrig använda fixa effekter för den x- variabel som är av huvudsakligt intresse. Anta i det här fallet att vi egentligen är intresserade av att mäta sambandet mellan pappans inkomst och pappaledigheten, kontrollerat för ålder. Nedan visas det råa sambandet: ledighet = 80,3 + 13,3ln (inkomst) När inkomsterna ökar med 1 procent så ökar pappaledigheten i snitt med 0,133 dagar. Nedan visas resultatet när vi dessutom kontrollerat för ålder genom att inkludera åldersfixa effekter: ledighet = 59,8 + 9,1 ln(inkomst) + åldersixa effekter

343 När inkomsterna ökar med 1 procent så ökar pappaledigheten i snitt med 0,091 dagar, kontrollerat för ålder. Nedan ser du regressionsutskriften: Då man presterar resultatet i en tabell så skulle det till exempel kunna se ut så här: Tabell: OLS-regressioner med pappaledighet som utfall (1) (2) VARIABLER Ln(inkomst) 13.34*** 9.053*** (0.494) (0.497) Åldersfixa effekter Nej Ja Konstant *** *** (3.781) (3.838) Observationer 6,340 6,340 R Standardfel inom parenteser *** p<0.01, ** p<0.05, * p<0.1 [Notering: Data från exemplet ovan är fejkat.]

344 Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING När vi gör en regressionsanalys så bygger denna på vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel från en population där feltermen har väntevärde 0 för alla värden på x: E(u x) = 0. Och vi antar att feltermen är homoskedastisk. Om dessa antaganden är uppfyllda så är OLS-estimatorn väntevärdesriktig och de traditionella standardfelen är giltiga. Dessutom säger man då att OLS-estimatorn är BLUE (best linear unbiased estimator) vilket betyder att OLS-estimatorn är väntevärdesriktig och mer träffsäker än alla andra linjära estimatorer. 1 När bryter vi mot dessa antaganden i praktiken? Om vi, till exempel, använt fel funktionell form så bryter vi mot antagandet om att E(u x) = 0. Då är OLS-estimatorn inte längre väntevärdesriktig. Men som vi sett i kapitel 15 så kan vi ofta transformera data för att få en bättre beskrivning av sambandet mellan x och y. Att använda en kvadratisk funktion är ett exempel på en sådan transformation. Om feltermen är heteroskedastisk så är de konventionella standardfelen inte längre giltiga; vi kan då få större t-värden och lägre p-värden än vi egentligen borde ha (eller tvärtom). Det här kan låta rätt illa, men som vi kommer att se i det här kapitlet så finns det en enkel lösning. 1 Ibland brukar man också nämna ännu ett antagande: Att feltermen är normalfördelad. Det här antagandet ser till att samplingfördelningen för regressionskoefficienten också är normalfördelad, vilket behövs när vi vill testa om sambandet i data är signifikant. Men som vi har sett så är det här antagandet mindre kritiskt i praktiken; om vi bara drar ett tillräckligt stort sampel så ser centrala gränsvärdessatsen till att samplingfördelningen är approximativt normalfördelad i alla fall.

345 17.1 ATT UPPTÄCKA HETEROSKEDASTICITET Heteroskedasticitet betyder att feltermsvariansen skiljer sig mellan olika värden på x. Vi ser detta genom att spridningen i data runt regressionslinjen varierar mellan olika värden på x. Nedan visas två exempel på detta. I figur A är spridningen i data större för höga värden på x. Figur B bygger på samma data, men här har vi ritat upp residualerna mot x. Spridningsdiagram C är också ett exempel på heteroskedasticitet. Här antar x fyra olika värden (1, 2, 3 och 4) där spridningen i data är som störst för värdena 2 och 4, och som lägst för värdena 1 och 3. Figur D bygger på samma data, men här har vi ritat upp residualerna mot x. Om vi har en multipel regression så betyder homoskedasticitet att feltermsvariansen är lika stor för alla kombinationer av värden på x-variablerna. Man kan då grafiskt upptäcka heteroskedasticitet genom att rita upp residualerna mot olika x- variabler eller mot de predikterade värdena på y. Det finns också formella tester som kan upptäcka heteroskedasticitet. Två kända är Whites och Breush-Pagans tester. Vi kommer dock inte att diskutera dessa här, för som vi kommer att se i nästa avsnitt så är det inte heller avgörande att veta om feltermen de facto är homo- eller heteroskedastisk.

346 17.2 VAD GÖRA? Det finns tre vanliga sätt att hantera heteroskedasticitet: 1) Heteroskedasticitets-robusta standardfel 2) Transformera data (logaritmera utfallvariabeln) 3) Viktning Heteroskedasticitets-robusta standardfel De flesta statistiska programpaket kan i dag räkna ut det som kallas för heteroskedasticitets-robusta standardfel eller kortare robusta standardfel (andra namn är White standardfel eller Huber-White standardfel). Och det räcker vanligtvis med ett knapptryck. De robusta standardfelen är konsistenta oavsett om feltermen är homo- eller heteroskedastisk, och oavsett vilken typ av heteroskedasticitet det i så fall är frågan om. De robusta standardfelen är oftast större än de konventionella, men i de flesta fall är skillnaden inte särskilt dramatisk. Nedan visas resultatet från två körningar baserade på samma data som i spridningsdiagram A (avsnitt 17.1). Det här är alltså ett datamaterial som karaktäriseras av stark heteroskedasticitet. I den första körningen har vi inte justerat för detta och fått ett standardfel på ~32. I den andra körningen har vi justerat för heteroskedasticitet och fått ett robust standardfel på ~36. Det här påverkar också t-värdet som minskar från 7,00 till 6,35; F-värdet minskar också. Notera dock att regressionslinjen (interceptet och regressionskoefficienten) förblir oförändrad.

347 Så när ska man använda robusta standardfel istället för konventionella? Vi använder robusta standardfel åtminstone om dessa skiljer sig på ett betydelsefullt sätt från de konventionella. Men om skillnaden är marginell så har det förstås ingen praktisk betydelse. 2 Logaritmera utfallsvariabeln Genom att logaritmera utfallsvariabeln kan vi ibland stabilisera feltermsvariansen. Figuren nedan illustrerar varför. Här tittar vi på sambandet mellan antalet skolår och lön. Spridningsdiagrammet bygger på data för 3010 amerikanska löntagare. 2 Varför någonsin använda konventionella standardfel om de robusta alltid är giltiga? Anta att vi använder konventionella standardfel. Om feltermen då är homoskedastisk och normalfördelad så kommer t- statistikan att följa en exakt t-fördelning, dvs. ge oss exakta p-värden. Med robusta standardfel får vi i detta exempel approximativa p-värden som blir mer pricksäkra ju större samplet är.

348 Figuren visar att spridningen i data ökar med antalet skolår. I det här fallet finns det en naturlig förklaring: Lönen ökar inte linjärt med antalet skolår, utan snarare exponentiellt; antalet skolår har alltså en procentuell effekt på lönen. Men det här betyder också att spridningen i data tenderar öka med antalet skolår. Varför? Jo, anta att lönen i snitt ökar med 5 procent för varje extra skolår. För vissa är lönen kanske någon procentenhet större än predikterat, för andra någon procentenhet lägre. Men sådana procentuella avvikelser kommer absolut sett att synas mer ju högre lönen är (1 procent av 1000 är 10; 1 procent av är 100.) Vi kan dock eliminera den här typen av heteroskedasticitet genom att mäta lönen på en logaritmerad skala, vilket vi gjort i figuren nedan. (Nu kanske det ser ut som att spridningen i data fortfarande ökar med antalet skolår, men detta är inte fallet. Illusionen beror på att vi har fler observationer för personer med många skolår.)

349 Viktning för aggregerade data Viktad regression betyder att man ger olika vikter till olika observationer. Anta att du vill mäta sambandet mellan arbetslöshet och brottslighet och använder data för olika länder i världen. Men ska Andorra verkligen få samma vikt som USA eller Kina? Eller säg att du har data för olika företag och mäter sambandet mellan satsningar på FoU och företagets produktivitet. Men ska Bosses bilfirma verkligen få samma vikt som Microsoft? När vi på det här sättet har aggregerade data så är det inte ovanligt att man väljer att ge olika vikt till olika observationer. Med aggregerade data avses att utfallsvariabeln är ett slags medelvärde (t.ex. antalet brott per 1000 invånare, vinst per anställd). Exempel: Vi vill studera ojämlikheten inom den svenska skolan. Spridningsdiagrammet nedan bygger på data för 290 svenska kommuner och beskriver sambandet mellan kommunens medianinkomst och genomsnittligt antal meritpoäng bland elever i årskurs nio, där medianinkomsten mäts på en logaritmerad skala. Nedan ges regressionslinjen med standardfelet inom parentes: meritpoäng = ln (medianinkomst) (7,5) Då medianinkomsten ökar med en procent så ökar meritpoängen i snitt med 0,47 poäng. Det här är ett signifikant samband (t = 47/7,5 = 6,27; p-värdet 0,000). I regressionen nedan har vi istället gett större vikt till kommuner med många niondeklassare: En kommun med 200 nionde-

Visa mer