lördag 23 oktober 2010

Statistik

Lägesmått

Lägesmått
Var materialet finns.

Centralmått
De vanligaste lägesmåtten. Var centrum finns.

  1. Typvärde: Det vanligaste värdet.
  2. Median: Det mittersta värdet.
  3. Aritmetiskt medeltal: Det vanliga medeltalet.


Övriga lägesmått:

Kvartiler: Delar materialet i 4 delar.
Deciler: Delar materialet i 10 delar.
Percentiler: Delar materialet i 100 delar.


Spridningsmått 

1. Variationsvidd, R
Betyder största värdet - minsta värdet.

2. Standardavvikelsen, s
Hur mycket observationerna i medeltal avviker från medeltalet.

3. Entropi, H
Beräknar spridning inom nominalklasser. Alla i en: H=0. Helt jämn fördelning: H=1.

4. Kvartilavvikelse, Q
Ett specialfall för variationsvidd. Rangen på mittersta halvan. Är inte känslig för extremvärden. Bra om man har öppna klasser eller sned fördelning.

Kvarilavstånd: Q3 - Q1
Uteliggare: Ett värde som ligger över 1,5 kvartilavstånd från Q1eller Q3
Extrem uteliggare:  Ett värde som ligger över 3 kvartilavstånd från Q1eller Q3

5. Varians, s2
Mått på variationen. 
 

Normalfördelningsregeln
Medeltalet +/- 1s -> 68%
Medeltalet +/- 2s -> 95%
Medeltalet +/- 3s -> 100%

Kolla rimligheten med den här: s = R/4


Variationskoefficienten, v
Förhållandet mellan standardavvikelsen och medeltalet. Anger fördelningens relativa spridning. Ges i procent.




Standardisering

För att kunna jämföra två olika fördelningar med varandra.
Räknar ut hur många standardavvikelser man avviker.
Ger z-poäng, standardpoäng.


Korrelation

 Nu arbetar vi med observationspar. Inte bara x, utan x och y.

Korstabeller
Kvalitativa variabler: Grupperade staplar
Kvantitativa variabeler: Spridningsdiagram

Korrelation
Samband mellan två variabler. Kan mätas på olika sätt.
Korrelationskoefficienten: r
Mellan -1 och 1.

Om den är positiv: högt värde på x motsvarar högt värde på y.
Om den är negativ: högt värde på x motsvarar lågt värde på y.

r = 0 – inget linjärt samband
r = 1 – fullständigt linjärt samband

Korrelationskoefficienten säger inget om lutningen.
Den mäter endast linjära samband.

A. Pearsons produktmomentkorrelationskoefficient, rxy
Den vanliga korrelationskoefficienten.  Kräver intervalldata och normalfördelning.



B. Spearmanss rangkorrelationskoefficient
Används på ordinaldara. Räknas som det övre, men i stället för observationerna använder man deras rangtal.


Olika typer av korrelation:
Kausalt samband: Talar om ensidigt och ömsesidigt samband mellan x och y.
Ekologisk korrelation: Alltid har man inte tillgång till de enskilda mätvärden, utan medeltal eller procenttal för grupper av individer. T.ex. valresultat.


Icke linjära samband:
Partiell korrelation: Sambandet mellan x och y om z är det samma.
Skensamband: Ett statistiskt samband är inte alltid ett riktigt samband.


Regression


Regression = att gå tillbaka. Används för att göra predktioner. Söker formeln med vilken vi kan uppskatta y när vi vet x.


Nu är det viktigt hur man väljer x och y. Vi har y som en funktion av x:


y = f(x)


y-variabeln är beroende av x, det betyder att x-variabeln är oberoende.


För linjära samband söker vi den linje som passar bäst:

y = a + bx

Variablerna a och b får man med beräkningsformler.

a = intercept
Värdet när linjen korsar y-axeln.

b = lutningskoefficient
Hur mycket y-variabeln förändras när x-variabeln förändras en enhet.

Den här linjen bestäms med minsta kvadratmetoden.

y– Det värde som hör ihop med ett visst x-värde.
Y-hatt – Det värdet som linjen ger för samma x.

Residual
: Det lodräta avståndet mellan det verkliga värdet och det beräknade värdet: y - y-hatt. Betecknas med e.

Minsta kvadratmetoden bestämmer ekvationen för den linje som gör summan av alla kvadrater på de här skillnaderna så liten som möjligt.

Hur bra är linjen?

1. Korrelationskoefficienten. Berättar hur samlade punkterna är runt linjen.

2. Determinationskoefficienten. Beräknas genom att kvadrera korrelationskoefficienten. Multipliceras med 100 för att få hel procent. Anger hur stor del av variationen i den beroende variabeln beror på variationer i den oberoende variabeln.

3. Residualspridningen. Residualspridningen är standardavvikelsen kring linjen. Berättar hur mycket punkterna i medeltal avviker från linjen i y-led.


Index

Förknippat med tidsserier.
Procenttal utan %-tecken.
Används för att visa förändringar och utveckling under en tidsperiod.


Att beräkna indexserier
Väljer en bastidpunkt som vi utgår från.
Bastidpunkten får indexvärdet 100.
Jämförelsetidpunktens index fås genom att beräkna hur många procent jämförelsetidpunktens värde utgör av bastidpunktens värde.

Ofta räknas index på:

Priser p, prisindex P
Mängd q, mängdindex Q

Hur stor är förändringen per år?
Ränta på ränta-principen. Kan räkna ut ett årsmedeltal.

Byte av bastidpunkt
För att kunna jämföra två indexserier måste de ha samma bastidpunkt.
Alla värden delas med den nya bastidpunktns värde och multipliceras med 100.

Indexformler

1. Ovägda index
A) Beräknar ett eget pris för en matkorg.
B) Beräknar ett eget index för varje vara och medeltalet av dem.


2. Vägda index
Bättre att väga in konsumtionen, beaktar kvantiteter. Price x Quantity = Value

A) Laspeyres formel
Utgår från bastidpunktens konsumtion: vad skulle denna konsumtion kosta vid jämförelsetidpunkten?
Antar att konsumtionen är oförändrad. Ger för högt värde när konsumenten anpassar sig.


B) Paasches formel
Utgår från konsumtionen vid jämförelsetidpunkten. Beräknar vad den nuvarande konsumtionen hade kostat vid bastidpunkten.

C) Edheworths formel
Jämför det aritmetiska medelvärdet av kvantiteterna vid bas- och jämförelsetidpunkt.

D) Fishers idealindex
Det geometriska medelvärdet av Laspeyres och Paasches.


Konsumentprisindex
Prisutvekling för en grupp varor om alla varor och tjänster  eaktas så får vi ett mått på allmänna prisnivåns förändring eller inflationen: Konsumentprisidex.
Genomsnittsmått på prisutvecklingen för hela den privata konsumtionen av varor och tjänster. Bygger på ett urval av tjänster och varor.

Omräkning med konsumentprisindex
Lönernas reella förändring.
Att beakta inflationen.


Tidsserier

Inga kommentarer:

Skicka en kommentar