Beregn uteliggere

EN uteligger eller uteligger i statistikk, et datapunkt som skiller seg betydelig fra de andre datapunktene i et utvalg. Ofte påpeker uteliggere for statistikere anomalier eller feil i målingene, hvoretter de kan fjerne uteliggeren fra datasettet. Hvis de faktisk velger å fjerne uteliggere fra datasettet, kan det føre til betydelige endringer i konklusjonene fra studien. Dette er grunnen til at det er viktig å beregne og bestemme uteliggere hvis du ønsker å tolke statistiske data riktig.

Trinn

Bilde med tittelen Calculate Outliers Step 1
1. Lær hvordan du oppdager potensielle avvikere. Før vi kan bestemme om vi skal fjerne unormale verdier fra et bestemt datasett, må vi selvfølgelig gjenkjenne mulige uteliggere i datasettet. Generelt er uteliggere datapunktene som avviker betydelig fra trenden som de andre verdiene i den angitte formen – med andre ord, de skyte ut av de andre verdiene. Det er vanligvis lett å gjenkjenne dette i tabeller og (spesielt) i grafer. Hvis datasettet er grafisk visuelt, vil avvikene være `langt unna` fra de andre verdiene. For eksempel, hvis de fleste punktene i et datasett danner en rett linje, vil avvik ikke samsvare med denne linjen.
  • La oss se på et datasett som viser temperaturene til 12 forskjellige objekter i et rom. Hvis temperaturen på 11 av objektene svinger rundt 21°C med maks noen få grader, mens ett objekt, en ovn, har en temperatur på 150°C, kan du med et øyekast se at ovnen sannsynligvis er en ytterside.
Bilde med tittelen Calculate Outliers Step 2
2. Sorter alle datapunkter fra lav til høy. Det første trinnet i å beregne uteliggere er å finne medianverdien (eller midtverdien) til datasettet. Denne oppgaven blir mye enklere hvis verdiene i settet er i rekkefølge fra laveste til høyeste. Så før du fortsetter, sorter verdiene i datasettet ditt slik.
  • La oss fortsette å jobbe med eksemplet ovenfor. Her er datasettet vårt som viser temperaturene i grader Fahrenheit for ulike objekter i et rom: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Hvis vi sorterer verdiene i settet fra laveste til høyeste, blir dette vårt nye sett: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  • Bilde med tittelen Calculate Outliers Step 3
    3. Beregn medianen til datasettet. Medianen til et datasett er datapunktet der halvparten av dataene er over det, og halvparten av dataene er under - det er i utgangspunktet "senteret" av datasettet. Hvis datasettet inneholder et oddetall punkter, er medianen lett å finne – medianen er punktet med like mange punkter over som under. Hvis det er et partall poeng, siden det ikke er ett midtpunkt, må du ta gjennomsnittet av de to midtpunktene for å finne medianen. Ved beregning av uteliggere er medianen vanligvis betegnet med variabelen Q2 - fordi den ligger mellom Q1 og Q3, den første og tredje kvartilen. Vi vil bestemme disse variablene senere.
  • Ikke la deg forvirre av datasett med et partall poeng - gjennomsnittet av de to midterste punktene er ofte et tall som ikke er i selve datasettet - dette er greit. Men hvis de to midtpunktene er like, vil gjennomsnittet selvfølgelig også være dette tallet - dette er også Greit.
  • I vårt eksempel har vi 12 poeng. De to midterste leddene er henholdsvis punkt 6 og 7 – 70 og 71. Så medianen til datasettet vårt er gjennomsnittet av disse to punktene: ((70 + 71) / 2)=70,5.
  • Bilde med tittelen Calculate Outliers Step 4
    4. Regn ut den første kvartilen. Dette punktet, som vi omtaler som variabelen Q1, er datapunktet som 25 prosent (eller en fjerdedel) av observasjonene ligger under. Med andre ord, dette er midtpunktet for alle punktene i datasettet ditt under medianen. Hvis det er et jevnt antall verdier under medianen, må du igjen snitte de to midterste verdiene for å finne Q1, som du kanskje allerede har gjort for å bestemme medianen selv.
  • I vårt eksempel er seks poeng over medianen og seks under den. Så for å finne den første kvartilen må vi ta gjennomsnittet av de to midterste poengene i de seks nederste punktene. Punktene 3 og 4 av de seks nederste er begge 70, så gjennomsnittet deres er ((70 + 70) / 2)=70. Så vår verdi for Q1 er 70.
  • Bilde med tittelen Calculate Outliers Step 5
    5. Regn ut den tredje kvartilen. Dette punktet, som vi betegner med variabelen Q3, er datapunktet over hvilket 25 prosent av dataene ligger. Å finne Q3 er praktisk talt det samme som å finne Q1, bortsett fra i dette tilfellet ser vi på punktene ovenfor medianen.
  • Hvis vi fortsetter med eksemplet ovenfor, ser vi at de to midtpunktene av de seks punktene over medianen er 71 og 72. Gjennomsnittet av disse to punktene er ((71 + 72) / 2)=71,5. Så vår verdi for Q3 er 71,5.
  • Bilde med tittelen Calculate Outliers Step 6
    6. Finn interkvartilområdet. Nå som vi har bestemt Q1 og Q3, må vi beregne avstanden mellom disse to variablene. Avstanden mellom Q1 og Q3 finner du ved å trekke Q1 fra Q3. Verdien du får for interkvartilområdet er avgjørende for å bestemme grensene for ikke-avvikende punkter i datasettet ditt.
  • I vårt eksempel er verdiene for Q1 og Q3 henholdsvis 70 og 71,5 . For å finne interkvartilområdet beregner vi Q3 - Q1: 71,5 - 70=1,5.
  • Dette fungerer selv om Q1, Q3 eller begge tallene er negative. For eksempel, hvis verdien for Q1 var -70, ville interkvartilområdet være 71,5 - (-70)=141,5, som er riktig.
  • Bilde med tittelen Calculate Outliers Step 7
    7. Finn de `indre grensene` for datasettet. Du kan identifisere uteliggere ved å bestemme om de faller innenfor en rekke numeriske grenser; de såkalte `indre grenseverdiene` og `ytre grenseverdiene`. Et punkt som faller utenfor de indre grensene til datasettet er klassifisert som en mild uteligger, og et punkt som faller utenfor de ytre grensene er klassifisert som en ekstrem uteligger. For å finne de indre grensene til datasettet ditt, multipliser først det interkvartile området med 1,5. Legg resultatet til Q3 og trekk det fra Q1. De to resultatene er de indre grensene for datasettet ditt.
  • I vårt eksempel er interkvartilområdet (71,5 - 70), eller 1,5. Multipliser dette med 1,5 og du får 2,25. Vi legger dette tallet til Q3 og trekker det fra Q1, for å finne de indre grensene som følger:
  • 71,5 + 2,25=73,75
  • 70 - 2,25=67,75
  • Så de indre grensene er det 67,75 og 73,75.
  • I vårt datasett er det bare ovnstemperaturen – 300 grader Fahrenheit – som er utenfor dette området. Så dette kan være en mild avvik. Imidlertid har vi også ennå ikke avgjort om denne temperaturen er en ekstrem ytterverdi, så la oss ikke trekke konklusjoner ennå.
    Bilde med tittelen Calculate Outliers Step 7Bullet2
  • Bilde med tittelen Calculate Outliers Step 8
    8. Finn `ytre grenser` for datasettet. Du gjør dette på samme måte som med de indre grensene, med den eneste forskjellen at du multipliserer interkvartilområdet med 3 i stedet for med 1,5. Du legger deretter resultatet til Q3 og trekker fra Q1 for å finne de ytre grensene.
  • I vårt eksempel multipliserer vi interkvartilområdet med 3, og vi kommer til (1,5 *3) eller 4,5. Vi kan nå finne de ytre grensene på samme måte som de indre grensene:
  • 71,5 + 4,5=76
  • 70 - 4,5=65,5
  • Så de ytre grensene er 65,5 og 76.
  • Datapunkter som ligger utenfor de ytre grensene regnes som ekstreme uteliggere. I vårt eksempel er ovnstemperaturen, 300 grader Fahrenheit, godt utenfor de ytre grensene. Så ovnstemperaturen er sikre en ekstrem uteligger.
    Bilde med tittelen Calculate Outliers Step 8Bullet2
  • Bilde med tittelen Calculate Outliers Step 9
    9. Bruk en kvalitativ vurdering for å avgjøre om du bør "kassere" avvikene. Med metoden ovenfor kan du bestemme om visse punkter er milde uteliggere, ekstreme uteliggere eller ingen uteliggere i det hele tatt. Men gjør ingen feil – å gjenkjenne et poeng som en uteligger gjør det bare til ett kandidat fjernes fra datasettet, og ikke umiddelbart fjernes en prikk bli til. De ridde hvorfor en uteligger er forskjellig fra resten av punktene i settet er avgjørende for å avgjøre om uteliggeren skal fjernes. Generelt fjernes uteliggere forårsaket av en feil - for eksempel en feil i målingene, i opptakene eller i den eksperimentelle designen -. I kontrast er uteliggere som ikke er forårsaket av feil og som avslører ny, uforutsett informasjon eller trender, vanligvis ikke slettet.
  • Et annet kriterium å vurdere er om uteliggere påvirker gjennomsnittet av et datasett på en måte som er skjev eller misvisende. Dette er spesielt viktig hvis du har tenkt å trekke konklusjoner fra gjennomsnittet av datasettet ditt.
  • La oss se på eksemplet vårt. Siden det høyt Selv om det er usannsynlig at ovnen nådde en temperatur på 300°F på grunn av en uforutsett naturkraft, kan vi i vårt eksempel konkludere med nesten 100 % sikkerhet at ovnen ble stående på ved et uhell, noe som resulterte i en unormal høy temperaturavlesning. I tillegg, hvis vi ikke fjerner uteliggeren, blir datasettet vårt gjennomsnitt ut til (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12=89,67 °F, mens gjennomsnittet uten uteliggeren kommer ut ved (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11=70,55 °F.
  • Siden uteliggeren er forårsaket av menneskelig feil, og siden det er feil å si at gjennomsnittlig romtemperatur var nær 32°C, må vi velge å velge utliggeren vår fjerne.
  • Bilde med tittelen Calculate Outliers Step 10
    10. Forstå viktigheten av (noen ganger) å beholde uteliggere. Mens noen uteliggere bør fjernes fra et datasett fordi de er et resultat av feil, eller fordi de villedende skjevvrider resultatene, bør andre uteliggere bevares. Hvis for eksempel en uteligger er innhentet korrekt (og dermed ikke er et resultat av en feil) og/eller hvis uteliggeren gir en ny innsikt i fenomenet som skal måles, bør den ikke fjernes umiddelbart. Vitenskapelige eksperimenter er spesielt sensitive situasjoner når det gjelder å håndtere uteliggere – feilaktig fjerning av en uteligger kan bety å forkaste viktig informasjon om en ny trend eller oppdagelse.
  • Tenk deg for eksempel at vi designer et nytt medikament for å få fisk til å vokse seg større i et oppdrettsanlegg. La oss bruke vårt gamle datasett ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), bortsett fra at hvert punkt nå representerer massen til en fisk (i gram) etter behandling med et annet eksperimentelt medikament fra fødselen. Med andre ord, det første stoffet ga en fisk en masse på 71 gram, det andre ga en annen fisk en masse på 70 gram, og så videre. I denne situasjonen 300. er fortsatt en stor uteligger, men vi bør ikke fjerne den nå. Fordi hvis vi antar at uteliggeren ikke er et resultat av en feil, representerer den en stor suksess i eksperimentet vårt. Stoffet som produserte en 300 grams fisk fungerte bedre enn noe annet stoff, så dette er det mest viktige datapunkt i settet vårt, i stedet for minst viktig datapunkt.
  • Tips

    • Hvis du finner uteliggere, prøv å forklare dem før du fjerner dem fra datasettet; de kan indikere målefeil eller avvik i fordelingen.

    Nødvendigheter

    • Kalkulator

    Оцените, пожалуйста статью