Dataudjævning Definition & Eksempel |
Indholdsfortegnelse:
Hvad det er:
Dataudjævning er en statistisk teknik, der involverer fjernelse af outliers fra et datasæt for at gøre et mønster mere synligt.
Sådan virker det (Eksempel):
Lad os f.eks. sige, at et universitet analyserer sine forbrydelsesdata i løbet af de sidste 10 år. Antallet af voldelige forbrydelser ser sådan ud:
Som du kan se, oplever universitetet oftest færre end 15 forbrydelser om året. Men i 2006 og 2007 oplevede den 44 på grund af et eksperimentelt rapporteringsbehov ved universitetets offentlige sikkerhedshold. Rapporteringseksperimentet ændrede definitionen af voldelig forbrydelse til at omfatte tyverier af enhver art i løbet af disse år, hvilket skabte et stort spring i antallet af "voldelige" forbrydelser på campus. Hvis vi medtager disse år i gennemsnittet - det vil sige hvis vi udfører dataudjævning - oplevede universitetet i gennemsnit ca. 19 voldelige forbrydelser om året. Men hvis vi forlader disse år, kan vi se, at et mere realistisk gennemsnit er 13 voldelige forbrydelser om året - en forskel på 32%.
Hvorfor det er sager:
Der er mange måder at glatte data på, gennemsnit og algoritmer. Tanken er, at udjævning af data gør mønstre mere synlige og dermed hjælper med at forudsige ændringer i aktiekurser, kundetendenser eller andre forretningsmæssige oplysninger. Dataudjævning kan dog overse nøgleinformation eller gøre vigtige fakta mindre synlige; med andre ord kan "afrunding af kanterne" af data overhøre visse data og ignorere andre data.