6 Seriediagram

Den første analysen vi gir oss i kast med etter å ha fått en forståelse av dataene våre er et seriediagram. Et seriediagram (jfr. Anhøj and Bjørn 2009) (ofte referert til som “run diagram” siden dette er den engelske betegnelsen) 19 er en framstilling av en serie hendelser sekvensielt i tid. Et seriediagram er enkelt å konstruere og tolke. I dette diagrammet kan vi bruke både måledata og telledata, og det spiller ingen rolle om det er hendelser, prosenter eller andeler (i kontrolldiagrammer vil vi være nøye med å skille mellom hvilke typer data vi har slik at vi velger rett kontrolldiagram). Den eneste forutsetningen vi må ha med oss for seriediagrammer er at punktene er uavhengige, altså at verdien i et punkt ikke er påvirket av verdien på foregående punkt. I tillegg anbefales minst 10 punkter av Berardinelli and Yerian (n.d.), 15 punkter (Reynolds et al. 2021), mens Anhøj and Bjørn (2009) anbefaler mellom 20 og 30 datapunkter for å få et robust seriediagram. Anbefalingen på mellom 20 og 30 hviler på en balanse mellom å se unormal variasjon der prosessen egentlig er stabil (såkalt type-1 feil) og å ikke se unormal variasjon der den faktisk finnes (såkalt type-2 feil). Det er derfor verdt å merke seg at «mer ikke er bedre» - et stort antall datapunkter øker ikke den statistiske styrken, men øker sjansen for type-2 feil. Vi legger til grunn at anbefalingen fra Anhøj and Bjørn (2009) virker godt fundert.

Et seriediagram vil kunne vise oss noe om variasjon, men vi kan også gå glipp av noen mer spesielle former for variasjon. Så fordelen i enkelheten må veies opp mot ulempen ved å være litt mindre sensitiv for spesiell variasjon. Plottingen av et seriediagram kan gjøres enkelt med penn og papir ved at man tiden på x-aksen og en verdi av en måling, en observasjon e.l. på y-aksen. Deretter forbinder man punktene med en linje, og legger til medianen (som er verdien av det datapunktet som deler et utvalg i to)20.

Hvorfor “serie” (“run”)? En serie er i denne sammenhengen definert som et antall (ett eller flere) punkter i diagrammet på samme side av medianen. I diagrammet under ser vi et eksempel på et seriediagram. Vi plotter ganske enkelt inn hver enkelt observasjon fortløpende i tid utover x-aksen og verdien iht y-aksen. Sentraltendensen er medianen, hvilket innebærer at halvparten av målingene er over og halve under medianstreken.

Under finner du et eksempel på seriediagram. Vi har laget en kort video som viser hvordan du kan lage et seriediagram i Excel. Den finner du her. Dataene som er brukt i Excelvideoen finner du her: Download seriediagram_eksempelvideo.xlsx

Eksempel seriediagram

Figure 6.1: Eksempel seriediagram

Når vi skal tolke seriediagrammet finnes det flere sett av retningslinjer, f.eks. gitt av Carey (2002) og Perla, Provost, and Murray (2011). Vi velger å bruke «Anhøj-reglene» (Anhøj 2015; Anhøj and Wentzel-Larsen 2020) på seriediagrammene. For det første er det vist at disse reglene gir en god balanse mellom type-1 og type-2 feil. For det andre er det to enkle regler å forholde seg til som gjør tolkningen enklere og raskere. Anhøj-reglene ser på to forhold:

  1. Uvanlig lange serier. Her kan man matematisk regne ut hvor lang serien må være for å regnes som «uvanlig lang»: \(log2(n)\) der n = antall punkter/hendelser (Anhøj 2015). Så for eksempelet ovenfor må serien være \(log2(30)+3=8\). Det innebærer at dersom vi har flere enn 8 datapunkter etter hverandre på samme side av senterlinjen vil indikere et skift i prosessen.
  2. Uvanlig få krysninger av senterlinjen. Også her kan vi regne ut hvor mange krysningspunkter det bør være \(b(n-1.05)\)21. For eksempelet ovenfor blir derfor et minimum antall krysningspunkter 8. Færre enn 8 krysningspunkter vil indikere et skift i prosessen.

Heldigvis kan det settes opp en tabell slik at vi enkelt kan lese ut de kritiske verdiene (Anhøj and Wentzel-Larsen 2020) (se vedlegg 2). I eksempelet under har vi igjen 24 observasjoner. Vi bør forvente minst 8 krysninger (regel 2) og siden vi har flere punkter enn 8 etter hverandre på samme side (regel 1) har vi brudd på begge reglene. Dette indikerer en prosess ute av kontroll med unormal variasjon.

I et nytt eksempel kan vi provosere fram brudd på Anhøj-reglene:

Eksempel seriediagram - modifiserte tall

Figure 6.2: Eksempel seriediagram - modifiserte tall

I det modifiserte seriediagrammet har vi like mange punkter som det forrige (24) så vi burde forvente minst 8 krysninger (regel 2) og siden vi har flere punkter enn 8 etter hverandre på samme side (regel 1) har vi brudd på begge reglene. Dette indikerer en prosess ute av kontroll med unormal variasjon.

Man må imidlertid være observant på eventuelle endringer i prosesser. I eksempelet ovenfor kan man tenke seg en prosessendring etter hendelse 15. Hvis vi legger dette så vi får et brudd i dataserien etter hendelse 15 inn får vi et annet bilde:

Eksempel seriediagram - modifiserte tall - brudd i prosess

Figure 6.3: Eksempel seriediagram - modifiserte tall - brudd i prosess

I første del av prosessen har vi 14 punkter. Iht vedlegg 2 bør vi da ha minst 4 krysninger og maks 7 punkter på samme side for å få en serie. I andre del har vi 10 punkter. Da skal vi ha minst 2 krysninger og maks 6 punkter på samme side. Ingen av de to delene bryter med Anhøjs regler.

Gjennom sin enkelhet vil et seriediagram kunne spare oss for unødvendig arbeid med kontrolldiagrammer (se neste avsnitt). Hvis vi har tegn på unormal variasjon i et seriediagram vil det være liten grunn til å utvikle kontrolldiagram da vi allerede i seriediagrammet kan konstatere unormal variasjon. Tvert imot, som Anhøj (2009) påpeker, kan utviklingen av kontrolldiagrammer være påvirket av tilstedeværelsen av unormal variasjon ved at beregningen av kontrollparameterne gjennomsnitt og kontrollgrenser blir uforutsigbar. Det kan derfor være et godt tips å starte med et seriediagram, tolke det og deretter bestemme seg for hvordan man går videre.

Som Anhøj (2021a) uttrykker det: “It is a common misunderstanding that control charts are superior to run charts. The confusion may stem from the fact that different sets of rules for identifying non-random variation in run charts are available, and that these sets differ significantly in their diagnostic properties.” Og videre:

“One big advantage of run charts is that they are oblivious to assumptions on the theoretical distribution of data. Also they are easier to construct (by pen and paper) and understand than are control charts. Finally, as mentioned, the diagnostic value of run charts is independent of the number of data points, which is not the case with control charts unless one adjusts the control limits in accordance with the number of data points.In practice I always do the run chart analysis first. If, and only if, the run chart shows random variation and I need to further investigate data for outliers or to know the limits of common cause variation, I would do a control chart analysis…”

Anhøj (2021a) påpker imidlertid et viktig unntak fra tilnærmingen om å alltid se på et seriediagram først: Om man har sjeldne data bør man heller lage et g eller t kontrolldiagram (se neste kapittel) siden seriediagram er dårlig egnet til å detektere endringer i disse tilfellene.

Vi vil derfor avslutte dette kapittelet med å sterkt anbefale at man begynner med et seriediagram.

Balestracci (2014):

“Over the years, I have developed an increasing affection for the much-neglected run chart: a time plot of your process data with the median drawn in as a reference (yes, the median—not the average). It is”filter No. 1” for any process data and answers the question: “Did this process have at least one shift during this time period?” (This is generally signaled by a clump of eight consecutive data points either all above or below the median.) If it did, then it makes no sense to do a control chart at this time because the overall average of all these data doesn’t exist. (Sort of like: If I put my right foot in a bucket of boiling water and my left foot in a bucket of ice water, on average, I’m pretty comfortable.)”