Sunday 12 November 2017

En Enkel Moving Average Modell Er Hensiktsmessig Brukt For Trend Prognoser


OR-Notes er en serie med innledende notater om emner som faller under den brede overskriften i operasjonsforskningsområdet (OR). De ble opprinnelig brukt av meg i et innledende eller kurs jeg gir på Imperial College. De er nå tilgjengelige for bruk av studenter og lærere som er interessert i ELLER underlagt følgende betingelser. En fullstendig liste over emnene som er tilgjengelige i OR-Notes finner du her. Forecasting Introduksjon Forecasting er estimeringen av verdien av en variabel (eller sett av variabler) på et senere tidspunkt. I dette notatet vil vi vurdere enkelte metoder for prognoser. En prognoseøvelse utføres vanligvis for å gi hjelp til beslutningsprosesser og planlegge fremtiden. Vanligvis fungerer alle slike øvelser ut fra premisset at hvis vi kan forutsi hva fremtiden vil være, kan vi endre vår atferd nå for å være i en bedre posisjon enn vi ellers ville ha vært når fremtiden kommer. Søknad om prognoser inkluderer: Investeringsstyringsproduksjonsplanlegging - prognoser etterspørselen etter et produkt gjør det mulig for oss å kontrollere lageret av råvarer og ferdigvarer, planlegger produksjonsplanen, osv. Investeringspolitikk - prognoser for finansiell informasjon som rentesatser, valutakurser, aksjekurser , prisen på gull osv. Dette er et område der ingen har utviklet en pålitelig (konsekvent nøyaktig) prognostiseringsteknikk (eller i det minste hvis de ikke har sagt det til noen) økonomisk politikk - prognoser for økonomisk informasjon som veksten i økonomien, arbeidsledigheten, inflasjonen, etc. er viktig både for myndighetene og næringslivet i planlegging for fremtiden. Tenk et øyeblikk, antar at eventyret dukket opp foran deg og fortalte deg at på grunn av din godhet, dyd og kyskhet (vel det er et eventyr) hadde de bestemt deg for å gi deg tre prognoser. Hvilke tre ting i ditt personlige forretningsliv vil du mest like å prognose Personlig ville jeg velge (i minkende rekkefølge av betydning): datoen for min død de vinnende tallene på neste britiske nasjonale lotteri de vinnende tallene på det britiske nasjonale lotteriet etter det Som du kan se fra listen min, har noen prognoser livs - eller døds konsekvenser. Det er også klart at for å gjøre visse prognoser, f. eks. Dødsdatoen min kunne vi (i mangel av god eventyr for å hjelpe oss) samle inn noen data for å muliggjøre en mer informert, og dermed forhåpentligvis mer presis, prognose å bli gjort. For eksempel kan vi se på forventet levealder for middelaldrende britiske mannlige akademikere (ikke-røyker, drinker, aldri øvelser). Vi kan også utføre medisinske tester. Poenget å understreke her er at innsamling av relevante data kan føre til en bedre prognose. Selvfølgelig kan det ikke, jeg kunne ha blitt kjørt over av en bil dagen etter dette skrevet og dermed være død allerede. Faktisk på et personlig notat tror jeg (nei prognose) at selskaper som tilbyr web (digital) udødelighet, vil være et stort vekstområde for bedrifter i begynnelsen av det 21. århundre. Husk at du så det først. Typer av prognoseproblemer En måte å klassifisere prognoseproblemer på er å vurdere tidsplanen som er involvert i prognosen, dvs. hvor langt fremover i fremtiden vi prøver å prognose. Kort, mellomlang og lang sikt er de vanlige kategoriene, men den virkelige betydningen av hver vil variere i henhold til situasjonen som blir studert, f. eks. i prognose energibehov for å bygge kraftverk 5-10 år vil være kortsiktige og 50 år vil være langsiktige, mens i prognose forbrukernes etterspørsel i mange forretningssituasjoner opp til 6 måneder vil være kortsiktig og over et par av år på lang sikt. Tabellen under viser tidsskala knyttet til forretningsbeslutninger. Den grunnleggende grunnen til den ovennevnte klassifiseringen er at forskjellige prognosemetoder gjelder i hver situasjon, f. eks. en prognosemetode som passer for å prognose salg neste måned (en kortsiktig prognose) vil trolig være en upassende metode for å prognose salg om fem år (en langsiktig prognose). Vær spesielt oppmerksom på at bruken av tall (data) som kvantitative teknikker blir brukt, varierer vanligvis fra veldig høy til kortsiktig prognose til svært lav for langsiktig prognose når vi arbeider med forretningssituasjoner. Prognosemetoder kan klassifiseres i flere ulike kategorier: kvalitative metoder - hvor det ikke foreligger en formell matematisk modell, ofte fordi dataene ikke er antatt å være representative for fremtiden (langsiktig prognose) regresjonsmetoder - en utvidelse av lineær regresjon der en variabel antas å være lineært relatert til en rekke andre uavhengige variabler med flere likninger - hvor det er et antall avhengige variabler som samhandler med hverandre gjennom en serie likninger (som i økonomiske modeller) tidsseriemetoder - der vi har en enkelt variabel som endres med tiden og hvis fremtidige verdier er relatert på en eller annen måte til tidligere verdier. Vi skal vurdere hver av disse metodene i sin tur. Kvalitative metoder Metoder av denne typen brukes primært i situasjoner hvor det vurderes å være ikke relevante tidligere data (tall) som en prognose kan baseres på og typisk gjelder langsiktig prognose. En slik tilnærming er Delphi-teknikken. De gamle grekerne hadde en veldig logisk tilnærming til prognoser og trodde at de beste folkene til å spørre om fremtiden var overnaturlige vesener, guder. På oracle i Delphi i det gamle greske, ble spørsmål til gudene besvart gjennom en kvinne over femti som levde bortsett fra mannen hennes og kledd i en jomfru klær. Hvis du ønsket at spørsmålet ditt ble besvart, måtte du: gi litt kake gi et dyr for ofre og bade med mediet på en vår. Etter dette ville mediet sitte på et stativ i et kjellerrom i templet, tygge laurbærblad og svare på spørsmålet ditt (ofte i tvetydig vers). Det er derfor legitimt å spørre om i en dybde i et kjellerrom et eller annet sted, er det en laurbærblad som tyrker regjeringstjener som er ansatt for å prognose økonomisk vekst, valgsuksess osv. Kanskje det er Reflekter et øyeblikk, tror du at Å gjøre prognoser på den måten som brukes på Delphi, fører til nøyaktige prognoser eller ikke. Nylig vitenskapelig etterforskning (New Scientist, 1. september 2001) indikerer at mediet kan ha vært quothighquot som et resultat av innånding av hydrokarbongasser, spesielt etylen, som stammer fra en geologisk feil under templet. I dag har Delphi-teknikken en annen betydning. Det innebærer å spørre en gruppe eksperter for å komme frem til en konsensusuttalelse om hva fremtiden har. Underliggende ideen om å bruke eksperter er troen på at deres syn på fremtiden vil bli bedre enn for ikke-eksperter (for eksempel personer som er valgt tilfeldig på gata). Tenk på - hvilke typer eksperter ville du velge hvis du prøvde å forutse hvordan verden vil bli som om i 50 år? I en Delphi-studie blir eksperter alle konsultert separat for å unngå noe av det bias som kan oppstå da de alle ble samlet sammen, f. eks dominans av et sterkt villet individ, divergerende (men gyldige) synspunkter ikke uttrykt av frykt for ydmykelse. Et typisk spørsmål kan være quoteI hvilket år (hvis noen gang) forventer du at automatisert hurtig transitt har blitt vanlig i større byer i Europequot. Svarene er samlet i form av en fordeling av år, med kommentarer vedlagt, og resirkulert for å gi reviderte estimater. Denne prosessen gjentas til en konsensusvisning kommer fram. Vanligvis har en slik metode mange mangler, men derimot er det en bedre måte å få fremtidsbilder om vi mangler de relevante dataene (tallene) som ville være nødvendig hvis vi skulle bruke noen av de mer kvantitative teknikkene som en Eksempel på dette var det en Delphi-studie publisert i Science Journal i oktober 1967 som forsøkte å se fremover i fremtiden (nå er vi selvfølgelig mange år forbi 1967, slik at vi kan se hvor godt de regner med). Mange spørsmål ble spurt om når noe kan skje, og et utvalg av disse spørsmålene er gitt nedenfor. For hvert spørsmål gir vi det øvre kvartilsvaret, den tid da 75 av ekspertene trodde noe ville ha skjedd. Automatisert hurtig transitt, øvre kvartil svar 1985, dvs. 75 av de eksperter som ble spurt i 1967, trodde at det i 1985 ville være utbredt automatisert hurtig transitt i de fleste byområder, fortell det til alle som bor i London Utbredt bruk av sofistikerte undervisningsmaskiner, øvre kvartil svar på 1990, dvs. 75 av de eksperter som ble spurt i 1967, trodde at i 1990 ville det bli utbredt bruk av sofistikerte læringsmaskiner, fortelle det til alle som jobber i en britisk skoleuniversitet Utbredt bruk av robottjenester, øvre kvartil svar 1995, dvs. 75 av eksperter spurte i 1967 trodde at i 1995 ville det bli utbredt bruk av robottjenester Det er klart at disse prognosene i det minste var svært unøyaktige. Faktisk ser man over det fulle settet av prognoser var mange av de 25 prognosene som ble gjort (om alle aspekter av livssammenheng i fremtiden etter 1967) vildt unøyaktige. Dette bringer oss til vårt første nøkkelpunkt, vi er interessert i forskjellen mellom den opprinnelige prognosen og det endelige resultatet, det vil si i prognosefeil. Men tilbake i 1967 da denne Delphi-studien ble gjort, hvilken annen alternativ tilnærming hadde vi hvis vi ønsket å svare på disse spørsmålene. I mange avseenden er spørsmålet vi trenger å ta opp med hensyn til prognoser, ikke om en bestemt metode gir gode (nøyaktige) prognoser men om det er den beste tilgjengelige metoden - hvis det er da hvilket valg vi har om å bruke det. Dette bringer oss til vårt andre nøkkelpunkt, vi må bruke den mest hensiktsmessige (beste) prognosemetoden, selv om vi vet det (historisk ) det gir ikke nøyaktige prognoser. Regresjonsmetoder Du har sannsynligvis allerede møtt lineær regresjon der en rett linje av formen Y a bX er tilpasset dataene. Det er mulig å utvide metoden for å håndtere mer enn en uavhengig variabel X. Anta at vi har k uavhengige variabler X 1. X 2. X k da kan vi passe til regresjonslinjen Denne utvidelsen til den grunnleggende lineære regresjonsteknikken er kjent som multiple regresjon. Bare å vite regresjonslinjen gjør det mulig å forutse Y-gitt verdier for X i i1,2. k. Flere likningsmetoder Metoder av denne typen benyttes ofte i økonomisk modellering (økonometri) der det er mange avhengige variabler som samhandler med hverandre via en serie likninger, hvorav form er gitt ved økonomisk teori. Dette er et viktig poeng. Økonomisk teori gir oss litt innsikt i de grunnleggende strukturelle relasjonene mellom variabler. Det presise numeriske forholdet mellom variabler må ofte utledes ved å undersøke data. For eksempel, sett på følgende enkle modell, la: X personlig inntekt Y personlig utgifter Jeg personlig investering r rente Fra økonomisk teori, anta at vi har og balanseringsligningen Her har vi 3 ligninger i 4 variabler (X, Y, I, r ) og for å løse disse ligningene må en av variablene gis en verdi. Variabelen som er valgt er kjent som en eksogen variabel fordi dens verdi er bestemt utenfor ekvationssystemet mens de resterende variablene kalles endogene variabler som deres verdier bestemmes i systemet av ligninger, f. eks. I vår modell kan vi betrakte renten r som den eksogene variabelen og være interessert i hvordan X, Y og jeg endrer når vi endrer r. Vanligvis er konstantene a 1, a 2, b 1, b 2 ikke kjent nøyaktig og må estimeres fra data (en kompleks prosedyre). Vær også oppmerksom på at disse konstantene sannsynligvis vil være forskjellige for forskjellige grupper av mennesker, f. eks. urbanrural, menwomen, singlemarried, etc. Et eksempel på en økonometrisk modell av denne typen er Storbritannias Treasury-modell av økonomien, som inneholder mange variabler (hver med tidsabonnement), kompliserte likninger, og brukes til å se på effekten av interesse renteendringer, skifteendringer, oljeprisbevegelser, etc. For eksempel ser den engelske treasury-ligningen New Scientist, 31. oktober 1993, ut til å forutsi forbrukernes utgifter: t tidsperiode (kvart) i spørsmålet D endring i variabel mellom dette kvartalet og siste kvartal C forbrukernes ikke-varige utgifter for kvartalet U arbeidsledighet Y real disponibel inntekt justert for inflasjonstap på finansielle eiendeler P inflasjonsindeks for totale forbruksutgifter NFW netto finansielle eiendeler i den personlige sektoren GPW brutto fysisk formue i den personlige sektoren Hvis du klikker her finner du en modell som lar deg spille med den britiske økonomien. Historisk økonometriske teknikker har en tendens til å ha store prognosefeil ved prognoser for nasjonale økonomier på mellomlang sikt. Men husk ett av våre hovedpunkter ovenfor: Vi må bruke den mest hensiktsmessige (beste) prognosemetoden, selv om vi vet at (historisk) det ikke gir nøyaktige prognoser. Det kan hevdes at slike teknikker er den mest hensiktsmessige måten å lage økonomiske prognoser for. Tidsserie methodanalyse Metoder av denne typen er opptatt av en variabel som endres med tiden, og som kan sies å avhenge bare av gjeldende tid og de tidligere verdiene det tok (dvs. ikke avhengig av andre variabler eller eksterne faktorer). Hvis Y t er verdien av variabelen ved tid t, er ligningen for Y t det vil si at verdien av variabelen ved tidspunktet t er en eller annen funksjon av sine tidligere verdier og tid, er ingen andre variabelfaktorer av relevans. Formålet med tidsserieanalyse er å oppdage arten av funksjonen f og dermed tillate oss å prognostisere verdier for Y t. Tidsseriemetoder er spesielt gode for kortsiktige prognoser, hvor den tidligere adferd av en bestemt variabel er en god indikator for fremtidens oppførsel, i hvert fall på kort sikt. Det typiske eksempelet her er kortsiktig etterspørselsforespørsel. Merk forskjellen mellom etterspørsel og salg - etterspørsel er hva kundene vil ha - salg er det vi selger, og de to kan være forskjellige. I grafiske termer er plottet av Y t mot t som vist nedenfor. Formålet med analysen er å skille mellom forholdet mellom de hittilkomne Y-verdiene for å gjøre det mulig for oss å prognostisere fremtidige Y t-verdier. Vi skal behandle to teknikker for tidsserieanalyse i detalj og kort nevne en mer sofistikert metode. Flytende gjennomsnitt En, veldig enkel metode for tidsserien prognoser er å ta et bevegelige gjennomsnitt (også kjent som vektet glidende gjennomsnitt). Det bevegelige gjennomsnittet (m t) over de siste L-perioder som slutter i periode t, beregnes ved å ta gjennomsnittet av verdiene for periodene t-L1, t-L2, t-L3. t-1, t slik at For å prognostisere bruk av det bevegelige gjennomsnittet, sier vi at prognosen for alle perioder utover t er bare mt (selv om vi vanligvis bare forutsetter en periode framover, oppdaterer det bevegelige gjennomsnittet som den faktiske observasjonen for den perioden blir tilgjengelig ). Tenk på følgende eksempel: Etterspørselen etter et produkt i 6 måneder er vist nedenfor - beregne tre måneders glidende gjennomsnitt for hver måned og prognose etterspørselen etter måned 7. Nå kan vi ikke beregne et tre måneders glidende gjennomsnitt før vi har minst 3 observasjoner - det er bare mulig å beregne et slikt gjennomsnitt fra måned 3 fremover. Det glidende gjennomsnittet for måned 3 er gitt av: m 3 (42 41 43) 3 42 og glidende gjennomsnitt for de andre månedene er gitt av: Vi bruker m 6 som prognosen for måned 7. Derfor er etterspørselsprognosen for måned 7 3670 enheter. Pakkeinngangen for dette problemet er vist nedenfor. Utgangen fra pakken for tre måneders glidende gjennomsnitt er vist nedenfor. Velge mellom prognoser Ett problem med denne prognosen er enkelt - hvor bra er det. For eksempel kunne vi også produsere en etterspørselsprognose for måned 7 med et to måneders glidende gjennomsnitt. Dette ville gi følgende: Ville denne prognosen (m 6 3600 enheter) være bedre enn vår nåværende etterspørselsprognose på 3670 enheter I stedet for å prøve å gjette hvilken prognose som er bedre, kan vi nærme seg problemet logisk. Faktisk, som det vil bli tydelig under, har vi allerede tilstrekkelig informasjon til å gjøre et logisk valg mellom prognoser hvis vi ser på denne informasjonen på riktig måte. I et forsøk på å bestemme hvor god en prognose er, har vi følgende logikk. Vurder det tre måneders glidende gjennomsnittet som er oppgitt ovenfor og la oss ut som et øyeblikk at vi bare hadde krevd data for de første tre månedene, da ville vi beregne glidende gjennomsnitt for måned 3 (m 3) som 42 (se ovenfor). Dette er vår prognose for måned 4. Men i måned 4 er utfallet faktisk 38, så vi har en forskjell (feil) definert av: Merk her at vi kan like godt definere feil som resultatprognose. Det ville bare endre tegn på feilene, ikke deres absolutte verdier. Faktisk merk deg her at hvis du inspiserer pakkeutgangen, vil du se at det bare gjør det. I måned 4 har vi en prognose for måned 5 av m 4 40,7, men et utfall for måned 5 av 35 som fører til en feil på 40,7-35 5,7. I måned 5 har vi en prognose for måned 6 av m 5 38,7, men et resultat for måned 6 av 37 som fører til en feil på 38,7-37 1,7. Derfor kan vi konstruere tabellen under: Konstruksjon av samme tabell for to måneders glidende gjennomsnitt har vi: Sammenligning av disse to tabellene kan vi se at feilvilkårene gir oss et mål på hvor gode prognosemetoder (to eller tre måneders glidende gjennomsnitt) ville ha vært hadde vi brukt dem til å prognose en periode (måned) fremover på de historiske dataene vi har. I en ideell verden ønsker vi en prognosemetode der alle feilene er null, dette vil gi oss tillit (trolig mye tillit) at vår prognose for måned 7 sannsynligvis vil være riktig. Helt enkelt, i den virkelige verden, er vi nesten ikke sannsynlig å få en situasjon der alle feilene er null. Det er virkelig vanskelig å se på (som i dette tilfellet) to rekke feilvilkår og sammenligne dem. Det er mye lettere om vi tar noen funksjon av feilvilkårene, dvs. redusere hver serie til et enkelt (lett grep) nummer. En egnet funksjon for å bestemme hvor nøyaktig en prognosemetode har vært, er: Logikken her er at ved kvadratfeil fjerner vi tegnet (eller -) og diskriminerer store feil (blir bedt om små feil, men er uheldig for store feil). Ideelt bør gjennomsnittlig kvadratfeil være null (dvs. en perfekt prognose). I alle fall foretrekker vi prognosemetoden som gir den laveste gjennomsnittlige kvadratfeilen. Vi har det for tre måneders glidende gjennomsnitt: gjennomsnittlig kvadratfeil 4sup2 5,7sup2 1,7sup23 17,13 og for to måneders glidende gjennomsnitt: gjennomsnittlig kvadratfeil (-1,5) sup2 4sup2 5,5sup2 (-0,5) sup24 12,19 Den nedre av disse to figurene er knyttet til to måneders glidende gjennomsnitt og så foretrekker vi den prognosemetoden (og dermed foretrekker prognosen på 3600 for måned 7 produsert av to måneders glidende gjennomsnitt). Gjennomsnittlig kvadratfeil er kjent teknisk som gjennomsnittlig kvadratfeil (MSD) eller gjennomsnittlig kvadratfeil (MSE). Merk her at vi faktisk har gjort mer enn å skille mellom to forskjellige prognoser (dvs. mellom to måneder og tre måneders glidende gjennomsnitt). Vi har nå et kriterium for å skille mellom prognoser, men de genereres - nemlig at vi foretrekker prognosen som genereres av teknikken med den laveste MSD (historisk sett var den mest nøyaktige prognoseteknikken på dataene vi brukt det konsekvent over tid). Dette er viktig fordi vi vet at selv vår enkle pakke inneholder mange forskjellige metoder for prognoser for tidsserier - som nedenfor. Spørsmål - tror du at en av de ovennevnte prognosemetoder alltid gir bedre resultater enn de andre eller ikke? Eksponentiell utjevning En ulempe ved å bruke bevegelige gjennomsnitt for prognoser er at ved beregning av gjennomsnittet blir alle observasjonene gitt like vekt (nemlig 1L), mens vi forventer at de nyere observasjonene skal være en bedre indikator for fremtiden (og derfor burde bli gitt større vekt). Også i bevegelige gjennomsnitt bruker vi bare de siste observasjonene, kanskje vi bør ta hensyn til alle tidligere observasjoner. En teknikk kjent som eksponensiell utjevning (eller, mer nøyaktig, enkelt eksponensiell utjevning) gir større vekt til nyere observasjoner og tar hensyn til alle tidligere observasjoner. Definer en konstant mikro hvor 0 lt micro lt 1, så er det (enkelt) eksponensielt glattende glidende gjennomsnitt for perioden t (M t say) gitt av. Så du kan se her at det eksponensielt glattede glidende gjennomsnitt tar hensyn til alle tidligere observasjoner, sammenlign det bevegelige gjennomsnittet over hvor bare noen få av de foregående observasjonene ble tatt i betraktning. Ovenstående ligning er vanskelig å bruke numerisk, men merk at: Det eksponensielt glattede glidende gjennomsnittet for perioden t er en lineær kombinasjon av nåverdien (Y t) og det forrige eksponensielt glattede glidende gjennomsnittet (M t-1). Den konstante mikro kalles utjevningskonstanten og verdien av mikro reflekterer vekten gitt til nåværende observasjon (Y t) ved beregning av det eksponensielt glattede glidende gjennomsnittet M t for periode t (som er prognosen for periode t1). For eksempel hvis mikro 0,2 da dette indikerer at 20 av vekten i genererende prognoser er tilordnet den siste observasjonen og de resterende 80 til forrige observasjoner. Merk her at M t mikroY t (1 mikro) M t-1 også kan skrives M t M t-1 - mikro (M t-1 - Y t) eller nåværende prognose forrige prognose - mikro (feil i tidligere prognose) så eksponensiell utjevning kan ses som en prognose som kontinuerlig oppdateres av prognosen feilen nettopp gjort. Tenk på følgende eksempel: for etterspørseldataene som er oppgitt i forrige avsnitt, beregner det eksponensielt glattede glidende gjennomsnittet for verdier av utjevningskonstanten mikro 0,2 og 0,9. Vi har følgende for mikro 0,2. Merk her at det vanligvis er tilstrekkelig å bare jobbe med to eller tre desimaler når det gjøres eksponensiell utjevning. Vi bruker M 6 som prognosen for måned 7, det vil si prognosen for måned 7 er 3938 enheter. Vi har følgende for micro 0.9. Som før er M 6 prognosen for måned 7, det vil si 3684 enheter. Pakningsutgangen for micro0.2 er vist nedenfor. Pakningsutgangen for micro0.9 er vist nedenfor. For å bestemme den beste verdien av mikro (fra de to verdiene på 0,2 og 0,9 vurdert) velger vi verdien som er knyttet til laveste MSD (som ovenfor for flytende gjennomsnitt). For micro0.2 har vi den MSD (42-41) sup2 (41.80-43) sup2 (42.04-38) sup2 (41.23-35) sup2 (39.98-37) sup25 13.29 For micro0.9 har vi den MSD (42- 41) sup2 (41,10-43) sup2 (42,81-38) sup2 (38,48-35) sup2 (35,35-37) sup25 8,52 Vær oppmerksom på at disse MSD-verdiene er enige (til innen avrundingsfeil) med MSD-verdiene gitt i pakkeutgang ovenfor. I dette tilfellet synes mikro0.9 å gi bedre prognoser enn micro0.2, da den har en mindre verdi av MSD. Ovenfor brukte vi MSD til å redusere en rekke feilvilkår til et enkeltbegrepet enkeltnummer. Faktisk funksjoner andre enn MSD som: MAD (gjennomsnittlig absolutt avvik) gjennomsnittlig feil bias (gjennomsnittlig feil) gjennomsnittlig feil, også kjent som Cumulative Forecast Error, som også kan brukes til å redusere en rekke feilvilkår til et enkelt tall slik som å dømme hvor god en prognose er. For eksempel, som det fremgår av pakningsutgangene ovenfor, gir pakken et antall slike funksjoner, definert som: Faktisk er metoder tilgjengelig som muliggjør den optimale verdien av utjevningskonstanten (dvs. verdien av mikro som minimerer de valgte kriteriene av prognose nøyaktighet, for eksempel gjennomsnittlig kvadratisk avvik (MSD)) for å bli enkelt bestemt. Dette kan sees nedenfor hvor pakken har beregnet at verdien av mikro som minimerer MSD er micro0.86 (omtrentlig). Merk her at pakken kan brukes til å plotte både dataene og prognosene som generert ved den valgte metoden. Nedenfor viser vi dette for utgangen ovenfor (knyttet til verdien av mikro som minimerer MSD på 0,86. Merk her at valget av kriterium kan ha stor effekt på verdien av mikro f. eks. For vårt eksempel, verdien av mikro som minimerer MAD er micro0.59 (omtrentlig) og verdien av mikro som minimerer bias er micro1.0 (omtrentlig). For å illustrere endringen i MAD, bias og MSD som mikroendringer, grafer vi under MAD og bias mot utjevningskonstanten mikro og under MSD mot mikro. Nedenfor grafer vi verdien av prognosen mot mikro. Et spesielt poeng å merke seg er at for et relativt bredt spekter av verdier for mikro er prognosen stabil (f. eks. for 0,60 lt mikro l 1,00 prognosen ligger mellom 36.75 og 37.00). Dette kan sees nedenfor - kurven er quotflatquot for høye mikroverdier. Merk her at grafene ovenfor betyr at for å finne en god verdi for utjevningskonstanten er det vanligvis ikke nødvendig å beregne i meget høy gradav nøyaktighet (f. eks. ikke for eksempel innen 0,001). Mer avanserte tidsserier prognose Tidsserier prognose metoder mer avanserte enn de som er vurdert i vår enkle pakke eksisterer. Disse er basert på A uto R egressive I ntegrated M oving A verage (ARIMA) modeller. I hovedsak antas det at tidsseriene er generert av en sannsynlighetsprosess med fremtidige verdier knyttet til tidligere verdier, samt til tidligere prognosefeil. For å bruke ARIMA-modeller må tidsserien være stasjonær. En stasjonær tidsserie er en hvis statistiske egenskaper som gjennomsnitt, varians og autokorrelasjon er konstante over tid. Hvis den første tidsserien ikke er stasjonær, kan det være at noen funksjon av tidsserien, f. eks. å ta forskjellene mellom suksessive verdier, er stasjonær. Ved å tilpasse en ARIMA-modell til tidsseriedata er rammen som vanligvis brukes, en Box-Jenkins tilnærming. Det har imidlertid den ulempen at mens en rekke tidssergeteknikker er helt automatiske, i den forstand at forecasteren ikke skal utøve annen dom enn å velge teknikken for å bruke, krever Box-Jenkins-teknikken at prospektoren skal dømme og Derfor krever bruken sin erfaring og quotexpert dømmekvot fra forspillerens side. Noen prognosepakker eksisterer som gjør disse quotexpert valgene for deg. Mer om ARIMA og Box-Jenkins finner du her. her og her. Vi har bare gitt en oversikt over hvilke typer prognosemetoder som er tilgjengelige. Nøkkelen i prognoser i dag er å forstå de ulike prognosemetodene og deres relative verdier, og dermed kunne velge hvilken metode som skal brukes i en bestemt situasjon (for eksempel vurdere hvor mange prognoser for tidsserier pakken har tilgjengelig). Alle prognosemetoder involverer kjedelige repetitive beregninger, og er derfor ideelt egnet til å bli gjort av en datamaskin. Prognosepakker, mange av en interaktiv type (til bruk på PCer) er tilgjengelige for prospektoren. Noen flere prognostiseringseksempler finner du her. Innføring i ARIMA: nonseasonal modeller ARIMA (p, d, q) prognoser likning: ARIMA-modeller er i teorien den mest generelle klassen av modeller for å prognose en tidsserie som kan gjøres for å være 8220stationary8221 ved differensiering (om nødvendig), kanskje i forbindelse med ikke-lineære transformasjoner som logging eller deflatering (om nødvendig). En tilfeldig variabel som er en tidsserie er stasjonær hvis dens statistiske egenskaper er konstante over tid. En stasjonær serie har ingen trend, dens variasjoner rundt sin gjennomsnitt har en konstant amplitude, og den svinger på en konsistent måte. det vil si at kortsiktige tilfeldige tidsmønstre alltid ser like ut i statistisk forstand. Den sistnevnte tilstanden betyr at dets autokorrelasjoner (korrelasjoner med sine egne tidligere avvik fra gjennomsnittet) forblir konstante over tid, eller tilsvarende, at dets effektspektrum forblir konstant over tid. En tilfeldig variabel av dette skjemaet kan ses som en kombinasjon av signal og støy, og signalet (hvis det er tydelig) kan være et mønster av rask eller saksom gjennomsnittlig reversering eller sinusformet svingning eller rask veksling i skiltet , og det kan også ha en sesongbestemt komponent. En ARIMA-modell kan ses som en 8220filter8221 som forsøker å skille signalet fra støyen, og signalet blir deretter ekstrapolert inn i fremtiden for å oppnå prognoser. ARIMA-prognose-ligningen for en stasjonær tidsserie er en lineær (dvs. regresjonstype) ekvation hvor prediktorene består av lag av de avhengige variable ogor lagene av prognosefeilene. Det er: Forutsigbar verdi for Y en konstant og en vektet sum av en eller flere nylige verdier av Y og eller en vektet sum av en eller flere nylige verdier av feilene. Hvis prediktorene kun består av forsinkede verdier av Y. Det er en ren autoregressiv (8220self-regressed8221) modell, som bare er et spesielt tilfelle av en regresjonsmodell, og som kunne være utstyrt med standard regresjonsprogramvare. For eksempel er en førsteordens autoregressiv (8220AR (1) 8221) modell for Y en enkel regresjonsmodell der den uavhengige variabelen bare er Y forsinket med en periode (LAG (Y, 1) i Statgraphics eller YLAG1 i RegressIt). Hvis noen av prediktorene er lags av feilene, er en ARIMA-modell det IKKE en lineær regresjonsmodell, fordi det ikke er mulig å spesifisere 8220last period8217s error8221 som en uavhengig variabel: feilene må beregnes fra tid til annen når modellen er montert på dataene. Fra et teknisk synspunkt er problemet med å bruke forsinkede feil som prediktorer at modellen8217s spådommer ikke er lineære funksjoner av koeffisientene. selv om de er lineære funksjoner av tidligere data. Så koeffisienter i ARIMA-modeller som inkluderer forsinkede feil må estimeres ved ikke-lineære optimaliseringsmetoder (8220hill-klatring8221) i stedet for bare å løse et system av ligninger. Akronymet ARIMA står for Auto-Regressive Integrated Moving Average. Lags av den stationære serien i prognosekvotasjonen kalles kvotoregressivequot-termer. Lags av prognosefeilene kalles quotmoving averagequot vilkår, og en tidsserie som må differensieres for å bli stillestående, sies å være en quotintegratedquot-versjon av en stasjonær serie. Tilfeldige gange og tilfeldige trendmodeller, autoregressive modeller og eksponentielle utjevningsmodeller er alle spesielle tilfeller av ARIMA-modeller. En nonseasonal ARIMA-modell er klassifisert som en quotARIMA (p, d, q) kvotemodell hvor: p er antall autoregressive termer, d er antall ikke-sekundære forskjeller som trengs for stasjonar, og q er antall forsinkede prognosefeil i prediksjonsligningen. Forutsigelsesligningen er konstruert som følger. Først, la y betegne den d forskjellen på Y. Det betyr: Merk at den andre forskjellen på Y (d2-saken) ikke er forskjellen fra 2 perioder siden. Snarere er det den første forskjellen-av-første forskjellen. som er den diskrete analogen til et andre derivat, det vil si den lokale akselerasjonen av serien i stedet for sin lokale trend. Når det gjelder y. Den generelle prognosekvasjonen er: Her er de bevegelige gjennomsnittsparametrene (9528217s) definert slik at deres tegn er negative i ligningen, etter konvensjonen innført av Box og Jenkins. Noen forfattere og programvare (inkludert R programmeringsspråket) definerer dem slik at de har pluss tegn i stedet. Når faktiske tall er koblet til ligningen, er det ingen tvetydighet, men det er viktig å vite hvilken konvensjon programvaren bruker når du leser utgangen. Often the parameters are denoted there by AR(1), AR(2), 8230, and MA(1), MA(2), 8230 etc. To identify the appropriate ARIMA model for Y. you begin by determining the order of differencing (d) needing to stationarize the series and remove the gross features of seasonality, perhaps in conjunction with a variance-stabilizing transformation such as logging or deflating. If you stop at this point and predict that the differenced series is constant, you have merely fitted a random walk or random trend model. However, the stationarized series may still have autocorrelated errors, suggesting that some number of AR terms (p 8805 1) andor some number MA terms (q 8805 1) are also needed in the forecasting equation. The process of determining the values of p, d, and q that are best for a given time series will be discussed in later sections of the notes (whose links are at the top of this page), but a preview of some of the types of nonseasonal ARIMA models that are commonly encountered is given below. ARIMA(1,0,0) first-order autoregressive model: if the series is stationary and autocorrelated, perhaps it can be predicted as a multiple of its own previous value, plus a constant. The forecasting equation in this case is 8230which is Y regressed on itself lagged by one period. This is an 8220ARIMA(1,0,0)constant8221 model. If the mean of Y is zero, then the constant term would not be included. If the slope coefficient 981 1 is positive and less than 1 in magnitude (it must be less than 1 in magnitude if Y is stationary), the model describes mean-reverting behavior in which next period8217s value should be predicted to be 981 1 times as far away from the mean as this period8217s value. If 981 1 is negative, it predicts mean-reverting behavior with alternation of signs, i. e. it also predicts that Y will be below the mean next period if it is above the mean this period. In a second-order autoregressive model (ARIMA(2,0,0)), there would be a Y t-2 term on the right as well, and so on. Depending on the signs and magnitudes of the coefficients, an ARIMA(2,0,0) model could describe a system whose mean reversion takes place in a sinusoidally oscillating fashion, like the motion of a mass on a spring that is subjected to random shocks. ARIMA(0,1,0) random walk: If the series Y is not stationary, the simplest possible model for it is a random walk model, which can be considered as a limiting case of an AR(1) model in which the autoregressive coefficient is equal to 1, i. e. a series with infinitely slow mean reversion. The prediction equation for this model can be written as: where the constant term is the average period-to-period change (i. e. the long-term drift) in Y. This model could be fitted as a no-intercept regression model in which the first difference of Y is the dependent variable. Since it includes (only) a nonseasonal difference and a constant term, it is classified as an quotARIMA(0,1,0) model with constant. quot The random-walk - without - drift model would be an ARIMA(0,1,0) model without constant ARIMA(1,1,0) differenced first-order autoregressive model: If the errors of a random walk model are autocorrelated, perhaps the problem can be fixed by adding one lag of the dependent variable to the prediction equation--i. e. by regressing the first difference of Y on itself lagged by one period. This would yield the following prediction equation: which can be rearranged to This is a first-order autoregressive model with one order of nonseasonal differencing and a constant term--i. e. an ARIMA(1,1,0) model. ARIMA(0,1,1) without constant simple exponential smoothing: Another strategy for correcting autocorrelated errors in a random walk model is suggested by the simple exponential smoothing model. Recall that for some nonstationary time series (e. g. ones that exhibit noisy fluctuations around a slowly-varying mean), the random walk model does not perform as well as a moving average of past values. In other words, rather than taking the most recent observation as the forecast of the next observation, it is better to use an average of the last few observations in order to filter out the noise and more accurately estimate the local mean. The simple exponential smoothing model uses an exponentially weighted moving average of past values to achieve this effect. The prediction equation for the simple exponential smoothing model can be written in a number of mathematically equivalent forms. one of which is the so-called 8220error correction8221 form, in which the previous forecast is adjusted in the direction of the error it made: Because e t-1 Y t-1 - 374 t-1 by definition, this can be rewritten as: which is an ARIMA(0,1,1)-without-constant forecasting equation with 952 1 1 - 945. This means that you can fit a simple exponential smoothing by specifying it as an ARIMA(0,1,1) model without constant, and the estimated MA(1) coefficient corresponds to 1-minus-alpha in the SES formula. Recall that in the SES model, the average age of the data in the 1-period-ahead forecasts is 1 945. meaning that they will tend to lag behind trends or turning points by about 1 945 periods. It follows that the average age of the data in the 1-period-ahead forecasts of an ARIMA(0,1,1)-without-constant model is 1(1 - 952 1 ). So, for example, if 952 1 0.8, the average age is 5. As 952 1 approaches 1, the ARIMA(0,1,1)-without-constant model becomes a very-long-term moving average, and as 952 1 approaches 0 it becomes a random-walk-without-drift model. What8217s the best way to correct for autocorrelation: adding AR terms or adding MA terms In the previous two models discussed above, the problem of autocorrelated errors in a random walk model was fixed in two different ways: by adding a lagged value of the differenced series to the equation or adding a lagged value of the forecast error. Which approach is best A rule-of-thumb for this situation, which will be discussed in more detail later on, is that positive autocorrelation is usually best treated by adding an AR term to the model and negative autocorrelation is usually best treated by adding an MA term. In business and economic time series, negative autocorrelation often arises as an artifact of differencing . (In general, differencing reduces positive autocorrelation and may even cause a switch from positive to negative autocorrelation.) So, the ARIMA(0,1,1) model, in which differencing is accompanied by an MA term, is more often used than an ARIMA(1,1,0) model. ARIMA(0,1,1) with constant simple exponential smoothing with growth: By implementing the SES model as an ARIMA model, you actually gain some flexibility. First of all, the estimated MA(1) coefficient is allowed to be negative . this corresponds to a smoothing factor larger than 1 in an SES model, which is usually not allowed by the SES model-fitting procedure. Second, you have the option of including a constant term in the ARIMA model if you wish, in order to estimate an average non-zero trend. The ARIMA(0,1,1) model with constant has the prediction equation: The one-period-ahead forecasts from this model are qualitatively similar to those of the SES model, except that the trajectory of the long-term forecasts is typically a sloping line (whose slope is equal to mu) rather than a horizontal line. ARIMA(0,2,1) or (0,2,2) without constant linear exponential smoothing: Linear exponential smoothing models are ARIMA models which use two nonseasonal differences in conjunction with MA terms. The second difference of a series Y is not simply the difference between Y and itself lagged by two periods, but rather it is the first difference of the first difference --i. e. the change-in-the-change of Y at period t. Thus, the second difference of Y at period t is equal to (Y t - Y t-1 ) - (Y t-1 - Y t-2 ) Y t - 2Y t-1 Y t-2 . A second difference of a discrete function is analogous to a second derivative of a continuous function: it measures the quotaccelerationquot or quotcurvaturequot in the function at a given point in time. The ARIMA(0,2,2) model without constant predicts that the second difference of the series equals a linear function of the last two forecast errors: which can be rearranged as: where 952 1 and 952 2 are the MA(1) and MA(2) coefficients. This is a general linear exponential smoothing model . essentially the same as Holt8217s model, and Brown8217s model is a special case. It uses exponentially weighted moving averages to estimate both a local level and a local trend in the series. The long-term forecasts from this model converge to a straight line whose slope depends on the average trend observed toward the end of the series. ARIMA(1,1,2) without constant damped-trend linear exponential smoothing . This model is illustrated in the accompanying slides on ARIMA models. It extrapolates the local trend at the end of the series but flattens it out at longer forecast horizons to introduce a note of conservatism, a practice that has empirical support. See the article on quotWhy the Damped Trend worksquot by Gardner and McKenzie and the quotGolden Rulequot article by Armstrong et al. for details. It is generally advisable to stick to models in which at least one of p and q is no larger than 1, i. e. do not try to fit a model such as ARIMA(2,1,2), as this is likely to lead to overfitting and quotcommon-factorquot issues that are discussed in more detail in the notes on the mathematical structure of ARIMA models. Spreadsheet implementation: ARIMA models such as those described above are easy to implement on a spreadsheet. The prediction equation is simply a linear equation that refers to past values of original time series and past values of the errors. Thus, you can set up an ARIMA forecasting spreadsheet by storing the data in column A, the forecasting formula in column B, and the errors (data minus forecasts) in column C. The forecasting formula in a typical cell in column B would simply be a linear expression referring to values in preceding rows of columns A and C, multiplied by the appropriate AR or MA coefficients stored in cells elsewhere on the spreadsheet. Forecasting with time series analysis What is forecasting Forecasting is a method that is used extensively in time series analysis to predict a response variable, such as monthly profits, stock performance, or unemployment figures, for a specified period of time. Forecasts are based on patterns in existing data. For example, a warehouse manager can model how much product to order for the next 3 months based on the previous 12 months of orders. You can use a variety of time series methods, such as trend analysis, decomposition, or single exponential smoothing, to model patterns in the data and extrapolate those patterns to the future. Choose an analysis method by whether the patterns are static (constant over time) or dynamic (change over time), the nature of the trend and seasonal components, and how far ahead you want to forecast. Before producing forecasts, fit several candidate models to the data to determine which model is the most stable and accurate. Forecasts for a moving average analysis The fitted value at time t is the uncentered moving average at time t -1. The forecasts are the fitted values at the forecast origin. If you forecast 10 time units ahead, the forecasted value for each time will be the fitted value at the origin. Data up to the origin are used for calculating the moving averages. You can use the linear moving averages method by calculating consecutive moving averages. The linear moving averages method is often used when there is a trend in the data. First, calculate and store the moving average of the original series. Then, calculate and store the moving average of the previously stored column to obtain a second moving average. In naive forecasting, the forecast for time t is the data value at time t -1. Using moving average procedure with a moving average of length one gives naive forecasting. Forecasts for a single exponential smoothing analysis The fitted value at time t is the smoothed value at time t-1. The forecasts are the fitted value at the forecast origin. If you forecast 10 time units ahead, the forecasted value for each time will be the fitted value at the origin. Data up to the origin are used for the smoothing. In naive forecasting, the forecast for time t is the data value at time t-1. Perform single exponential smoothing with a weight of one to do naive forecasting. Forecasts for a double exponential smoothing analysis Double exponential smoothing uses the level and trend components to generate forecasts. The forecast for m periods ahead from a point at time t is L t mT t . where L t is the level and T t is the trend at time t. Data up to the forecast origin time will be used for the smoothing. Forecasts for Winters method Winters method uses the level, trend, and seasonal components to generate forecasts. The forecast for m periods ahead from a point at time t is: where L t is the level and T t is the trend at time t, multiplied by (or added to for an additive model) the seasonal component for the same period from the previous year. Winters Method uses data up to the forecast origin time to generate the forecasts.

No comments:

Post a Comment