Moving genomsnittet strikt stationär


Precis som titeln antyder är detta mitt problem: Låt Zt vara en strikt stationär sekvens. Definiera Xt Zt theta Z. Visa att denna sekvens också är strikt stillastående. Här är mitt problem. Min definition av strikt stillastående är att vi har fördelningen av (Zt, Z, prickar, Z) är oberoende av t för alla t i mathbb och alla h i mathbb. Men hur jag ser det vi har (Xt, X, prickar, X) (Zt theta Z, prickar, Z theta Z) som skulle vara oberoende av t-1 av hur Zt antas vara. Hur skifter vi detta till oberoende av t frågade 12 feb 13 kl 17:34 Jag tror inte att det är ett verkligt problem: oberoende från t-1 är detsamma som oberoende från t och du ser det tydligt genom att skriva det tydligare: för h1 du får helt enkelt Zttheta Z sim Z theta Ztquadforall tinmathbb Z, som är samma förallt (t-1) inmathbb Z. Bli inte förvirrad av variablernas beroende, stationäritet handlar om deras distribution i själva verket en konstant serie har beroende variabler vars fördelning är oberoende av t. Eller har jag missförstått din frågaA Kort introduktion till Modern Time Series Definition En tidsserie är en slumpmässig funktion x t för ett argument t i en uppsättning T. Med andra ord är en tidsserie en familj av slumpmässiga variabler. x t-1. x t. x t1. som motsvarar alla element i uppsättningen T, där T är tänkt att vara en uppsägbar, oändlig uppsättning. Definition En observerad tidsserie t t e T o T anses vara en del av en realisering av en slumpmässig funktion x t. En oändlig uppsättning möjliga realisationer som kan ha observerats kallas ett ensemble. För att ställa saker mer noggrant är tidsserien (eller slumpmässig funktion) en reell funktion x (w, t) av de två variablerna w och t, ​​där wW och t T. Om vi ​​fixar värdet på w. vi har en verklig funktion x (t w) av tiden t, vilket är en realisering av tidsserierna. Om vi ​​fixar värdet på t, har vi en slumpmässig variabel x (w t). För en given tidpunkt finns en sannolikhetsfördelning över x. Således kan en slumpmässig funktion x (w, t) betraktas som antingen en familj av slumpmässiga variabler eller som en familj av realisationer. Definition Vi definierar fördelningsfunktionen för slumpmässig variabel w givet t 0 som P o) x (x). På samma sätt kan vi definiera gemensam fördelning för n slumpmässiga variabler Punkterna som skiljer tidsserieanalys från vanliga statistiska analyser är följande (1) Beroendet mellan observationer på olika kronologiska tidpunkter spelar en viktig roll. Med andra ord är ordningsföljden viktig. I vanlig statistisk analys antas att observationerna är ömsesidigt oberoende. (2) Domänen av t är oändlig. (3) Vi måste göra en inferens från en realisering. Förverkligandet av den slumpmässiga variabeln kan endast observeras en gång vid varje tidpunkt. I multivariatanalys har vi många observationer om ett begränsat antal variabler. Denna kritiska skillnad kräver att stationäritet antas. Definition Slumpmässig funktion x t sägs vara strikt stillastående om alla ändliga dimensionsfördelningsfunktioner som definierar x t förblir desamma även om hela gruppen av punkter t 1. t 2. tn förskjuts längs tidsaxeln. Det vill säga om för alla heltal t 1. t 2. t n och k. Grafiskt kan man föreställa sig en strikt stationär serie som inte bara har samma nivå i två olika intervaller, men också samma fördelningsfunktion, helt ner till de parametrar som definierar den. Antagandet av stationäritet gör våra liv enklare och billigare. Utan stationäritet skulle vi behöva prova processen ofta vid varje tidpunkt för att bygga upp en karaktärisering av distributionsfunktionerna i den tidigare definitionen. Stationäritet innebär att vi kan begränsa vår uppmärksamhet till några av de enklaste numeriska funktionerna, det vill säga distributionsmomentet. De centrala stunderna ges av definition (i) Medelvärdet av tidsserierna t är d. v.s. första ordningens ögonblick. (ii) Autokovariansfunktionen av t är d. v.s. det andra ögonblicket om medelvärdet. Om ts då har du variansen av x t. Vi kommer att använda för att ange autokovarians av en stationär serie, där k anger skillnaden mellan t och s. (iii) Autocorrelationsfunktionen (ACF) av t är Vi kommer att använda för att beteckna autokorrelationen för en stationär serie, där k anger skillnaden mellan t och s. (iv) Partiell autokorrelation (PACF). f kk. är korrelationen mellan z t och z tk efter att ha avlägsnat sitt ömsesidiga linjära beroende av de mellanliggande variablerna z t1. z t2. z tk-1. Ett enkelt sätt att beräkna den partiella autokorrelationen mellan z t och z tk är att köra de två regressionerna och sedan beräkna korrelationen mellan de två restvektorerna. Eller, efter mätning av variablerna som avvikelser från deras medel, kan den partiella autokorrelationen hittas som LS-regressionskoefficienten på z t i modellen där punkten över variabeln indikerar att den mäts som en avvikelse från dess medelvärde. (v) Yule-Walker-ekvationerna ger ett viktigt samband mellan de partiella autokorrelationerna och autokorrelationerna. Multiplicera båda sidor av ekvation 10 med z tk-j och ta förväntningar. Denna operation ger oss följande skillnadsekvation i autocovariances eller, när det gäller autokorrelationerna Denna till synes enkla representation är verkligen ett kraftfullt resultat. Namnlösa: För j1,2. k vi kan skriva hela systemet av ekvationer, kända som Yule-Walker ekvationer, Från linjär algebra vet du att matrisen av r s är av full rang. Därför är det möjligt att tillämpa Cramers regel successivt för k1,2. att lösa systemet för de partiella autokorrelationerna. De tre första är Vi har tre viktiga resultat på strikt stationära serier. Implikationen är att vi kan använda någon ändlig realisering av sekvensen för att uppskatta medelvärdet. För det andra. om t är strikt stillastående och E t 2 lt då Implikationen är att autokovariansen endast beror på skillnaden mellan t och s, inte deras kronologiska tidpunkt. Vi kunde använda några parintervaller i beräkningen av autokovariansen så länge som tiden mellan dem var konstant. Och vi kan använda någon ändlig realisering av data för att uppskatta autokonferensen. För det tredje ges autokorrelationsfunktionen vid sträng stationäritet. Implikationen är att autokorrelationen bara beror på skillnaden mellan t och s också, och igen kan de beräknas genom någon ändamålsenlig realisering av data. Om vårt mål är att uppskatta parametrar som är beskrivande av möjliga realisationer av tidsserierna, kanske strikt stationäritet är för restriktiv. Om exempelvis medelvärdena och covarianserna av x t är konstanta och oberoende av den kronologiska punkten i tiden, är det kanske inte viktigt för oss att distributionsfunktionen är densamma för olika tidsintervaller. Definition En slumpmässig funktion är stationär i bred mening (eller svagt stationär eller stationär i Khinchins mening eller kovarians stationär) om m 1 (t) m och m 11 (t, s). Stark stationäritet innebär inte i sig svag stationäritet. Svag stationäritet innebär inte strikt stationäritet. Stark stationäritet med E t 2 lt innebär svag stationäritet. Ergodiska teoremer är oroade över frågan om de nödvändiga och tillräckliga förutsättningarna för att ge upphov till en enda realisering av en tidsserie. I grund och botten kokar den sig ner för att antaga svag stationäritet. Teorem Om t är svagt stillastående med medelvärde m och kovariansfunktion, då är det för någon given e gt 0 och h gt 0 det finns ett antal T o så att för alla T gt T o. om och endast om detta nödvändiga och tillräckliga villkor är att autocovariances dör ut, i vilket fall provvärdet är en konsekvent estimator för populationens medelvärde. Corollary Om t är svagt stationärt med E tk xt 2 lt för någon t och E tk xtx tsk x ts är oberoende av t för något heltal s, då om och endast om där A följden av följd är antagandet att xtx tk är svagt stationär. Ergodisk teorem är inte mer än en lag av stora tal när observationerna är korrelerade. Man kan nu fråga om de praktiska konsekvenserna av stationäritet. Den vanligaste användningen av tidsserietekniker är att modellera makroekonomiska data, både teoretiska och atoretiska. Som ett exempel på den tidigare kan man ha en multiplikator-accelerator modell. För att modellen ska vara stationär måste parametrarna ha vissa värden. Ett test av modellen är då att samla relevanta data och uppskatta parametrarna. Om uppskattningarna inte överensstämmer med stationaritet, måste man ompröva antingen den teoretiska modellen eller statistisk modell eller båda. Vi har nu tillräckligt med maskiner för att börja prata om modellering av univariata tidsseriedata. Det finns fyra steg i processen. 1. bygga modeller från teoretisk och erfarenhetskunskap 2. identifiera modeller baserade på data (observerade serier) 3. montera modellerna (uppskatta parametrarna för modellen / modellerna) 4. kontrollera modellen Om det i fjärde steget vi inte är nöjd vi återgår till steg ett. Processen är iterativ tills ytterligare kontroll och efterlevnad ger ingen ytterligare förbättring av resultaten. Diagrammatisk definition Vissa enkla operationer inkluderar följande: Backshift-operatören Bx tx t-1 Framåtriktaren Fx tx t1 Skillnadsoperatören 1 - B xtxt - x t-1 Skillnadsoperatören beter sig på ett sätt som överensstämmer med konstanten i en oändlig serie . Det vill säga dess invers är gränsen för en oändlig summa. Namnlöst, -1 (1-B) -1 1 (1-B) 1BB 2. Integreringsoperatören S -1 Eftersom den är invers av skillnadsoperatören, tjänar integrationsoperatören att konstruera summan. MODELL BYGG I det här avsnittet erbjuder vi en kort genomgång av de vanligaste typerna av tidsseriemodeller. På grundval av den kunskapen om datagenererande processen väljer man en klass av modeller för identifiering och uppskattning från de möjligheter som följer. Definition Antag att Ex t m är oberoende av t. En modell som med egenskaperna kallas den autoregressiva modellen av order p, AR (p). Definition Om en tidsberoende variabel (stokastisk process) t uppfyller så sägs t att Markov-egenskapen uppfylls. På LHS är förhoppningen betingad av den oändliga historien om x t. På RHS är det villkorat endast en del av historien. Från definitionerna ses en AR (p) modell för att tillgodose Markov-fastigheten. Med hjälp av backshift-operatören kan vi skriva vår AR-modell som teorem En nödvändig och tillräcklig förutsättning för att AR (p) - modellen ska vara stationär är att alla polynomernas rötter ligger utanför enhetens cirkel. Exempel 1 Tänk på AR (1) Den enda roten av 1 - f 1 B 0 är B 1 f 1. Villkoren för stationäritet kräver det. Om så kommer den observerade serien att visa sig mycket frenetisk. T. ex. Tänk på vilken den vita brusperioden har en normal fördelning med nollvärde och en varians av en. Observationerna byter tecken med nästan varje observation. Om däremot den observerade serien blir mycket mjukare. I denna serie tenderar en observation att vara över 0 om dess föregångare var över noll. Variansen av e t är s e 2 för alla t. Variansen av x t. när det har noll betyder, eftersom serien är stationär kan vi skriva. Följaktligen är autokovariansfunktionen för en AR (1) - serie, förutsatt utan förlust av generality m 0 För att se hur det ser ut utifrån AR-parametrarna kommer vi att använda det faktum att vi kan skriva xt enligt följande Multiplicera med x tk och ta förväntningar Observera att autocovariances dör ut som k växer. Autokorrelationsfunktionen är autokovariansen dividerad med variansen av den vita brusperioden. Eller,. Med hjälp av tidigare Yule-Walker-formler för de partiella autokorrelationerna har vi för en AR (1) autokorrelationerna exponentialt dämpat och de partiella autokorrelationerna uppvisar en spik vid en lag och är noll därefter. Exempel 2 Tänk på AR (2) Det tillhörande polynomet i lagoperatören är. Rötterna kan hittas med hjälp av den kvadratiska formeln. Rötterna är när rötterna är riktiga och följaktligen kommer serien att minska exponentiellt på grund av en chock. När rötterna är komplexa och serien kommer att visas som en dämpad teckenvåg. Stationsarbetssatsen ställer följande villkor på AR-koefficienterna Autokovariansen för en AR (2) - process, med nollvärde, delas genom variansen av xt ger autokorrelationsfunktionen Eftersom vi kan skriva På samma sätt för andra och tredje autokorrelationer Den andra autokorrelationer löses för rekursivt. Deras mönster styrs av rötterna i den andra ordningens linjära skillnadsekvationen Om rötterna är verkliga kommer autokorrelationerna att minska exponentiellt. När rötterna är komplexa uppträder autokorrelationerna som en dämpad sinusvåg. Med hjälp av Yule-Walker-ekvationerna är de partiella autokorrelationerna igen, dämpar autokorrelationerna långsamt. Den delvisa autokorrelationen å andra sidan är ganska distinkt. Den har spikar på en och två lags och är noll därefter. Teori Om x t är en stationär AR (p) - process kan den skrivas som en linjär filtermodell. Det vill säga polynom i backshift-operatören kan inverteras och AR (p) skrivs istället som ett glidande medelvärde av oändlig ordning. Exempel Antag att z t är en AR (1) process med nollvärde. Vad som är sant för den aktuella perioden måste också vara sant för tidigare perioder. Således genom rekursiv substitution kan vi skriva Square båda sidor och ta förväntningar höger sida försvinner som k sedan f1. Därför sammanfattas summan till z t i kvadratisk medelvärde. Vi kan skriva om AR (p) modellen som ett linjärt filter som vi vet är stationära. Autokorrelationsfunktionen och partiell autokorrelation Allmänt antar att en stationär serie z t med medel noll är känd för att vara autoregressiv. Autokorrelationsfunktionen hos en AR (p) hittas genom att ta förväntningar på och dela igenom genom variansen av z t Detta berättar att r k är en linjär kombination av tidigare autokorrelationer. Vi kan använda detta vid tillämpning av Cramers regel till (i) för att lösa för f kk. I synnerhet kan vi se att detta linjära beroende beror på f kk 0 för k gt p. Denna särskiljningsegenskap för autoregressiva serier kommer att vara mycket användbar när det gäller identifiering av en okänd serie. Om du har antingen MathCAD eller MathCAD Explorer kan du experimentera interactivley med några för de AR (p) idéer som presenteras här. Flytta genomsnittsmodeller Tänk på en dynamisk modell där serien av intresse bara beror på en del av historien om den vita brusperioden. Diagrammatiskt kan detta representeras som definition Antag att t är en okorrelerad sekvens av i. i.d. slumpmässiga variabler med noll genomsnittlig och ändlig varians. Därefter ges ett glidande medelvärde för order q, MA (q), genom teoremetoden: En rörlig genomsnittsprocess är alltid stillastående. Bevis: I stället för att börja med ett generellt bevis gör vi det för ett visst fall. Antag att z t är MA (1). Då. Naturligtvis har en t noll medelvärde och ändlig varians. Medelvärdet av z t är alltid noll. Autocovariances kommer att ges av Du kan se att medelvärdet av den slumpmässiga variabeln inte beror på tid på något sätt. Du kan också se att autokovariansen bara beror på offset s, inte på var i serien vi börjar. Vi kan bevisa samma resultat mer generellt genom att börja med, vilket har den alternativa glidande genomsnittsrepresentationen. Tänk först på variansen av z t. Genom rekursiv substitution kan du visa att detta är lika med Summan som vi vet är en konvergent serie så att variansen är ändlig och oberoende av tiden. Kovarianerna är, till exempel, Du kan också se att auto covariances beror endast på de relativa punkterna i tiden, inte den kronologiska punkten i tiden. Vår slutsats från allt detta är att en MA () - process är stationär. För den allmänna MA (q) processen ges autokorrelationsfunktionen av Den partiella autokorrelationsfunktionen kommer att dö ut smidigt. Du kan se detta genom att invertera processen för att få en AR () - process. Om du har antingen MathCAD eller MathCAD Explorer kan du experimentera interaktivt med några av de MA (q) idéer som presenteras här. Mixed Autoregressive - Moving Average Models Definition Anta att t är en okorrelerad sekvens av i. i.d. slumpmässiga variabler med noll genomsnittlig och ändlig varians. Därefter ges en autoregressiv, glidande genomsnittlig orderordning (p, q), ARMA (p, q) av Rötterna hos den autoregressiva operatören måste alla ligga utanför enhetens cirkel. Antalet okända är pq2. P och q är uppenbara. De 2 innehåller processens nivå, m. och variansen av den vita brusperioden, sa 2. Antag att vi kombinerar våra AR - och MA-representationer så att modellen är och koefficienterna normaliseras så att bo 1. Då kallas denna representation en ARMA (p, q) om rötter av (1) alla ligger utanför enhetens cirkel. Antag att y t mäts som avvikelser från medelvärdet så att vi kan släppa en o. då kommer autokovariansfunktionen att härledas från om jgtq då MA-termerna faller ut i förväntan att ge. Det betyder att autokovariansfunktionen ser ut som en typisk AR för lags efter att q dör ut smidigt efter q, men vi kan inte säga hur 1,2,133, q kommer att se ut Vi kan också undersöka PACF för denna klass av modell. Modellen kan skrivas som Vi kan skriva detta som en MA (inf) - process som tyder på att PACF-systemen dö sakta ut. Med några aritmetiska kunde vi visa att detta händer först efter de första p-spikarna som AR-delen bidrar med. Empirisk lag I själva verket kan en stationär tidsserie väl representeras av p 2 och q 2. Om ditt företag ska ge en god approximation till verkligheten och godhet med passform är ditt kriterium, så är en förlorad modell att föredra. Om ditt intresse är prediktiv effektivitet föredras den parsimoniska modellen. Experimentera med ARMA-idéerna som presenteras ovan med ett MathCAD-arbetsblad. Autoregressiv Integrera Moving Average Models MA filter AR filter Integrera filter Ibland är processen eller serierna som vi försöker att modellera inte stationära i nivåer. Men det kan vara stillastående, säg första skillnader. Det vill säga, i sin ursprungliga form kanske autocovariances för serien kanske inte är oberoende av den kronologiska tidpunkten. Om vi ​​bygger en ny serie som är de första skillnaderna i originalserien, uppfyller denna nya serie definitionen av stationäritet. Detta är ofta fallet med ekonomiska data som är högt trender. Definition Antag att z t inte är stationär, men z t - z t-1 uppfyller definitionen av stationaritet. Vid, vid, den vita brusbegreppet har ändamål och varians. Vi kan skriva modellen eftersom det heter en ARIMA (p, d, q) modell. p identifierar AR-operatörens ordning, d identifierar strömmen på. q identifierar MA-operatörens order. Om roten av f (B) ligger utanför enhetens cirkel kan vi skriva om ARIMA (p, d, q) som ett linjärt filter. Dvs. det kan skrivas som en MA (). Vi reserverar diskussionen om detektering av enhetsrotsar för en annan del av föreläsningsanteckningarna. Tänk på ett dynamiskt system med x t som en ingångsserie och y t som en utgångsserie. Diagrammatiskt vi har Dessa modeller är en diskret analogi av linjära differentialekvationer. Vi antar följande relation där b anger en ren fördröjning. Minns det (1-B). Genom att göra denna substitution kan modellen skrivas. Om koefficientpolynomet på y t kan inverteras kan modellen skrivas som V (B) kallas impulsresponsfunktionen. Vi kommer att stöta på denna terminologi igen i vår senare diskussion om vektorautoregressiva. cointegration och felkorrigeringsmodeller. MODELL IDENTIFIKATION Efter att ha bestämt sig för en klass av modeller måste man nu identifiera ordningen för de processer som genererar data. Det vill säga, man måste göra bästa gissningar om AR-och MA-processernas ordning för att driva den stationära serien. En stationär serie kännetecknas helt av sina medelvärden och autocovariances. Av analytiska skäl arbetar vi vanligtvis med autokorrelationer och partiella autokorrelationer. Dessa två grundläggande verktyg har unika mönster för stationära AR - och MA-processer. Man kan beräkna provuppskattningar av autokorrelations - och partiella autokorrelationsfunktioner och jämföra dem med tabulerade resultat för standardmodeller. Exempel Autokovariansfunktion Provautokorrelationsfunktion Provpartiella autokorrelationer kommer att vara Använda autokorrelationerna och partiella autokorrelationer är ganska enkla i princip. Antag att vi har en serie z t. med noll betyder, vilket är AR (1). Om vi ​​skulle köra regression av z t2 på z t1 och z t skulle vi förvänta oss att koefficienten på z t inte skilde sig från noll eftersom denna partiella autokorrelation borde vara noll. Å andra sidan bör autokorrelationerna för denna serie minska exponentiellt för att öka lags (se AR (1) - exemplet ovan). Antag att serien verkligen är ett rörligt medelvärde. Autokorrelationen borde vara noll överallt men vid första fördröjningen. Den partiella autokorrelationen borde dö ut exponentiellt. Även från vår mycket snabba trumma genom grunderna i tidsserieanalyser är det uppenbart att det finns en dualitet mellan AR och MA-processer. Denna dualitet kan sammanfattas i följande tabell. Autoregressiv Moving Average ARMA (p, q) Modeller för Time Series Analysis - Del 1 I den sista artikeln såg vi på slumpmässiga promenader och vitt brus som grundläggande tidsseriemodeller för vissa finansiella instrument, t. ex. som dagliga aktier och aktiekurspriser. Vi fann att i vissa fall var en slumpmässig promenadmodell otillräcklig för att fånga instrumentets fullständiga autokorrelationsbeteende, vilket motiverar mer sofistikerade modeller. I de följande artiklarna kommer vi att diskutera tre typer av modeller, nämligen den autoregressiva (AR) - modellen av order p, Moving Average (MA) - modellen för order q och den blandade ARG-modellen (ARMA) av order p , q. Dessa modeller hjälper oss att försöka fånga eller förklara mer av den seriella korrelationen som finns i ett instrument. I slutändan kommer de att ge oss ett sätt att förutse framtida priser. Det är emellertid välkänt att finansiella tidsserier har en egenskap som kallas volatilitetsklypning. Det vill säga instrumentets volatilitet är inte konstant i tiden. Den tekniska termen för detta beteende är känd som villkorlig heteroskedasticitet. Eftersom AR-, MA - och ARMA-modellerna inte är villkorligt heteroskedastiska, det vill säga de tar inte hänsyn till volatilitetsklypning, kommer vi till slut att behöva en mer sofistikerad modell för våra förutsägelser. Sådana modeller inkluderar Autogressive Conditional Heteroskedastic (ARCH) - modellen och Generalized Autogressive Conditional Heteroskedastic (GARCH) - modellen och de många varianterna av dessa. GARCH är särskilt välkänt inom quant finance och används främst för finansiella tidsserier simuleringar som ett medel för att uppskatta risk. Men som med alla QuantStart-artiklar vill jag bygga upp dessa modeller från enklare versioner så att vi kan se hur varje ny variant ändrar vår förutsägbara förmåga. Trots att AR, MA och ARMA är relativt enkla tidsseriemodeller, utgör de grunden för mer komplicerade modeller som det autoregressiva integrerade rörliga genomsnittet (ARIMA) och GARCH-familjen. Därför är det viktigt att vi studerar dem. En av våra första handelsstrategier i tidsseriens artikelserie är att kombinera ARIMA och GARCH för att kunna förutse priserna n perioder i förväg. Vi måste dock vänta tills vi har diskuterat både ARIMA och GARCH separat innan vi tillämpar dem på en riktig strategi. Hur ska vi fortsätta? I den här artikeln kommer vi att beskriva några nya tidsseriebegrepp som väl behöver användas för de återstående metoderna, nämligen stränga stationaritet och Akaike informationskriterium (AIC). Efter dessa nya begrepp följer vi det traditionella mönstret för att studera nya tidsseriemodeller: Bakgrund - Den första uppgiften är att ge en anledning till varför intresserade sig för en viss modell, som quants. Varför introducerar vi tidsseriemodellen Vilka effekter kan den fånga Vad får vi (eller förlorar) genom att lägga till i extra komplexitet Definition - Vi måste tillhandahålla den fullständiga matematiska definitionen (och tillhörande notering) i tidsseriemodellen för att minimera någon tvetydighet. Andra ordningens egenskaper - Vi kommer att diskutera (och i vissa fall härleda) andra ordningens egenskaper i tidsseriemodellen, som inkluderar dess medelvärde, dess varians och dess autokorrelationsfunktion. Korrelogram - Vi kommer att använda andra ordningens egenskaper för att plotta ett korrelogram av en realisering av tidsseriemodellen för att visualisera dess beteende. Simulering - Vi simulerar realisationer av tidsseriemodellen och anpassar sedan modellen till dessa simuleringar för att säkerställa att vi har exakta implementeringar och förstå monteringsprocessen. Verklig finansiell data - Vi kommer att anpassa tidsseriemodellen till reella ekonomiska data och överväga korrelogrammet för rester för att se hur modellen står för seriell korrelation i originalserien. Prediction - Vi kommer att skapa prognoser för tidsserien för tidsseriemodellen för särskilda realisationer för att slutligen producera handelssignaler. Nästan alla artiklar jag skriver om tidsseriemodeller kommer att falla in i det här mönstret och det kommer att göra det möjligt för oss att enkelt jämföra skillnaderna mellan varje modell när vi lägger till ytterligare komplexitet. Började med att titta på strikt stationäritet och AIC. Strikt stationärt Vi tillhandahöll definitionen av stationaritet i artikeln om seriell korrelation. Men eftersom vi kommer att komma in på riken i många finansiella serier med olika frekvenser, måste vi se till att våra (eventuella) modeller tar hänsyn till den tidsmässiga volatiliteten i dessa serier. I synnerhet måste vi överväga deras heteroskedasticitet. Vi kommer att stöta på denna fråga när vi försöker passa vissa modeller till historiska serier. I allmänhet kan inte all den seriella korrelationen i resterna av monterade modeller redovisas utan hänsyn till heteroskedasticitet. Detta ger oss tillbaka till stationäritet. En serie är inte stillastående i variansen om den har tidsvarierande volatilitet per definition. Detta motiverar en mer rigorös definition av stationaritet, nämligen strikt stationaritet: Strikt Stationär Serie En tidsseriemodell, är strikt stillastående om den gemensamma statistiska fördelningen av elementen x, ldots, x är densamma som den för xm, ldots, xm, förallt ti, m. Man kan tänka sig denna definition som att distributionen av tidsserierna är oförändrad för varje abundär tidsförskjutning. I synnerhet är medelvärdet och variansen konstanta i tid för en strikt stationär serie och autokovariansen mellan xt och xs (säg) beror endast på den absoluta skillnaden mellan t och s, t-s. Vi kommer att se över strikt stationära serier i framtida inlägg. Akaike Information Criterion Jag nämnde i tidigare artiklar att vi så småningom skulle behöva överväga hur man väljer mellan separata bästa modeller. Detta gäller inte bara tidsserieanalysen utan även maskininlärning och, mer allmänt, statistik i allmänhet. De två huvudsakliga metoderna vi kommer att använda (för tillfället) är Akaike Information Criterion (AIC) och Bayesian Information Criterion (som vi fortsätter vidare med våra artiklar om Bayesian Statistics). Tja kortfattat överväga AIC, som det kommer att användas i del 2 i ARMA artikeln. AIC är i huvudsak ett verktyg för att hjälpa till med modellval. Det vill säga om vi har ett urval statistiska modeller (inklusive tidsserier), beräknar AIC kvaliteten på varje modell i förhållande till de andra som vi har tillgång till. Det är baserat på informationsteori. vilket är ett mycket intressant, djupt ämne som vi tyvärr inte kan gå in på för mycket detaljer om. Det försöker balansera modellens komplexitet, vilket i detta fall betyder antalet parametrar, med hur bra det passar data. Kan ge en definition: Akaike Information Criterion Om vi ​​tar sannolikhetsfunktionen för en statistisk modell, som har k parametrar, och L maximerar sannolikheten. då ges Akaike Information Criterion av: Den föredragna modellen, från ett urval av modeller, har gruppens minium AIC. Du kan se att AIC växer när antalet parametrar, k, ökar, men reduceras om den negativa loggbarheten ökar. I huvudsak straffar det modeller som överlever. Vi ska skapa AR, MA och ARMA modeller av olika order och ett sätt att välja den bästa modellen passar en viss dataset är att använda AIC. Det här gör vad som är bra i nästa artikel, främst för ARMA-modeller. Autoregressiva (AR) Modeller av order p Den första modellen skulle överväga, som ligger till grund för Del 1, är den autoregressiva modellen av order p, ofta förkortad till AR (p). I den föregående artikeln ansåg vi slumpmässig promenad. där varje term, xt är beroende enbart på föregående term, x och en stokastisk vit brus term, wt: Den autoregressiva modellen är helt enkelt en förlängning av den slumpmässiga promenad som innehåller termer längre tillbaka i tiden. Modellens struktur är linjär. det är modellen beror linjärt på de tidigare villkoren, med koefficienter för varje term. Det här är det regressiva som kommer från autoregressiva. Det är i grunden en regressionsmodell där de tidigare termerna är prediktorerna. Autoregressiv Ordermodell p En tidsseriemodell,, är en autoregressiv modell av order p. AR (p), om: börja xt alfa1 x ldots alfabetisk x wt summa p alfai x wt slutet Var är vitt brus och alfai i mathbb, med alfabetisk neq 0 för en p-orderautoregressiv process. Om vi ​​betraktar Backward Shift Operator. (se föregående artikel) kan vi skriva om ovanstående som en funktion theta av: starta tappa () xt (1 - alfa1 - alfa2 2 - ldot - alfabet) xt wt slut Kanske det första att märka om AR (p) modellen är att en slumpmässig promenad är helt enkelt AR (1) med alfa1 lika med enhet. Som vi nämnde ovan är den autogressiva modellen en förlängning av slumpmässig promenad, så det är meningsfullt Det är enkelt att göra förutsägelser med AR (p) - modellen, för vilken tidpunkt som helst, när vi har bestämt alfakoefficienterna, beräknas vår uppskattning blir enkelt: start hatt t alfa1 x ldots alphap x end Därför kan vi göra prognoser för n-steg framåt genom att producera hatt, hatt, hatt, etc upp till hatt. Faktum är att vi, när vi överväger ARMA-modellerna i del 2, använder R-förutsägesfunktionen för att skapa prognoser (tillsammans med standardfel konfidensintervallband) som hjälper oss att producera handelssignaler. Stationäritet för autoregressiva processer En av de viktigaste aspekterna av AR (p) modellen är att den inte alltid är stationär. Faktum är att stationäriteten hos en viss modell beror på parametrarna. Ive berörde detta tidigare i en tidigare artikel. För att avgöra om en AR (p) - process är stationär eller inte behöver vi lösa den karakteristiska ekvationen. Den karakteristiska ekvationen är helt enkelt den autoregressiva modellen, skriven i bakåtskjutningsform, inställd på noll: Vi löser denna ekvation för. För att den specifika autoregressiva processen ska vara stationär behöver vi alla absoluta värden för rötterna i denna ekvation att överträffa enhet. Detta är en extremt användbar egenskap och låter oss snabbt beräkna om en AR (p) - process är stationär eller inte. Låt oss överväga några exempel för att göra denna idé konkret: Slumpmässig promenad - AR (1) - processen med alfa1 1 har den karakteristiska ekvationen theta 1 -. Tydligen har detta root 1 och är inte stationärt. AR (1) - Om vi ​​väljer alpha1 frac får vi xt frac x wt. Detta ger oss en karakteristisk ekvation av 1 - frac 0, som har en rot 4 gt 1 och så är denna speciella AR (1) - process stationär. AR (2) - Om vi ​​anger alpha1 alpha2 frac får vi xt frac x frac x wt. Dess karakteristiska ekvation blir - frac () () 0, vilket ger två rötter av 1, -2. Eftersom detta har en rotor är det en icke-stationär serie. Dock kan andra AR (2) - serier vara stationära. Andra ordningens egenskaper Medelvärdet av en AR (p) - process är noll. Autokovarianerna och autokorrelationerna ges emellertid av rekursiva funktioner, kända som Yule-Walker-ekvationerna. De fullständiga egenskaperna anges nedan: starta mux E (xt) 0 sluta starta gammal summa p alfa gamma, enspace k 0 sluta start rhok summa alfabetisk, enspace k 0 slut Observera att det är nödvändigt att känna till alfai parametervärden före beräkning av autokorrelationer. Nu när vi har sagt andra ordningens egenskaper kan vi simulera olika order av AR (p) och plotta motsvarande korrelogram. Simuleringar och korrelogram Låt oss börja med en AR (1) process. Detta liknar en slumpmässig promenad, förutom att alfa1 inte behöver jämföras. Vår modell kommer att ha alpha1 0,6. R-koden för att skapa denna simulering ges enligt följande: Observera att vår för slinga utförs från 2 till 100, inte 1 till 100, som xt-1 när t0 inte är indexerbar. På samma sätt för högre ordning AR (p) processer måste t sträcka sig från p till 100 i denna loop. Vi kan plotta realiseringen av denna modell och dess associerade korrelogram med hjälp av layoutfunktionen: Nu kan du försöka montera en AR (p) - process till de simulerade data som vi just skapat för att se om vi kan återställa de underliggande parametrarna. Du kanske kommer ihåg att vi utförde ett liknande förfarande i artikeln om vitt brus och slumpmässiga promenader. Som det visar sig är R ett användbart kommando för att passa autoregressiva modeller. Vi kan använda den här metoden för att först och främst berätta för oss modellens bästa order p (enligt AIC ovan) och ge oss parametrisuppskattningar för alphai som vi sedan kan använda för att bilda konfidensintervaller. För fullständighet, låt oss återskapa x-serien: Nu använder vi ar-kommandot för att passa en autoregressiv modell till vår simulerade AR (1) - process, med högsta sannolikhetsberäkning (MLE) som passningsförfarande. Vi kommer först att extrahera den bästa erhållna ordern: Ar-kommandot har framgångsrikt bestämt att vår underliggande tidsseriemodell är en AR (1) - process. Vi kan sedan erhålla estimaten för alfa-parametrarna: MLE-proceduren har producerat en uppskattning, hatt 0,523, vilket är något lägre än det verkliga värdet av alfa1 0,6. Slutligen kan vi använda standardfelet (med den asymptotiska variansen) för att konstruera 95 konfidensintervall runt den underliggande parametern. För att uppnå detta skapar vi helt enkelt en vektor c (-1,96, 1,96) och multiplicerar sedan den med standardfelet: Den sanna parametern faller inom 95 konfidensintervallet, vilket vi förväntade oss av det faktum att vi har genererat realiseringen från modellen specifikt . Vad sägs om om vi byter alfa1 -0.6 Som tidigare kan vi passa en AR (p) modell med ar: Återigen återställer vi rätt ordning med modellen, med en mycket bra uppskattning hatt -0.597 av alpha1-0.6. Vi ser också att den sanna parametern faller inom 95 konfidensintervall igen. Låt oss lägga till mer komplexitet i våra autoregressiva processer genom att simulera en modell av ordning 2. I synnerhet kommer vi att ange alfa10.666, men också ställa in alfa2 -0.333. Häri hela koden för att simulera och plotta realiseringen, liksom korrelogrammet för en sådan serie: Som tidigare kan vi se att korrelogrammet skiljer sig avsevärt från det vita bruset, som vi förväntar oss. Det finns statistiskt signifikanta toppar vid k1, k3 och k4. Återigen skulle vi använda kommandot ar för att passa en AR (p) modell till vår underliggande AR (2) realisering. Förfarandet är liknande som för AR (1) passform: Den korrekta ordningen har återställts och parametern uppskattar hatt 0.696 och hat -0.395 är inte för långt borta från de äkta parametervärdena av alpha10.666 och alpha2-0.333. Observera att vi får ett meddelande om konvergensvarning. Observera också att R faktiskt använder arima0-funktionen för att beräkna AR-modellen. AR-modellerna är bara ARIMA (p, 0, 0) och sålunda är en AR-modell ett speciellt fall av ARIMA utan Moving Average (MA) - komponent. Tja, använd också arima-kommandot för att skapa konfidensintervaller kring flera parametrar, varför weve försummade att göra det här. Nu när vi har skapat några simulerade data är det dags att tillämpa AR (p) - modellerna för finansiella tillgångar tidsserier. Financial Data Amazon Inc. Låt oss börja med att köpa aktiekursen för Amazon (AMZN) med hjälp av quantmod som i den senaste artikeln: Den första uppgiften är alltid att prissätta priset för en kort visuell inspektion. I det här fallet använder du de dagliga slutkurserna: Du märker att quantmod lägger till någon formatering för oss, nämligen datumet och ett lite snyggare diagram än de vanliga R-diagrammen: Vi ska nu ta den logaritmiska avkastningen från AMZN och sedan den första - orderskillnad i serien för att konvertera den ursprungliga prisserien från en icke-stationär serie till en (potentiellt) stationär en. Detta gör det möjligt för oss att jämföra äpplen med äpplen mellan aktier, index eller någon annan tillgång för användning i senare multivariat statistik, till exempel vid beräkning av en kovariansmatris. Om du vill ha en detaljerad förklaring till varför loggaregistrering är att föredra, ta en titt på den här artikeln över på Quantivity. Låt oss skapa en ny serie, amznrt. för att hålla våra differenced log returnerar: Återigen kan vi plotta serien: På detta stadium vill vi plotta korrelogrammet. Var ser för att se om den olika serien ser ut som vitt brus. Om det inte är så är det oförklarligt seriell korrelation, vilket kan förklaras av en autoregressiv modell. Vi märker en statistiskt signifikant topp vid k2. Därför finns det en rimlig möjlighet till oförklarlig seriell korrelation. Var dock medveten om att detta kan bero på provtagning. Som sådan kan vi försöka montera en AR (p) modell i serien och skapa konfidensintervaller för parametrarna: Montera den ar-autoregressiva modellen till första orderens olika loggpriser ger en AR (2) modell med hatt -0.0278 och hatt -0,0687. Ive matar också den aysmptotiska variansen så att vi kan beräkna standardfel för parametrarna och producera konfidensintervaller. Vi vill se om noll är en del av 95-konfidensintervallet, som om det är, det minskar vårt förtroende för att vi har en sann underliggande AR (2) - process för AMZN-serien. För att beräkna konfidensintervallen på 95-nivån för varje parameter använder vi följande kommandon. Vi tar kvadratroten av det första elementet i den asymptotiska variansmatrisen för att skapa ett standardfel och skapa sedan konfidensintervaller genom att multiplicera den med -1,96 respektive 1,96 för 95-nivån: Observera att det blir enklare när du använder arima-funktionen , men vänta tills del 2 innan du inför den korrekt. Således kan vi se att för alfa1 finns noll inom konfidensintervallet, medan för alfa2 noll inte finns i konfidensintervallet. Därför bör vi vara mycket försiktiga med att tänka att vi verkligen har en underliggande generativ AR (2) modell för AMZN. I synnerhet noterar vi att den autoregressiva modellen inte tar hänsyn till volatilitetsklypning, vilket leder till gruppering av seriekorrelation i finansiella tidsserier. När vi betraktar ARCH - och GARCH-modellerna i senare artiklar tar vi hänsyn till detta. När vi kommer att använda hela arima-funktionen i nästa artikel kommer vi att göra förutsägelser om den dagliga loggprisserien för att vi ska kunna skapa handelssignaler. SampP500 US Equity Index Tillsammans med enskilda aktier kan vi också överväga US Equity Index, SampP500. Låt oss tillämpa alla tidigare kommandon i denna serie och producera tomterna som tidigare: Vi kan plotta priserna: Såsom tidigare skapar du den första ordningsskillnaden för loggavslutningspriserna: Återigen kan vi plotta serien: Det är klart från detta diagram att volatiliteten inte är stillastående i tid. Detta återspeglas även i korrelogrammet. Det finns många toppar, inklusive k1 och k2, som är statistiskt signifikanta utöver en vit ljudmodell. Dessutom ser vi tecken på långminnesprocesser eftersom det finns några statistiskt signifikanta toppar vid k16, k18 och k21: I slutändan behöver vi en mer sofistikerad modell än en autoregressiv modellordning p. Men i detta skede kan vi fortfarande försöka passa en sådan modell. Låt oss se vad vi får om vi gör det: Använda ar producerar en AR (22) modell, det vill säga en modell med 22 icke-nollparametrar. Vad säger det här? Det är indikerande att det är sannolikt mycket mer komplexitet i seriekorrelationen än en enkel linjär modell av tidigare priser kan verkligen stå för. Men vi visste redan detta eftersom vi kan se att det finns en betydande seriekorrelation i volatiliteten. Tänk exempelvis på den mycket volatila perioden runt 2008. Detta motiverar nästa uppsättning modeller, nämligen Moving Average MA (q) och Autoregressive Moving Average ARMA (p, q). Bra lära dig om båda dessa i del 2 i den här artikeln. Som vi upprepade gånger nämner kommer de slutligen att leda oss till modellerna ARIMA och GARCH, vilka båda kommer att ge en mycket bättre passform till Samp500s seriella korrelationskomplexitet. Det gör att vi kan förbättra våra prognoser avsevärt och slutligen producera mer lönsamma strategier. Bara Komma igång med kvantitativ handel

Comments