Saturday 21 October 2017

Exponentiellt vägda glidande medelvärde standardavvikelsen


Hej jag har samlat några processdata i 3 år och jag vill efterlikna en EWMA-prospektiv analys för att se om min inställningsparameter skulle ha upptäckt alla viktiga förändringar (utan alltför många falska larm). Det verkar som de flesta läroböcker och litteratur som jag har tittat på som använder en medel - och standardavvikelse för att beräkna kontrollgränserna. Detta är vanligtvis medelvärdet och standardavvikelsen från vissa historiska data, eller medelvärdet och sd för befolkningen från vilken proven är ritad. Jag har inte heller någon information. Finns det något annat sätt att beräkna kontrollgränserna Finns det en variation av EWMA-diagrammet som inte använder medel - och standardavvikelser. Eventuella idéer Tack på förhand För att jag förstår detta: du kan beräkna EWMA-medelvärdet och variansen, men du Jag har inte en baslinje för att jämföra dem. Det låter mig som om du har en övervakad teknik (som förutsätter att du kan definiera vad den ska se), men du vill ha en oövervakad teknik (som bara söker efter skillnader utan att ringa en statlig kvot och en annan quotbadquot). För oövervakade tekniker kommer clustering att komma ihåg, men det skulle behöva ändras för att applicera på timeseries. Vad sägs om generaliserat sannolikhetsförhållande (GLR) ndash Jim Pivarski 25 juni 14 kl 2:49 Om vi ​​hänvisar till en. wikipedia. orgwikiEWMAchart. Jag kan beräkna Zi för min givna lambda, men när det gäller kontrollgränserna har jag inte historiska data för att beräkna T och S. Tack jag ska titta på GLR och även posta på Cross Validated. ndash user3295481 25 jun 14 kl 2:54 Ja, T och S är medelvärdet och standardavvikelsen för en baslinjedistribution, vilken antingen ges i förväg eller bestäms från en träningsdataset. Träningsdatasetet representerar vad uppgifterna quotshouldquot ser ut, det här är en övervakad teknik och du vill ha en oövervakad teknik. GLR är väldigt vägt exponentialt, men det finner dynamiskt en paus i data mellan två olika fördelningar och kombinerar data på varje sida av pausen för att få mer robusta resultat. Det kan vara vad du vill ha. ndash Jim Pivarski 25 juni 14 kl 3:00 Från ett praktiskt perspektiv är användningen av statistisk analys av historiska data ensam sällsynt. Ja, det ger lite vägledning om hur processen (och dess styrsystem) fungerar, men det viktigaste är att ha en god förståelse och kunskap om gränserna för konstruktion. Jag hänvisar till de operativa gränserna, vilka bestäms av specifikationerna och prestandaegenskaperna hos de olika utrustningsdelarna. Detta gör det möjligt för en att utveckla en god förståelse för hur processen ska verka (när det gäller optimala driftspunkter och gränsvärden för övregränsen) och där områden med största avvikelse från optimala är. Detta har väldigt lite att göra med statistisk analys av historiska data, och mycket har att göra med process engineeringmetallurgy - beroende på vilken typ av process du har att göra med. Kontrollgränserna bestäms i slutändan av vad Process Manager Process Engineer WANTS, som vanligen (men inte alltid) finns inom maskinens namnplattans kapacitet. Om du arbetar inom operativa gränser, och du befinner dig i processoptimering, då är statistisk analys mer användbar och kan ge bra insikt. Beroende på variabiliteten i din process, hur väl ditt styrsystem är inställt och homogeniteten hos din foderprodukt, kommer de övre gränsregleringsgränser som väljs att variera. En bra utgångspunkt är den optimala driftpunkten (t ex 100 m3h), använd sedan en förnuftig mängd historiska data för att beräkna en standardavvikelse och gör din övre gräns 100 1 standard dev och din nedre gräns 100-1 standard dev. Det här är inte en hård och snabb regel, men det är en förnuftig utgångspunkt. svarade 7 feb 16 kl 12: 12whuber - Det här är fel, som du misstänkte. Det är korrekt om vikterna själva är frekvenser. Men även om frekvenser går in i beräkningen av procentsatserna i detta fall är vikterna, men ospecificerade, inte frekvenser av förekomst men något annat att göra med quotdata volumequot. Så detta är fel svar. ndash Rex Kerr 8 september 15 kl 17:50 Formlerna finns tillgängliga på olika ställen, inklusive Wikipedia. Nyckeln är att märka att det beror på vad vikterna betyder. I synnerhet kommer du att få olika svar om vikterna är frekvenser (dvs du försöker bara undvika att lägga upp hela summan), om vikterna faktiskt är variansen i varje mätning, eller om de bara innehåller några externa värden som du ålägger dina uppgifter. I ditt fall ser det ytligt ut som vikterna är frekvenser men de är inte. Du genererar dina data från frekvenser, men det är inte en enkel fråga om att ha 45 poster om 3 och 15 poster på 4 i din dataset. Istället måste du använda den sista metoden. (Egentligen är allt detta skräp - du behöver verkligen använda en mer sofistikerad modell av processen som genererar dessa siffror. Du har uppenbarligen inte något som spetsar ut. Normalt fördelade siffror, vilket kännetecknar systemet med standardavvikelsen är inte den rätta saken att göra.) Under alla omständigheter är variansformeln (från vilken du beräknar standardavvikelsen på normalt sätt) med pålitlighetsvikter där x sum wi xi sum wi är det viktade medelvärdet. Du har ingen uppskattning av vikterna, som jag antar att du vill ta för att vara proportionell mot tillförlitligheten. Att ta procentandelar som du är kommer att göra analysen svår, även om de är genererade av en Bernoulli-process, för om du får en poäng på 20 och 0, har du oändlig procentandel. Viktning av invers av SEM är en vanlig och ibland optimal sak att göra. Du borde kanske använda en Bayesian uppskattning eller Wilson poängintervall. svarade 8 sep 15 kl 17:48 1. Diskussionen om vikten av vikter var vad jag letade efter i den här tråden hela tiden. Det är ett viktigt bidrag till alla dessa sidors frågor om vägd statistik. (Jag är lite bekymrad över de parentetiska kommentarerna om normala fördelningar och standardavvikelser, eftersom de felaktigt föreslår att SD-skivor inte har någon användning utanför en modell baserad på normalitet.) Ndash w huber 9830 8 september 15 kl 18:23 whuber - Tja , centralgränsteorin till räddning, men självklart men för vad OP-försöket prövade att karakterisera den uppsättningen siffror med en medel - och standardavvikelse verkar det oerhört ofrånkomligt. Och i allmänhet, för många användningsområden slutar standardavvikelsen att locka en till en falsk känsla av förståelse. Till exempel, om fördelningen är något annat än normalt (eller en bra approximation av det), kommer förlängningen av standardavvikelsen att ge dig en dålig uppfattning om svansens form, när det är exakt de svansar som du förmodligen mest bryr sig om i statistiska testning. ndash Rex Kerr 8 september 15 kl 19:44 RexKerr Vi kan knappast skylla på standardavvikelse om människor lägger tolkningar på det som är oförtjänta. Men låt oss flytta sig från normalitet och överväga den mycket bredare klassen av kontinuerliga, symmetriska unimodala fördelningar med ändlig varians (till exempel). Sedan ligger mellan 89 och 100 procent av fördelningen inom två standardavvikelser. Det är ofta ganska användbart att veta (och 95 ligger ganska mycket i mitten, så det är aldrig mer än omkring 7) med många vanliga fördelningar ändras inte droppsymmetriaspekten mycket (t ex titta på exponentiellen till exempel). ctd ndash Glenb 9830 1 okt 15 på 23: 57Förvisning av exponentiellt viktad rörlig genomsnittsvolatilitet är den vanligaste riskmåtten, men den kommer i flera smaker. I en tidigare artikel visade vi hur man beräkna enkel historisk volatilitet. (För att läsa den här artikeln, se Använd volatilitet för att mäta framtida risk.) Vi använde Googles faktiska aktiekursdata för att beräkna den dagliga volatiliteten baserat på 30 dygns lagerdata. I den här artikeln kommer vi att förbättra den enkla volatiliteten och diskutera exponentialvägt rörligt medelvärde (EWMA). Historisk Vs. Implicit Volatilitet Först, låt oss sätta denna mätning i lite perspektiv. Det finns två breda tillvägagångssätt: historisk och underförstådd (eller implicit) volatilitet. Det historiska tillvägagångssättet förutsätter att förflutet är en prolog som vi mäter historia i hopp om att det är förutsägbart. Implicit volatilitet, å andra sidan, ignorerar historien den löser för volatiliteten implicerad av marknadspriser. Det hoppas att marknaden vet bäst och att marknadspriset innehåller, även om det implicit är, en konsensusuppskattning av volatiliteten. (För relaterad läsning, se Användning och gränser för volatilitet.) Om vi ​​fokuserar på bara de tre historiska tillvägagångssätten (till vänster ovan), har de två steg gemensamt: Beräkna serien av periodisk avkastning Använd ett viktningsschema Först vi beräkna den periodiska avkastningen. Det är typiskt en serie av dagliga avkastningar där varje avkastning uttrycks i fortlöpande sammansatta termer. För varje dag tar vi den naturliga loggen av förhållandet mellan aktiekurserna (dvs. pris idag dividerat med pris igår, och så vidare). Detta ger en serie dagliga avkastningar, från dig till jag i-m. beroende på hur många dagar (m dagar) vi mäter. Det får oss till det andra steget: Det är här de tre metoderna skiljer sig åt. I den föregående artikeln (Använd volatilitet för att mäta framtida risker) visade vi att enligt enkla acceptabla förenklingar är den enkla variansen genomsnittet av de kvadrerade avkastningarna: Observera att summan av varje periodisk avkastning delar upp den totala av antal dagar eller observationer (m). Så det är verkligen bara ett genomsnitt av den kvadrerade periodiska avkastningen. Sätt på ett annat sätt, varje kvadrerad retur ges lika vikt. Så om alfa (a) är en viktningsfaktor (specifikt en 1m) ser en enkel varians något ut så här: EWMA förbättras på enkel varians Svagheten i denna metod är att alla avkastningar tjänar samma vikt. Yesterdays (väldigt ny) avkastning har inget mer inflytande på variansen än förra månaden tillbaka. Detta problem fastställs med hjälp av det exponentiellt vägda glidande medlet (EWMA), i vilket nyare avkastning har större vikt på variansen. Det exponentiellt viktade glidande medlet (EWMA) introducerar lambda. som kallas utjämningsparametern. Lambda måste vara mindre än en. Under detta förhållande, istället för lika vikter, vägs varje kvadrerad avkastning med en multiplikator enligt följande: RiskMetrics TM, ett finansiellt riskhanteringsföretag tenderar till exempel att använda en lambda på 0,94 eller 94. I det här fallet är den första ( senaste) kvadratiska periodiska avkastningen vägs av (1-0,94) (.94) 0 6. Nästa kvadrerade retur är helt enkelt en lambda-multipel av den tidigare vikten i detta fall 6 multiplicerad med 94 5,64. Och den tredje föregående dagens vikt är lika med (1-0,94) (0,94) 2 5,30. Det är betydelsen av exponentiell i EWMA: varje vikt är en konstant multiplikator (dvs lambda, som måste vara mindre än en) av föregående dagsvikt. Detta säkerställer en varians som är viktad eller förspänd mot senare data. (Mer information finns i Excel-kalkylbladet för Googles volatilitet.) Skillnaden mellan helt enkelt volatilitet och EWMA för Google visas nedan. Enkel volatilitet väger effektivt varje periodisk avkastning med 0,196 som visas i kolumn O (vi hade två års daglig aktiekursdata, det vill säga 509 dagliga avkastningar och 1509 0,196). Men märker att kolumn P tilldelar en vikt av 6, sedan 5,64, sedan 5,3 och så vidare. Det är den enda skillnaden mellan enkel varians och EWMA. Kom ihåg: När vi summerar hela serien (i kolumn Q) har vi variansen, vilket är kvadraten av standardavvikelsen. Om vi ​​vill ha volatilitet, måste vi komma ihåg att ta kvadratroten av den variansen. Vad är skillnaden i den dagliga volatiliteten mellan variansen och EWMA i Googles fall Det är signifikant: Den enkla variansen gav oss en daglig volatilitet på 2.4 men EWMA gav en daglig volatilitet på endast 1,4 (se kalkylbladet för detaljer). Uppenbarligen avtog Googles volatilitet mer nyligen, därför kan en enkel varians vara konstant hög. Dagens Varians är en funktion av Pior Days Variance Du märker att vi behövde beräkna en lång serie exponentiellt sjunkande vikter. Vi brukar inte göra matematiken här, men en av EWMA: s bästa egenskaper är att hela serien reduceras bekvämt till en rekursiv formel: Rekursiv betyder att dagens variansreferenser (det vill säga är en funktion av den tidigare dagens varians). Du kan även hitta denna formel i kalkylbladet, och det ger exakt samma resultat som longhandberäkningen. Det står: Dagens varians (under EWMA) motsvarar ysterdays variance (viktad av lambda) plus ysterdays squared return (vägd av en minus lambda). Lägg märke till hur vi bara lägger till två termer tillsammans: Vardagens viktiga varians och gårdagens viktiga, kvadrerade avkastning. Ändå är lambda vår utjämningsparameter. En högre lambda (t ex som RiskMetrics 94) indikerar långsammare sönderfall i serien - relativt sett kommer vi att ha fler datapunkter i serien och de kommer att falla av långsammare. Å andra sidan, om vi reducerar lambda, indikerar vi högre sönderfall: vikterna faller av snabbare och som ett direkt resultat av det snabba förfallet används färre datapunkter. (I kalkylbladet är lambda en ingång, så du kan experimentera med sin känslighet). Sammanfattning Volatilitet är den aktuella standardavvikelsen för ett lager och den vanligaste riskvärdet. Det är också kvadratrot av varians. Vi kan måle variationen historiskt eller implicit (implicit volatilitet). När man mäter historiskt är den enklaste metoden enkel varians. Men svagheten med enkel varians är alla avkastningar får samma vikt. Så vi står inför en klassisk avvägning: vi vill alltid ha mer data, men ju mer data vi har desto mer beräknas vår beräkning utspädd av avlägsna (mindre relevanta) data. Det exponentiellt viktade glidande genomsnittet (EWMA) förbättras på enkel varians genom att tilldela vikter till periodisk avkastning. Genom att göra det kan vi båda använda en stor urvalsstorlek men ge också större vikt till senare avkastning. (För att se en filmhandledning om detta ämne, besök Bionic Turtle.)

No comments:

Post a Comment