2010-06-20

赫斯特參數 Hurst parameter II

我們已經了解赫斯特參數的做法了,讓我們除了趨勢的特性,還有什麼特別的想法。我們可以討論一下賭徒的偏差。如果有一個賭大小的賭局。統計的結果是我們有90%的勝率。如果我們連輸了四場,那麼,是否可以認為,因為已經連輸了四場了,下一場再輸的機會較小,而下更大的賭注?答案是否定的。因為每一次的機率都是90%。不會因為前面輸的四場而這一次比較高。換一個方式來說,如果有一個醫生說他的治愈率高達99%,而他前面看過99個病人都治好了,那麼你是第100病人,所以一定治不好。呵…合理嗎?

但是如果我們參考了赫斯特參數就有差別了。如果赫斯特參數>0.5,那麼下一次再輸的機會很大。所以赫斯特參數其實可以讓我們了解到一連串的事物是否是前後關連的,如否有歷史的依賴性。那我們就可以思考一下了,周期性的函數會赫斯特參數會如何表現。


下面我們找一個周期現的數列來試試看。那麼就正弦函數吧!


由左邊上圖中我們可以看出這是一個40秒為周期的函數,下圖是我們所計算出來的赫斯特參數圖。

我們可以發現右下角的赫斯特參數隨著曲線近似(curve fitting)的資料越多而越來越小。我們參看左邊紅線的近似情形。人眼一看就可以分出前後兩段。後半段,完完全全近似不了。但前半段可是近似的相當之好。大約是以50為分界線。再看一下右下角的赫斯特參數圖,40~50是接近1,50以後就一路減少下來。

也就是說,以40~50個資料點的數據來分段計算赫斯特參數,可以得到一個很高的赫斯特參數值。這代表這個數據在40~50資料點的趨勢性很強。我們也可以理解為可預測性高。50個資料點以後趨勢性就越來越不強了。這一點很容易理解,如果我們一次看10個周期的正函數據,我們就會把周期的震盪看成是小波動,一個有周期性的數據,長久來看是沒有趨勢的,只有波動。相對的如果我們一次只看2個周期的資料,那當然會得到趨勢性強的結論。但如果我們看1個周期的資料是不是趨勢性就更明顯。答案是,是的!但問題的重點也是這裡,當我們得到一連串的資料時,如果他是周期性的,我們並不知道他含有多少個周期,又,人類所能得到的數據往往是不連續的,所以我們更不敢保證,我們的資料數量足夠讓我們可以看到最小的周期。以我們這個40秒為一個周期的正弦函數來說,40秒內要是只能量測到5點資料量,那麼我們能看到這個周期嗎?這是分析的極限,也是上帝隱藏秘密的手段!人們不可能得到連續性的數據。不管在任何地方,任何領域!

言歸正傳,正因為赫斯特參數分析的這個特性,我們可以得到一個結論,就是周期性的數據,都會有這樣前半段近似的相當好,而後半段則完全脫離的情形。脫離的時間點,就是數據的周期!

這下可好了,我們有了一個可以驗證數據是否有周期性的工具了。那麼,我們生活上就有很多的東西可以拿來驗證。這是一件可怕的事情!很可能你一直以為是隨機的東西,可是有周期的哦!

赫斯特參數 Hurst parameter I

Harold Edwin Hurst (1880-1978) 是英國的水文學家。會發明赫斯特參數,是因為赫斯特在埃及造水庫時,必需了解和估計每年河水流量的大小,才能設計相對應的水庫大小。在研究的過程中,赫斯特了解到統計上使用標準差來估計河水流量風險是很大的,他必需要有新的參數來做參考,這個參數,就以赫斯特為名。

之後赫斯特發表了論文,當然,就好像許多超越時代的思想一樣,當下總是令大多數人困擾的。所以從各界來的評論聲不絕於耳。這一下,赫斯特決心讓大家了解到這參數的價值,便收集了世界上所有的自然數據,雨量,樹年輪,溫度,颶風…,把這些數據的赫斯特參數全都求出來。

但是,不信的人還是不信。

我們該來學習一下,什麼是赫斯特參數。就先從一個小小的數列開始吧!假設我們量到一組數列
a=[1 1 -1 1 -1 -1 1 1 -1 -1]
我們可以計算他的標準差 s=1.0541。
我們可以任意的變換a數列的順序,但標準差是不會改變的。因為標準差與數據順序無關。
我們現在把a的數據順序重排一下。
b=[1 1 1 1 1 -1 -1 -1 -1 -1]
我們再計算一下b的標準差s=1.0541。

我們可以明顯的看出a和b的不同。b是相同正跟負放在一起,而a是正負號隨機分佈。但他們的標準差一樣,也就是說,標準差無法區別一個數據的順序(時間先後)。為了解決這個問題,我們要了解重標極差(rescaled range) R/S,S就是標準差。

R怎麼計算?首先,計算一下a和b的平均值,a和b都是平均值為零的數列,現在我們把每一個數列裡的每一個值減掉平均值,再一個一個累加起來,那麼R就是取這數列的最大減最小
a=[1 2 1 2 1 0 1 2 1 0]...R=2-0=2 ->R/S = 2/1.0541 = 1.8974
b=[1 2 3 4 5 4 3 2 1 0]...R=5-0=5 ->R/S = 5/1.0541 = 4.7434

如果我們將一個很長的數列,取出不同長度的部分求出R/S,然後以取出的長度對R/S做圖,找出其線性回歸的指數,即是赫斯特參數。

下圖是我們用股票資料跑出來的赫斯特參數


左邊跟右上為線性回歸的結果圖,右下為赫斯特的估計值。為什麼赫斯特參數會變動,這是因為對不同數量的R/S進行線性回歸的關係。

赫斯特參數的如果為0.5,表示為隨機性高。
如果是大於0.5,小於1,表示為順趨勢的傾向高,也就是說,今天漲,明天漲的機會高。
如果是小於0.5,大於0,表示為反趨勢的傾向高,也就是說,今天漲,明天跌的機會高。

看得出,這股票的順趨勢的偏向性不高。是有偏向,但不高。

ads2

如何順其當然聽自然

想當然,自然聽自然。
聽自然,當然想當然。