Thursday, February 05, 2009

How to measure a player’s value 1-1

by Colin Wyers / The Hardball Time

市面上已經有很多試圖把球員的攻擊及防守都納入的「全能」量表。在這邊我冒著漏失掉其他好的候選的風險列出幾個這樣的指標:

Bill James : Win Shares
Clay Davenport : WARP
Chris Dial : OPD
Tom Tango : WAR

我並不是要試著去為某個系統爭論,或是深入的討論某個系統的問題。我要做的是討論衡量球員整體表現這件事背後的理論和原則,並且探討某些重要,而且這些系統們彼此間用不同方式來表現的領域。我也不試著要說我是完全的公平,事實上我比較喜歡 Tango 的 WAR 系統。而且我對於將要討論的主題往往有很強烈個人觀感,而且如果我對於我個人的想法沒有足夠的信心,或許我也不該寫這樣的文章。我會很努力試著保持公平,但是話先說在前頭:公平性是很難達到的。

在後面的文章裡,我們會接觸到一些技術上的細節。我們會定下一些定義,試著找出一些基本觀念裡的共同點,打下未來討論的基礎--不然有可能會陷入「為數學而數學」的困境,這樣會帶來一些熱度卻不能指出正確的方向。我們需要的是照明。

Definition of value
所有的量表的目的都是要試圖找出方法來衡量球員對球隊所帶來的「價值」,通常是以得分或是勝場的方式。因為有很多報紙養了很多記者,而他們必須在比如說十一月的時候還能寫得出東西,所以就給了這個看似簡單的字眼許多不同的意義。所以在我們開始之前,我應該要很清楚的說明「價值」在我們文章裡所代表的意義:

一個球員的價值,是由他在場上的表現(打擊、跑壘、防守和投球)給球隊的貢獻所決定的,與其他因素無關。

我不打算宣稱這是唯一的定義,我甚至也不會說他是最好的定義 -- 這只是為了回答我們想要問的問題所決定的定義,我使用的是大部份全能量表所使用的定義。是的,這個定義忽視了比如說領導能力和個人特質,但是任何用統計方式來評估球員價值的系統,想要導入這兩樣東西,結果都是很恐怖的。並不是說這些東西不重要,只是單純的因為他們沒有任何可以量化的方法。

有一個希望大家注意到的重點是,我們將只考慮「球員個人因素」,什麼意思呢?第一,我們只衡量球員的個人表現,與其他隊友都沒有關係。一個球員不會因為他在強隊就變得比較好,在弱隊就變得比較差。如果要爭論球員的表現能幫助球隊打進季後賽會更有價值,這是另外一個完全不同的問題。我們也希望把球員的表現和環境獨立出來。一個很差的投手不會因為他跑到 Petco 就變成一個好投手,就像一個差勁的打者也不會因為在 Coors Field 打球就變成一個優秀的打者;或許他們的初級數據,比如說防禦率、打擊、OPS 和其他數據會變得比較好看,但是這並不會讓他們變得更有價值,因為他們的對手也同樣受益。簡單來說,在 Petco 的一分平均起來就是比較有價值,而在 Coors 就顯得比較沒什麼了不起。

A note on accuracy, bias and sample size
因為棒球是個團隊運動,的確不是很容易知道該怎麼把功勞分給各個球員(當然官方的計錄員很努力的作這件事)。為了要達到這個目標,賽伯計量學已經建立起棒球傳隊運作的模型:球隊得分的方式和防守隊伍阻止對手得分的方式。我們採用三種不同的模型來試著把球員的表現獨立出來。波蘭的 Alfred Korzybski 曾說過:「地圖並不是疆界」。同樣的道理,我們用來研究的模型也只是模型而已。這不會讓他們沒用或是沒意義,只是我們在使用它們時,對於這些模型的限制必須要謹記在心:
◎資料本身:可能會有錯誤;抄寫錯誤或是其他類似的問題;
◎模擬兩可的情況:安打或是失誤,高飛球或是平飛球,好球或壞球;
◎還有可能某些重要的資訊在參考的資料裡是根本沒有的,或是單純的被忽略了:遊擊手的守備位置?教練是否有下達打跑戰術?

如果沒搞清楚一些棒球基本原理,比如說二壘安打比犧牲打來得有價值,而只是顧著用一些統計工具來建構一個模型,那要把這個模型作到可以用顯然是很困難的。因為有被忽略的因子,比如說對手的強度、左右打的優勢;忽視球員之間各種微妙的差異,比如說,以擊出全壘打來講,球場對於 Barry Bonds 和給 Juan Pierre 帶來的影響就不一樣。所以我們在測試一個模型是否準確時,最簡單的方式就是看看它的準確度:它在預測一些可觀測的事實時到底猜得多準?有許多不同的方法可以測試準確度;最常見的方式是看看他對於球員表現的預測是否一致,或是可他對於球隊的得失分預測猜得準不準。

在賽伯計量學中,用來衡量準確度最常見的工具是「相關性」,也就是某兩個數據之間到底有多深的牽連。相關性最好是用在兩個不同單位的數據上。如果是同樣單位的數據,比如說得分,那最好使用有平均差的數據,比如說 mean absolute error 或是 root mean square error。

準確性是大家都想要的,但是它也不是能平白得到的;一般來說,提升準確度的代價就是增加複雜度。無論原因是什麼,每個人能接受的複雜程度都有一個上限。這也沒關係,只要使用者知道他所犧牲的是什麼就好了:如果我們算出兩個打者在打擊上的貢獻差異是兩分,那宣稱其中一個打者比另一個打者好通常意義也不大。

關於準確度,還有一點要注意的是它通常收集到足夠大的樣本之後比較有意義。在單場比賽中,打者可能會因為主審的誤判而被剝奪掉四壞保送的機會,但是以整個球季來說,比較會凹保送的球員總是會凹到比較多的保送而得到較高的評價。不過這個在偏頗的系統裡可能就不存在了:簡單來說,我們可以接受比較不精確的模型,只要使用者知道它的限制和代價即可。但是如果一個模型低估了保送的價值,那麼無論把多少比賽的結果放到模型裡去,一個高保送率打者的價值就會被低估。

No comments: