Friday, February 27, 2009

Busy again ....

Probably be back around March 15 .... :(

Friday, February 06, 2009

How to measure a player’s value 1-2

by Colin Wyers / The Hardball Time

Value versus True-Talent Level
有一點要注意的是,前面提到的樣本數的問題只存在於測量表現時的精確度,跟量測球員的「能力」無關。通常我們對於測量球員的價值會比較有信心,但是對於了解他的「能力」就不會有同樣的信心了。

比如說,在 2008 年球季球之前,Ryan Ludwick 的生涯打擊表現是:.215/.319/.446。然後,在 2008 年時他打出了 .299/.375/.591,比大家預期的好上許多。因為有他過去的成績作為參考,我們有理由相信他在 2008 年時打出了超出實力的表現。但是如果是為了要建構出球員的「價值」,我們其實並不在忽他的能力和 2008 年的成績到底有什麼關連。不管他是不是因為運氣所以多打出了幾支安打,那些安打為球隊提供了分數和勝利,而這就是我們想要測量的東西。

Setting the baseline
每個價值的量表都需要有一個「基準」,無論是不小心的或是刻意找出來的,總是會需要一個。基於這個理由,仔細思考並了解自己要用的基準,和使用它的原因,是很合理的。最常見的有:
◎『絕對值』,或是高於零的值:Win Shares 是最常見的絕對值量表,每個勝利都被紀錄在這個系統裡。
◎後備球員等級,通常定義為比「可任意取得的球員」高多少的值,也就是任何球隊都可以用聯盟最低薪取得的球員。要注意的是當我說「任意球隊」這其實是個限制。Evan Langoria 就算今年是領聯盟最底薪,但是光芒隊顯然不會把他交易出去。要注意的是,就算是用交易取得,也是有付出的代價,即使與薪水無關也一樣。)
◎平均

當然,還有很多其他的基準,比如說在 The Hardball Times 這邊我們就還有 Win Share Above Bench,這個基線是用一個平均的板凳球員能打出的成績來作比較。或者,你也可以把球員拿來和一個平均水準的先發球員作比較。或是還有許多其他不同的組合方式,能都當作一個系統的基準。

還有一點要注意的是,在多數的狀況下,基準的選擇只是表現方式的不同而已,而不會改變背後的事實,因為要知道數據的真實意義,還是得知道整個取樣的時間有多長。只要你把價值和上場的時間結合起來,就可以輕易的在這些基準之間轉換。那為什麼我們還需要去關心這些基準呢?

基準很重要的原因是我們關心的並不是球員本身,在棒球這個比賽裡,沒有任何球員能夠唱獨角戲。我們要知道的是球員對球隊的貢獻,也就是他比他所取代的球員好多少。如果常看各個棒球討論區或留言版,多半會看到像這樣的說法:「如果這樣做的話會帶來多大的傷害?」在這邊我們要想的是機會成本的問題 -- 上場時間的總合大致上來說是固定的,而且某個球員上場了,就代表另一個球員沒辦法上場。

從這個角度來看,權衡球員價值的「原點」應該就是把球員拿來和,比如說你我這樣的人來比(除非貴讀者是個有大聯盟身手的人 @_@)。坦白來說,我不覺得這樣比有什麼意義:除了投手之外,一個打擊率只有 .151 的打者當然還是比我們來得有貢獻,但是從球隊的角度來說,實在很難看得出這樣的選手貢獻在哪裡。從另一個角度來說,把球員拿來跟「平均水準」的球員相比,會讓某些人感到困擾 -- 他們指出,而且也沒錯 -- 低於平均水準的球員也是對球隊具有貢獻。這邊的基準並不是在說他們沒有價值,只是他們的價值低於平均球員。

比較常見的中間作法是用「後備球員等級」來當基準。這個標準不像「平均水準」這麼高,不會讓一半的球員變成負值,不過他也沒有低到「絕對無用」的等級。基本上可以把後備球員等級當作是「Mendoza Line」一樣的東西 -- 也就是我們評斷擁有這個球員會不會比沒有還好的標準。如果一個球員表現比替代等級還差的時間太久,那他就會被踢掉,因為這表示球隊可以從小聯盟裡拉上來一個球員,而且打得比較好的機會還滿高的。

要注意的是,所謂「後備球員等級」是很難決定出來的,因為「後備球員」的定義也不儘相同。在這邊我們要提及一個重點:不要把兩個宣稱使用「後備球員等級」的系統所產出的數據直接拿來比較。這並不是在說這個概念是無用的,只是要強調這個標準是很抽象的。

你一定常常會看到這樣的說詞:某某球員的價值顯然是完全錯誤!棒球迷常常對於自己球隊的球員非常非常的寬容 -- 或是殘忍。這些印象會受到球員的表現,以及球隊的戰績影響。球迷也往往會認為因為自己長期的關心,他們知道了許多外人所不知道的「知識」。

這些人中有不少會非常的「主動」提醒你這些事。

我是個對於測試、證明有堅定信仰的人。如果任何人展示出任何一種評斷球員價值的模型,第一件事就是要看看他證明這個模型能用的資料。如果他沒能提出這樣的證明,那就要很小心的去接受他的結論:即使你從別的地方知道這個人是值得信任的。

從另一個角度來說,如果只是要說這個模型一定是錯的而你的想法一定是對的,那一開始就不需要來看別人所提出的想法了不是嗎?如果我們對於球員價值的認知是完美的,從頭到尾我們就不需要再去建構任何模型了。

所以,要抱持著懷疑的心,多問問題,但也別忘記自己也要有足夠的證據才能跟對方達成有建設性的意見交流。而不是只因為對方的結論和你不同就生氣。如果你認為對方的模型是錯誤的,就說出來,並且告訴對方為什麼他的模型不準確(或是有偏見)。同時也要問問自己,為什麼錯的是對方,而不是自己。

下一篇,我們將會討論要怎麼適當的評估球員在場上的表現。
在第三篇我們將會檢視怎麼把球員的價值轉換到他的薪水。

Thursday, February 05, 2009

How to measure a player’s value 1-1

by Colin Wyers / The Hardball Time

市面上已經有很多試圖把球員的攻擊及防守都納入的「全能」量表。在這邊我冒著漏失掉其他好的候選的風險列出幾個這樣的指標:

Bill James : Win Shares
Clay Davenport : WARP
Chris Dial : OPD
Tom Tango : WAR

我並不是要試著去為某個系統爭論,或是深入的討論某個系統的問題。我要做的是討論衡量球員整體表現這件事背後的理論和原則,並且探討某些重要,而且這些系統們彼此間用不同方式來表現的領域。我也不試著要說我是完全的公平,事實上我比較喜歡 Tango 的 WAR 系統。而且我對於將要討論的主題往往有很強烈個人觀感,而且如果我對於我個人的想法沒有足夠的信心,或許我也不該寫這樣的文章。我會很努力試著保持公平,但是話先說在前頭:公平性是很難達到的。

在後面的文章裡,我們會接觸到一些技術上的細節。我們會定下一些定義,試著找出一些基本觀念裡的共同點,打下未來討論的基礎--不然有可能會陷入「為數學而數學」的困境,這樣會帶來一些熱度卻不能指出正確的方向。我們需要的是照明。

Definition of value
所有的量表的目的都是要試圖找出方法來衡量球員對球隊所帶來的「價值」,通常是以得分或是勝場的方式。因為有很多報紙養了很多記者,而他們必須在比如說十一月的時候還能寫得出東西,所以就給了這個看似簡單的字眼許多不同的意義。所以在我們開始之前,我應該要很清楚的說明「價值」在我們文章裡所代表的意義:

一個球員的價值,是由他在場上的表現(打擊、跑壘、防守和投球)給球隊的貢獻所決定的,與其他因素無關。

我不打算宣稱這是唯一的定義,我甚至也不會說他是最好的定義 -- 這只是為了回答我們想要問的問題所決定的定義,我使用的是大部份全能量表所使用的定義。是的,這個定義忽視了比如說領導能力和個人特質,但是任何用統計方式來評估球員價值的系統,想要導入這兩樣東西,結果都是很恐怖的。並不是說這些東西不重要,只是單純的因為他們沒有任何可以量化的方法。

有一個希望大家注意到的重點是,我們將只考慮「球員個人因素」,什麼意思呢?第一,我們只衡量球員的個人表現,與其他隊友都沒有關係。一個球員不會因為他在強隊就變得比較好,在弱隊就變得比較差。如果要爭論球員的表現能幫助球隊打進季後賽會更有價值,這是另外一個完全不同的問題。我們也希望把球員的表現和環境獨立出來。一個很差的投手不會因為他跑到 Petco 就變成一個好投手,就像一個差勁的打者也不會因為在 Coors Field 打球就變成一個優秀的打者;或許他們的初級數據,比如說防禦率、打擊、OPS 和其他數據會變得比較好看,但是這並不會讓他們變得更有價值,因為他們的對手也同樣受益。簡單來說,在 Petco 的一分平均起來就是比較有價值,而在 Coors 就顯得比較沒什麼了不起。

A note on accuracy, bias and sample size
因為棒球是個團隊運動,的確不是很容易知道該怎麼把功勞分給各個球員(當然官方的計錄員很努力的作這件事)。為了要達到這個目標,賽伯計量學已經建立起棒球傳隊運作的模型:球隊得分的方式和防守隊伍阻止對手得分的方式。我們採用三種不同的模型來試著把球員的表現獨立出來。波蘭的 Alfred Korzybski 曾說過:「地圖並不是疆界」。同樣的道理,我們用來研究的模型也只是模型而已。這不會讓他們沒用或是沒意義,只是我們在使用它們時,對於這些模型的限制必須要謹記在心:
◎資料本身:可能會有錯誤;抄寫錯誤或是其他類似的問題;
◎模擬兩可的情況:安打或是失誤,高飛球或是平飛球,好球或壞球;
◎還有可能某些重要的資訊在參考的資料裡是根本沒有的,或是單純的被忽略了:遊擊手的守備位置?教練是否有下達打跑戰術?

如果沒搞清楚一些棒球基本原理,比如說二壘安打比犧牲打來得有價值,而只是顧著用一些統計工具來建構一個模型,那要把這個模型作到可以用顯然是很困難的。因為有被忽略的因子,比如說對手的強度、左右打的優勢;忽視球員之間各種微妙的差異,比如說,以擊出全壘打來講,球場對於 Barry Bonds 和給 Juan Pierre 帶來的影響就不一樣。所以我們在測試一個模型是否準確時,最簡單的方式就是看看它的準確度:它在預測一些可觀測的事實時到底猜得多準?有許多不同的方法可以測試準確度;最常見的方式是看看他對於球員表現的預測是否一致,或是可他對於球隊的得失分預測猜得準不準。

在賽伯計量學中,用來衡量準確度最常見的工具是「相關性」,也就是某兩個數據之間到底有多深的牽連。相關性最好是用在兩個不同單位的數據上。如果是同樣單位的數據,比如說得分,那最好使用有平均差的數據,比如說 mean absolute error 或是 root mean square error。

準確性是大家都想要的,但是它也不是能平白得到的;一般來說,提升準確度的代價就是增加複雜度。無論原因是什麼,每個人能接受的複雜程度都有一個上限。這也沒關係,只要使用者知道他所犧牲的是什麼就好了:如果我們算出兩個打者在打擊上的貢獻差異是兩分,那宣稱其中一個打者比另一個打者好通常意義也不大。

關於準確度,還有一點要注意的是它通常收集到足夠大的樣本之後比較有意義。在單場比賽中,打者可能會因為主審的誤判而被剝奪掉四壞保送的機會,但是以整個球季來說,比較會凹保送的球員總是會凹到比較多的保送而得到較高的評價。不過這個在偏頗的系統裡可能就不存在了:簡單來說,我們可以接受比較不精確的模型,只要使用者知道它的限制和代價即可。但是如果一個模型低估了保送的價值,那麼無論把多少比賽的結果放到模型裡去,一個高保送率打者的價值就會被低估。