我是根正苗紅海洋學出生,大學碩士博士都是主修海洋科學,乍看之下跟數據科學毫無相關。暨不是主修數學或電腦科學,也沒有去上bootcamp, 怎麼跨行找到數據相關工作的呢?
我從水母研究轉行統計分析的故事
其實做環境科學和生態研究很需要數學,否則很容易流於表象敘述而已。 自然環境就是充滿變數,不像實驗室可以控制很多變因,也很難真的”隨機“, 更沒有真的重覆, 所以通常數據很醜,變異很大,雖然經驗上感覺有差,可是算起來不管怎麼分組都看不出個差別。
如果只用傳統的分析方法如t-test, ANOVA其實很有限。所以我在就學時期有修微積分,生物統計,無母數統計,線性代數,多變量分析,量化方法,表現都不錯。做論文研究分析數據的時候,我判斷從哪個角度切下去的準度通常很特別,有獨到的見解和分析能力。常常別人看不出來pattern的東西,我看得出來(算命的天份?),
當我要研究水母在低氧區對浮游生物的食物鏈影響時,我只有六個航次的數據而已(這在海洋界已經不少,畢竟我們每次出海都是幾十萬的美金在燒啊)。但是年間有差異,季節又有差異,站跟深度也有差異,如果層層分組下去,就沒有重複了。
我試過用人為主觀的年/季/深度/溶氧去分,但是大自然不是我想要他怎麼分就怎麼分。後來我決定,我應該反過來讓資料告訴我他們要怎麼分組。我把所有水文資料跑一遍Principal Component Analysis (PCA),然後用這個結果來當分組依據, 然後生物觀測的差異就出來了。這麼做也意外出現另一一個好處,我可以把低氧的影響從溫度的影響獨立出來(剛好各為PC1/2的major loading),不然總是會碰到質疑「你怎麼知道你所觀察到的現象是因為缺氧還是因為很熱?」(底層缺氧通常發生在夏天)
因為成功把溫度跟低氧對生物影響的彼此糾結解開,我有證據可以下結論,「對, 夏天有影響(多少%),但是低氧本身有衝擊(多少%),然後兩個交互作用是什麼。」(有興趣的人可以看我的發表)我就是用這個故事的故事拿到我第一個統計工作,在馬州環保局當研究統計員,在我之前的坐這位置的人都是數學背景的。

轉行的優勢1:局外者清
轉行固然要學的東西會比較多,但也有優勢,那就是局外者清。比方說,我在馬州環保局工作的時候,發現大家現行的觀測方式是5y-rotation,也就是將目標觀測區域分成五塊,每年輪流觀測不同區域,花五年全部觀測完。這種設計的好處是,每個地區被觀測的那一年樣本比較多,而且省交通費,缺點也很明顯,就是該區其他四年不會有樣本,而且全部的樣本各分散在不同區不同年,很難做有意義的分析比較,頂多合起來取個平均看個大概,還要至少等兩輪(十年!)才能看有沒有個變化。
如果觀測的東西是年間變化很少的,例如神木,這種設計可能比較沒問題。可是觀測的主角是一年生的昆蟲,現在因為氣候變化,常常今年很濕明年很乾,族群年間變動很大,同一區樣本跟樣本之間隔五年,中間發生什麼事都不知道,想說時麼故事都很困難。如果是很大的區域,比方說,全馬州,那可能還勉強可以接受這樣的妥協,可是面積很小的郡也這樣做,就完全沒必要。
我第一次看這個實驗設計方法就看出來問題在哪裡(其實是因為局外者清,這也是跨行的優勢),點出來這個實驗設計的問題,問大家問什麼要這樣做?怎麼解決時間尺度解析度太差的問題?大家都說因為“以前都這樣做,因為XX局都這樣做”。
於是我跟一位環境研究中心的統計博士合作一個分析,模擬不同實驗設計產生的偏誤,證明我的看法是正確的,如果使用很多年才輪完一圈的實驗設計,不僅margin of error很大,而且加樣本也無法讓誤差下降到哪裡去。換句話說,如果不改變實驗設計,一直加錢加樣本也是完全浪費錢徒勞無功。
然後拿著這個研究結果去一一說服大家,改變環境監測的實驗設計。我舉的例子是,如果你去做年度體檢,結果醫生做的方式:今年看頭部,明年看右手,後年看左手,大後年看右腳,最後一年看左腳,然後合起來給你一個五年全身健康報告,你真的會覺得這個報告可以代表你這五年的健康情形嗎?
這個推動實驗設計改變的故事讓我得到當年的員工獎,也幫我拿到現在的數據相關的工作,回到大氣海洋署。

轉行的優勢2:不落窠臼
在大氣海洋署的漁業統計部門工作時,需要重新規劃樣本分配。要估計到底哪些地區的哪些人在哪些時間更有可能去釣魚。(真的很像算命的)原本做這個研究的員工待很久了,就用老方法,將分離岸遠中近,城市大中小,房子租或買…將各項數值去去建構 logistic regression model,結果不好。
我接手後,直覺有這麼多年的觀測的數據,建machine learning做適合不過了。所以就先用Random Forest + Boruta,客觀去看到底哪些因素重要,再用那些挑出來的因素訓練了各種ML models, 最後從快20多種不一樣的ML模型中挑一個表現最好的,再進一步進行優化。最後用這個調好的模型,去預測不同時間釣魚熱區的分佈,做為樣本分配的依據。我的部門(漁業科學辦公室統計組)幾乎都是漁業科學或數學背景出生,我的浮游動物背景是少數例外,其實跟魚很不熟。
但因為還是比念純數的還是多了點生物背景知識,又沒有熟到都知道漁業科學慣例上都怎麼做,我的解法就比較不一樣,有時候反而可以解決一些用老方法解不出來的懸案。這不是因為我特別聰明,而是因為我比較沒有包袱。
英文有句俗諺說“a hammer sees everything as a nail”,指的就是因為專業謬誤, 習慣產生的盲點。這其實很難靠訓練來克服,但轉行/不同背景的人就會有優勢。

結論
美國人整體上沒有那麼學歷主義,如果你有實際工作經驗,還是會有很多機會。現在不是過去學校生產線生產畢業生,一個主修一個坑的年代,真的是條條大路通羅馬,就看你敢不敢跨過去。如果想轉行,不見得需要重唸一個學位,我反而會建議在現有工作上多累積相關技能的案例當你的作品集,上bootcamp或一些網路課程拿certificate做project也是很好的開始。最重要的是,勇敢的往你想去的方向邁出第一步,沒試試看怎麼知道喜不喜歡行不行呢?