【轉行數據科學】跨行的優勢,我從海洋轉統計的故事

我是根正苗紅海洋學出生,大學碩士博士都是主修海洋科學,乍看之下跟數據科學毫無相關。暨不是主修數學或電腦科學,也沒有去上bootcamp, 怎麼跨行找到數據相關工作的呢?

 

我從水母研究轉行統計分析的故事

其實做環境科學和生態研究很需要數學,否則很容易流於表象敘述而已。 自然環境就是充滿變數,不像實驗室可以控制很多變因,也很難真的”隨機“, 更沒有真的重覆, 所以通常數據很醜,變異很大,雖然經驗上感覺有差,可是算起來不管怎麼分組都看不出個差別。 

如果只用傳統的分析方法如t-test, ANOVA其實很有限。所以我在就學時期有修微積分,生物統計,無母數統計,線性代數,多變量分析,量化方法,表現都不錯。做論文研究分析數據的時候,我判斷從哪個角度切下去的準度通常很特別,有獨到的見解和分析能力。常常別人看不出來pattern的東西,我看得出來(算命的天份?)

當我要研究水母在低氧區對浮游生物的食物鏈影響時,我只有六個航次的數據而已(這在海洋界已經不少,畢竟我們每次出海都是幾十萬的美金在燒啊)但是年間有差異,季節又有差異,站跟深度也有差異,如果層層分組下去,就沒有重複了。

我試過用人為主觀的年/季/深度/溶氧去分,但是大自然不是我想要他怎麼分就怎麼分。後來我決定,我應該反過來讓資料告訴我他們要怎麼分組。我把所有水文資料跑一遍Principal Component Analysis (PCA),然後用這個結果來當分組依據, 然後生物觀測的差異就出來了。這麼做也意外出現另一一個好處,我可以把低氧的影響從溫度的影響獨立出來(剛好各為PC1/2的major loading),不然總是會碰到質疑「你怎麼知道你所觀察到的現象是因為缺氧還是因為很熱?」(底層缺氧通常發生在夏天)

因為成功把溫度跟低氧對生物影響的彼此糾結解開,我有證據可以下結論,「對, 夏天有影響(多少%),但是低氧本身有衝擊(多少%),然後兩個交互作用是什麼。」(有興趣的人可以看我的發表我就是用這個故事的故事拿到我第一個統計工作,在馬州環保局當研究統計員,在我之前的坐這位置的人都是數學背景的。

 
轉行的優勢1:局外者清

轉行固然要學的東西會比較多,但也有優勢,那就是局外者清比方說,我在馬州環保局工作的時候,發現大家現行的觀測方式是5y-rotation,也就是將目標觀測區域分成五塊,每年輪流觀測不同區域,花五年全部觀測完。這種設計的好處是,每個地區被觀測的那一年樣本比較多,而且省交通費,缺點也很明顯,就是該區其他四年不會有樣本,而且全部的樣本各分散在不同區不同年,很難做有意義的分析比較,頂多合起來取個平均看個大概,還要至少等兩輪(十年!)才能看有沒有個變化。

如果觀測的東西是年間變化很少的,例如神木,這種設計可能比較沒問題。可是觀測的主角是一年生的昆蟲,現在因為氣候變化,常常今年很濕明年很乾,族群年間變動很大,同一區樣本跟樣本之間隔五年,中間發生什麼事都不知道,想說時麼故事都很困難。如果是很大的區域,比方說,全馬州,那可能還勉強可以接受這樣的妥協,可是面積很小的郡也這樣做,就完全沒必要。

我第一次看這個實驗設計方法就看出來問題在哪裡(其實是因為局外者清,這也是跨行的優勢)點出來這個實驗設計的問題,問大家問什麼要這樣做?怎麼解決時間尺度解析度太差的問題?大家都說因為“以前都這樣做,因為XX局都這樣做”。

於是我跟一位環境研究中心的統計博士合作一個分析,模擬不同實驗設計產生的偏誤,證明我的看法是正確的,如果使用很多年才輪完一圈的實驗設計,不僅margin of error很大,而且加樣本也無法讓誤差下降到哪裡去。換句話說,如果不改變實驗設計,一直加錢加樣本也是完全浪費錢徒勞無功

然後拿著這個研究結果去一一說服大家,改變環境監測的實驗設計。我舉的例子是,如果你去做年度體檢,結果醫生做的方式:今年看頭部,明年看右手,後年看左手,大後年看右腳,最後一年看左腳,然後合起來給你一個五年全身健康報告,你真的會覺得這個報告可以代表你這五年的健康情形嗎?

這個推動實驗設計改變的故事讓我得到當年的員工獎,也幫我拿到現在的數據相關的工作,回到大氣海洋署。

 

轉行的優勢2:不落窠臼

在大氣海洋署的漁業統計部門工作時,需要重新規劃樣本分配。要估計到底哪些地區的哪些人在哪些時間更有可能去釣魚。(真的很像算命的)原本做這個研究的員工待很久了,就用老方法,將分離岸遠中近,城市大中小,房子租或買…將各項數值去去建構 logistic regression model,結果不好。

我接手後,直覺有這麼多年的觀測的數據,建machine learning做適合不過了。所以就先用Random Forest + Boruta,客觀去看到底哪些因素重要,再用那些挑出來的因素訓練了各種ML models, 最後從快20多種不一樣的ML模型中挑一個表現最好的,再進一步進行優化。最後用這個調好的模型,去預測不同時間釣魚熱區的分佈,做為樣本分配的依據。我的部門(漁業科學辦公室統計組)幾乎都是漁業科學或數學背景出生,我的浮游動物背景是少數例外,其實跟魚很不熟😅

但因為還是比念純數的還是多了點生物背景知識,又沒有熟到都知道漁業科學慣例上都怎麼做,我的解法就比較不一樣,有時候反而可以解決一些用老方法解不出來的懸案。這不是因為我特別聰明,而是因為我比較沒有包袱。

英文有句俗諺說“a hammer sees everything as a nail”,指的就是因為專業謬誤, 習慣產生的盲點。這其實很難靠訓練來克服,但轉行/不同背景的人就會有優勢。

 

結論
我覺得美國整體上還是很願意給機會的國家,如果想要轉行,就算沒有相關的學歷背景,還是可以用經歷補足。在履歷, cover letter,還有面試的自我介紹時,可以強調相關或是可以轉換的經歷和技能。同時也可以強調你作為非圈內人可以帶來新視野的優點。

 

美國人整體上沒有那麼學歷主義,如果你有實際工作經驗,還是會有很多機會。現在不是過去學校生產線生產畢業生,一個主修一個坑的年代,真的是條條大路通羅馬,就看你敢不敢跨過去。如果想轉行,不見得需要重唸一個學位,我反而會建議在現有工作上多累積相關技能的案例當你的作品集,上bootcamp或一些網路課程拿certificate做project也是很好的開始。最重要的是,勇敢的往你想去的方向邁出第一步,沒試試看怎麼知道喜不喜歡行不行呢?

Copyright Policy

All files and information contained in this Website or Documents are copyright by Katherine Liu LLC, and may not be duplicated, copied, modified or adapted, in any way without our written permission. Our Website or Documents may contain our service marks or trademarks as well as those of our affiliates or other companies, in the form of words, graphics, and logos. Your use of our Website, Blog or Services does not constitute any right or license for you to use our service marks or trademarks, without the prior written permission of Katherine Liu, LLC. Our Content, as found within our Website, Documents and Services, is protected under United States and foreign copyrights. The copying, redistribution, use or publication by you of any such Content, is strictly prohibited. Your use of our Website and Services does not grant you any ownership rights to our Content.

Together Everyone Achieves More

我並非獨自一人想出創業點子、打造出全部的網站,設計出圖片,寫出每一個字。在此感謝我合作過的團隊,人生一大樂事就是跟比我厲害的人合作,謝謝你們的努力與付出!

網站架設:MIHOGO TECH LLC

視覺設計:EMILLY HU

文案編排ALLY@ideaally.me

形象攝影Crystaltseng Photography

創業教練:Irene @ FEMALE ENTREPRENEUR & ME