為什麼資料科學「曾經」比資料工程流行?
分析與模型在多數人眼中,比工程更性感
「清資料很無聊、研究模型很潮」這從學生與新鮮人的角度來說,在踏入業界以前有這樣的認知是很正常的事情,對於那些已經在業界、卻不在 AI 領域的人來說,或許也是類似的狀況。
然而並非所有人的興趣都是 AI,即使先退一步假設是好了,我認為光是求職者的選擇,也完全不足以對市場造成影響,多數人還是會跟著薪資與職缺發展選擇,而非興趣,台灣從前普遍以韌體與代工產業鏈為主,就是一個證明。
從現實來看,至少還有以下的因素。
研究成果比業界成果容易取得
從學界研究角度來說,深度學習的效果在近年突飛猛進,甚至某些頂尖研討會,也一度變成拼數字的軍備競賽。
即使到了 2020 年,還是有大量的本科研究生以及跨領域的實驗室在這方面投入研究,大批的 AI 實驗室學生畢業,在台灣要找到能一展長才的工作卻相對不容易。
反觀業界,除了中國有政治因素大量扶植電腦視覺公司,以及世界級的大企業有足夠規模的業務與資料量支撐之外,即使有很多新創在努力,但要能用這些研究營利,仍然還有很長一段路要走。
業界成果難以取得,是因為 AI 是資本/集權主義的展現,並且收集隱私資料的排他性遠高過合作性,容易形成資料孤島,所以很可能是勝者全拿;不像研究,要站在他人肩膀上還是相對比較容易的。
因此世界各國在 AI 領域傑出的公司都有一樣的特徵:不是巨頭企業,就是背後有雄厚資本的新創。
曾經的「AI 產品」以業務導向為主,並非工程技術導向
如同我在《「全棧科學家」模式不適用的可能原因》所說:
數據科學家與業務邏輯密不可分,為了解決特定業務問題,發明、創造並針對性地解決。代表著垂直、專精。
數據工程師則是以重複、模組化為主,類似的問題提供抽象的解法,代表著橫向、泛用。
營收優先、技術債其次
約莫在 2017 年左右,台灣出現不少以 AI 為產品的新創公司,在這些 AI 產品尚未能穩定獲利的情況下,業務壓力、營收與獲利是常常要面對的問題。
因此,能產出明天就能呈現的 prototype(原形) ,在很多創業者與投資人的眼中,往往比將系統模組化、泛用化、持續穩定運行還來得重要。
在這樣的條件下,能夠快速產出 prototype 的資料科學家,在那段時間中就比工程師還要容易受到雇主青睞,因為不管是吸引投資人眼球也好、推出吸引市場注意的產品也好,資料科學都是更接近產品的職缺。
反之,將系統模組化、泛用化的工程師,在這段時間中就相對式微:畢竟產品都還沒有穩定賣出,今天做好的雛形可能明天客戶就不要了,系統在模組化、維護、擴展性的需求都不高,就算有這樣的需求,也是求快速暫時解決,往下一個產品功能邁進。
資料工程需求不是沒有,而是都被其他人兼著做
除了市場因素之外,資料工程人才極度缺乏也是一個問題,有些新創公司在產品上線之後,的確認知到需要資料工程人才。
時間回到上一個「大數據時代」,當時在中美紛紛從高流量的網路產品獲利、疊代出成熟工程能力的時候,同一時間台灣的大數據時代可以說是空白,因此,並沒有產出很多擁有相關經驗的工程師與管理階層。
所以這幾年即使雇主想從資料工程方面解決問題,也苦於沒有對應的人才可用。在 AI 正夯的那幾年,我們可能就看過很多新創公司是一條龍科學家的情況,有可能他們都做了很多資料工程,也犧牲了很多能投入在資料科學的時間,但並非是「資料工程不存在」。
從「AI 即產品」到「AI 輔助產品」
這篇文章在很久很久以前還是一份草稿的時候,標題是《為什麼資料科學比資料工程流行?》,而當我再次翻出來重寫的時候,卻多了一個「曾經」,代表我認為這件事情已經慢慢地改變了。
以 AI 本身當做產品的新創越來越少,能將 AI 當做產品賣的,慢慢只剩下 Google、Amazon 這類巨頭公司;同時,各行各業導入 AI 的成本也越來越低。
時至今日,我們已經很容易看到 AI 應用在傳統產業,但卻不一定需要雇用 AI 專業的資料科學家、機器學習工程師。
下一階段,AI 這樣的新科技就會如同以前那些成熟的領域一樣,「研究」的部份會慢慢地只掌握在資本密集的企業與國家手中,有些中小企業可能還需要大數據領域的資料工程師,但更多的企業可能也不需要工程師,而是資料分析師。
不論我們認為好或不好,大概也只能接受這個潮流,並做出對自己做有利的選擇。