為什麼資料科學「曾經」比資料工程流行？

分析與模型在多數人眼中，比工程更性感

「清資料很無聊、研究模型很潮」這從學生與新鮮人的角度來說，在踏入業界以前有這樣的認知是很正常的事情，對於那些已經在業界、卻不在 AI 領域的人來說，或許也是類似的狀況。

然而並非所有人的興趣都是 AI，即使先退一步假設是好了，我認為光是求職者的選擇，也完全不足以對市場造成影響，多數人還是會跟著薪資與職缺發展選擇，而非興趣，台灣從前普遍以韌體與代工產業鏈為主，就是一個證明。

從現實來看，至少還有以下的因素。

從學界研究角度來說，深度學習的效果在近年突飛猛進，甚至某些頂尖研討會，也一度變成拼數字的軍備競賽。

即使到了 2020 年，還是有大量的本科研究生以及跨領域的實驗室在這方面投入研究，大批的 AI 實驗室學生畢業，在台灣要找到能一展長才的工作卻相對不容易。

反觀業界，除了中國有政治因素大量扶植電腦視覺公司，以及世界級的大企業有足夠規模的業務與資料量支撐之外，即使有很多新創在努力，但要能用這些研究營利，仍然還有很長一段路要走。

業界成果難以取得，是因為 AI 是資本/集權主義的展現，並且收集隱私資料的排他性遠高過合作性，容易形成資料孤島，所以很可能是勝者全拿；不像研究，要站在他人肩膀上還是相對比較容易的。

因此世界各國在 AI 領域傑出的公司都有一樣的特徵：不是巨頭企業，就是背後有雄厚資本的新創。

數據科學家與業務邏輯密不可分，為了解決特定業務問題，發明、創造並針對性地解決。代表著垂直、專精。
數據工程師則是以重複、模組化為主，類似的問題提供抽象的解法，代表著橫向、泛用。

約莫在 2017 年左右，台灣出現不少以 AI 為產品的新創公司，在這些 AI 產品尚未能穩定獲利的情況下，業務壓力、營收與獲利是常常要面對的問題。

因此，能產出明天就能呈現的 prototype（原形），在很多創業者與投資人的眼中，往往比將系統模組化、泛用化、持續穩定運行還來得重要。

在這樣的條件下，能夠快速產出 prototype 的資料科學家，在那段時間中就比工程師還要容易受到雇主青睞，因為不管是吸引投資人眼球也好、推出吸引市場注意的產品也好，資料科學都是更接近產品的職缺。

反之，將系統模組化、泛用化的工程師，在這段時間中就相對式微：畢竟產品都還沒有穩定賣出，今天做好的雛形可能明天客戶就不要了，系統在模組化、維護、擴展性的需求都不高，就算有這樣的需求，也是求快速暫時解決，往下一個產品功能邁進。

除了市場因素之外，資料工程人才極度缺乏也是一個問題，有些新創公司在產品上線之後，的確認知到需要資料工程人才。

時間回到上一個「大數據時代」，當時在中美紛紛從高流量的網路產品獲利、疊代出成熟工程能力的時候，同一時間台灣的大數據時代可以說是空白，因此，並沒有產出很多擁有相關經驗的工程師與管理階層。

所以這幾年即使雇主想從資料工程方面解決問題，也苦於沒有對應的人才可用。在 AI 正夯的那幾年，我們可能就看過很多新創公司是一條龍科學家的情況，有可能他們都做了很多資料工程，也犧牲了很多能投入在資料科學的時間，但並非是「資料工程不存在」。

這篇文章在很久很久以前還是一份草稿的時候，標題是《為什麼資料科學比資料工程流行？》，而當我再次翻出來重寫的時候，卻多了一個「曾經」，代表我認為這件事情已經慢慢地改變了。

以 AI 本身當做產品的新創越來越少，能將 AI 當做產品賣的，慢慢只剩下 Google、Amazon 這類巨頭公司；同時，各行各業導入 AI 的成本也越來越低。

時至今日，我們已經很容易看到 AI 應用在傳統產業，但卻不一定需要雇用 AI 專業的資料科學家、機器學習工程師。

下一階段，AI 這樣的新科技就會如同以前那些成熟的領域一樣，「研究」的部份會慢慢地只掌握在資本密集的企業與國家手中，有些中小企業可能還需要大數據領域的資料工程師，但更多的企業可能也不需要工程師，而是資料分析師。

不論我們認為好或不好，大概也只能接受這個潮流，並做出對自己做有利的選擇。