從北市校園販賣機議題，再評估資料的價值與風險

對資料處理過程不熟悉，會低估了三件重要的事情：資料價值、資料風險與外洩機率

最近台北市校園販賣機的議題算是弄了不少風波，有位財經人士針對這件事情做了一些評論。

先說明我自己的立場：台北市校園販賣機並沒有人臉識別等敏感的功能，根據翟本喬的查證，廠商也無法直接對應到個資，頂多就是消費記錄可以做一些分析，而這些隱私記錄對「個人」的影響並不大。

因此，若是針對校園販賣機一案，現階段我覺得這件事情並沒有嚴重到值得媒體花那麼多篇幅去討論。

但我有疑慮的是對於隱私資料的認知，並非如這位財經人士所說的那麼輕描淡寫，文中引用了許多大企業的規範或例子，但這些例子不但沒有辦法說服我，反而讓我有另外的擔憂：如果用這些觀念去面對其他隱私議題，恐怕會面臨到額外的潛在風險，以下是原因。

低估資料的價值與風險

去識別化不代表無法識別

以下是節錄一段原文，這位財經人士認為抹去個人資料（去識別化）之後，演算法並沒有那麼令人害怕。

大家對演算法可能有些害怕，例如我經常看到有些臉友說，自己剛剛看了哪些文章，立刻跳出來相關的廣告，非常可怕。不過到我自己從事了這個行業，才比較清楚的了解到，絕大多數以商業交易為目的的演算法，是抹去個人資料的，收集資料時會禁止可辨認到個人的收集行為。資料處理的大原則，是以無法追蹤到各別個人，而只能知道你的行為樣態為準。

理論上我們把 PII（personally identifying information, 個人識別資訊）都去識別化，應該就可以避免被識別，但實務上並非只有 PII 才有辦法識別一個人的模糊地帶，這是很頭痛的問題。

舉一個真實存在的例子：如果 Glassdoor 只做了去識別化，那麼這個服務是不可能上線的，因為當薪資數字精確的時候，根本不需要知道員工名字，公司方只要一查，就能知道是哪個員工提供的，一堆員工會被他害到丟工作。

Glassdoor 的解決方法是：在使用者提供薪資的時候，刻意將薪資範圍模糊化，並且在薪資筆數少的時候先隱藏起來，等到量夠多再顯示，這樣才可以某種程度地保護前幾個提供薪資資訊的員工。（但也只是某種程度，並非完全）

再想像一個很極端的情境，如果今天有一筆交易資料是某個富豪買了台灣僅有一輛的限量跑車，恰好那個富豪在臉書炫富，那麼即使交易內容將姓名、身分證、email 等「足以辨認出個人」的資料都去識別化，但內部員工只要用商品名稱去查（因為不是敏感資料）就知道這個 ID 是富豪，而且還可以知道所有的交易歷程，包含他愛吃什麼牌的食物，喜歡在什麼時間購買等等行為。

無法識別不代表安全，剖析常常才是真正的價值與風險所在

GDPR 明文規定反剖析權，但這是 GDPR 裡面很容易規避的條文之一，實務上極度難以舉證，但做出來的模型又可能非常強大。

舉例來說，中國將所有參加反送中街頭運動人民的行為收集起來，做成一個「反送中預測器」，用它來預測這個人會不會是「激進分子」，在他還沒上街頭之前就到家抓起來，或者是在他購買某些物品與使用特定交通路徑的時候，就提供政府警示，這是理論上做得到的，而且也不需要太精準，只要能殺一儆百就好。

這些行為記錄可能都去識別化了、也無法辨識出誰做了什麼事情，但是仍然對這個群體，甚至當事人未來再行動的時候造成威脅。

因此，我不認為「無法識別」就等於「安全」，它只是變模糊、從針對一個人變成針對一個群體而已。

低估資料被竊取的機率

資料是虛擬可複製的，與鈔票不同

馬雲曾經說：「資料是越使用越值錢」，這句話我想改成「行為記錄越用越多，根本不會被消耗掉」。

鈔票、黃金、珠寶是實體的，他們的價值在於存在的數量，只要最終我看到保險箱東西沒少，那就沒問題；但資料是可以輕易被複製的，即使最終存放的保險箱（資料庫）東西不變，也有可能在傳送過程被偷偷擷取、複製給第三方。

因此，資料被竊取的難度遠比實體財產還要低，常常是神不知鬼不覺。

例如台灣的Line數據得要打開中華電信的機房才能看，而你想打開中華電信的資料庫，那真的很難，我保證總統去他們會先報警。

這指的是外人要去打開的情況，但因為資料源頭仍然是 Line 的員工放進去的，只要在放進去之前偷偷複製一份，就不需要經過中華電信的機房。當然，這個法律責任與風險也很高，這裡我單純就技術層面來看，難度會低很多。

例如說，大型電商公司裡面的數據委員會是十分嚴格的，誰有權力打開哪些層級的數據，哪些基礎數據是可以丟到資料公有池給大家共用，誰有權限進入公有池，都有一套嚴謹的分級帳號管理辦法，就像我們動用多少預算要多高層的長官簽字才能算數一樣，我的層級到哪、業務管轄權限到哪，才可以開到哪些層級的資料，並不是誰都可以打開資料庫隨便亂看。以前我們一天到晚纏著數據團隊，希望他們開帳號給我們看商家銷售榜，作為宣傳重點，但數據團隊就否決了我們的帳號權限。

撰文者之所以會認為資料很難竊取，是因為他身為資料使用端，唯一的途徑就是去申請保險箱的權限，甚至也不知道哪裡有非法途徑；但身為工程師，我很清楚地知道，風險大部分都不是在使用端，而是更前面的工程端，其中的權限分級會更模糊、更難處理。

我或許可以保證保險箱裡面的資料從來沒被人碰過，但在放進去之前有多少人碰過呢？這個就很難說了。

制度只是用來防君子

大型電商的數據制度當然是比較嚴格且完善的，但臉書這麼大的公司都被證實洩漏用戶個資，也爆過用明碼存用戶密碼。

我並非指臉書的制度不嚴格，而是任何規則一定都有漏洞，你可以說公司內部的君子拿不到資料，但你不能用同樣邏輯說小人拿不到。

用「理論上」、「大致上」的情形去衡量是不對的，因為事情往往都發生在那些「意外」之上；而且層級明確也不等於安全，如果我說「你的保險箱很安全，只有銀行總裁可以開」，這種銀行肯定沒人會去光顧（雖然技術上來說也沒有差很多）。

成本並非是大問題

這位財經人士認為，電商沒有這樣的資本負擔儲存成本：

除了數據交換規範之外，成本是另一個理由。要辨認到個人，並且儲存起來你的行為歷史，是非常花錢的事情，一般企業行號的雲端儲存是非常貴的，如果還要把每個交易的個人建檔，不但有違法被抓的風險，而且非常花錢，其實從商業利益上來說並不值得。一家電商一年能從你口袋裡挖出來的錢已經有限了，看一下台灣電商的毛利率就知道，他還要做個人建檔管理，真的沒有那樣的資本，更何況是飲料販賣機這麼小的廠商。

但我不認為如此。

電商雖然毛利低，但成本主要都不在資訊系統

毛利率低，不代表資本額低，台灣幾間大電商的資本額都比多數的新創公司還要高非常多，只要從其中提出很小的比例去做就夠了。

這也意味者，若能反過來有效地降低物流、倉儲、人力等成本，資訊部門就會有很充足的資訊設備與資源去做。就我的觀察，現在台灣電商也都非常積極在投入這一塊的發展。

有很多工程方法可以降低成本到合理範圍

或許你還是覺得成本高到難以負荷，但其實不然。資料的存放方式有很多種，並非只有「存下每一筆完整資料」這種方法能用，最簡單的兩個例子就是取樣與剖析。

最暴力又簡單的就是取樣：如果每一百筆我只偷一筆最重要的（比如，最貴的紀錄），就只需要 1% 的成本；又或者，一百個欄位之中只挑五個重要的欄位就好，但這樣難道不是竊取個資嗎？

更甚者，我只要把這些資料訓練完保留一個月就刪掉，只留下模型，一樣可以獲取利益，成本也低，而且幾乎不可能被查出來。

校園販賣機沒那麼危險，但不夠謹慎的資料隱私保護觀念，會在未來引入更多危險

再次重申，這篇文章並非要替北市校園販賣機背書或反駁，但其中引發的論戰，讓我認為多數人可能對於資料在實務上運作的概念並不夠熟悉，這些不夠謹慎的觀念，或許會在以後類似的議題上引發更多潛在的風險，是比起校園販賣機更值得注意的地方。