Big Data Analytics還是Data Analytics

        Big Data (巨量資料,或稱大數據) 已經成為一個 hype ! 但我經常在想一個問題,真的人人(或每家公司)都有巨量資料需要分析嗎?我懷疑!況且小到中量的數據都理解不了,或玩不動,如何開大車呢!所以我覺得Data Science (資料科學,或稱數據科學) 的價值應該在於培養個人與組織資料有感 (data sensitive) 的基本能力,並逐步孕育資料解析的思維 (data-analytic thinking),才能活化充斥在我們周遭的資料,進而轉成可以行動的方案。Data Science包含Big Data Analytics,但並不是它唯一的內涵,反而Data Analytics會是Data Science的重要成分。因此,我在今年「2014 資料科學與產業應用研討會」中提出了「壹資料、貳工具、參模型」的口號,嘗試從務實面向幫助大家了解 Data Analytics,以下將全文貼出,請大家批評指教!

        資料科學是一門跨領域的匯聚科學,混合多種資料並搭配各類模型進行資料組織、解析與視覺化等處理,並將其中的價值傳達給相關人士。本研討會旨在邀請產業與學術界已有資料科學實務經驗之專業人士蒞會分享,藉此集聚對資料科學有興趣之各界人士,共同迎向植基於資料的產品與服務提供新紀元。

        資料科學家的主要任務是預測建模(predictive analytics),他們精通資料結構、運算邏輯、物件導向程式設計、自然語言與影像處理等資訊技術,運用統計模型、機器學習與作業研究(亦稱為運籌學)等建模技巧,熟捻會計、財務、行銷與管理等商業語言,藉以向公司各階層人士溝通。資料有感是資料科學家的基本能力,他們負責孕育組織的資料解析思維,努力活化顧客留下的資料軌跡(trail of data exhaust)。他們並非立即處理海量資料,而是將大問題分解成小問題,以「小處著眼、反覆加值」的機敏彈性流程,逐步邁向構築資料產品(data products)目標。所謂「工欲善其事,必先利其器」,因此,資料科學家必須慎選工具,不斷地進行「做中學、學中做」的良性循環,努力跨出習慣領域,追求融會貫通。也就是說,資料科學家不光要懂很多(multidisciplinary),還要抓住不同領域的共通源頭(convergent),才不會在浩瀚的數據海洋中迷失了方向!所以,如何在組織中培育跨領域的資料科學家團隊,也是當前許多行業取得競爭優勢的重要策略。

        值此2014 Data Science and Industrial Applications研討會舉辦之際,我們認為台灣相關的產業應朝著「壹資料、貳工具、參模型」的方向邁進:「一」心向著資料理解的根本要務前進,精通至少「兩」種彈性的分析工具,掌握統計、機器學習與運籌學等「三」大類模型,大步邁向資料驅動的決策釐定新紀元。