大數據的挑戰
薩瓦拉賈(Sivarajah)等人於2017年的商業研究期刊(Journal of Business Research),中,提出了一篇文章,該文章分析了227篇與大數據相關的論文,並提出大數據的挑戰與分析方法。薩瓦拉賈(Sivarajah)等人認為,大數據的挑戰可從三個層面來分析:資料挑戰(Data Challeges)、程序挑戰(Process Challeges)、與管理挑戰(Management Challeges)。以下,簡單先就資料挑戰(Data Challeges)進行說明,如下圖所示。
圖片來源:行銷資料科學 -大數據的挑戰BD challenges /繪圖者:張珮盈
1.容量(Volume)
資料量的規模,已由TB(Terabyte)發展到PB(Petabyte)甚至是更大的單位。而對巨量資料進行確認、處理、分析、計算、檢索…等,就是一項巨大的挑戰。無論是Facebook每天產生超過500TB的數據,或是沃爾瑪每小時從其客戶交易中蒐集超過2.5PB的數據,這些巨量資料的產生,為大數據分析帶來新的挑戰。
2. 速度(Velocity)
大數據的資料量除了巨大,還有處理的時效問題。例如:沃爾瑪每小時即處理超過一百萬筆的交易紀錄。而為了做到即時個人化的服務,例如:在櫃檯結帳時提供個人化的優惠券,速度就變成為一項重大的挑戰。再配合自行動裝置與APP的使用,企業可獲取更完整的顧客資料,例如地理位置、購買行為等,進而即時分析這些資料以為客戶創造價值。
3. 多樣(Variety)
資料具有多樣性,無論是結構化或是非結構化的資料,包括:文字、圖像、照片、聲音、影像、傳感器數據…等。資料多樣性的背後,存在著多種不同的來源與格式,這些不同格式的資料,在蒐集、整合、分析、理解上,對組織來說,產生了巨大的挑戰。
4. 易變(Variability)
資料的易變性意指資料會不斷地變化。例如,Google或Facebook每一秒產生與儲存著許多不同類型的數據,這些數據持續且快速地改變。此外,在執行情緒分析時,也與易變性有關。舉例來說,在同一個推文中,同一個詞,可能具有完全不同的解釋。為了進行適切的情感分析,演算法必須能夠理解上下文,以及該單詞的確切含義。
5. 真實(Veracity)
使用者於社交媒體網絡上所發表的訊息,是大數據分析裡一項重要的資料來源,但因為匿名因素、捏造動機…等原因,導致這些資料未必真確。因此,在進行大數據分析時,處理不真實或是模糊的資料,是一項重大的挑戰。
6. 可視(Visualization)
可視化意指資料的呈現方式,讓資料變的更加容易閱讀。如何讓使用者更直觀地了解資料搜尋的結果、即時監控顧客的回應、或是進行情緒分析等,可視性扮演著重要的角色。
7. 價值(Value)
價值性意指資料寶山中,存在著大量的寶藏。儘管大多數的數據,單獨來看可能微不足道,但這也考驗著分析人員是否有能力洞察出簡單數據背後所存在的巨大價值。同時,將許多單獨的數據整合之後,也可能會產生巨大的加乘效果。
文章轉載:行銷資料科學