2013年1月,維克托的(de)(de)《大(da)數(shu)據時代》出版,由于正逢(feng)互(hu)聯(lian)(lian)網思維、大(da)數(shu)據、云計算(suan)、移動互(hu)聯(lian)(lian)網等(deng)新概念的(de)(de)風起云涌,這件遠涉重洋來到中國的(de)(de)舶來品,一(yi)時引(yin)得洛陽紙(zhi)貴。
從維(wei)克托界定(ding)的(de)大(da)數(shu)(shu)據(ju)使用(yong)的(de)三個原(yuan)則來看(要(yao)(yao)(yao)(yao)整體不要(yao)(yao)(yao)(yao)抽(chou)樣;要(yao)(yao)(yao)(yao)效率(lv)不要(yao)(yao)(yao)(yao)**;要(yao)(yao)(yao)(yao)相關(guan)不要(yao)(yao)(yao)(yao)因果),大(da)數(shu)(shu)據(ju)的(de)界定(ding)似乎正是(shi)針對小數(shu)(shu)據(ju)使用(yong)缺(que)陷來界定(ding)的(de),而(er)這些所謂的(de)缺(que)陷正是(shi)我們線下傳統數(shu)(shu)據(ju)收集和處理的(de)基本原(yuan)則。
在大(da)數據(ju)大(da)行其(qi)道之時,我們積累了(le)幾十年、上百年的(de)小數據(ju)處理(li)方(fang)法是否(fou)就意味著過(guo)時了(le)呢?
要(yao)回答(da)這個問題,我們(men)還是要(yao)先從小數(shu)據的(de)定義(yi)入手。
目前網絡和行業都缺乏對小數(shu)據的(de)(de)(de)(de)標(biao)準定義,在美國、乃至臺灣有一種關于小數(shu)據的(de)(de)(de)(de)定義,認為(wei)(wei)相(xiang)對于服務(wu)趨勢(shi)和戰略的(de)(de)(de)(de)大(da)數(shu)據而(er)(er)言,那些服務(wu)于個(ge)體而(er)(er)形成的(de)(de)(de)(de)數(shu)據指(zhi)(zhi)標(biao),應該(gai)稱之為(wei)(wei)小數(shu)據。舉例來說(shuo),谷(gu)歌(ge)根據人們在搜(sou)索引擎使用的(de)(de)(de)(de)關鍵詞的(de)(de)(de)(de)相(xiang)關性,判(pan)斷(duan)H1N1流感趨勢(shi),為(wei)(wei)衛生防(fang)(fang)疫部門提(ti)供預防(fang)(fang)決策屬(shu)于大(da)數(shu)據的(de)(de)(de)(de)典(dian)型應用;而(er)(er)耐克和蘋果合作開發的(de)(de)(de)(de)“Nike+”軟件,為(wei)(wei)個(ge)人的(de)(de)(de)(de)健(jian)康和鍛煉提(ti)供的(de)(de)(de)(de)數(shu)據指(zhi)(zhi)標(biao)和參考,就屬(shu)于小數(shu)據的(de)(de)(de)(de)典(dian)型范疇。
我(wo)想說的(de)(de)(de)是,如果(guo)從維克(ke)托(tuo)的(de)(de)(de)大數據(ju)使用的(de)(de)(de)三個(ge)原則(ze)和標準,我(wo)們可以清楚的(de)(de)(de)看到(dao),他(ta)所意指的(de)(de)(de)小(xiao)(xiao)數據(ju)更多的(de)(de)(de)是我(wo)們沿用傳(chuan)統方法收(shou)集和整(zheng)(zheng)理的(de)(de)(de)數據(ju)。而這本書的(de)(de)(de)序作者之一(yi)的(de)(de)(de)謝文也明確表示(shi),在(zai)互聯(lian)網技術席卷的(de)(de)(de)今(jin)天,整(zheng)(zheng)個(ge)世界會明顯地劃分為大數據(ju)時(shi)代、小(xiao)(xiao)數據(ju)時(shi)代、無數據(ju)時(shi)代,小(xiao)(xiao)數據(ju)的(de)(de)(de)時(shi)代指向更加明顯。
所(suo)以,我們定義的小數據,應(ying)該(gai)是在信息和數據不完整(zheng)的情況下,通過(guo)科學抽樣(yang)和技術(shu)調(diao)整(zheng),為個體或某類具體問(wen)題提供(gong)數據參考的數據包(bao)。
弄(nong)清楚了(le)小(xiao)(xiao)數據的定義,我們來看看小(xiao)(xiao)數據相(xiang)對(dui)于大數據,是(shi)不是(shi)真(zhen)的已經out了(le)?
一(yi)、整(zheng)體數據是不是一(yi)定(ding)優于抽樣數據?
互聯網技(ji)術的發展,為(wei)收集(ji)整體(ti)數(shu)(shu)據(ju)而(er)產生(sheng)的成(cheng)本下降直(zhi)至忽略不計(ji)提供了可能,而(er)傳(chuan)統數(shu)(shu)據(ju)的收集(ji)方(fang)法(fa)是在(zai)平衡成(cheng)本和*之(zhi)下,選擇規范的抽(chou)樣(yang)方(fang)法(fa),兩者在(zai)數(shu)(shu)量(liang)級(ji)(ji)的比較上(shang)就不在(zai)一(yi)個體(ti)量(liang)級(ji)(ji)。從(cong)(cong)統計(ji)的*度上(shang)來說,數(shu)(shu)據(ju)越(yue)大(da),*度越(yue)高,結(jie)果(guo)也(ye)會(hui)更加逼近于真(zhen)相。當(dang)年傳(chuan)統的數(shu)(shu)據(ju)處理,正是受制于數(shu)(shu)據(ju)越(yue)多成(cheng)本越(yue)大(da),或者某些現實條件,無(wu)法(fa)窮盡數(shu)(shu)據(ju),才不得已采取(qu)了抽(chou)樣(yang)分析的折中辦法(fa)。從(cong)(cong)數(shu)(shu)量(liang)的角(jiao)度講,大(da)數(shu)(shu)據(ju)確實要優于小數(shu)(shu)據(ju)。
但(dan)是(shi)(shi),小(xiao)數(shu)據(ju)分(fen)析(xi)方法(fa),比如樣(yang)(yang)本(ben)方差,盡可能用各(ge)類參數(shu)將樣(yang)(yang)本(ben)與整體之間的差異縮小(xiao),讓結果(guo)無(wu)限逼近真(zhen)實,在趨勢和策略判(pan)(pan)斷上,抽(chou)樣(yang)(yang)判(pan)(pan)斷和整體判(pan)(pan)斷,其實很多(duo)時候都(dou)是(shi)(shi)五十步和一(yi)百步的區別;另一(yi)方面,小(xiao)數(shu)據(ju)時代積累的各(ge)類數(shu)據(ju)處理方法(fa),也仍(reng)然是(shi)(shi)大數(shu)據(ju)時代數(shu)據(ju)處理的基礎和原則,拋棄小(xiao)數(shu)據(ju)來談大數(shu)據(ju),大數(shu)據(ju)也將是(shi)(shi)無(wu)源之水、無(wu)本(ben)之木。
二(er)、小數據處理數據的原則(ze)是效率優(you)先、*為輔(fu)。
大數據使用的第二個原則追求效率而不是**,需要重點提到的是,小數據處理體系的存在,正是建立在追求效率而不是**之上。小數據營銷From EMKT.com.cn一(yi)(yi)般是針對某類具(ju)體問題,在(zai)特定的(de)時(shi)間段里,需要(yao)開(kai)展數(shu)(shu)據的(de)收集(ji)、整(zheng)(zheng)(zheng)理和(he)分析(xi),并得出結論以做行(xing)(xing)動參考。小數(shu)(shu)據營銷(xiao)更(geng)符合實(shi)戰營銷(xiao)中(zhong),不(bu)可能(neng)在(zai)信(xin)息(xi)完(wan)(wan)整(zheng)(zheng)(zheng)情(qing)(qing)況下(xia)再進(jin)行(xing)(xing)判(pan)斷的(de)現實(shi)。今天乃至(zhi)以后很長一(yi)(yi)段時(shi)間的(de)營銷(xiao)現實(shi)是:我(wo)們(men)必須在(zai)競(jing)爭(zheng)對手(shou)信(xin)息(xi)不(bu)完(wan)(wan)整(zheng)(zheng)(zheng)、消費者信(xin)息(xi)不(bu)完(wan)(wan)整(zheng)(zheng)(zheng)、市場(chang)信(xin)息(xi)不(bu)完(wan)(wan)整(zheng)(zheng)(zheng)等諸多現實(shi)情(qing)(qing)況下(xia),在(zai)指定的(de)時(shi)間前,做出判(pan)斷和(he)決策,并付諸于行(xing)(xing)動。時(shi)機(ji)就是戰機(ji),等到所有信(xin)息(xi)都完(wan)(wan)整(zheng)(zheng)(zheng)了,黃花菜也涼了。所以,小數(shu)(shu)據才會有用抽樣代替整(zheng)(zheng)(zheng)體的(de)選擇。
另一個(ge)(ge)現(xian)(xian)(xian)實情況(kuang)是(shi),在現(xian)(xian)(xian)階段(duan)甚至很(hen)長的(de)一段(duan)時間(jian)里,靠互聯網(wang)自動采(cai)集所(suo)有數(shu)據(ju)還(huan)不現(xian)(xian)(xian)實,技術的(de)發展和普及需要時間(jian),很(hen)多數(shu)據(ju)還(huan)無(wu)法實現(xian)(xian)(xian)網(wang)絡(luo)化,比如因(yin)為現(xian)(xian)(xian)實的(de)財(cai)務、稅務問題(ti),采(cai)集經銷(xiao)商(shang)的(de)數(shu)據(ju)就一直是(shi)個(ge)(ge)難(nan)點(dian),ERP喊了(le)多少年(nian),進(jin)銷(xiao)存喊了(le)多少年(nian),在上了(le)系統(tong)的(de)企業里面,經銷(xiao)商(shang)的(de)相關(guan)數(shu)據(ju)有多少水分,每個(ge)(ge)企業都心知肚明(ming)。
三、小(xiao)數據(ju)具(ju)體問題的個性化處理,更偏重于因果(guo)關系而不(bu)是相關關系。
維克(ke)托提到大(da)(da)數(shu)(shu)(shu)據的第三個原(yuan)則,就(jiu)是(shi)大(da)(da)數(shu)(shu)(shu)據更注重相(xiang)(xiang)(xiang)(xiang)關關系而不是(shi)因(yin)果(guo)關系,即兩組數(shu)(shu)(shu)據的相(xiang)(xiang)(xiang)(xiang)關性(xing)是(shi)數(shu)(shu)(shu)據處理(li)的第一(yi)要務,至于為(wei)什么相(xiang)(xiang)(xiang)(xiang)關,這個問題交(jiao)給計(ji)算(suan)機(ji)自己處理(li)。相(xiang)(xiang)(xiang)(xiang)關性(xing)和因(yin)果(guo)性(xing),孰輕孰重,《大(da)(da)數(shu)(shu)(shu)據時代》的譯者周濤也曾表達了不同(tong)觀點。我們常說某人讀(du)書不求甚解(jie),通(tong)常是(shi)指其(qi)知其(qi)然,而不知其(qi)所(suo)以然。今天(tian)大(da)(da)數(shu)(shu)(shu)據將“所(suo)以然”的東西交(jiao)給計(ji)算(suan)機(ji),使用者只對“然”負(fu)責,我和朋友調侃說,這也許是(shi)機(ji)器(qi)統治人類的第一(yi)步。
在高度繁榮的信息社會(hui),你要確保(bao)計(ji)算機(ji)“所以(yi)然(ran)”是(shi)(shi)可控的,得有兩(liang)個(ge)前提:一(yi)個(ge)是(shi)(shi)計(ji)算編程的邏輯在開始設定時(shi)就是(shi)(shi)正(zheng)確的;一(yi)個(ge)是(shi)(shi)機(ji)器進行(xing)海量數據處理(li)時(shi),自身(shen)不(bu)會(hui)因為“疲勞”等因素造成計(ji)算錯誤,而這正(zheng)是(shi)(shi)大數據面臨的問(wen)題。
小數(shu)據由于是針對(dui)特(te)定問(wen)題開(kai)展(zhan)的(de)(de)數(shu)據收集、處(chu)理和(he)分析,人的(de)(de)因(yin)素(su)比(bi)較大(da),大(da)數(shu)據的(de)(de)短處(chu)正好(hao)成(cheng)為了(le)TA的(de)(de)長處(chu),在數(shu)據的(de)(de)處(chu)理過程當中(zhong),目(mu)的(de)(de)的(de)(de)指向(xiang)性和(he)人與數(shu)據的(de)(de)互動會更加有效。
關(guan)(guan)于大數(shu)據相(xiang)(xiang)關(guan)(guan)性的(de)(de)問(wen)題,我曾看(kan)到一個(ge)(ge)網上的(de)(de)段子(zi),問(wen)影響人(ren)壽(shou)(shou)命長短的(de)(de)因素有哪些,有人(ren)通過(guo)相(xiang)(xiang)關(guan)(guan)分析得(de)出(chu),一個(ge)(ge)人(ren)慶(qing)祝生日(ri)的(de)(de)次數(shu)與(yu)壽(shou)(shou)命的(de)(de)長短成正比(bi),換句話說,一個(ge)(ge)人(ren)要長壽(shou)(shou)就(jiu)要多(duo)慶(qing)祝生日(ri)。稍有常識(shi)的(de)(de)人(ren),都知道(dao)這是(shi)一個(ge)(ge)逗比(bi)的(de)(de)笑話,但是(shi)當(dang)計算機給出(chu)其他的(de)(de)錯誤相(xiang)(xiang)關(guan)(guan)結(jie)(jie)果時(shi),我們有多(duo)少人(ren)能夠用常識(shi)判斷出(chu),這是(shi)否是(shi)又(you)一個(ge)(ge)逗比(bi)的(de)(de)結(jie)(jie)果?
用(yong)小(xiao)(xiao)數(shu)(shu)據(ju)(ju)抵制甚至漠(mo)視大數(shu)(shu)據(ju)(ju)時代(dai)的(de)(de)到來(lai),是逆潮流而動(dong)的(de)(de)掩耳盜鈴(ling);但用(yong)大數(shu)(shu)據(ju)(ju)時代(dai)來(lai)否認小(xiao)(xiao)數(shu)(shu)據(ju)(ju)的(de)(de)價(jia)值,是將大數(shu)(shu)據(ju)(ju)的(de)(de)歷史和未來(lai)進行割裂(lie),依然停留在偽數(shu)(shu)據(ju)(ju)時代(dai)。
轉載://bamboo-vinegar.cn/zixun_detail/4954.html