今日排行

本周排行

本月排行

: 【供應】全自動(dòng)�；剞D

: 【供應】瑪萊寶油墨

普林太托KF 420*594
杭華油墨UV161 紅色S
東麗版材 WF95DY3
杭華紫外光固化油墨

膠印油墨

膠印材料

絲印材料

大數據時(shí)代讓一群腦殘為你選書(shū)

2013-06-25 08:52 來(lái)源：鈦媒體責編：王岑

摘要：: 大數據時(shí)代的到來(lái)，與信息數字化息息相關(guān)。在2000年的時(shí)候，以數字化形式存儲的數據僅占全球數據量的四分之一，而到了2007年時(shí)，90%以上數據是數字化數據，剩下不到10%是存儲在報紙、CD等介質(zhì)上的模擬數據。

更多精彩資訊>>

小C專(zhuān)訪(fǎng)｜正博總經(jīng)理范

小C專(zhuān)訪(fǎng)·煒岡股份董事

　　【CPP114】訊：對“大數據”概念還搞不清的人可以松一口氣了，如果你讀過(guò)《大數據時(shí)代》（Big Data:A Revolution That Will Transform How We Live, Work, and Think），你會(huì )發(fā)現舍恩伯格（Viktor Mayer-Sch nberger）對“大數據”的定義如此簡(jiǎn)單：所謂大數據（Big Data），就是大量的數據；它的反義詞同樣簡(jiǎn)單：小數據（Small Data），很少很少的數據。

　　相比于作者所著(zhù)同樣談?wù)摯髷祿?huà)題的《刪除：大數據取舍之道》一書(shū)，《大數據時(shí)代》結構緊密，邏輯清晰，論證過(guò)程也更為嚴謹。本書(shū)在何為大數據、大數據有何典型特征、大數據的實(shí)際應用和未來(lái)以及大數據的隱憂(yōu)等關(guān)鍵問(wèn)題上，通過(guò)案例和通暢曉白的解釋?zhuān)崂砬宄?ldquo;大數據”這個(gè)看起來(lái)高深復雜但其實(shí)無(wú)處不在的概念。在舍恩伯格看來(lái)，以往我們因受限于工具而采用的抽樣調查以及精準采樣數據的分析方法需要革新，大數據時(shí)代是改變方法論和思維方式的過(guò)程。
　　
　　大數據時(shí)代的到來(lái)，與信息數字化息息相關(guān)。在2000年的時(shí)候，以數字化形式存儲的數據僅占全球數據量的四分之一，而到了2007年時(shí)，90%以上數據是數字化數據，剩下不到10%是存儲在報紙、CD等介質(zhì)上的模擬數據。我們知道，模擬數據在復制和傳播過(guò)程中信息會(huì )失真、噪音疊加，比如一張紙連續復印三次之后，噪點(diǎn)越來(lái)越多，字跡越來(lái)越模糊，一盤(pán)音樂(lè )磁帶連續翻錄多次之后，令人厭煩的“嗞嗞”聲越來(lái)越大。而二進(jìn)制數字世界，是一個(gè)非黑即白的世界，要么1要么0，即使有噪點(diǎn)，灰色也會(huì )被識別黑色（1），淺白則被計算機處理為白（0），沒(méi)有中間地帶，也就沒(méi)有了噪音的容身之處。信息在數字世界得以無(wú)損復制和傳播，再加上不斷廉價(jià)化的存儲能力以及同時(shí)提高的計算能力，大量以前無(wú)法處理的數據，有了分析、解讀它們的可能。
　　
　　在模擬信息的世界，因為信息收集、信息復制、信息存儲以及信息分析的工具既不夠好，成本也極為高昂，我們只能收集極少量的數據（也即所謂的“結構化數據”）進(jìn)行分析，由于條件所限，我們發(fā)明了統計學(xué)來(lái)通過(guò)盡可能少的數據，去推導、去證實(shí)盡可能重大的發(fā)現。當我們意識到我們已經(jīng)擁有能夠收集和處理大規模數據（也即所謂更多的“非結構化數據”）能力的時(shí)候，我們需要新的理念和工具去重新認識這個(gè)世界了。
　　
　　新的理念運用于工具上的體現之一是光場(chǎng)相機Lytro。與其它數碼相機不同的是，Lytro相機可以在拍攝完照片之后再對焦。因為在拍攝時(shí)，Lytro可以記錄整個(gè)光場(chǎng)里所有的光，照片具體生成什么樣，拍完之后根據需要再決定。——有沒(méi)有發(fā)現這顛覆了我們做事的一貫邏輯？以往我們因為受制于工具或金錢(qián)，需要提前想好我們的目的，再去獲取我們需要的信息。而大數據時(shí)代的思維方式則如Lytro的特性一樣，先拍下來(lái)再說(shuō)，需要什么樣的照片，后期再處理。Lytro相機也算從膠片機過(guò)渡到數碼相機交疊時(shí)代思維的延續，如果攝影技術(shù)不太好，先拍一堆片子再說(shuō)，你總能挑出幾張好的來(lái)。
　　
　　對小數據而言，最重要的要求是減少錯誤，保證質(zhì)量。而大數據對更糙的信息及冗余信息容忍度更高，也即當資源足夠豐富且廉價(jià)的時(shí)候，可以先大量浪費，再來(lái)精準化，而不是預設精準的目標。
　　
　　亞馬遜早期雇傭了一群書(shū)評家為讀者薦書(shū)，后來(lái)發(fā)現通過(guò)算法——一群對圖書(shū)質(zhì)量判斷能力遠不如專(zhuān)業(yè)人士的普通讀者的口味的集合——推薦圖書(shū)的轉化率更高之后，亞馬遜把書(shū)評家們都解雇了。由于自己多年積累被算法取代的憤怒，在被解雇之后，書(shū)評家發(fā)出這樣的抱怨：（通過(guò)算法推薦）“那種感覺(jué)就像你和一群腦殘在一起逛書(shū)店。”類(lèi)似的故事也發(fā)生微軟。微軟機器翻譯部門(mén)的統計學(xué)家們在茶余飯后閑聊中會(huì )說(shuō)，每次一有語(yǔ)言學(xué)家離開(kāi)他們團隊，微軟機器翻譯質(zhì)量就會(huì )變得更好一點(diǎn)。
　　
　　從對信息質(zhì)量的角度出發(fā)去觀(guān)察，我們會(huì )發(fā)現大數據時(shí)代的特性的確越來(lái)越“腦殘化”：它放棄原始數據的精確性，強調數據量的多和雜；它放棄因果關(guān)系的判斷，強調相關(guān)關(guān)系；它放棄知其所以然（為什么），只需知其然（是什么）就可以了。
　　
　　豆瓣閱讀為什么給你推薦《中國合伙人》？背后的邏輯可能是你的朋友最近點(diǎn)了“想看”或“看過(guò)”。新浪微博為什么推薦李承鵬而不是李開(kāi)復給你關(guān)注？背后的邏輯可能是你關(guān)注的人中更多人關(guān)注李承鵬。但為什么因為朋友喜歡，所以機器就會(huì )判定你也會(huì )喜歡呢？不知道。機器通過(guò)計算得知，如果你有很多朋友喜歡同一個(gè)事物，那么你喜歡這個(gè)事物的概率會(huì )大一些�？赡軐�，也可能錯。二者之間強相關(guān)，但不因果。
　　
　　大數據最大的用途之一是預測。好的方面，它可以預測機票價(jià)格走勢，為自費旅游者省錢(qián)；它能預測交通擁堵情況，幫助人們選擇更好的時(shí)段和路線(xiàn)節省出行時(shí)間；它也可以像亞馬遜做的那樣，為你提供更準確的書(shū)單，幫你遇見(jiàn)更多好書(shū)�！堵槭±砉た萍紕�(chuàng )業(yè)》曾報道說(shuō)，英國伯明翰大學(xué)的一個(gè)研究團隊甚至開(kāi)發(fā)出一種算法，可以精確地預測你未來(lái)將要去哪里。
　　
　　大多數人一般有規律的行為模式，但傳統的預測算法——只通過(guò)用戶(hù)本身的行為模式來(lái)進(jìn)行預測，解決不了人們臨時(shí)變更路線(xiàn)的情況，導致預測人們出行的平均誤差高達1000米。伯明翰大學(xué)開(kāi)發(fā)的算法可以通過(guò)追蹤用戶(hù)手機上的個(gè)人過(guò)往行為模式數據以及用戶(hù)手機里的社交關(guān)系——當然，新型算法需要收集和分析大量個(gè)人信息。最后能預測用戶(hù)在24小時(shí)之內會(huì )去什么地點(diǎn)，而平均誤差減少到僅20米。