靈 編譯整理
量子位 出品 | 公眾號 QbitAI
今天,《星際爭霸2》(后稱星際2)深度強化學習(DRL)智能體Reaver開源了,引來大量Reddit用戶圍觀。
來自塔爾圖大學的Roman Ring介紹說,這種模塊化的框架主要用于訓練星際2的各種任務,提供比大多數開源解決方案更快的單機環境并行化能力。
Reaver可適應多種環境,除了用于星際2的SC2LE外,還支持其他強化學習任務上常用的Gym、Atari和Mujoco。它用簡單的Keras模型來定義神經網絡,配置和共享配置也非常方便。
最重要的是,Reaver的訓練規模親民到爆炸。在普通的4核CPU的筆記本電腦上,每秒采樣率可以達到5K,10秒內就能學會那個立桿子的游戲CartPole-0。
在電腦配置為Intel i5-7300HQ CPU (4 核) 和 GTX 1050 GPU 的筆記本情況下,Reaver 30分鐘攻克了星際2 的MoveToBeacon游戲,成績與DeepMind不分伯仲。
Reaver主要有6大特點:
可擴展
Reaver同時適用于初學者和老手。對業余編程愛好者,Reaver提供了必要工具,修改智能體(例如超參數)后就能訓練。
老手可直接利用Reaver模塊化架構和性能優化過的代碼庫,其中的智能體、模型和環境都是解耦的,可隨意搭配,可擴展性強。
性能
Reaver利用無鎖數據結構共享內存,將星際2的采樣速率提升了2倍(通常能實現100倍的加速),瓶頸在GPU輸入/輸出pipeline。
可配置
Reaver中所有配置都能通過gin-config配置框架處理,并且能夠將所有超參數、環境參數和模型定義輕松共享成.gin格式文件。
實現智能體
作者采用兩種經典DRL算法進行實現:
優勢actor-critic算法(A2C)
近端策略優化(PPO)
支持多種環境
其他強化學習特點
Reaver具體實戰的表現如何?研究人員在不同地圖上,對A2C架構的Reaver、DeepMind的SC2LE和ReDRL進行基準測評,同時,還給出了人類GrandMaster級的專業人員在這些任務上的成績。
其中,DeepMind的結果均來自此前發布論文中的最佳結果。
Reaver(A2C)是訓練reaver.agents.A2C智能體得到的,通過訓練—test模塊進行100次迭代,計算總獎勵值得到這個結果。圖中括號值代表是平均值、標準差,方括號中為最小和最大值。
Reddit討論貼:
https://www.reddit.com/r/MachineLearning/comments/a0jm84/p_reaver_starcraft_ii_deep_reinforcement_learning/
具體的安裝說明,可移步GitHub:
https://github.com/inoryy/reaver-pysc2
此外,如果你的電腦配置了Google Colab,還可以在線使用Reaver,地址:
https://colab.research.google.com/drive/1DvyCUdymqgjk85FB5DrTtAwTFbI494x7
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
?'?' ? 追蹤AI技術和產品新動態
對突如其來的疫情, 為防止交叉感染,各家博物館先后臨時閉館,但公眾目前可以選擇網上看展的方式,“云刷館”享受文化生活,彌補不能親臨現場的遺憾。為此,國家文物局組織部署全國各地博物館利用已有數字資源推出一批精彩網上展覽,為公眾提供安全便捷的在線服務。截至目前,國家文物局已經匯總發布了三批共計150條網上展覽及數字博物館信息,且展覽訊息還在不斷更新之中。為便于公眾查詢瀏覽,國家文物局在其公眾號上發布了這些信息。
“賀歲迎祥——紫禁城里過大年”是故宮博物院的重要展覽。在過去,從臘月初一開筆書福開始,一直貫穿整個春節期間,宮廷之中有諸多與年節有關的活動,比如觀冰嬉、中正殿活佛送歲、施粥、安設天燈、萬壽燈,放爆竹、保和殿筵宴蒙古王公、萬壽燈撤聯掛燈、安設乾清宮與皇極殿廊廡燈及甬道石欄燈、賞戲、守歲等等。去年春節,“賀歲迎祥——紫禁城里過大年”展刷新了兩項故宮博物院展覽歷史紀錄,可稱為建院以來提用文物最多、展場面積最大的一次展覽。今年因為新冠肺炎疫情的緣故,大家無法親臨現場觀展,通過故宮博物院的線上展覽,可以彌補些許遺憾。
由國家博物館在網上發布的“歸來——意大利返還中國流失文物展”正在展出之中,展覽通過共同禮敬歷史文明、共創文物追索典范、共聚文明互鑒之光3個單元,集中展示意大利向中國返還的796件中國流失文物藝術品。值得一提的是,此次意大利向中國返還796件中國流失文物藝術品,時間跨度長、分布地域廣、器物種類多,保存狀況較為完好,為研究中國歷史相關時期的生產生活場景、精神文化面貌、文明發展進程等提供了實物見證。
加速器和反應堆
“禮贊共和國——慶祝新中國成立70周年科技成就科普展”共計分為逐夢星空、瀚海揚波、核能偉業、制造強國等六個篇章,大家可以看到長征系列火箭、暗物質粒子探測衛星“悟空”鵲橋中繼衛星、深海勇士載人潛水艇、首款大型水陸兩棲飛機“鯤龍”AG600等展品。自北魏定都平城至隋一統華夏,近200年間,在血與火的洗禮中,完成了空前規模的民族大融合。此次由山西博物院推出的“壁上乾坤——山西北朝墓葬壁畫藝術展”展示了胡漢之間、南北之間的廣泛交流和北朝文化。墓葬壁畫是山西博物院的特色收藏,其中的北朝壁畫作品,更是豐富精彩,引人入勝。展覽選取婁睿墓壁畫、九原崗墓壁畫、水泉梁墓壁畫,呈現1500年前的繪畫華章。
太原北齊徐顯秀墓北壁夫妻并坐圖
上海博物館再次宣布延遲開館,推出“網上博物館”專題,觀眾可從上海博物館官網首頁點擊進入。“網上博物館”專題展示區包含了網上數字展覽、原有實體展的三維虛擬化展示、藏品數字化解讀、網上遠程課程傳播等內容。近年來上海博物館推出的人氣特展“丹青寶筏:董其昌書畫藝術大展”、“灼爍重現:十五世紀中期瓷器大展”、“走向現代主義:美國藝術八十載”等互動性強的數字化展廳都也在其中。
“丹青寶筏:董其昌書畫藝術大展”在線展覽
99件文物道盡古都南京的6000年文明史。“源·流:99件文物里的南京”特展是南京市博物館去年推出的重磅展覽,匯集了南京市博物總館、上海博物館、南京博物院、南京圖書館、南京市考古研究院等8家文博單位的精品文物,其中一半以上為國家一級文物。比如,于1988年出土自六合羊角山新石器時代遺址的獸首人身紋陶紡輪,出土于中山門外孝衛街宋墓的宋代木尺,出土于南京象山7號墓東晉貴族瑯琊王氏家族成員王廙的墓葬中的東晉金剛石指環,南京德基廣場工地出土的紀年款南朝金銅造像,全球最大的鎏金七寶阿育王塔,明代黔國公沐斌繼室夫人梅妙燈墓出土的嵌寶石蓮紋金盒等展品,都可以線上一探究竟。
江西省文化和旅游廳通過江西省可移動文物普查數據資源服務平臺“博物江西”,集中展示全省各文博單位藏品和展覽等資源信息,實現了“暢游虛擬博覽精粹”,讓大家足不出戶在家中“網上云游”。其中,江西省博物館利用本館特色展品以數字展覽、數字導覽、電子書、廣播等線上展示方式呈現“驚世大發現——南昌漢代海昏侯國考古成果展”“飾代風華——江西省博物館藏明代王妃首飾精品展”“瑞鼠吐寶——庚子鼠年新春生肖文物圖片聯展”及“紅色搖籃”等展覽和相關重點展品。
“大象中原——河南古代文明瑰寶展”是河南博物院的常設展覽,展覽突出展現了中原這一中國古代歷史上中心地域的文明進程與重要成果中的代表性文物,再現了中原文明的延續性、包容性和影響力。展覽分為四個專題陳列,分別為:“文明曙光——原始社會時期”“定鼎中原——夏商周春秋戰國時期”“有容乃大——兩漢魏晉南北朝時期”“盛世繁華——隋唐宋元明清時期”,整體展現了煜煜生輝的古老中原文化。
由安陽博物館推出的甲骨文發現120年系列展——“圖說甲骨文發現史”和“商代文字展”是安陽博物館紀念甲骨文發現120周年系列展覽活動。其中“商代文字展”包括6個部分:第一部分介紹了文字起源。第二至五部分從甲骨文字、陶器文字、銅器銘文等方面介紹了商代不同載體上的書辭、刻辭。第六部分介紹了漢隸成為文字主體的發展歷程。展覽共展出140多件實物,其中商代甲骨40件、陶文36件、朱書玉璋11件、銅器33件、青銅璽印3件,以及戰國陶器2件,秦代封泥10件、銅器1件,西漢銘文磚1件、西漢銅器1件,以及各類器物拓片20余件,不僅展示了商代文字原始風貌,還傳遞出許多學術知識。
除此以外,敦煌研究院的“敦煌藝術走出莫高窟”數字敦煌展,中國印刷博物館的“筆墨書香——中國印刷文化探源專題展”,天津國家海洋博物館的“海洋與天文”,運城博物館的“山河相依 窯火輝映——晉陜豫冀宋遼金元陶瓷特展”,天津自然博物館的“絲綢之路自然大觀”,鄭州博物館的“阿富汗國家寶藏展”,二里頭夏都遺址博物館的“鼎盛中華——中國鼎文化特展”等線上展覽也非常值得一看。在展覽之外,大家還可以線上參觀數字博物館和各地博物館大數據平臺。
“阿富汗國家寶藏展”
附:博物館網上展覽資源(部分)
網上展覽
1.賀歲迎祥——紫禁城里過大年
故宮博物院
https://www.dpm.org.cn/subject_hesui/guide.html
2. 歸來——意大利返還中國流失文物展
中國國家博物館
https://webapp.vizen.cn/backhome/index.html
3.禮贊共和國——慶祝新中國成立70周年科技成就科普展
中國科學技術館
https://xnmy.cdstm.cn/vr/70372/
4.壁上乾坤——山西北朝墓葬壁畫藝術展
山西博物院
http://quanjing.artron.net/scene/ynpXBuG3QXSFKzwnqHBZ4tNQABCWMfOC/bishangqiankun/tour.html
5.“盛世典藏——沈陽故宮博物院藏國寶展”
沈陽故宮博物院
https://www.superhz.com/ty/SY360/ssdc2/tour.html
6.南京大屠殺史實展
侵華日軍南京大屠殺遇難同胞紀念館
http://www.19371213.com.cn/exhibition/njdtsssz/
7.源·流:99件文物里的南京
南京市博物總館
http://beyond.3dnest.cn/play/?m=90685696_VZS6_b6f9&from=singlemessage
8.越王時代·吳越楚文物精粹展
浙江省博物館
https://www.zjmuex.com/Exhibition/DExhibitionDetails/SZZL?nid=550
9.人民共和國從這里走來——中華蘇維埃共和國歷史
瑞金中央革命根據地紀念館
https://720yun.com/t/z4mno4yx2li58gaesr
10.驚世大發現——南昌漢代海昏侯國考古成果展
江西省博物館
http://www.jxmuseum.cn/xnbz/html/xnbz.html
11.大哉孔子展
孔子博物館
http://quanjing.artron.net/scene/LfTt638kxEFs4xlBfwgaw4SpmZLZndt8/kozhibowuguanchangshezhan/tour.html?from=singlemessage
12.中國文字發展史
中國文字博物館
http://www.wzbwg.com/Szzb
13. 巧手奪天工:傳統工藝的現代新生
成都博物館
http://cdm360.cdmuseum.com/cdmu/statictour/cdmu/8fh87vu09z337o1/index.html
14. 帝國殷昌 齊美成康——漢陽陵出土文物精品展
漢景帝陽陵博物院
https://720yun.com/t/wzpng6p95q0n7geesq?from=singlemessage&isappinstalled=0&pano_id=kt4bZcch6orv828s
15.甘肅絲綢之路文明
甘肅省博物館
http://www.gansumuseum.com/xncg/flash_sczl/index.html
16.“敦煌藝術走出莫高窟”數字敦煌展
敦煌研究院
http://public.dha.ac.cn/quanjing/shuzidunhuang/tour.html
17.西域歷史的記憶
新疆維吾爾自治區博物館
https://720yun.com/t/fdvkuw8mspe
18.清代女性生活掠影展“美人如花隔云端”
北京藝術博物館
http://www.bjartmuseum.com/virtual/index.htm
19.大象中原——河南古代文明瑰寶展
河南博物院
http://202.102.241.210/clzl/node_19413.htm
20.甲骨文發現120年系列展——“圖說甲骨文發現史”“商代文字展”
安陽博物館
http://www.aybwg.org/anbozhanlan/list.php?catid=39
21. 律動世界——化學元素周期表專題展
中國科學技術館
22. 筆墨書香——中國印刷文化探源專題展
中國印刷博物館
http://www.printingmuseum.cn/Collection/List/FolkCustomExhibition#comehere
23. 海洋與天文
天津國家海洋博物館
https://www.hymuseum.org.cn/exb?state=about
數字博物館
1.全景故宮
故宮博物院
http://webapp.vizen.cn/gugong_app_pc/index.html
2.軍事博物館歷代軍事陳列數字展館
中國人民革命軍事博物館
http://3d.jb.mil.cn/lidai/index.html
3.中國國家博物館
http://www.chnmuseum.cn/Portals/0/web/vr/
4.首都博物館網上體驗館
首都博物館
http://www.capitalmuseum.org.cn/zlxx/wstyg.htm
5. 文化和旅游部恭王府博物館虛擬游覽
文化和旅游部恭王府博物館
http://www.pgm.org.cn/vr/tmp002/#d3k
6.戰國雄風——古中山國
河北博物館
http://webapp.vizen.cn/album_pano/v1.0.47/index.html?albumId=A0494D82F3EC436CB5F58CF7F89A3195&lang=&vrflag=on
7.內蒙古自然博物館數字展廳
內蒙古自然博物館
http://wechat.immnh.org.cn/wxnmg/virualvrs.html?from=singlemessage
8.中共一大會址紀念館數字展示
中共一大會址紀念館
http://www.zgyd1921.com/zgyd/n4/n75/n76/ulai532.html
9.南通博物苑基本陳列虛擬展
南通博物苑
http://www.ntmuseum.com/view/view_cl1/index.html
10.揚州博物館數字博物館
揚州博物館
http://3vking.com/yangbo/vtour/tour.html
11.實境蘇州博物館
蘇州博物館
http://webapp.vizen.cn/museum_pano_app_pc/index.html?appId=5998
12.辛亥革命博物館云端展覽
辛亥革命博物館
https://sosomap.cn/api/view/pano/xhgmbwg
13.西漢南越王博物館三維全景瀏覽
西漢南越王博物館
https://www.gznywmuseum.org/XiHanNanYueWang_20171107/release/index.html
14.陜西古代文明
陜西歷史博物館
http://www.qinling360.com/sxlsbwgxin/yiting/
15.家園·生命
天津自然博物館
https://www.tjnhm.com/TianJinZiRanGuan/index.html
16. 地球·生物·人類——重慶自然博物館基本陳列
重慶自然博物館
https://www.cmnh.org.cn/zrbwg/index.html
17. 發現·中山國
成都金沙遺址博物館
http://www.jinshasitemuseum.com/Exhibition/ExhibitionBasicDisplay
18.云南省博物館數字博物館
云南省博物館
http://www.ynmuseum.org/wszl/
19.南京博物院虛擬展覽
南京博物院
http://www.njmuseum.com/zh/numberIndex?id=4
各地博物館大數據平臺
1.北京市博物館大數據平臺(北京市文物局)
2.吉林省數字博物館在線服務平臺(吉林省文物局)
3. “博物江西”可移動文物普查數據資源服務平臺(江西省文物局)
4.浙江省博物館公共服務綜合平臺(浙江省文物局)
5.河北數字博物館公共服務平臺(河北省文物局)
6.陜西數字博物館(陜西省文物局)
7.陜西互聯網+文物教育平臺(陜西省博物館教育聯盟)
8.蘇州市文物資源大數據平臺(蘇州市文物局)
作者 | 何安安
編輯 | 羅東
校對 | 李世輝
硅谷觀察之大數據篇的【上】篇中,我把硅谷地區大數據生長狀況基本梳理了一個相對完整的形狀出來。有朋友看了【下】的預告后在微博上給我留言說,聽說下篇要介紹一些公司的大數據部門情況,問能不能點名加個 Google 尤其是 Google Maps,因為特別想知道這個世界上最大的搜索引擎以及每天必不可少的出行神器是怎么當一個挖掘機的。
于是,上周我又去了 Google 采訪。本篇將一共呈現硅谷四大不同類型的公司如何玩轉大數據,其中包括了著名 FLAG 中的三家(Apple 在大數據這塊來說表現并不突出)。
本篇內容來自對 Evernote AI 負責人 Zeesha Currimbhoy、LinkedIn 大數據部門資深總監 Simon Zhang、前 Facebook 基礎架構工程師 Ashish Thusoo 和 Google 大數據部門一線工程師及 Google Maps 相關負責人的專訪。Enjoy~~
Evernote:今年新建AI部門劍指深度學習
Evernote 的全球大會上,CEO Phil Libin 提到,Evernote 的一個重要方向就是“讓 Evernote 變成一個強大的大腦”。要實現這個目標,就不得不提他們剛剛整合改組的 Augmented Intelligence 團隊(以下簡稱 AI team)。我在斯坦福約到 AI team 的 manager Zeesha Currimbhoy,在此分析一下從她那里得到的一手資料。
今年早些時候,這個 2 歲的數據處理團隊改組為由 Zeesha 帶領的 Augmented Intelligence team,總共十人不到,很低調,平日幾乎聽不到聲響。他們究竟在做什么?
與我們常說的 AI(artificial Intelligence)不同,Evernote 的團隊名叫做 Augmented Intelligence,通常情況下簡稱為 IA。
Zeesha 顯然是這個團隊里元老級的人物:“我是在 2012 年加入 Evernote 的,直接加入到了當時剛剛建立的數據處理團隊,這也就是現在 AI team 的雛形。我們最開始的項目都是簡單易行的小項目,比如按照你的個人打字方式來優化用戶的輸入體驗。”
傳統意義上的 AI 指的是通過大量數據和算法讓機器學會分析并作出決定。而這里講到 IA 則是讓電腦進行一定量的運算,而終極目的是以之武裝人腦,讓人來更好的做決定。這兩個概念在具體實施中自然有不少相通之處,但是其出發點卻是完全不同的。
這個區別也是 Evernote AI team 的亮點所在。作為一個筆記記錄工具,Evernote 與 Google 之類的搜索引擎相比,最大的區別就是它非常的個人化。用戶所儲存的筆記、網站鏈接、照片、視頻等都是他思維方式和關注點的體現。
Zeesha 小組的初衷便是,通過分析用戶儲存的筆記來學習其思維方式,然后以相同的模式從第三方數據庫(也就是互聯網上的各種開源信息)抽取信息推送給用戶,從而達到幫助用戶思考的過程。從這個意義上講,Zeesha 版的未來 Evernote 更像是一個大腦的超級外掛,為人腦提供各種強大的可理解的數據支持。
目前整個團隊的切入點是很小而專注的。
“我們不僅僅是幫助用戶做搜索,更重要的是在正確的時間給用戶推送正確的信息。”
實現這個目標的第一步就是給用戶自己的筆記分類,找到關聯點。今年早些時候,Evernote 已經在 Mac 的英文版上實行了一項叫做“Descriptive Search”的功能。用戶可以直接描述想要搜索的條目,Evernote 就會自動返回所有相關信息。
例如,用戶可以直接搜索“2012 后在布拉格的所有圖片”,或者“所有素食菜單”。不管用戶的筆記是怎樣分類的,Decriptive Search 都可以搜索到相關的信息并且避免返回過大范圍的數據。而這還僅僅是 AI team 長期目標的開始,這個團隊將在此基礎上開發一系列智能化的產品。
不用說,這樣一個新創團隊自然也面臨這諸多方面的挑戰。當下一個比較重要的技術難點就是 Evernote 用戶的數據量。雖然 Evernote 的用戶量已經達到了一億,但是由于整個團隊的關注點在個人化分析,外加隱私保護等諸多原因,AI team 并沒有做跨用戶的數據分析。
這樣做的結果就是團隊需要分析一億組各不相同的小數據組。比如,假設我只在 Evernote 上面存了 10 個筆記,那 Evernote 也應該能夠通過這些少量的數據來分析出有效結果。當然,這些技術的直接結果是用戶用 Evernote 越多,得到的個性化用戶體驗就越好。長期來講,也是一個可以增加用戶黏性的特點。
不過 Zeesha 也坦言:“的確,我們都知道沒有大數據就沒有所謂的智能分析。但是我們現在所做的正是在這樣的前提下來找到新的合適的算法。”她并沒有深入去講目前團隊所用的是什么思路,但是考慮到這個領域一時還沒有很成功的先例,我們有理由期待在 Zeesha 帶領下的 Evernote AI team 在近期做出一些有意思的成果。
Facebook:大數據主要用于外部廣告精準投放和內部交流
Facebook 有一個超過 30 人的團隊花了近 4 年的時間才建立了 Facebook 的數據處理平臺。如今,Facebook 仍需要超過 100 名工程師來支持這個平臺的日常運行。可想而知,光是大數據分析的基礎設施就已經是一個耗時耗力的項目了。
Facebook 的一大價值就在于其超過 13.5 億活躍用戶每天發布的數據。而其大數據部門經過七八年的摸索,才在 2013 年把部門的 key foundation 定位成廣告的精準投放,開始建了一整套自己的數據處理系統和團隊。并進行了一系列配套的收購活動,比如買下世界第二大廣告平臺 Atlas。
據前 Facebook Data Infrastructure Manager Ashish Thusoo 介紹,Facebook 的數據處理平臺是一個 self-service, self-managing 的平臺,管理著超過 1 Exabyte 的數據。公司內部的各個部門可以直接看到處理過的實時數據,并根據需求進一步分析。
目前公司超過 30% 的團隊,包括工程師、Product Managers、Business Analysts 等多個職位人群每個月都一定會使用這項服務。這個數據處理平臺的建立讓各個不同部門之間可以通過數據容易地交流,明顯改變了公司的運行方式。
追溯歷史,Facebook 最早有大數據的雛形是在 2005 年,當時是小扎克親自做的。方法很簡單:用 Memcache 和 MySQL 進行數據存儲和管理。
很快 bug 就顯現了,用戶量帶來數據的急速增大,使用 Memcache 和 MySQL 對 Facebook 的快速開發生命周期(改變 - 修復 - 發布)帶來了阻礙,系統同步不一致的情況經常發生。基于這個問題的解決方案是每秒 100 萬讀操作和幾百萬寫操作的 TAO(“The Associations and Objects”) 分布式數據庫,主要解決特定資源過量訪問時服務器掛掉的 bug。
小扎克在 2013 年第一季度戰略時提到的最重點就是公司的大數據方向,還特別提出不對盈利做過多需求,而是要求基于大數據來做好以下三個功能:
LinkedIn:大數據如何直接支持銷售和變現賺錢
LinkedIn 大數據部門的一個重要功用是分析挖掘網站上巨大的用戶和雇主信息,并直接用來支持銷售并變現。其最核心團隊商業分析團隊的總監 Simon Zhang 說,現在國內大家都在討論云,討論云計算,討論大數據,討論大數據平臺,但很少有人講:我如何用數據產生更多價值,通俗點講,直接賺到錢。
但這個問題很重要,因為關系到直接收入。四年半前 LinkedIn 內所有用戶的簡歷里抽取出來大概有 300 萬公司信息,作為銷售人員不可能給每個公司都打電話,所以問題來了:哪家公司應該打?打了后會是個有用的 call?
銷售們去問 Simon,他說只有通過數據分析。而這個問題的答案在沒有大數據部門之前這些決策都是拍腦袋想象的。
Simon 和當時部門僅有的另外三個同事寫出了一個模型后發現:真正買 LinkedIn 服務的人,在決定的那個環節上,其實是一線的產品經理,和用 LinkedIn 在上面獵聘的那些人。但他們做決策后是上面的老板簽字,這是一個迷惑項。數據分析結果出來后,他們銷售人員改變投放策略,把目標群體放在這些中層的管理人身上,銷售轉化率瞬間增加了三倍。
那時 LinkedIn 才 500 個人,Simon 一個人支持 200 名銷售人員。他當時預測谷歌要花 10 個 Million 美金在獵聘這一塊上,銷售人員說,Simon,這是不可能的事。
“但是數據就是這么顯示的,只有可能多不會少。我意識到,一定要流程化這個步驟。”
今天 LinkedIn 的“獵頭”這塊業務占據了總收入的 60%。是怎么在四年里發展起來的,他透露當時建造這個模型有以下這么幾個步驟:
這是 LinkedIn 大數據部門最早做的事情。
Simon 告訴36氪,公司內部從大數據分析這一個基本項上,可以不斷迭代出新產品線 LinkedIn 的三大商業模型是人才解決方案、市場營銷解決方案和付費訂閱,也是我們傳統的三大收入支柱。事實上我們還有一個,也就是第四個商業模型,叫“銷售解決方案”,已經在今年 7 月底上線。
這是賣給企業級用戶的。回到剛才銷售例子,LinkedIn 大數據系統是一個牛逼的模型,只需要改動里面一下關鍵字,或者一個參數,就可以變成另一個產品。“我們希望能幫到企業級用戶,讓他們在最快的速度里知道誰會想買你的東西。”
雖然這第四個商業模式目前看來對收入的貢獻還不多,只占 1%,但 anyway 有著無限的想象空間,公司內部對這個產品期待很高。“我還不能告訴你它的增長率,但這方向代表的是趨勢,Linkedin 的 B2B 是一個不用懷疑的大的趨勢。”Simon 說。
Google:一個閉環的大數據生態圈
作為世界上最大的搜索引擎,Google 和大數據的關系又是怎樣的呢?感謝微博上留言的朋友,這可確實是一個很有意思的議題。
Google 在大數據方面的基礎產品最早是 2003 年發布的第一個大規模商用分布式文件系統 GFS(Google File System),主要由 MapReduce 和 Big Table 這兩部分組成。前者是用于大數據并行計算的軟件架構,后者則被認為是現代 NOSQL 數據庫的鼻祖。
GFS 為大數據的計算實現提供了可能,現在涌現出的各種文件系統和 NOSQL 數據庫不可否認的都受到 Google 這些早期項目的影響。
隨后 2004 和 2006 年分別發布的 Map Reduce 和 BigTable,奠定了 Google 三大大數據產品基石。這三個產品的發布都是創始人謝爾蓋 - 布林和拉里 - 佩奇主導的,這兩人都是斯坦福大學的博士,科研的力量滲透到工業界,總是一件很美妙的事。
2011 年,Google 推出了基于 Google 基礎架構為客戶提供大數據的查詢服務和存儲服務的 BigQuery,有點類似于 Amazon 的 AWS,雖然目前從市場占有率上看與 AWS 還不在一個數量級,但價格體系更有優勢。Google 通過這個迎上了互聯網公司拼服務的風潮,讓多家第三方服務中集成了 BigQuery 可視化查詢工具。搶占了大數據存儲和分析的市場。
BigQuery 和 GAE(Google App Engine)等 Google 自有業務服務器構建了一個大數據生態圈,程序創建,數據收集,數據處理和數據分析等形成了閉環。
再來看 Google 的產品線,搜索,廣告,地圖,圖像,音樂,視頻這些,都是要靠大數據來支撐,根據不同種類數據建立模型進行優化來提升用戶體驗提升市場占有率的。
單獨說一下 Google maps,這個全球在移動地圖市場擁有超過 40% 的市場占有率的產品,也是美國這邊的出行神器。它幾乎標示了全球有互聯網覆蓋的每個角落,對建筑物的 3D 視覺處理也早在去年就完成,這個數據處理的工作量可能是目前最大的了,但這也僅限于數據集中的層面。真正的數據分析和挖掘體現在:輸入一個地點時,最近被最多用戶采用的路徑會被最先推薦給用戶。
Google 還把 Google+,Panoramio 和其他 Google 云平臺的圖片進行了標記和處理,將圖片內容和地理位置信息地結合在一起,圖像識別和社交系統評分處理后,Google 能夠把質量比較高的的圖片推送給用戶,優化了用戶看地圖時的視覺感受。
大數據為 Google 帶來了豐厚的利潤,比如在美國你一旦上網就能感覺到時無處不在的 Google 廣告(AdSense)。當然,它是一把雙刃劍,給站長們帶來收入的同時,但如何平衡用戶隱私的問題,是大數據處理需要克服的又一個技術難關,或許還需要互聯網秩序的進一步完善去支持。
像在【上】中所說,除 Facebook 等幾個很領先的公司外,大部分公司要么還沒有能力自行處理數據的能力。最后附上兩個例子,想說這邊的大公司沒有獨立大數據部門也是正常的,采取外包合作是普遍現象:
Pinterest:
Pinterest 曾嘗試自行通過 Amazon EMR 建立數據處理平臺,但是因為其穩定性無法控制和數據量增長過快的原因,最終決定改為使用 Qubole 提供的服務。在 Qubole 這個第三方平臺上,Pinterest 有能力處理其 0.7 億用戶每天所產生的海量數據,并且能夠完成包括 ETL、搜索、ad hoc query 等不同種類的數據處理方式。盡管 Pinterest 也是一個技術性公司,也有足夠優秀的工程師來建立數據處理團隊,他們依然選擇了 Qubole 這樣的專業團隊來完成數據處理服務。
Nike:
不僅僅硅谷的互聯網公司,眾多傳統企業也逐漸開始使用大數據相關技術。一個典型的例子就是 Nike。Nike 從 2012 年起與 API 服務公司 Apigee 合作,一方面,他們通過 Apigee 的 API 完善公司內部的數據管理系統,讓各個部門的數據進行整合,使得公司內部運行更加順暢、有效率。另一方面,他們也通過 API 開發 Nike Fuel Band 相關的移動產品。更是在 2014 年開啟了 Nike+ FuelLab 項目,開放了相關 API,使得眾多的開放者可以利用 Nike 所收集的大量數據開發數據分析產品,成功地連接了 Nike 傳統的零售業務,新的科技開發,和大數據價值。
[36氪原創文章,作者: 曾小蘇 Clara]