目前,Facebook的月活躍用戶數已經達到 17.9 億,11月它的市值達到3456.4億美元。雄心勃勃的Facebook對于未來10年有一個宏大的計劃:連接世界、人工智能(AI)、虛擬現實與增強現實。人工智能,是這個計劃的核心。筆者將從Facebook為何開發AI,成立兩個AI實驗室(FAIR和AML),傳播免費的AI技術,以及Facebook的AI主攻方向四個方面詳細闡述其在AI方面的部署與動態。
社交網站Facebook的創始人——年輕有為的馬克扎克伯格是個雄心滿懷的夢想家。
他是哈佛大學計算機和心理學專業的輟學生,在哈佛時代,扎克伯格就被譽為“程序神人”。2004年,他創立了Facebook,當時的目的很簡單,為了在網絡上將人與人之間連接起來。Facebook起初只在哈佛校內使用,后來又推廣到斯坦福、哥倫比亞等大學,很快Facebook就越來越開放,據稱在2004年年底,用戶數量已經達到100萬。為了專心經營Facebook,扎克伯格選擇了退學。哈佛少了一個天才學生,世界多了一個偉大的社交網站領袖。
為什么用偉大來形容扎克伯格?過分嗎?筆者認為并不過分。因為年輕的扎克伯格真的做到了他創建網站的目的,通過簡單的方式,跨越距離和時間的障礙,將世界上的人與人連接起來。
根據上個月Facebook發布的2016年Q3季度財報顯示,Facebook 該季度月活躍用戶數已經達到 17.9 億——根據聯合國人口司2016年10月26日的數據,地球上生活著72.6億人,也就是說,幾乎每4個人中就有1個是Facebook的活躍用戶,Facebook現在連接著世界上近四分之一的人口,未來這個數字應該還會增長。(由于國情的原因,筆者曾經的Facebook賬號現在也無法登陸啦!目前中國這個十幾億的人口大國不對它開放。但這并不會降低Facebook在世界其他地區的影響力。這樣一個成功的公司是值得我們研究和借鑒的。)
一、遠見
年輕的扎克伯格敢想敢干。2016年4月13日,在Facebook F8 年度開發者大會上,扎克伯格正式公布了 Facebook 未來發展的 10 年規劃。
從這張規劃圖中,我們可以看到扎克伯格設計的發展路線:
未來 3 年:構建 Facebook 生態系統(ecosystems);
未來 3 -5 年:繼續視頻、Messenger、搜索、WhatsApp、群組和Instagram等產品的開發;
未來 5 到 10 年:三大方向——
1、連接世界:主要致力于連接全球近40億無網可上的人。簡單來說,就是想讓全世界的人都可以上網,并且想讓他們上網后都使用Facebook進行社交聯絡;
2、人工智能(AI):解決部分核心問題,構建真正智能的計算機系統,這也是Facebook連接世界的重要技術支撐;
3、虛擬現實與增強現實:通過技術讓遠隔千里的人們也能感覺身處一處。
在今年8月15日《福布斯》網站發布的文章《Facebook's 10-Year Plan: Connectivity, Artificial Intelligence, And Virtual Reality(Facebook的10年計劃:連接世界、人工智能和虛擬現實)》中,Peter High采訪了Facebook首席技術官(CTO)Mike Schroepfer。文中,Peter問到Facebook未來10年的三大方向是如何選出來的,Mike說,“很多都直接來自于扎克伯格,”“源自讓世界變得更加開放、更加互聯的使命。”
的確,扎克伯格的遠見正源于這種極為開放和互聯的思想。
2004年,扎克伯格白手起家,Facebook從大學宿舍迅速走向世界,到上個月,根據礪石發布的“全球企業市值100強(11月版)”,Facebook的市值已達到3456.4億美元。根據Facebook2016年Q3季度財報,除了月活躍用戶數已達到17.9 億的巨大數字,該季度日活躍用戶數從上個季度的 11.3 億增至 11.8億,Facebook 移動端月活躍用戶數達 16.6 億;另外,該季度移動端用戶達到10.55 億,再創一個10 億用戶的里程碑。在該季度財報電話會議上,扎克伯格還宣布了Facebook發起的Internet.org 項目已經幫助全球 4000 萬人用上了互聯網,高于一年前的 1500 萬。在這一系列巨大成就之下,反觀Facebook的未來10計劃,一切又似乎剛剛開始。
去年10月,扎克伯格在清華經管學院的演講中提到,自己創立Facebook最重要的是找到人與人連接的方法。他說,十年前,我們的目標是連接十億人。當達到了這個目標,我們開始明白十億只是一個數字,我們真正的目標是連接世界上的每個人。
去年12月,扎克伯格喜得一女,夫婦二人在給女兒的長信中承諾,將在有生之年把扎克伯格持有的99%的Facebook股份捐出,用以發展人類潛能和促進平等。
為了擴大互聯網的覆蓋范圍,成立Internet.org項目時,扎克伯格告訴董事會,這個項目要花費十億多美元。他說,我不知道這個項目怎么賺錢,但我知道,連接人是我們的使命。我們必須向前看,如果我們幫助人們,未來,我們也會獲益。
在這個連接全世界的計劃中,Facebook已經與多家移動運營商合作,同時,它還在建造無人機和衛星,向傳統方式無法提供網絡服務的偏遠山區提供上網幫助,最終,Facebook希望在商業航班航道以上的高空部署無人機艦隊和衛星,向地球上大部分地區提供網絡服務。
這一系列龐大的、遍布全球的基礎設施建設,只是Facebook十年規劃的第一步。能夠使Facebook更加迅猛地展翅翱翔的,是第二步,也是核心——AI。
二、征程
Facebook為何要開發AI ?
一次在線問答活動中,扎克伯格在回答用戶提問時闡述了Facebook為什么要做AI。他說,“我們研究AI,是因為我們認為更加智能的服務用處更大!
扎克伯格認為AI能夠幫助Facebook更加了解用戶需求!獙τ谏缃痪W站來說,了解每一個用戶的需求,提供個性化服務,是非常重要的,這樣可以增加用戶黏性,既為用戶提供良好的個人體驗,實現運營網站的初衷,又能維持網站高額的廣告收入。
不僅如此,扎克伯格還希望Facebook能成為全球AI的中心。他說,這項技術能影響所有人與人之間的交互方式,也會對Instagram、WhatsApp和Messenger等一切社交工具帶來變革。Facebook工程學副總裁Jay Parikh曾表示,在萬物互聯的時代,“世界上發生的一切所產生的數據都會大幅增加,10倍、20倍甚至50倍,當前的傳統模式和系統都將無法支撐。這需要真正的AI來協助處理!爆F在,AI技術正在使計算機變得更加高效,并使我們能夠在前所未見的超大尺度上建立各種系統。從某種程度上說,扎克伯格認為AI可以成為Facebook駕馭萬物互聯時代的重要助手。
成立兩個AI實驗室
為了實現這個目標,Facebook在開發AI方面,采取了與其他科技巨頭并不相同的方式——成立了兩個相對獨立的AI實驗室開展研究:一個是Facebook’s Artificial Intelligence Research(人工智能研究實驗室),簡稱 FAIR,由AI領域最有成就科學家之一的Yann LeCun領導;一個是Applied Machine Learning(應用機器學習部門),簡稱 AML,由經驗非常豐富的機器學習領域的專家Joaquin Candela領導。這兩個部門有著不同的分工:FAIR主要致力于AI基礎科學和長期項目的研究,AML 則主要從事將AI科研成果應用到產品中的工作。兩個部門互相獨立,LeCun 和 Candela 都直接向Facebook 的 CTO匯報工作;同時兩個部門的辦公場所也緊緊挨著,彼此之間會有人員的流動和項目的合作。
之所以建立這樣的研究系統,筆者認為,扎克伯格有著明確的考慮:一方面,他想支持AI科學長期發展——不少科技公司在建立實驗室方面都有失敗案例,或是科研成果沒有真正得到實際應用,或是過于追求眼前效益導致科研人員無法集中精力研發,科學家需要更加寬松、更少限制的研究環境(例如,如果將科學家放入工程師團隊中,就很容易限制科學家的創造力),因此Facebook通過FAIR吸引科學家的加入,并允許其70%的工作進行長期科研,30%的工作完成短期的產品開發。另一方面,為了不斷應對日益擴大的用戶群和不斷提高產品、服務的性能和質量,以及開發更多的新產品,Facebook也需要大力推動先進的AI技術在產品上的最大化應用,因此他們成立了AML作為科研成果與產品開發之間的粘合劑。
LeCun現在仍是紐約大學計算機科學的兼職教授,他是深度學習的分支——卷積神經網絡(convolutional neural nets)的奠基人之一。LeCun加入Facebook并非偶然,在價值觀上,他與扎克伯格都有一點極其相似:他們都堅信,成功的關鍵在于秉承開放的理念。這個開放的理念給Facebook帶來了大量的人才也收獲了豐富的成果。Facebook的CTO Mike Schroepfer就曾公開表示,“研究與科學都需要盡可能地在開放環境中完成!痹贏I研發的路上,Facebook到目前為止都在踐行這樣一個理念:傳播免費的AI技術。“公布AI技術能夠讓它更加普及,”Schroepfer強調,Facebook認為技術共享與獨自開發相比能讓所有人更快地受益,LeCun也一直認為,沒有必要去發明已經存在的技術,共享新技術可以節約更多的時間探索新技術。
傳播免費的AI技術——開源
在Facebook目前已經開源的AI清單中,既包括軟件,也包括硬件。
先說說它的硬件開源。去年年底,Facebook宣布開源它的AI硬件平臺Big Sur。Big Sur的設計特點是主板易于維修,帶有8個NVIDIA(英偉達)的Tesla M40 GPU(GPU是用于深度學習算法的微處理器,每個GPU包含數十個功耗300瓦的芯片,是專為執行復雜的數學和幾何計算而設計的)。Big Sur可以操控計算機,以類似人腦神經網絡的方式理解及使用數據。通過Big Sur,Facebook希望使AI技術能夠閱讀新聞、回答問題,以及操作游戲,免去人工的介入。開源硬件平臺的好處不僅在于可以加速AI技術的發展,對Facebook來說,還可以快速在業界建立自己的硬件標準,攤平成本,提高其普及率。
軟件方面,雖然Facebook涉足AI領域沒有幾年的時間,但短短數年中其開源項目卻越來越多,從中,我們也可以看到Facebook巨大的實力和更大的潛力。由于篇幅所限,在此僅舉幾例。
2015年1月,FAIR開源了一系列軟件庫,該軟件庫在 Facebook 被稱作模塊。用它們替代機器學習領域常用的Torch 的默認模塊,可在更短時間內訓練更大規模的神經網絡模型。Facebook的模塊一部分可用于訓練大型計算機視覺系統,一部分模塊可以用來訓練不同類型數據的模型。部分模塊還把大型卷積神經網絡模型的訓練速度提升了23.5 倍。
2016年6月,Facebook開源基于Torch的深度學習框架Torchnet。近年來有關機器學習的框架層出不窮,比較著名的有Caffe、Theano、Torch等。主流的機器學習框架Torch不能執行抽象和公式化(boilerplate)的代碼實現,因此研究人員不得不重復執行一些算法的實驗。Facebook在Torch的基礎上,提供了一種可抽象和公式化邏輯的開源框架Torchnet,可以模塊化編程和代碼重復使用,從而減少Bug,并直接使用異步數據加載和高效多GPU運算。Torchnet 是用 Lua 腳本語言寫成的(Lua由標準C編寫而成,幾乎在所有操作系統和平臺上都可以編譯和運行),易于集成安裝于任何架構中。它對于想要訓練大規模深度學習系統的機構來說,可以大幅節省I/O的成本。
2016年8月,Facebook開源文本分類專用工具fastText。fastText是一款快速文本分類器,提供簡單高效的文本分類和表征學習的方法,Facebook稱fastText比其他學習方法要快得多,能夠訓練模型在使用標準多核CPU的情況下10分鐘內處理超過10億個詞匯,與深度模型對比,fastText能將訓練時間由數天縮短到幾秒鐘。此外,通過利用語言的形態結構,fastText可以支持多國語言,包括英語、德語、西班牙語、法語及捷克語。
同樣在8月,Facebook又開源了三款機器視覺工具——DeepMask 分割構架、SharpMask 分割精煉模塊和MultiPathNet 的代碼。人們看一張圖片時,可以將物體識別到最后一個像素。FAIR致力于將機器視覺推進到新階段——在像素的層面上理解圖像和物體。FAIR稱,最近正在設計能夠識別和分割圖像中每個物體的技術,它將帶來很多全新的應用,推動FAIR進步的最主要的新算法是 DeepMask 分割構架和SharpMask 分割精煉模塊。它們使FAIR 的機器視覺系統可以探測并精確勾畫出圖片中所有物體的輪廓。在識別過程的最后階段,FAIR使用的是一個特定的卷積網絡 MultiPathNet,它可以標記出每個物體掩碼(mask)所含有的物體類型(例如人、狗、羊)。Facebook的此次開源是希望它能幫助機器視覺領域快速發展。
Facebook的AI主攻方向
今年11月3日,Business Insider發表了對Yann LeCun進行的專訪,訪問中,LeCun介紹了FAIR的主要任務是推進AI科學與技術,通過實驗發展AI技術在各領域的應用,例如計算機視覺、對話系統、虛擬助手、語音識別、自然語言識別等等。他也談到了AML的主要方向是將科學轉化為技術,通過構建應用平臺,將AI服務變為產品團隊可以使用的東西。
LeCun提到了一個非常重要的問題,也是Facebook目前面臨的最大問題,時刻需要解決的問題——就是將最好的內容向呈現給每個用戶。為了解決這個問題,Facebook必須理解內容,理解每個用戶,然后把內容和對它感興趣的人相連接。只有做到這一點,人們才會選擇Facebook的News Feed。
談到News Feed,它可以說是Facebook的功臣。10年前,Facebook上線了這一功能,它是Facebook借助算法調整用戶打開其網頁后看到的一切內容,包括朋友的狀態更新、重要新聞推送等。10年間,這一功能為Facebook留下了大量用戶,人們使用該網站的次數和時間也都大幅提升。它不僅改變了歐美地區的新聞傳播方式,改變了社交媒體盈利模式,甚至影響了人們的在線行為習慣。當然,不得不說的是,在最近結束的美國大選季中,News Feed也被公認為極大地影響了選舉結果。(在筆者11月24日的作品《揭秘:臉書假新聞背后的真問題到底是什么》中,詳細分析了News Feed的假新聞問題,有興趣的讀者可以選擇閱讀。)
這個功臣所面臨的問題也恰恰涉及了AI對于Facebook的重要性問題——在解決News Feed的假新聞問題的舉措中,扎克伯格列出的第一點就是通過建立更好的技術系統,提高分辨錯誤信息的能力,在人們舉報前就檢測出錯誤信息。無疑,提高檢測技術需要更多地依靠AI,相信這也會成為Facebook的AI實驗室重點研究項目之一。如果不能很好地解決假新聞的問題,Facebook就會漸漸喪失用戶的信賴程度,這個問題也會成為用戶流失的一大隱患。
因此,對于Facebook的AI研究來說,不僅僅是將內容與用戶的興趣匹配,還要提前進行篩查,篩去假新聞和錯誤信息。難度不小。
作為FAIR的領導者,LeCun更多地考慮到AI發展的遠期目標,那就是建立一個真正的智能機器。它可以與人直接對話,回答任何問題,并對人們的生活提供幫助。這件事對當今的AI而言非常具有挑戰性。迎接這個挑戰,首要解決的是讓機器學會人類的常識。
因此,FAIR設立了一個目標:教會機器常識。讓機器能夠像嬰兒或動物那樣學習。LeCun表示,FAIR目前最大的項目是對話系統的自然語言理解,它也將成為Facebook智能語音助手的基礎。
去年,Facebook推出了自己的虛擬助手“M”。不過它目前還處于測試階段,它的主要功能設定為,用戶向 M 發送文字消息,它就能幫助購買商品、寄送禮物、預訂餐廳、安排旅行和約會等。目前支持M運行的并不是完全的AI,而是機器加人工的系統。通過AI對文本進行語義分析之外,還有一個用來訓練和監督AI系統的真人團隊。在測試階段,用戶不斷與 M 對話,其實就是和人工團隊一起,用信息喂養這個AI系統。
Facebook一直在想辦法讓機器人變得更加智能,為此,他們正在開發一個重要的項目:記憶網絡(memory network)。記憶網絡能夠將機器學習的算法,尤其是神經網絡,和工作記憶(working memory)結合起來,使聊天機器人能在給定的語境中存儲、檢索信息。今年,Facebook提出了一個新方法,關鍵值記憶網絡(key-value memory networks)。這個新方法不僅能使聊天機器人存儲相關的源數據,還能存儲用戶提問過的問題以及它所給出的答復。目前Facebook已經將記憶網絡應用在了M中。
CTO Mike Schroepfer曾把記憶稱作AI缺失的部分。FAIR的研究員,記憶網絡相關論文的作者Antoine Bordes則談到,他相信記憶網絡是構建能與人類自然交互的聊天機器人的關鍵。
除了這些研究成果,Facebook還有不少驚艷的AI產品。例如,用AI打造“人口地圖”積極普及互聯網。今年3月,扎克伯格稱,為開發出更精確的人口地圖,Facebook通過AI對156億張衛星圖片進行分析。地圖繪制完成后可以共享,這將有利于規劃中的能源、醫療及交通基礎設施的建設。
今年4月,Facebook在iOS平臺上線了一項新功能,iPhone用戶只要開啟輔助功能中的VoiceOver,在使用Facebook時,圖片內容就會被“讀”出來。這項功能可以幫助盲人或視力低下的用戶“看到”圖片。
11月,Facebook在手機 App 中測試了新的相機應用,可以實時在視頻中添加藝術元素,該技術被稱為“風格轉換”。它可以將一種藝術風格,例如梵高的畫作,加入普通的圖片或視頻中去。與諸如Prisma一類的應用不同的是,此前的類似應用都需要把用戶數據發送至數據中心,通過大型服務器進行處理。而Facebook最新開發的產品則不需這樣的往返過程,它的新程序Caffe2Go,是一個完整的深度學習系統,其架構已嵌入手機App中。通過將處理圖片和視頻的AI模型壓縮至1%的大小,Facebook已經能在iOS和安卓系統中高效運行深度學習網絡。速度上,在部分手機中能夠以不到50毫秒的速度完成AI任務的處理。
當然,Facebook的AI計劃并不僅限于此,筆者所做的只是窺其一角,為大家提供一些參考和借鑒。
關于人工智能,科學研究還有很多路要走,但是筆者相信,隨著技術的進步,這條路會越走越快。雖然對于人工智能的發展存在很多隱憂,但我們其實無法阻擋它飛速的腳步。我們可以做的,是通過各種力量、各種方式,盡量引導AI的研究在符合倫理和道德的范疇內發展,讓它更多地為人類提供服務。同時,各個國家也應當不斷普及新的科學技術,唯有如此,才能更多降低AI的迅速發展為就業以及其他方面帶來的負面影響。