這兩天Facebook、twitter等社交網(wǎng)絡(luò)上開始流傳Judea Pearl在NIPS 2017演講的照片: 社交網(wǎng)絡(luò)上很多人都被這張照片震驚了,紛紛表示,貝葉斯網(wǎng)絡(luò)之父、因人工智能概率方法和因果推理算法獲得2011年圖靈獎的Judea Pearl對著一個“幾乎空無一人的房間”做報告是NIPS上悲慘的一幕,這一天對機器學(xué)習(xí)而言是悲慘的一天。 Judea Pearl在UCLA的博士生Karthika Mohan將網(wǎng)上的消息告訴了Pearl,Pearl被社交網(wǎng)絡(luò)上人們的反應(yīng)逗笑了(amused by the reactions on social media)。 實際上,這張照片的拍攝者只是故意取了一個凸顯聽眾很少的視角。原本的報告廳可以容納幾百個聽眾,結(jié)果參加的有50-100人,因此某些區(qū)域聽眾很少,給了拍攝者進(jìn)行藝術(shù)加工的機會。 所以,事實上聽眾并沒有少到“幾乎空無一人”的程度,還是有幾十個聽眾的。而且,聽眾比預(yù)期的少,也有NIPS組織的問題。首先,當(dāng)時有多個講座同時進(jìn)行,分流了很多聽眾;其次,NIPS的應(yīng)用上并沒有標(biāo)明詳細(xì)信息,很多人根本不知道Judea Pearl會來做報告。 NIPS應(yīng)用中沒有演講者信息(圖片來源:latentjasper的推特) 既然上面那張照片是藝術(shù)加工的產(chǎn)物,那么下面這一張也有點可疑: 攝影者取景的角度,給人一種Pearl很落寞的感覺。實際上,老爺子可能只是演講完了坐一會休息一下而已,可能是在思考某個問題。 事實上,Pearl老爺子本人很淡定。Karthika Mohan說Pearl在NIPS報告之后很愉快地和學(xué)生解釋,過不了多久NIPS的參加者們就會撞上他報告里提到的機器學(xué)習(xí)理論上的限制。 但是,之所以說這兩種照片是“藝術(shù)加工”,而不是徹底的歪曲,因為,某種意義上說,Pearl確實有些孤軍奮戰(zhàn)的味道。 Pearl在NIPS 2017上介紹了他2016年發(fā)表、2017年大修的報告《Theoretical Impediments to Machine Learning》。這個報告末尾列了17篇參考文獻(xiàn),其中,除了一篇哲學(xué)方面和一篇流行病學(xué)方面的論文,其余14篇論文Pearl本人均為第一或第二作者,剩下一篇的作者Adnan Darwiche(UCLA教授、JAIR主編、AAAI Fellow),博后是在UCLA跟Pearl讀的。 不知道你是否好奇,Pearl這篇報告具體是什么內(nèi)容?下面就跟我們一起來看看這篇報告吧。 當(dāng)前機器學(xué)習(xí)的限制如前所述,Pearl的報告有2016、2017兩個版本。在2016年的報告中,Pearl只是說當(dāng)前機器學(xué)習(xí)基于統(tǒng)計學(xué)模型,因此在表現(xiàn)上有一些理論上的限制。而在2017年的報告中,Pearl進(jìn)一步強調(diào)當(dāng)前機器學(xué)習(xí)基于模型盲目(model-blind)的統(tǒng)計學(xué)模型。在NIPS 2017報告現(xiàn)場,更是直斥現(xiàn)有的機器學(xué)習(xí)只是又慢又呆的曲線擬合練習(xí)。 Pearl指出,當(dāng)前機器學(xué)習(xí)的表現(xiàn)提升,依賴于大量參數(shù)的調(diào)優(yōu),而這一過程,是非常緩慢和低效的。Pearl將其類比為基于自然選擇的達(dá)爾文演化。老鷹和蛇花了數(shù)百萬年才演化出了獨特的視覺系統(tǒng)。而人類在差不多一千年左右的時間里就發(fā)明了眼鏡和望遠(yuǎn)鏡。這是因為人類具備代表環(huán)境的心智表示,可以根據(jù)自己的意愿對這個心智表示進(jìn)行操作,想象出和當(dāng)前環(huán)境不同的假象環(huán)境——也就是說,人類會問“要是……會怎么樣”的問題,包括“要是我這么做,會怎么樣?”和“要是我當(dāng)初那么做了,會怎么樣?” “要是……會怎么樣”,背后其實隱含著因果推斷。 因果推斷的層次Pearl將因果推斷分為三個層次:
關(guān)聯(lián)是最簡單的類型,可以直接從數(shù)據(jù)中根據(jù)條件和期望推斷出來。比如,統(tǒng)計分析數(shù)據(jù),發(fā)現(xiàn)價格下降了,銷量上漲了。用條件概率,可以形式化地表示為: P(y|x) 因為可以直接從統(tǒng)計中推斷,所以當(dāng)前的機器學(xué)習(xí)很擅長處理這類問題。 和關(guān)聯(lián)不同,介入就無法直接從數(shù)據(jù)中統(tǒng)計得出了。因為這涉及到反應(yīng),比如,價格下降了,消費者既可能因為覺得優(yōu)惠而增加購買,但也可能因為商品價格過低可能質(zhì)量有問題而減少購買,或者抱著“過一段時間說不定還會降”而持幣觀望。介入的條件概率可以形式化地表示為: P(y|do(x), z) 其中,z表示do(x)引起的事件。 當(dāng)前機器學(xué)習(xí)處理這樣的問題就沒有處理關(guān)聯(lián)那么輕松了,但仍可以通過訓(xùn)練歷史數(shù)據(jù),加上一些試驗來建模介入問題。 介入面向的是未來的問題,如果我們讓介入回溯到過去,也就是說,從“要是我現(xiàn)在這么做,未來會發(fā)生什么”,回溯到“要是當(dāng)初我這么做,現(xiàn)在會發(fā)生什么”,我們就得到了因果推斷的第三個層次——反事實?;氐浇祪r的例子,反事實要問的是“要是當(dāng)初我們降價了,現(xiàn)在銷量會上漲嗎?”反事實的條件概率可以表示為: P(y_x|x', y') 上面的公式表示,在已知發(fā)生了事件x'和時間y'的前提下,我們想知道,假設(shè)過去發(fā)生的不是事件x',而是事件x的話,那么發(fā)生事件y的條件概率是多少? 當(dāng)前的機器學(xué)習(xí)無力回答反事實的問題,大多數(shù)機器學(xué)習(xí)模型甚至使用了不可能回答這一問題的表示。 而對于推斷因果關(guān)系而言,反事實是非常關(guān)鍵的。比如,感冒了,吃了感冒藥,感冒好了。這一經(jīng)歷并不能證明感冒藥的效果。我們想要知道感冒藥是否對治療感冒有效果,需要研究相應(yīng)的反事實:“要是當(dāng)初沒吃感冒藥,現(xiàn)在感冒會不會好?”如果當(dāng)初沒吃感冒藥,現(xiàn)在感冒好了,那說明其實感冒藥并沒有起到作用,可能感冒是自愈的。 從上面的例子也可以看出,反事實在因果推斷的層級中,位于最高層。在環(huán)境和條件不變的前提下,如果我們知道“要是當(dāng)初沒吃感冒藥,現(xiàn)在感冒會不會好?”,那我們必然知道“我吃了感冒藥,感冒會不會好?”和“以前我吃過感冒藥,后來感冒好了沒有?”這兩個問題的答案。反之則不然。僅僅知道“我以前吃過感冒藥,感冒好了”,是無法確定“要是當(dāng)時沒吃感冒藥,感冒會不會好”這樣的問題的答案的。 現(xiàn)有的基于統(tǒng)計的機器學(xué)習(xí)方法缺乏反事實這一層級的信息,因而無法進(jìn)行反事實層面的推理,無論是總結(jié)過去的經(jīng)驗,還是預(yù)測當(dāng)前行動的結(jié)果,都缺乏理據(jù)。這是現(xiàn)有機器學(xué)習(xí)方法理論上的缺陷。 意圖和ETT那么,該如何改進(jìn)現(xiàn)有的機器學(xué)習(xí)方法呢? 回顧一下表示反事實的條件概率: P(y_x|x', y') 從表面上看,x'和y'地位是平等的,都代表實際發(fā)生的、可以直接從數(shù)據(jù)中觀察到的事件。因此相對而言,似乎不需要我們重點關(guān)注。但實際上,x'和y'的情況是不一樣的。x'代表的是行動,或者說選擇,也就是說,實際選擇了行動x',而不是x。這個選擇,往往隱含著關(guān)于行動主體的一些信息。這些信息,有時和結(jié)果間存在因果關(guān)系。 比如,如果我們想分析參加某英語培訓(xùn)和英語成績提升之間的關(guān)系,那么最簡單直接的辦法,就是統(tǒng)計參加培訓(xùn)的學(xué)生和沒參加培訓(xùn)的學(xué)生的成績提升(或下降)分值的平均值。從直覺上說,如果我們只統(tǒng)計十幾個學(xué)生,那可能因為樣本偏差而導(dǎo)致不準(zhǔn)確的結(jié)果。反之,如果我們統(tǒng)計大量的學(xué)生,那樣本偏差的影響就越小,結(jié)果也越精確。這就是所謂大數(shù)據(jù)的威力。 然而,如果我們從反事實的角度去看,那我們就會發(fā)現(xiàn),上面統(tǒng)計方法可能存在再怎么增加樣本也沒法避免的偏差。參加培訓(xùn)的學(xué)生,事實上選擇了參加培訓(xùn),而不是不參加培訓(xùn),這一選擇本身就可能隱含了某些信息。比如,相比那些選擇不參加培訓(xùn)的學(xué)生,這些學(xué)生可能學(xué)習(xí)英語的意愿更強,積極性更高。也就是說,即使這些學(xué)生當(dāng)初選擇不參加培訓(xùn),英語成績也會提升。 從統(tǒng)計的角度來說,這個參加培訓(xùn)的選擇隱含了一個未觀察到的混雜因子(confounder)。假設(shè)選擇參加培訓(xùn)的學(xué)生學(xué)習(xí)英語意愿更強,積極性更高,那么這一點對參加培訓(xùn)和成績提升都有影響。也就是說,學(xué)習(xí)英語意愿更強、積極性更高的學(xué)生更容易選擇參加培訓(xùn),同時英語成績更容易提升(即使當(dāng)初沒有參加培訓(xùn))。 因此,反事實條件概率中的x',包含了關(guān)于行動主體的重要信息,也就是行動主體的意圖、動機、反應(yīng)模式和其他未觀察到的特質(zhì)。 如果我們用X表示行動(反事實中的x或x'),Y代表結(jié)果(反事實中的y或y'),那么我們就可以用下式來表示X和Y之間的因果推斷(用E表示): E(Y_x|X=x') 將x和x'交換一下,就是Pearl提出的ETT(Effect of Treatment on the Treated,參與治療的病人的治療效果): E(Y_x'|X=x) 其中,X=x表示實際的行動(選擇)。如前所述,Y_x'表示了反事實,X=x表示了意圖、動機、反應(yīng)模式和其他未觀察到的特質(zhì)。 從名字就可以看出,這一理論在推斷治療方案療效方面很有用。實際上,ETT確實在醫(yī)學(xué)和經(jīng)濟學(xué)方面的研究中得到了廣泛應(yīng)用。 Pearl等人嘗試在機器學(xué)習(xí)中應(yīng)用了ETT。基本思路如下:
反復(fù)進(jìn)行后,得到了一個意圖和行動可能不一致的數(shù)據(jù)庫?;谶@個數(shù)據(jù)庫,可以選擇在任一時刻對當(dāng)前意圖而言最大化期望回報的行動。這一方法利用了意圖這一有用的信息,Pearl將其稱為意圖特定優(yōu)化(intent-specific optimization)。 意圖特定優(yōu)化提供了從試驗中提取反事實信息的機制,從而提升了機器學(xué)習(xí)模型的表現(xiàn)。Pearl比較了代理直接按意圖行動所得的結(jié)果和經(jīng)過意圖特定優(yōu)化再行動的結(jié)果,表明意圖特定優(yōu)化提升了代理的表現(xiàn)。 因果推斷反事實和意圖特定優(yōu)化只是Pearl數(shù)十年來一直致力于研究的因果推斷理論的一部分,Pearl將其稱為“反事實算法”,作為因果推斷系統(tǒng)的第3根支柱。Pearl的因果推斷理論共有7大支柱:
Pearl同時開發(fā)了結(jié)構(gòu)化因果模型(Structural Causal Model, SCM),一個形式化地描述因果推斷的框架。 Pearl認(rèn)為,因果推斷理論的7大支柱,可以解決現(xiàn)有機器學(xué)習(xí)方法無法解決的問題,也就是突破現(xiàn)有機器學(xué)習(xí)的理論限制,SCM能表示現(xiàn)有機器學(xué)習(xí)模型難以表示的因果推斷。而現(xiàn)在的數(shù)據(jù)科學(xué),只是統(tǒng)計學(xué),稱不上科學(xué);現(xiàn)在的機器學(xué)習(xí),只是曲線擬合練習(xí),永遠(yuǎn)不可能實現(xiàn)強人工智能。 |
|