貝葉斯網(wǎng)絡(luò)之父無人問津？一文詳解Judea Pearl NIPS 2017報告

Woxygen 2017-12-14

展開全文

這兩天Facebook、twitter等社交網(wǎng)絡(luò)上開始流傳Judea Pearl在NIPS 2017演講的照片：

貝葉斯網(wǎng)絡(luò)之父無人問津？一文詳解Judea Pearl NIPS 2017報告

社交網(wǎng)絡(luò)上很多人都被這張照片震驚了，紛紛表示，貝葉斯網(wǎng)絡(luò)之父、因人工智能概率方法和因果推理算法獲得2011年圖靈獎的Judea Pearl對著一個“幾乎空無一人的房間”做報告是NIPS上悲慘的一幕，這一天對機器學(xué)習(xí)而言是悲慘的一天。

貝葉斯網(wǎng)絡(luò)之父無人問津？一文詳解Judea Pearl NIPS 2017報告

Judea Pearl在UCLA的博士生Karthika Mohan將網(wǎng)上的消息告訴了Pearl，Pearl被社交網(wǎng)絡(luò)上人們的反應(yīng)逗笑了(amused by the reactions on social media)。

實際上，這張照片的拍攝者只是故意取了一個凸顯聽眾很少的視角。原本的報告廳可以容納幾百個聽眾，結(jié)果參加的有50-100人，因此某些區(qū)域聽眾很少，給了拍攝者進(jìn)行藝術(shù)加工的機會。

所以，事實上聽眾并沒有少到“幾乎空無一人”的程度，還是有幾十個聽眾的。而且，聽眾比預(yù)期的少，也有NIPS組織的問題。首先，當(dāng)時有多個講座同時進(jìn)行，分流了很多聽眾；其次，NIPS的應(yīng)用上并沒有標(biāo)明詳細(xì)信息，很多人根本不知道Judea Pearl會來做報告。

貝葉斯網(wǎng)絡(luò)之父無人問津？一文詳解Judea Pearl NIPS 2017報告

NIPS應(yīng)用中沒有演講者信息（圖片來源：latentjasper的推特）

既然上面那張照片是藝術(shù)加工的產(chǎn)物，那么下面這一張也有點可疑：

貝葉斯網(wǎng)絡(luò)之父無人問津？一文詳解Judea Pearl NIPS 2017報告

攝影者取景的角度，給人一種Pearl很落寞的感覺。實際上，老爺子可能只是演講完了坐一會休息一下而已，可能是在思考某個問題。

事實上，Pearl老爺子本人很淡定。Karthika Mohan說Pearl在NIPS報告之后很愉快地和學(xué)生解釋，過不了多久NIPS的參加者們就會撞上他報告里提到的機器學(xué)習(xí)理論上的限制。

但是，之所以說這兩種照片是“藝術(shù)加工”，而不是徹底的歪曲，因為，某種意義上說，Pearl確實有些孤軍奮戰(zhàn)的味道。

Pearl在NIPS 2017上介紹了他2016年發(fā)表、2017年大修的報告《Theoretical Impediments to Machine Learning》。這個報告末尾列了17篇參考文獻(xiàn)，其中，除了一篇哲學(xué)方面和一篇流行病學(xué)方面的論文，其余14篇論文Pearl本人均為第一或第二作者，剩下一篇的作者Adnan Darwiche（UCLA教授、JAIR主編、AAAI Fellow），博后是在UCLA跟Pearl讀的。

不知道你是否好奇，Pearl這篇報告具體是什么內(nèi)容？下面就跟我們一起來看看這篇報告吧。

當(dāng)前機器學(xué)習(xí)的限制

如前所述，Pearl的報告有2016、2017兩個版本。在2016年的報告中，Pearl只是說當(dāng)前機器學(xué)習(xí)基于統(tǒng)計學(xué)模型，因此在表現(xiàn)上有一些理論上的限制。而在2017年的報告中，Pearl進(jìn)一步強調(diào)當(dāng)前機器學(xué)習(xí)基于模型盲目（model-blind）的統(tǒng)計學(xué)模型。在NIPS 2017報告現(xiàn)場，更是直斥現(xiàn)有的機器學(xué)習(xí)只是又慢又呆的曲線擬合練習(xí)。

貝葉斯網(wǎng)絡(luò)之父無人問津？一文詳解Judea Pearl NIPS 2017報告

Pearl指出，當(dāng)前機器學(xué)習(xí)的表現(xiàn)提升，依賴于大量參數(shù)的調(diào)優(yōu)，而這一過程，是非常緩慢和低效的。Pearl將其類比為基于自然選擇的達(dá)爾文演化。老鷹和蛇花了數(shù)百萬年才演化出了獨特的視覺系統(tǒng)。而人類在差不多一千年左右的時間里就發(fā)明了眼鏡和望遠(yuǎn)鏡。這是因為人類具備代表環(huán)境的心智表示，可以根據(jù)自己的意愿對這個心智表示進(jìn)行操作，想象出和當(dāng)前環(huán)境不同的假象環(huán)境——也就是說，人類會問“要是……會怎么樣”的問題，包括“要是我這么做，會怎么樣？”和“要是我當(dāng)初那么做了，會怎么樣？”

“要是……會怎么樣”，背后其實隱含著因果推斷。

因果推斷的層次

Pearl將因果推斷分為三個層次：

關(guān)聯(lián)（association）
介入（intervention）
反事實（counterfactual）

關(guān)聯(lián)是最簡單的類型，可以直接從數(shù)據(jù)中根據(jù)條件和期望推斷出來。比如，統(tǒng)計分析數(shù)據(jù)，發(fā)現(xiàn)價格下降了，銷量上漲了。用條件概率，可以形式化地表示為：

P(y|x)

因為可以直接從統(tǒng)計中推斷，所以當(dāng)前的機器學(xué)習(xí)很擅長處理這類問題。

和關(guān)聯(lián)不同，介入就無法直接從數(shù)據(jù)中統(tǒng)計得出了。因為這涉及到反應(yīng)，比如，價格下降了，消費者既可能因為覺得優(yōu)惠而增加購買，但也可能因為商品價格過低可能質(zhì)量有問題而減少購買，或者抱著“過一段時間說不定還會降”而持幣觀望。介入的條件概率可以形式化地表示為：

P(y|do(x), z)

其中，z表示do(x)引起的事件。

當(dāng)前機器學(xué)習(xí)處理這樣的問題就沒有處理關(guān)聯(lián)那么輕松了，但仍可以通過訓(xùn)練歷史數(shù)據(jù)，加上一些試驗來建模介入問題。

介入面向的是未來的問題，如果我們讓介入回溯到過去，也就是說，從“要是我現(xiàn)在這么做，未來會發(fā)生什么”，回溯到“要是當(dāng)初我這么做，現(xiàn)在會發(fā)生什么”，我們就得到了因果推斷的第三個層次——反事實?；氐浇祪r的例子，反事實要問的是“要是當(dāng)初我們降價了，現(xiàn)在銷量會上漲嗎？”反事實的條件概率可以表示為：

P(y_x|x', y')

上面的公式表示，在已知發(fā)生了事件x'和時間y'的前提下，我們想知道，假設(shè)過去發(fā)生的不是事件x'，而是事件x的話，那么發(fā)生事件y的條件概率是多少？

當(dāng)前的機器學(xué)習(xí)無力回答反事實的問題，大多數(shù)機器學(xué)習(xí)模型甚至使用了不可能回答這一問題的表示。

貝葉斯網(wǎng)絡(luò)之父無人問津？一文詳解Judea Pearl NIPS 2017報告

而對于推斷因果關(guān)系而言，反事實是非常關(guān)鍵的。比如，感冒了，吃了感冒藥，感冒好了。這一經(jīng)歷并不能證明感冒藥的效果。我們想要知道感冒藥是否對治療感冒有效果，需要研究相應(yīng)的反事實：“要是當(dāng)初沒吃感冒藥，現(xiàn)在感冒會不會好？”如果當(dāng)初沒吃感冒藥，現(xiàn)在感冒好了，那說明其實感冒藥并沒有起到作用，可能感冒是自愈的。

從上面的例子也可以看出，反事實在因果推斷的層級中，位于最高層。在環(huán)境和條件不變的前提下，如果我們知道“要是當(dāng)初沒吃感冒藥，現(xiàn)在感冒會不會好？”，那我們必然知道“我吃了感冒藥，感冒會不會好？”和“以前我吃過感冒藥，后來感冒好了沒有？”這兩個問題的答案。反之則不然。僅僅知道“我以前吃過感冒藥，感冒好了”，是無法確定“要是當(dāng)時沒吃感冒藥，感冒會不會好”這樣的問題的答案的。

現(xiàn)有的基于統(tǒng)計的機器學(xué)習(xí)方法缺乏反事實這一層級的信息，因而無法進(jìn)行反事實層面的推理，無論是總結(jié)過去的經(jīng)驗，還是預(yù)測當(dāng)前行動的結(jié)果，都缺乏理據(jù)。這是現(xiàn)有機器學(xué)習(xí)方法理論上的缺陷。

意圖和ETT

那么，該如何改進(jìn)現(xiàn)有的機器學(xué)習(xí)方法呢？

回顧一下表示反事實的條件概率：

P(y_x|x', y')

從表面上看，x'和y'地位是平等的，都代表實際發(fā)生的、可以直接從數(shù)據(jù)中觀察到的事件。因此相對而言，似乎不需要我們重點關(guān)注。但實際上，x'和y'的情況是不一樣的。x'代表的是行動，或者說選擇，也就是說，實際選擇了行動x'，而不是x。這個選擇，往往隱含著關(guān)于行動主體的一些信息。這些信息，有時和結(jié)果間存在因果關(guān)系。

比如，如果我們想分析參加某英語培訓(xùn)和英語成績提升之間的關(guān)系，那么最簡單直接的辦法，就是統(tǒng)計參加培訓(xùn)的學(xué)生和沒參加培訓(xùn)的學(xué)生的成績提升（或下降）分值的平均值。從直覺上說，如果我們只統(tǒng)計十幾個學(xué)生，那可能因為樣本偏差而導(dǎo)致不準(zhǔn)確的結(jié)果。反之，如果我們統(tǒng)計大量的學(xué)生，那樣本偏差的影響就越小，結(jié)果也越精確。這就是所謂大數(shù)據(jù)的威力。

然而，如果我們從反事實的角度去看，那我們就會發(fā)現(xiàn)，上面統(tǒng)計方法可能存在再怎么增加樣本也沒法避免的偏差。參加培訓(xùn)的學(xué)生，事實上選擇了參加培訓(xùn)，而不是不參加培訓(xùn)，這一選擇本身就可能隱含了某些信息。比如，相比那些選擇不參加培訓(xùn)的學(xué)生，這些學(xué)生可能學(xué)習(xí)英語的意愿更強，積極性更高。也就是說，即使這些學(xué)生當(dāng)初選擇不參加培訓(xùn)，英語成績也會提升。

從統(tǒng)計的角度來說，這個參加培訓(xùn)的選擇隱含了一個未觀察到的混雜因子（confounder）。假設(shè)選擇參加培訓(xùn)的學(xué)生學(xué)習(xí)英語意愿更強，積極性更高，那么這一點對參加培訓(xùn)和成績提升都有影響。也就是說，學(xué)習(xí)英語意愿更強、積極性更高的學(xué)生更容易選擇參加培訓(xùn)，同時英語成績更容易提升（即使當(dāng)初沒有參加培訓(xùn)）。

因此，反事實條件概率中的x'，包含了關(guān)于行動主體的重要信息，也就是行動主體的意圖、動機、反應(yīng)模式和其他未觀察到的特質(zhì)。

如果我們用X表示行動（反事實中的x或x'），Y代表結(jié)果（反事實中的y或y'），那么我們就可以用下式來表示X和Y之間的因果推斷（用E表示）：

E(Y_x|X=x')

將x和x'交換一下，就是Pearl提出的ETT（Effect of Treatment on the Treated，參與治療的病人的治療效果）：

E(Y_x'|X=x)

其中，X=x表示實際的行動（選擇）。如前所述，Y_x'表示了反事實，X=x表示了意圖、動機、反應(yīng)模式和其他未觀察到的特質(zhì)。

從名字就可以看出，這一理論在推斷治療方案療效方面很有用。實際上，ETT確實在醫(yī)學(xué)和經(jīng)濟學(xué)方面的研究中得到了廣泛應(yīng)用。

Pearl等人嘗試在機器學(xué)習(xí)中應(yīng)用了ETT。基本思路如下：

代理決定采取行動x，模型記錄了代理的選擇（意圖）。
代理停頓，進(jìn)行一個隨機的試驗（試驗一個隨機選擇的行動，并評估結(jié)果）。
基于上一步嘗試的結(jié)果，選擇一個ETT最優(yōu)的行動，這一行動和第一步?jīng)Q定采取的行動（意圖）不一定一樣。

反復(fù)進(jìn)行后，得到了一個意圖和行動可能不一致的數(shù)據(jù)庫?；谶@個數(shù)據(jù)庫，可以選擇在任一時刻對當(dāng)前意圖而言最大化期望回報的行動。這一方法利用了意圖這一有用的信息，Pearl將其稱為意圖特定優(yōu)化（intent-specific optimization）。

意圖特定優(yōu)化提供了從試驗中提取反事實信息的機制，從而提升了機器學(xué)習(xí)模型的表現(xiàn)。Pearl比較了代理直接按意圖行動所得的結(jié)果和經(jīng)過意圖特定優(yōu)化再行動的結(jié)果，表明意圖特定優(yōu)化提升了代理的表現(xiàn)。

因果推斷

反事實和意圖特定優(yōu)化只是Pearl數(shù)十年來一直致力于研究的因果推斷理論的一部分，Pearl將其稱為“反事實算法”，作為因果推斷系統(tǒng)的第3根支柱。Pearl的因果推斷理論共有7大支柱：

有意義而緊湊的因果假設(shè)表示（graphical表示）
混雜因子控制（back-door、front-door、do-calculus）
反事實算法（本文重點介紹的內(nèi)容）
媒介分析（反事實的graphical表示）
學(xué)習(xí)遷移、外部驗證、取樣偏差（do-calculus、selection diagrams）
數(shù)據(jù)缺失（graphical標(biāo)準(zhǔn)）
因果發(fā)現(xiàn)（尋找和數(shù)據(jù)兼容的模型，并緊湊地表示它們）

Pearl同時開發(fā)了結(jié)構(gòu)化因果模型（Structural Causal Model, SCM），一個形式化地描述因果推斷的框架。

貝葉斯網(wǎng)絡(luò)之父無人問津？一文詳解Judea Pearl NIPS 2017報告

Pearl認(rèn)為，因果推斷理論的7大支柱，可以解決現(xiàn)有機器學(xué)習(xí)方法無法解決的問題，也就是突破現(xiàn)有機器學(xué)習(xí)的理論限制，SCM能表示現(xiàn)有機器學(xué)習(xí)模型難以表示的因果推斷。而現(xiàn)在的數(shù)據(jù)科學(xué)，只是統(tǒng)計學(xué)，稱不上科學(xué)；現(xiàn)在的機器學(xué)習(xí)，只是曲線擬合練習(xí)，永遠(yuǎn)不可能實現(xiàn)強人工智能。