小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

貝葉斯網(wǎng)絡(luò)之父無人問津?一文詳解Judea Pearl NIPS 2017報告

 Woxygen 2017-12-14

這兩天Facebook、twitter等社交網(wǎng)絡(luò)上開始流傳Judea Pearl在NIPS 2017演講的照片:

貝葉斯網(wǎng)絡(luò)之父無人問津?一文詳解Judea Pearl NIPS 2017報告

社交網(wǎng)絡(luò)上很多人都被這張照片震驚了,紛紛表示,貝葉斯網(wǎng)絡(luò)之父、因人工智能概率方法和因果推理算法獲得2011年圖靈獎的Judea Pearl對著一個“幾乎空無一人的房間”做報告是NIPS上悲慘的一幕,這一天對機器學(xué)習(xí)而言是悲慘的一天。

貝葉斯網(wǎng)絡(luò)之父無人問津?一文詳解Judea Pearl NIPS 2017報告

Judea Pearl在UCLA的博士生Karthika Mohan將網(wǎng)上的消息告訴了Pearl,Pearl被社交網(wǎng)絡(luò)上人們的反應(yīng)逗笑了(amused by the reactions on social media)。

實際上,這張照片的拍攝者只是故意取了一個凸顯聽眾很少的視角。原本的報告廳可以容納幾百個聽眾,結(jié)果參加的有50-100人,因此某些區(qū)域聽眾很少,給了拍攝者進(jìn)行藝術(shù)加工的機會。

所以,事實上聽眾并沒有少到“幾乎空無一人”的程度,還是有幾十個聽眾的。而且,聽眾比預(yù)期的少,也有NIPS組織的問題。首先,當(dāng)時有多個講座同時進(jìn)行,分流了很多聽眾;其次,NIPS的應(yīng)用上并沒有標(biāo)明詳細(xì)信息,很多人根本不知道Judea Pearl會來做報告。

貝葉斯網(wǎng)絡(luò)之父無人問津?一文詳解Judea Pearl NIPS 2017報告

NIPS應(yīng)用中沒有演講者信息(圖片來源:latentjasper的推特)

既然上面那張照片是藝術(shù)加工的產(chǎn)物,那么下面這一張也有點可疑:

貝葉斯網(wǎng)絡(luò)之父無人問津?一文詳解Judea Pearl NIPS 2017報告

攝影者取景的角度,給人一種Pearl很落寞的感覺。實際上,老爺子可能只是演講完了坐一會休息一下而已,可能是在思考某個問題。

事實上,Pearl老爺子本人很淡定。Karthika Mohan說Pearl在NIPS報告之后很愉快地和學(xué)生解釋,過不了多久NIPS的參加者們就會撞上他報告里提到的機器學(xué)習(xí)理論上的限制。

但是,之所以說這兩種照片是“藝術(shù)加工”,而不是徹底的歪曲,因為,某種意義上說,Pearl確實有些孤軍奮戰(zhàn)的味道。

Pearl在NIPS 2017上介紹了他2016年發(fā)表、2017年大修的報告《Theoretical Impediments to Machine Learning》。這個報告末尾列了17篇參考文獻(xiàn),其中,除了一篇哲學(xué)方面和一篇流行病學(xué)方面的論文,其余14篇論文Pearl本人均為第一或第二作者,剩下一篇的作者Adnan Darwiche(UCLA教授、JAIR主編、AAAI Fellow),博后是在UCLA跟Pearl讀的。

不知道你是否好奇,Pearl這篇報告具體是什么內(nèi)容?下面就跟我們一起來看看這篇報告吧。

當(dāng)前機器學(xué)習(xí)的限制

如前所述,Pearl的報告有2016、2017兩個版本。在2016年的報告中,Pearl只是說當(dāng)前機器學(xué)習(xí)基于統(tǒng)計學(xué)模型,因此在表現(xiàn)上有一些理論上的限制。而在2017年的報告中,Pearl進(jìn)一步強調(diào)當(dāng)前機器學(xué)習(xí)基于模型盲目(model-blind)的統(tǒng)計學(xué)模型。在NIPS 2017報告現(xiàn)場,更是直斥現(xiàn)有的機器學(xué)習(xí)只是又慢又呆的曲線擬合練習(xí)。

貝葉斯網(wǎng)絡(luò)之父無人問津?一文詳解Judea Pearl NIPS 2017報告

Pearl指出,當(dāng)前機器學(xué)習(xí)的表現(xiàn)提升,依賴于大量參數(shù)的調(diào)優(yōu),而這一過程,是非常緩慢和低效的。Pearl將其類比為基于自然選擇的達(dá)爾文演化。老鷹和蛇花了數(shù)百萬年才演化出了獨特的視覺系統(tǒng)。而人類在差不多一千年左右的時間里就發(fā)明了眼鏡和望遠(yuǎn)鏡。這是因為人類具備代表環(huán)境的心智表示,可以根據(jù)自己的意愿對這個心智表示進(jìn)行操作,想象出和當(dāng)前環(huán)境不同的假象環(huán)境——也就是說,人類會問“要是……會怎么樣”的問題,包括“要是我這么做,會怎么樣?”和“要是我當(dāng)初那么做了,會怎么樣?”

“要是……會怎么樣”,背后其實隱含著因果推斷。

因果推斷的層次

Pearl將因果推斷分為三個層次:

  1. 關(guān)聯(lián)(association)

  2. 介入(intervention)

  3. 反事實(counterfactual)

關(guān)聯(lián)是最簡單的類型,可以直接從數(shù)據(jù)中根據(jù)條件和期望推斷出來。比如,統(tǒng)計分析數(shù)據(jù),發(fā)現(xiàn)價格下降了,銷量上漲了。用條件概率,可以形式化地表示為:

P(y|x)

因為可以直接從統(tǒng)計中推斷,所以當(dāng)前的機器學(xué)習(xí)很擅長處理這類問題。

和關(guān)聯(lián)不同,介入就無法直接從數(shù)據(jù)中統(tǒng)計得出了。因為這涉及到反應(yīng),比如,價格下降了,消費者既可能因為覺得優(yōu)惠而增加購買,但也可能因為商品價格過低可能質(zhì)量有問題而減少購買,或者抱著“過一段時間說不定還會降”而持幣觀望。介入的條件概率可以形式化地表示為:

P(y|do(x), z)

其中,z表示do(x)引起的事件。

當(dāng)前機器學(xué)習(xí)處理這樣的問題就沒有處理關(guān)聯(lián)那么輕松了,但仍可以通過訓(xùn)練歷史數(shù)據(jù),加上一些試驗來建模介入問題。

介入面向的是未來的問題,如果我們讓介入回溯到過去,也就是說,從“要是我現(xiàn)在這么做,未來會發(fā)生什么”,回溯到“要是當(dāng)初我這么做,現(xiàn)在會發(fā)生什么”,我們就得到了因果推斷的第三個層次——反事實?;氐浇祪r的例子,反事實要問的是“要是當(dāng)初我們降價了,現(xiàn)在銷量會上漲嗎?”反事實的條件概率可以表示為:

P(y_x|x', y')

上面的公式表示,在已知發(fā)生了事件x'和時間y'的前提下,我們想知道,假設(shè)過去發(fā)生的不是事件x',而是事件x的話,那么發(fā)生事件y的條件概率是多少?

當(dāng)前的機器學(xué)習(xí)無力回答反事實的問題,大多數(shù)機器學(xué)習(xí)模型甚至使用了不可能回答這一問題的表示。

貝葉斯網(wǎng)絡(luò)之父無人問津?一文詳解Judea Pearl NIPS 2017報告

而對于推斷因果關(guān)系而言,反事實是非常關(guān)鍵的。比如,感冒了,吃了感冒藥,感冒好了。這一經(jīng)歷并不能證明感冒藥的效果。我們想要知道感冒藥是否對治療感冒有效果,需要研究相應(yīng)的反事實:“要是當(dāng)初沒吃感冒藥,現(xiàn)在感冒會不會好?”如果當(dāng)初沒吃感冒藥,現(xiàn)在感冒好了,那說明其實感冒藥并沒有起到作用,可能感冒是自愈的。

從上面的例子也可以看出,反事實在因果推斷的層級中,位于最高層。在環(huán)境和條件不變的前提下,如果我們知道“要是當(dāng)初沒吃感冒藥,現(xiàn)在感冒會不會好?”,那我們必然知道“我吃了感冒藥,感冒會不會好?”和“以前我吃過感冒藥,后來感冒好了沒有?”這兩個問題的答案。反之則不然。僅僅知道“我以前吃過感冒藥,感冒好了”,是無法確定“要是當(dāng)時沒吃感冒藥,感冒會不會好”這樣的問題的答案的。

現(xiàn)有的基于統(tǒng)計的機器學(xué)習(xí)方法缺乏反事實這一層級的信息,因而無法進(jìn)行反事實層面的推理,無論是總結(jié)過去的經(jīng)驗,還是預(yù)測當(dāng)前行動的結(jié)果,都缺乏理據(jù)。這是現(xiàn)有機器學(xué)習(xí)方法理論上的缺陷。

意圖和ETT

那么,該如何改進(jìn)現(xiàn)有的機器學(xué)習(xí)方法呢?

回顧一下表示反事實的條件概率:

P(y_x|x', y')

從表面上看,x'和y'地位是平等的,都代表實際發(fā)生的、可以直接從數(shù)據(jù)中觀察到的事件。因此相對而言,似乎不需要我們重點關(guān)注。但實際上,x'和y'的情況是不一樣的。x'代表的是行動,或者說選擇,也就是說,實際選擇了行動x',而不是x。這個選擇,往往隱含著關(guān)于行動主體的一些信息。這些信息,有時和結(jié)果間存在因果關(guān)系。

比如,如果我們想分析參加某英語培訓(xùn)和英語成績提升之間的關(guān)系,那么最簡單直接的辦法,就是統(tǒng)計參加培訓(xùn)的學(xué)生和沒參加培訓(xùn)的學(xué)生的成績提升(或下降)分值的平均值。從直覺上說,如果我們只統(tǒng)計十幾個學(xué)生,那可能因為樣本偏差而導(dǎo)致不準(zhǔn)確的結(jié)果。反之,如果我們統(tǒng)計大量的學(xué)生,那樣本偏差的影響就越小,結(jié)果也越精確。這就是所謂大數(shù)據(jù)的威力。

然而,如果我們從反事實的角度去看,那我們就會發(fā)現(xiàn),上面統(tǒng)計方法可能存在再怎么增加樣本也沒法避免的偏差。參加培訓(xùn)的學(xué)生,事實上選擇了參加培訓(xùn),而不是不參加培訓(xùn),這一選擇本身就可能隱含了某些信息。比如,相比那些選擇不參加培訓(xùn)的學(xué)生,這些學(xué)生可能學(xué)習(xí)英語的意愿更強,積極性更高。也就是說,即使這些學(xué)生當(dāng)初選擇不參加培訓(xùn),英語成績也會提升。

從統(tǒng)計的角度來說,這個參加培訓(xùn)的選擇隱含了一個未觀察到的混雜因子(confounder)。假設(shè)選擇參加培訓(xùn)的學(xué)生學(xué)習(xí)英語意愿更強,積極性更高,那么這一點對參加培訓(xùn)和成績提升都有影響。也就是說,學(xué)習(xí)英語意愿更強、積極性更高的學(xué)生更容易選擇參加培訓(xùn),同時英語成績更容易提升(即使當(dāng)初沒有參加培訓(xùn))。

因此,反事實條件概率中的x',包含了關(guān)于行動主體的重要信息,也就是行動主體的意圖、動機、反應(yīng)模式和其他未觀察到的特質(zhì)。

如果我們用X表示行動(反事實中的x或x'),Y代表結(jié)果(反事實中的y或y'),那么我們就可以用下式來表示X和Y之間的因果推斷(用E表示):

E(Y_x|X=x')

將x和x'交換一下,就是Pearl提出的ETT(Effect of Treatment on the Treated,參與治療的病人的治療效果):

E(Y_x'|X=x)

其中,X=x表示實際的行動(選擇)。如前所述,Y_x'表示了反事實,X=x表示了意圖、動機、反應(yīng)模式和其他未觀察到的特質(zhì)。

從名字就可以看出,這一理論在推斷治療方案療效方面很有用。實際上,ETT確實在醫(yī)學(xué)和經(jīng)濟學(xué)方面的研究中得到了廣泛應(yīng)用。

Pearl等人嘗試在機器學(xué)習(xí)中應(yīng)用了ETT。基本思路如下:

  1. 代理決定采取行動x,模型記錄了代理的選擇(意圖)。

  2. 代理停頓,進(jìn)行一個隨機的試驗(試驗一個隨機選擇的行動,并評估結(jié)果)。

  3. 基于上一步嘗試的結(jié)果,選擇一個ETT最優(yōu)的行動,這一行動和第一步?jīng)Q定采取的行動(意圖)不一定一樣。

反復(fù)進(jìn)行后,得到了一個意圖和行動可能不一致的數(shù)據(jù)庫?;谶@個數(shù)據(jù)庫,可以選擇在任一時刻對當(dāng)前意圖而言最大化期望回報的行動。這一方法利用了意圖這一有用的信息,Pearl將其稱為意圖特定優(yōu)化(intent-specific optimization)。

意圖特定優(yōu)化提供了從試驗中提取反事實信息的機制,從而提升了機器學(xué)習(xí)模型的表現(xiàn)。Pearl比較了代理直接按意圖行動所得的結(jié)果和經(jīng)過意圖特定優(yōu)化再行動的結(jié)果,表明意圖特定優(yōu)化提升了代理的表現(xiàn)。

因果推斷

反事實和意圖特定優(yōu)化只是Pearl數(shù)十年來一直致力于研究的因果推斷理論的一部分,Pearl將其稱為“反事實算法”,作為因果推斷系統(tǒng)的第3根支柱。Pearl的因果推斷理論共有7大支柱:

  1. 有意義而緊湊的因果假設(shè)表示(graphical表示)

  2. 混雜因子控制(back-door、front-door、do-calculus)

  3. 反事實算法(本文重點介紹的內(nèi)容)

  4. 媒介分析(反事實的graphical表示)

  5. 學(xué)習(xí)遷移、外部驗證、取樣偏差(do-calculus、selection diagrams)

  6. 數(shù)據(jù)缺失(graphical標(biāo)準(zhǔn))

  7. 因果發(fā)現(xiàn)(尋找和數(shù)據(jù)兼容的模型,并緊湊地表示它們)

Pearl同時開發(fā)了結(jié)構(gòu)化因果模型(Structural Causal Model, SCM),一個形式化地描述因果推斷的框架。

貝葉斯網(wǎng)絡(luò)之父無人問津?一文詳解Judea Pearl NIPS 2017報告

Pearl認(rèn)為,因果推斷理論的7大支柱,可以解決現(xiàn)有機器學(xué)習(xí)方法無法解決的問題,也就是突破現(xiàn)有機器學(xué)習(xí)的理論限制,SCM能表示現(xiàn)有機器學(xué)習(xí)模型難以表示的因果推斷。而現(xiàn)在的數(shù)據(jù)科學(xué),只是統(tǒng)計學(xué),稱不上科學(xué);現(xiàn)在的機器學(xué)習(xí),只是曲線擬合練習(xí),永遠(yuǎn)不可能實現(xiàn)強人工智能。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多