大國之間的合作,比如中美之間,在雙方缺乏信任的前提下如何能夠培育出合作和互信?一個有益的思路就是把一次性的囚徒困境博弈轉(zhuǎn)化成重復(fù)博弈和多邊博弈。囚徒困境的結(jié)局只會是背叛,這是由人性與國際關(guān)系的叢林法則所決定的,但是如果能夠轉(zhuǎn)變成重復(fù)博弈和多邊博弈,我們就可以通過以牙還牙策略(tit for tat)誘導(dǎo)出妥協(xié)和合作,最終培育出信任與和平。
合作還是背叛?
關(guān)于為人處世,不同的先哲留下了不同的教誨。有人主張以德報怨,要寬恕,以免冤冤相報無窮無盡;也有人主張要以直報怨,也就是中國外交政策經(jīng)常說的,按照事情本身的是非曲直去確定我們的態(tài)度,而不是根據(jù)以往的恩怨來考慮當前的具體態(tài)度。在西方這種爭論更加激烈,《圣經(jīng)·舊約》主張,要以眼還眼,以牙還牙;《圣經(jīng)·新約》主張被人扇了左耳光,還要把右臉貼過去。所有這些道德性的、價值性的、倫理性的、形而上的爭論是無休無止、無窮無盡的,是沒有定論的。所幸現(xiàn)代社會科學(xué)的發(fā)展,給我們對相關(guān)問題提供了某些科學(xué)化的解釋。
美國密歇根大學(xué)的政治學(xué)教授羅伯特·艾克斯羅德在20世紀80年代曾經(jīng)進行過一項非常有意思的研究,利用囚徒困境的博弈論原理來研究自私的人類何以可能相互信任并進行合作,由此進一步解答對于個人和國家來講,什么樣的處世之道是最合理的。后來,他把這項研究整理為《合作的進化》一書,得到同為博弈論研究者的2005年諾貝爾經(jīng)濟學(xué)獎得主托馬斯·謝林的強烈推薦。
要理解他的研究,首先要明確什么是囚徒困境。囚徒困境是博弈論中最常見的基礎(chǔ)模型,假設(shè)有甲、乙兩個罪犯被分別提審,他們可以互相揭發(fā)檢舉從而獲得減刑或獎勵;但是如果他們一起保持沉默的話,就死無對證,兩個人都會被無罪釋放。對于甲個人而言,如果保持沉默,可能會遭到乙的背叛,被從重判罰,也可能乙同樣沉默,兩人均被無罪釋放;但是如果坦白從寬,可能甲、乙互相背叛,各自減刑,也可能乙把秘密帶進了棺材,而甲領(lǐng)到了懸賞金。無論乙怎么選擇,甲的坦白都能讓他自己獲得給定乙選擇下的較好結(jié)局,而且甲也明白乙也面臨著同樣的選擇和誘惑。所以假如這兩個人都是自私的,不為對方考慮的,這種博弈的均衡結(jié)果必然是兩個人各自招供,都被判刑。
一個更加關(guān)鍵的問題是關(guān)于人性自私的假設(shè),處于囚徒困境中的個體是不是以個人利益的最大化為唯一訴求?關(guān)于這一點,生物學(xué)其實已經(jīng)提供了很多答案。所謂物競天擇,絕大部分生物的基因都是自私的,因為那些愿意犧牲自己來換取別的個體生存概率最大化的利他個體大都滅絕了。不過自然界中也的確存在例外,一些利他主義基因能夠通過生存競爭繁衍下來,最典型的就是螞蟻、蜜蜂這兩種生物。螞蟻跟蜜蜂可以為了保護集體、保護“他人”而犧牲自己,比如螞蟻抱團過河,最外邊圈層的個體就淹死了;蜜蜂蜇人也是自殺式攻擊,犧牲小我保護大家。什么原因?qū)е逻@種利他主義基因能夠不滅絕?它們具有一個共性,同一族群內(nèi)兩兩個體之間的基因共享度達到75%。因此,對于確保整個種群的延續(xù)而言,只要犧牲某個體可以挽救其他一又三分之一的個體,這種交易就是可以接受的,換句話說,個體間基因共享程度越高,損失某個體對種群基因多樣性所帶來的成本越小。舉個極端點的例子,如果個體間的基因100%共享,也就是所有個體都是一模一樣的,哪怕只有一只活下來了,整個種群的基因也都能夠得到延續(xù)。所以,雖然采取利他行動“舍己為人”的螞蟻和蜜蜂死去了,但是這種利他基因仍然存在于因它的犧牲而活下去的個體里。
交代完這兩個基本的問題之后,我們就可以分析羅伯特·艾克斯羅德教授的精彩研究了。在他看來,每次人際交往都可以簡化為兩種基本模式,合作與背叛。在人際交往中普遍存在囚徒困境,明知合作可以帶來共贏,但是理性和自私導(dǎo)致信任的缺乏,使合作難以產(chǎn)生。從理性的角度考慮,人們總是希望對方采取合作行動而自己選擇背叛,由對方承擔全部成本,而自己獲得最大化收益;即便你自己不貪心,你也難以相信對方會跟你一樣不貪心,所以單次博弈中,很難產(chǎn)生合作的結(jié)局。
但是假如人與人之間的交往不再是一錘子買賣,而是低頭不見抬頭見,需要長期互利共生,這時的博弈格局就不一樣了,人們往往愿意這次吃點兒小虧以換取對方下一次的回報,雙邊關(guān)系就容易穩(wěn)定。所以熟人社會中的個體之間是友善的,鄉(xiāng)里鄉(xiāng)親間是講規(guī)矩的,大家互相體諒,互相謙讓。在不定次的重復(fù)博弈中,每個決策主體都需要考慮自己的行為會不會招致對方的報復(fù),同時也希望自己能夠獲得更大的收益,所以往往對于“背叛”的選項十分慎重,“合作”反而成為比較占優(yōu)的策略。
最優(yōu)策略——以牙還牙
在多主體間開展的不定次重復(fù)博弈中,是否存在一種為人處世的最優(yōu)策略?艾克斯羅德教授向全世界不同學(xué)科的學(xué)者發(fā)出邀請,請他們提交各自認為最優(yōu)的競爭策略,然后通過計算機進行模擬,讓這些策略重復(fù)進行兩兩之間的囚徒困境博弈,并對囚徒困境博弈各結(jié)果賦值不同的分數(shù),以得分最高者為優(yōu)勝。第一輪參賽的有14個程序,最終以牙還牙策略獲得了第一。艾克斯羅德教授把這個策略向全世界公開,并邀請學(xué)者們基于第一輪競賽的結(jié)果設(shè)計更多的策略以開展第二輪競賽,這次有63種策略參賽,而優(yōu)勝者仍然是以牙還牙。
以牙還牙策略來源于一句美國俗語,就是一報還一報的意思,它的內(nèi)容非常簡單,第一步一定要跟對方合作,此后每一步都只是簡單地重復(fù)對方上一步的行為。如此簡單的程序之所以能夠在兩輪競賽中都獲勝,是因為它能夠最有效地鼓勵其他程序和它進行長期合作。它擁有五個基本特質(zhì),第一是善良的,它首先假設(shè)這個世界對我是好的;第二是可激怒的,它不是老好人,假如它發(fā)現(xiàn)對方是個壞蛋,它就會報復(fù);第三是寬容的,也就是對方跟它進行了惡性互動之后,如果對方棄惡從善重新與它合作,它又可以原諒對方,再次跟對方進行合作;第四個是簡單的,它的邏輯非常清楚,而且樂于告訴別人它的策略;第五個是不妒忌別人的成功,總是樂于與別人合作,而不是背后占別人便宜,所以在任何單次的雙邊博弈中,它的得分要么和對方一樣,要么略低于對方。
比賽中的其他策略,或多或少都沒有做到以上五點。有些惡意程序,第一步就選擇背叛,最終都沒有進入前10名;而有些程序又太過好脾氣,所以被人背叛之后不立即做出反應(yīng),這就會鼓勵狡猾的程序反復(fù)占它的便宜;某些程序?qū)^往關(guān)系的好壞太過執(zhí)著,一旦被別人欺騙一次就絕不原諒,所以很多能夠恢復(fù)的關(guān)系就永久斷絕了;還有一些程序把自己搞得太復(fù)雜,總是試圖通過某種投機取巧來占人便宜,盡管在與某些“傻”程序的接觸中得到了單次的高分,但是一旦碰到“個性剛烈”的程序就會陷入互相“死磕”的困境,從最后總得分來講,它們的小聰明都是得不償失的。
自從1999年拜讀了艾克斯羅德教授的研究之后,我就被他此項研究設(shè)計的巧妙和結(jié)論的高明折服,在為人處世中一直身體力行:友善隨和且心比赤子,不耍投機取巧的“小聰明”;寬容大度但堅持原則,不做隨波逐流的“老好人”。淡泊寧靜,不在雙邊關(guān)系中追逐強勢;嚴守初心,能夠抗拒嫉賢妒能的誘惑。這些信條本來就是生活中常見的為人處世之道,但是能夠用博弈論模型加以總結(jié),形成指導(dǎo)實踐的科學(xué)結(jié)論,并且把這些信條連接起來,作為一種整體性的策略組合來行事,讓我覺得自己與眾不同。
這套策略的核心理念就是去跟盡可能多的人廣結(jié)善緣,開展友好的互動,形成持久的互惠關(guān)系,并且發(fā)展出信任和友誼,當然它背后的動機仍然是自私,仍然是為了個體生活得更好。人跟人之間是如此,國與國之間也差不多,只不過人際交往之間有比較多的倫理和道德因素,但國家間關(guān)系自古以來就是叢林色彩更多一些,權(quán)力和利益關(guān)系更加赤裸裸一些。
多邊主義的踐行者
近年來美國的對外政策,尤其是對華政策文件中經(jīng)常用一個英文詞“reciprocity”,翻譯成漢語是“互惠”,這其實是不夠準確的,“reciprocity”其實還有“報復(fù)”的意思,我覺得一個更合適的翻譯是“回報”,就是要對別人的各種行為進行質(zhì)和量兩個方面都相稱的反應(yīng),其中就包含了“以牙還牙”的思想。
現(xiàn)實中以牙還牙策略的運用比計算機程序的博弈競賽當然要復(fù)雜得多,比如現(xiàn)實中的朋友關(guān)系并不總是合作雙贏的,某些關(guān)系是典型的高成本低回報,原因往往在于對方和自己在能力上的不對稱;比如面對資源的硬約束,現(xiàn)實中總是無法有足夠的資源來維持對別人的各種回報,尤其是當你擁有很多朋友的時候;比如如何做到回報相稱,你覺得這種回報是一種相稱的警告,但是你的朋友可能會認為你反應(yīng)過度;再比如回報的內(nèi)生問題,假如雙方都采取以牙還牙策略,一旦由于誤解進入了相互懲罰的惡性循環(huán),就幾乎永無解脫。
針對上述問題,我進行了相應(yīng)的策略調(diào)整,其中一個重要的調(diào)整就是重視利用圈子來解決問題。雙邊關(guān)系中的回報一旦放進了多邊關(guān)系中操作,不少問題就得以迎刃而解。得罪一個人可能并不會帶來對社會關(guān)系的巨大損害,但是假如得罪某人意味著與一群人為敵,背叛的成本就非常高了,比如我就非常樂意把我的新朋友介紹給老朋友們認識,這就相當于用一張關(guān)系網(wǎng)分擔了背叛行為對脆弱友情的沖擊力。同樣的原理可以用在國與國之間的關(guān)系中,多邊主義外交就是一個不錯的選擇,一個小國可能無法有效地報復(fù)大國對它的背叛,但是如果大家都處于同一個多邊體系里,一旦體系內(nèi)大國對某小國進行了背叛,它就會信用受損,使它受到失去整個圈子的巨大潛在損失。而且一個大國越是積極地利用自己的信用和威望,別的國家就越敢相信它;反過來如果一個國家不太愛明確地承諾權(quán)利與義務(wù),別的國家也無法相信它,就如同你若從來沒有用過信用卡里的錢,那么信用卡的透支額度就非常小。
在任何一個雙邊關(guān)系中,中國人都是講究禮讓、大度、謙虛的,與此同時我們又堅決捍衛(wèi)根本利益與整體原則,達成了剛與柔的平衡,正因如此,盡管中國跟世界上大多數(shù)國家存在政治制度和意識形態(tài)的差異,但是仍然能夠做到朋友遍天下,成為全球七成國家的最大貿(mào)易伙伴。相反,特朗普執(zhí)政美國的4年里犯了類似的錯誤,試圖在每一個雙邊關(guān)系中都占上風(fēng),這種操盤模式導(dǎo)致美國處處樹敵,國際地位、威望明顯下滑。
本文摘自中國人民大學(xué)國際關(guān)系學(xué)院副院長翟東升的新作《平行與競爭》。
《平行與競爭:雙循環(huán)時代的中國治理》,翟東升/著,東方出版社,2021年7月版