博弈論模型,博弈論模型

1樓:★懸葉

經典的囚徒困境

一般形式

現實的例子

與囚徒困境相關的各事件

重複的囚徒困境

相關的博弈

註釋囚徒困境(prison dilemma)是博弈論的非零和博弈中具代表性的例子,反映個人最佳選擇並非團體最佳選擇。雖然困境本身只屬模型性質,但現實中的**競爭、環境保護等方面,也會頻繁出現類似情況。

單次發生的囚徒困境,和多次重複的囚徒困境結果不會一樣。

在重複的囚徒困境中,博弈被反覆地進行。因而每個參與者都有機會去「懲罰」另一個參與者前一回合的不合作行為。這時,合作可能會作為均衡的結果出現。

欺騙的動機這時可能被受到懲罰的威脅所克服,從而可能導向一個較好的、合作的結果。作為反覆接近無限的數量,納什均衡趨向於帕累托最優。

囚徒困境的主旨為,囚徒們雖然彼此合作,堅不吐實,可為全體帶來最佳利益(無罪開釋),但在資訊不明的情況下,因為出賣同夥可為自己帶來利益(縮短刑期),也因為同夥把自己招出來可為他帶來利益,因此彼此出賣雖違反最佳共同利益,反而是自己最大利益所在。但實際上,執法機構不可能設立如此情境來誘使所有囚徒招供,因為囚徒們必須考慮刑期以外之因素(出賣同夥會受到報復等),而無法完全以執法者所設立之利益(刑期)作考量。

[編輯本段]經典的囚徒困境

2023年,由就職於蘭德公司的梅里爾·弗勒德(merrill flood)和梅爾文·德雷希爾(melvin dresher)擬定出相關困境的理論,後來由顧問艾伯特·塔克(albert tucker)以囚徒方式闡述,並命名為「囚徒困境」。經典的囚徒困境如下:

**逮捕甲、乙兩名嫌疑犯,但沒有足夠證據指控二人入罪。於是**分開囚禁嫌疑犯,分別和二人見面,並向雙方提供以下相同的選擇:

若一人認罪並作證檢控對方(相關術語稱「背叛」對方),而對方保持沉默,此人將即時獲釋,沉默者將判監10年。

若二人都保持沉默(相關術語稱互相「合作」),則二人同樣判監半年。

若二人都互相檢舉(互相「背叛」),則二人同樣判監2年。

用**概述如下:

甲沉默(合作) 甲認罪(背叛)

乙沉默(合作) 二人同服刑半年甲即時獲釋;乙服刑10年

乙認罪(背叛) 甲服刑10年;乙即時獲釋二人同服刑2年

解說如同博弈論的其他例證,囚徒困境假定每個參與者(即「囚徒」)都是利己的,即都尋求最大自身利益,而不關心另一參與者的利益。參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,此策略稱為「嚴格劣勢」,理性的參與者絕不會選擇。另外,沒有任何其他力量干預個人決策,參與者可完全按照自己意願選擇策略。

囚徒到底應該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由於隔絕監禁,並不知道對方選擇;而即使他們能交談,還是未必能夠盡信對方不會反口。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。

試設想困境中兩名理性囚徒會如何作出選擇:

若對方沉默、背叛會讓我獲釋,所以會選擇背叛。

若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。

二人面對的情況一樣,所以二人的理性思考都會得出相同的結論——選擇背叛。背叛是兩種策略之中的支配性策略。因此,這場博弈中唯一可能達到的納什均衡,就是雙方參與者都背叛對方,結果二人同樣服刑2年。

這場博弈的納什均衡,顯然不是顧及團體利益的帕累托最優解決方案。以全體利益而言,如果兩個參與者都合作保持沉默,兩人都只會被判刑半年,總體利益更高,結果也比兩人背叛對方、判刑2年的情況較佳。但根據以上假設,二人均為理性的個人,且只追求自己個人利益。

均衡狀況會是兩個囚徒都選擇背叛,結果二人判決均比合作為高,總體利益較合作為低。這就是「困境」所在。例子漂亮地證明了:

非零和博弈中,帕累托最優和納什均衡是相沖突的。

[編輯本段]一般形式

整理囚徒困境的基本博弈結構,可更清楚地分析囚徒困境。實驗經濟學常用這種博弈的一般形式分析各種論題。以下是實現一般形式的其中一例:

有兩個參與者和一個莊家。參與者每人有一式兩張卡片,各印有「合作」和「背叛」。參與者各把一張卡片文字面朝下,放在莊家面前。

文字面朝下排除了參與者知道對方選擇的可能性1。然後,莊家翻開兩個參與者卡片,根據以下規則支付利益:

一人背叛、一人合作:背叛者得5分(背叛**),合作者0分(受騙支付)。

二人都合作:各得3分(合作報酬)。

二人都背叛:各得1分(背叛懲罰)。

用支付矩陣**展示支付如下(以紅和藍分別表示二參與者):

一般形式囚徒困境的支付矩陣合作背叛

合作 3, 3 0, 5

背叛 5, 0 1, 1

以「t、r、p、s」符號表示合作背叛

合作 r, r s, t

背叛 t, s p, p

以「勝-負」術語表示合作背叛

合作勝-勝大負-大勝

背叛大勝-大負負-負

簡單博弈獲得的點數可以得出一些一般化的結論。

t、r、p、s符號表

符號分數英文中文(非術語) 解釋

t 5 temptation 背叛** 單獨背叛成功所得。

r 3 reward 合作報酬共同合作所得

p 1 punishment 背叛懲罰共同背叛所得

s 0 suckers 受騙支付被單獨背叛所獲

若以t(temptation)=背叛**,r(reward)=合作報酬,p(punishment)=背叛懲罰,s(suckers)=受騙支付,以個人選擇得分而言,可得出以下不等式。

t>r>p>s

(解:從5>3>1>0獲得以上不等式)

若以整體獲分而言,將得出以下不等式。

2r>t+s或2r>2p

(解:2×3>5+0或2×3>2x1;合作2人共得6分,比起互相背叛的共得2分及單獨背叛的共得5分,顯然合作獲分比背叛高。合作在團體而言是支配性策略。)

而重複博弈或重複的囚徒困境將會使參與者從注重t>r>p>s轉變成注重2r>t+s。就是說將使參與者脫離困境。以上理論是道格拉斯·霍夫施塔特建立的。

[編輯本段]現實的例子

上述例子可能顯得不甚自然,但現實中,無論是人類社會或大自然都可以找到類似囚徒困境的例子,將結果劃成同樣的支付矩陣。社會科學中的經濟學、政治學和社會學,以及自然科學的動物行動學、進化生物學等學科,都可以用囚徒困境分析,模擬生物面對無止境的囚徒困境博弈。囚徒困境可以廣為使用,說明這種博弈的重要性。

以下為各界例子:

政治學例子:軍備競賽

在政治學中,兩國之間的軍備競賽可以用囚徒困境來描述。兩國都可以聲稱有兩種選擇:增加軍備(背叛)、或是達成削減**協議(合作)。

兩國都無法肯定對方會遵守協議,因此兩國最終會傾向增加軍備。似乎自相矛盾的是,雖然增加軍備會是兩國的「理性」行為,但結果卻顯得「非理性」(例如會對經濟造成都有損壞等)。這可視作遏制理論的推論,就是以強大的軍事力量來遏制對方的進攻,以達到和平。

經濟學例子:關稅戰

兩個國家,在關稅上可以有以兩個選擇:

提高關稅,以保護自己的商品。(背叛)

與對方達成關稅協定,降低關稅以利各自商品流通。(合作)

當一國因某些因素不遵守關稅協定,獨自提高關稅(背叛),另一國也會作出同樣反應(亦背叛),這就引發了關稅戰,兩國的商品失去了對方的市場,對本身經濟也造成損害(共同背叛的結果)。然後二國又重新達成關稅協定。(重複博弈的結果是將發現共同合作利益最大。

)商業例子:廣告戰

商業活動中亦會出現各種囚徒困境例子。以廣告競爭為例。

兩個公司互相競爭,二公司的廣告互相影響,即一公司的廣告較被顧客接受則會奪取對方的部分收入。但若二者同時期發出質量類似的廣告,收入增加很少但成本增加。但若不提高廣告質量,生意又會被對方奪走。

此二公司可以有二選擇:

互相達成協議,減少廣告的開支。(合作)

增加廣告開支,設法提升廣告的質量,壓倒對方。(背叛)

若二公司不信任對方,無法合作,背叛成為支配性策略時,二公司將陷入廣告戰,而廣告成本的增加損害了二公司的收益,這就是陷入囚徒困境。在現實中,要二互相競爭的公司達成合作協議是較為困難的,多數都會陷入囚徒困境中。

自行車賽例子

自行車賽事的比賽策略也是一種博弈,而其結果可用囚徒困境的研究成果解釋。例如每年都舉辦的環法自由車賽中有以下情況:選手們在到終點前的路程常以大隊伍(英文:

peloton)方式前進,他們採取這策略是為了令自己不至於太落後,又出力適中。而最前方的選手在迎風時是最費力的,所以選擇在前方是最差的策略。通常會發生這樣的情況,大家起先都不願意向前(共同背叛),這使得全體速度很慢,而後通常會有二或多位選手騎到前面,然後一段時間內互相交換最前方位置,以分擔風的阻力(共同合作),使得全體的速度有所提升,而這時如果前方的其中一人試圖一直保持前方位置(背叛),其他選手以及大隊伍就會趕上(共同背叛)。

而通常的情況是,在最前面次數最多的選手(合作)通常會到最後被落後的選手趕上(背叛),因為後面的選手騎在前面選手的沖流之中,比較不費力。

博弈論的經典模型有哪些?

2樓:小甜甜愛亮亮

經濟學中的「智豬博弈」(pigs』payoffs)

這個例子講的是:豬圈裡有兩頭豬,一頭大豬,一頭小豬。豬圈的一邊有個踏板,每踩一下踏板,在遠離踏板的豬圈的另一邊的投食口就會落下少量的食物。

如果有一隻豬去踩踏板,另一隻豬就有機會搶先吃到另一邊落下的食物。當小豬踩動踏板時,大豬會在小豬跑到食槽之前剛好吃光所有的食物;若是大豬踩動了踏板,則還有機會在小豬吃完落下的食物之前跑到食槽,爭吃到另一半殘羹。

那麼,兩隻豬各會採取什麼策略?答案是:小豬將選擇「搭便車」策略,也就是舒舒服服地等在食槽邊;而大豬則為一點殘羹不知疲倦地奔忙於踏板和食槽之間。

原因何在?因為,小豬踩踏板將一無所獲,不踩踏板反而能吃上食物。對小豬而言,無論大豬是否踩動踏板,不踩踏板總是好的選擇。

反觀大豬,已明知小豬是不會去踩動踏板的,自己親自去踩踏板總比不踩強吧,所以只好親力親為了。

「小豬躺著大豬跑」的現象是由於故事中的遊戲規則所導致的。規則的核心指標是:每次落下的事物數量和踏板與投食口之間的距離。

如果改變一下核心指標,豬圈裡還會出現同樣的「小豬躺著大豬跑」的景象嗎?試試看。

改變方案一:減量方案。投食僅原來的一半分量。

結果是小豬大豬都不去踩踏板了。小豬去踩,大豬將會把食物吃完;大豬去踩,小豬將也會把食物吃完。誰去踩踏板,就意味著為對方貢獻食物,所以誰也不會有踩踏板的動力了。

博弈論又被稱為對策論(game theory),既是現代數學的一個新分支,也是運籌學的一個重要學科。

博弈論主要研究公式化了的激勵結構間的相互作用,是研究具有鬥爭或競爭性質現象的數學理論和方法。博弈論考慮遊戲中的個體的**行為和實際行為,並研究它們的優化策略。生物學家使用博弈理論來理解和**進化論的某些結果。

博弈論已經成為經濟學的標準分析工具之一。在金融學、**學、生物學、經濟學、國際關係、電腦科學、政治學、軍事戰略和其他很多學科都有廣泛的應用。

《博弈聖經》博弈論的定義:我們把動物利用大自然移動的癮魂,在決策人期待的空間裡,形成三維均衡的語文學理論,稱為博弈論。 [1]

基本概念中包括局中人、行動、資訊、策略、收益、均衡和結果等。其中局中人、策略和收益是最基本要素。局中人、行動和結果被統稱為博弈規則。

博弈論模型,博弈論模型

什麼是博弈論博弈論是什麼？

博弈論是什麼，什麼是博弈論？

什麼是博弈論呢，什麼是博弈論？

博弈論模型,博弈論模型

什麼是博弈論博弈論是什麼？

博弈論是什麼，什麼是博弈論？

什麼是博弈論呢，什麼是博弈論？

相關推薦