博弈論囚徒困境博弈論裡的囚徒困境怎麼解決

1樓：俞根強

既然兩個人選擇抵賴的收益高於坦白的收益，但是博弈的最終結果卻都是選擇坦白，

***************====＞

這裡的描述是不完整的。必須有條件：

1、自己抵賴，而且【被】對方揭發，這種情況的懲罰非常非常【嚴重】，遠遠重於其它情況

2、兩名囚徒，不能見面，不能有【互相串供】【建議】：樓主（wtf64）你，應該將【前提】條件記完整。

從經濟學角度怎樣來解釋這種似乎矛盾的選擇

***************====＞

補充完整條件之後，解答還是比較容易。

經濟學的基本假設之一就是理性經濟人，即每個經濟人都是理性的。

在兩名囚徒之間資訊不【充分】的條件之下，例如不能有【互相串供】，選擇【坦白、並揭發對方】，是對自己最有利的

如果覺得滿意的話，請選一下那個【滿意】哦。謝謝……

2樓：匿名使用者

是這樣的，如果你將兩個囚徒的收益通過**的形式表示出來以後，你就會發現，如果兩個囚徒都選擇不坦白，那麼其中任何一方偏離當前選擇就會造成另一方的嚴重損失，所以雙方不坦白是不具有穩定性的，一個能達到納什均衡的策略必須滿足這樣一個條件，就是無論對方做出什麼樣的選擇，該策略相對於其他策略總是收益最高的，因此這並不是矛盾的，只是因為博弈方缺乏溝通而導致的不信任的結果。不知道這樣解釋清不清楚。。。

3樓：匿名使用者

資訊的不對稱和利己主義

4樓：白臉華

人都是理性的。只追求自身利益最大化，在自己不確定對方囚徒會怎麼選擇，肯定選擇自己最好的結果。其實也反映了兩個事：資訊不對稱、區域性最大化不一定會是整體最大化

博弈論裡的囚徒困境怎麼解決

5樓：小俊七七

當兩個參與者player同時有對對方的最佳反饋時（即達到納什均衡，也就是同時認罪），就可以得到囚徒困境的最佳結果。

其實兩個囚犯如果都否認犯罪，那麼便能獲得最少的判刑。但是兩個囚犯都在關在不同的地方，雙方也無法碰面，所以無法確信對方是否會背叛自己。就個人的理性選擇而言，檢舉背叛對方所得刑期，總比沉默要來得低，所以二人的理性思考都會得出相同的結論——選擇背叛。

因此，這場博弈中只有一種可能能達到的納什均衡，就是雙方參與者都背叛對方，結果二人同樣服刑8年。

擴充套件資料

囚徒困境經典例子

2023年，由就職於蘭德公司的梅里爾·弗勒德（merrillflood）和梅爾文·德雷希爾（melvindresher）擬定出相關困境的理論，後來由顧問艾伯特·塔克（alberttucker）以囚徒方式闡述，並命名為「囚徒困境」。經典的囚徒困境如下：

**逮捕甲、乙兩名嫌疑犯，但沒有足夠證據指控二人入罪。於是**分開囚禁嫌疑犯，分別和二人見面，並向雙方提供以下相同的選擇：

若一人認罪並作證檢控對方（相關術語稱「背叛」對方），而對方保持沉默，此人將即時獲釋，沉默者將判監10年。

若二人都保持沉默（相關術語稱互相「合作」），則二人同樣判監1年。

若二人都互相檢舉（相關術語稱互相「背叛」），則二人同樣判監8年。

6樓：匿名使用者

20190903 數學05

7樓：一零啞劇

1、利用無限次重複博弈（例如，經典的針鋒相對策略、冷酷策略等）2、利用資訊不完全（例如，聲譽效用、個體型別等）3、利用心智模型，放鬆主體假定（例如帶有同情的博弈）4、本方可以採取一些措施（如降低本方的收益，籤協議）讓對方有理由相信你沒有動機產生偏離，從而有動機產生合作

歷史上曾經有人在真實環境中做過囚徒困境的實驗，發現重複博弈後的結果就是趨於合作。

其實經典博弈論中的「個體絕對理性」假設實在是太強了，因此後來有人就提出了「有限理性」的假設，即人們的計算能力是有限的，不可能用數學去計算分析完博弈的所有結果後再做出選擇（因為很多情況下人們並不知道該怎麼分析），而只是依據經驗做出選擇，然後再對結果進行學習（舉例來說，如果你沒學過博弈論，你可能就不知道該如何「理性」地分析囚徒困境，你所做的只是依據經驗做出選擇）。這個思想其實和生物進化論的思想差不多（或者機器學習也類似），其中的一個概念就是evolutionarily stable strategy。因此博弈論在某些方面還不夠完善，它還不太適合來進行「**」

8樓：匿名使用者

打破前提，就可以破解囚徒困境了！

很簡單，不斷重複！不斷重複！一提到囚徒困境，很多人只知道，兩個囚犯都會坦白，因為這樣對個人收益最大！

並且這種選擇只有一次！兩個人進行這次試驗後，不會再相遇！就算我出賣你，那我也沒什麼後顧之憂！

是吧？ok，那我們增加一個條件，進行100次這樣的實驗，而且在同樣的兩個人身上！哈哈，經典來了！

隨著實驗次數的增加，他們就會發現，合作對於他們而言，才是最好的選擇！你出賣我，那麼我以後就都出賣你！這是一種懲罰機制！

同時，因為他們還要被繼續試驗下去，實驗者會一直選擇合作！而不是單方面的坦白！

9樓：千里揮戈闖天涯

囚徒困境：

**逮捕甲、乙兩名嫌疑犯，但沒有足夠證據指控二人入罪。於是**分開囚禁嫌疑犯，分別和二人見面，並向雙方提供以下相同的選擇：

若一人認罪並作證檢舉對方（相關術語稱「背叛」對方），而對方保持沉默，此人將即時獲釋，沉默者將判監10年。

若二人都保持沉默（相關術語稱互相「合作」），則二人同樣判監半年。

若二人都互相檢舉（互相「背叛」），則二人同樣判監2年。

因此，甲乙二人的支付矩陣為：

從支付矩陣中可以看到，甲乙的納什均衡為同時認罪；但其實甲乙二人同時沉默才能使得判刑時間最短。因此想要跳出囚徒困境，甲乙二人必須充分地信任對方，才能同時保持沉默，使得各自的支付最大。

10樓：

prisoner's

dilemma 囚徒困境是game theory中經典的問題。

當兩個參與者player同時有對對方的最佳反饋best response formula時，（即達到納什均衡nash equillibrium），我們就可以得到囚徒困境的最佳結果out***e.

下文的br指的是best response(最佳方案)

從圖中我們可以看出，br1（player2合作）=背叛（5）br1（player2背叛）=背叛（1）

同理 br2（player1合作）=背叛（5）br2（player1背叛）=背叛（1）、

從上面可得，這個例子中唯一的納什均衡是（背叛，背叛）=（1,1）在當前遊戲是simoutanious game的前提條件下，無論對方用什麼方案，我都想背叛，因為我不能保證其他的player在我合作的時候背叛我以獲得更高的payoff（收益）。

=，=手打的，自己寫的東西。

11樓：上官

最佳確定性策略被認為是"以牙還牙"。

這是阿納托爾·拉波波特(anatol rapoport)開發並運用到錦標賽中的方法。它是所有參賽程式中最簡單的，只包含了四行basic語言，並且贏得了比賽。

「以牙還牙」策略是:

第一次與對方合作，從第二次開始，每一次都用對方前一次對待自己的方式來對待它，

也就是：如果前一次對方背叛自己，那麼這一次自己就背叛對方；如果前一次對方與自己合作，那麼這次自己就與對方合作。

更好些的策略是"寬恕地以牙還牙"。當你的對手背叛，在下一回閤中你無論如何要以小概率(大約是1%~5%)時而合作一下。

這是考慮到偶爾要從迴圈背叛的受騙中復原。當錯誤傳達被引入博弈時，"寬恕地以牙還牙"是最佳的。這意味著有時你的動作被錯誤地傳達給你的對手:你合作但是你的對手聽說你背叛了。

拓展資料：

靜態博弈，又叫囚徒困境，它**於一個非常有趣的例子：

有一對兄弟因為涉嫌犯罪被警察抓了起來，兩人被關在不同的審訊室，他們有兩個選擇，坦白或者沉默，如果兩人都選擇坦白，那麼兩人都會獲刑8年，如果兩人都選擇沉默，那麼兩人都會獲刑1年，如果一人選擇坦白一人選擇沉默，坦白者會獲得自由，沉默者會獲刑20年。請問兩人應該採取什麼樣的策略呢？

12樓：請叫丶我海哥

分情況討論，首先對甲或者已來說背叛都是最優策略。所以都會選背叛。然而也並非都是背叛，可以通過一些制約達成合作，從而使雙方過得最大利益，例如合法的方式制定合同，或者暴力威脅等。

博弈論裡的囚徒困境怎麼解決

13樓：多想依然如沫

你沒不知道囚徒困境的前提嗎？

打破前提，就可以破解囚徒困境了！

很簡單，不斷重複！不斷重複！一提到囚徒困境，很多人只知道，兩個囚犯都會坦白，因為這樣對個人收益最大！

並且這種選擇只有一次！兩個人進行這次試驗後，不會再相遇！就算我出賣你，那我也沒什麼後顧之憂！

是吧？ok，那我們增加一個條件，進行100次這樣的實驗，而且在同樣的兩個人身上！哈哈，經典來了！

隨著實驗次數的增加，他們就會發現，合作對於他們而言，才是最好的選擇！你出賣我，那麼我以後就都出賣你！這是一種懲罰機制！

同時，因為他們還要被繼續試驗下去，實驗者會一直選擇合作！而不是單方面的坦白！

囚徒困境是什麼意思？？？

14樓：易書科技

一件嚴重的縱火案發生後，警察在現場抓到兩個犯罪嫌疑人。事實上，正是他們一起放火燒了這座倉庫。但是，**沒有掌握足夠的證據，只得把他們隔離囚禁起來，要求他們坦白交代。

在這種情形下，兩個囚犯都可以做出自己的選擇：或者供出他的同夥——即與警察合作，從而背叛他的同夥；或者保持沉默——也就是與他的同夥合作，而不是與警察合作。這兩個囚犯都知道，如果他倆都能保持沉默的話，就都會被釋放，因為只要他們拒不承認，**無法給他們定罪。

但**也很明白這一點，所以就決定對兩個囚犯來點刺激：如果他們都承認縱火，每人將被判入獄3年；如果他們都不承認，每人將因為缺乏證據而都被釋放：如果一個抵賴而另一個坦白並且願意出來作證，那麼抵賴的將被判入獄5年，還要對他施以罰款，而坦白者將被寬大處理——釋放，同時還可以得到一筆獎金。

那麼，這兩個囚犯該怎麼辦呢？是選擇互相合作還是互相背叛？

從表面上看，他們應該互相合作，保持沉默，因為這樣他們倆都能得到最好的結果：自由。但他們不得不仔細考慮對方可能採取什麼選擇。

a犯不是個傻子，他根本無法相信同夥不會向**提供對他不利的證據，然後帶著一筆豐厚的獎賞出獄而去，讓他獨自坐牢。這種想法的**力實在太大了。但他也意識到，他的同夥也不是傻子，也會同樣來這樣設想他。

所以a犯的結論是，唯一理性的選擇就是背叛同夥，把一切都告訴**，因為如果他的同夥笨得只會保持沉默，那麼他就會是那個帶獎出獄的幸運者了。而如果他的同夥也根據這個邏輯向**交代了，那麼，a犯反正也得服審，起碼他不必服最重的刑。

一番博弈的結果就是。這兩個囚犯按照自己的邏輯做出行動，雙雙坐牢。

上面的故事反應了人們的一種博弈心理，它在心理學上被稱作「囚徒困境」，最早是由美國普林斯頓大學的數學家增克於2023年提出來的。他當時創造出這樣一個故事是為了向美國斯坦福大學的一群心理學家們解釋什麼是博弈論。後來，「囚徒困境」演繹出許多版本，成為博弈論中最著名的案例。

「囚徒困境」告訴我們，在一個存在著相互作用的博弈中，最好的策略直接取決於對方採用的策略，特別是取決於這個策略為發展雙方合作留出多大的餘地。

在大家都非常熟悉的國內的家電大戰中，雖然不是兩個對手之間的博弈，但由於在眾多對手當中，每一方的市場份額都很大，每一個主體人的行為後果受對手行為的影響都很大，因此，其情景大概也是如此。

因而，如果清楚這種前景，雙方勾結或合作起來，都實行比較高的**，那麼雙方都可以因為避免**大戰而獲得較高的利潤。有人把這樣一種合作的做法，叫做「雙贏對局」。而這樣的結果，往往雙方將都是「雙贏對局」的贏家。

可惜這些聯盟也往往處於利益驅動的「囚徒困境」。而雙贏也就成為泡影。五花八門的**聯盟總是非常短命，道理就在這裡。

在囚徒困境中，雙方不約而同地選擇背叛而坐牢，一方面的原因是與同夥合作的懲罰遠遠高於所得到的報酬，另一方面也由於這是在資訊不透明的情況下進行的一次性決策，不存在更多的後果或者後續的博弈。

舉例來說，在公共汽車上，兩個陌生人會為一個座位爭吵，如果他們認識，可能就會相互謙讓。在夜市地攤、車站和旅遊景點等人群流動性大的地方，不但商品和服務質量最差，而且假冒偽劣橫行，因為在商家和顧客之間沒有後續的博弈，顧客不大可能因為飯菜可口而再次光臨。既然是一錘子買賣，不賺白不賺。

也正是這種心理所驅使，如果一廂情願地選擇合作就要受到懲罰。約翰遜**在向一群商業界頭面人物說明需要大量資金同前蘇聯進行導彈競賽時，曾經通過下面這個故事來說明這個道理：

2023年，一位得克薩斯州人離家前去參加南軍士兵陣營。他告訴他的鄰居他很快就會回來，這場戰爭不會費力：「因為我們能用掃帚柄揍這些北方佬。」兩年後，他才重返故里，少了一條腿。

他的鄰居向這位神情悲慘、衣衫襤褸的傷兵詢問到底發生了什麼事：「你不是說過戰爭不費力，你們能用掃帚柄揍這些北方佬嗎？」

這位士兵回答：「我們當然能，但是麻煩在於北方佬不用掃帚打仗。」

可是在生活中的大部分情境中，人與人之間都會存在一些後續的接觸和博弈。那麼在這種情況下，我們又應該如何決策呢？

顯然，一味地以德報怨不可取，因為這樣只是將別人的人生成本轉嫁到自己頭上；而一味地以怨報德也不可取，因為這樣將慢慢失去大多數的博弈夥伴和機會。

所以，最好的決策方法還是囚徒困境教給我們的：以德報德、以怨報怨的反射決策。

事實上，這也是日常生活中多數人的理性選擇，也是一個很具適應性的規則。它的有效是由於其他規則預料到它的存在，並且被設計得與它很好相處。因為要和「反射決策」很好相處，就必須採取合作態度，即使那些伺機佔便宜而不被懲罰的規則，也很快改變，因為任何想佔「反射決策」便宜的規則最終將傷害自己。

要使這一決策方式發生作用，必須滿足以下條件：

特徵是顯著而且容易識別的；

一旦被識別出來，就必須使對方明白會對一切背叛進行報復，並且使對方很難解脫。

數學家約翰·馮諾依曼曾說過：「在一個存在著相互作用的博弈中，最好的策略直接取決於對方採用的策略，特別是取決於這個策略為發展雙方合作留出多大的餘地。」

總之，反射決策能夠贏得競賽不是靠打擊對方，而是靠從對方引出使雙方都有好處的行為。

博弈論囚徒困境博弈論裡的囚徒困境怎麼解決

博弈論模型,博弈論模型

什麼是博弈論博弈論是什麼？

博弈論是什麼，什麼是博弈論？

博弈論囚徒困境博弈論裡的囚徒困境怎麼解決

博弈論模型,博弈論模型

什麼是博弈論博弈論是什麼？

博弈論是什麼，什麼是博弈論？

相關推薦