读书笔记: 博弈论导论 - 06 - 混合的策略

混合的策略

本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。

策略，信念和期望收益

混合策略
玩家i的有限纯策略集合$S_i = {s_{i1}, s_{i2}, \cdots, s_{im}}$。
将$\Delta S_i$定义为$S_i$的单纯形，是在$S_i$上所有概率分布的集合。
玩家i的一个混合策略(mixed strategy)是$\sigma_i \in \Delta S_i$，
\[
\sigma_i = (\sigma_i(s_{i1}), \sigma_i(s_{i2}), \cdots, \sigma_i(s_{im})) \where \\sigma_i(s_{i}) \text{ : the probability that player i plays s_{i}}
\]

两个明显的条件:
\[
\sigma_i(s_{i}) \geq 0, \forall s_i \in S_i \\sum_{s_i \in S_i} \sigma_i(s_{i}) = 1
\]

$\Delta S_i$的例子：(rock-paper-scissor)
$\Delta S_i$ = {(\sigma_i(R), \sigma_i(P), \sigma_i(S)) : \sigma_i(R), \sigma_i(P), \sigma_i(S) \geq 0, \sigma_i(R) + \sigma_i(P) + \sigma_i(S) = 1}$
表示所有$(\sigma_i(R), \sigma_i(P), \sigma_i(S))$对，使得每个值都大于等于0，并且每个值的和为1。
$\sigma(\dot)$支持策略$s_i$($s_i$ is in the support of $\sigma(\dot)$)
给定一个玩家i的混合策略$\sigma(\dot)$，如果$\sigma(s_i) > 0$，则称$\sigma(\dot)$支持纯策略$s_i$。
连续策略集的混合策略
玩家i的纯策略集合$S_i$是一个值区间，则玩家i的一个混合策略是累积分布函数$F_i : S_i \to [0, 1], \ where \ F_i(x) = Pr{s_i < x>}$。
如果$F_i(\dot)$在密度$f_i(\dot)$上可微分，并且$f_i(\dot) > 0$，则称$F_i(\dot)$支持纯策略$s_i$。
信念(belief)
信念$\pi_i \in \Delta S_{-i}$代表玩家i认为对手采用$s_{-i} \in S_{-i}$的概率。
期望收益(Expected Payoffs)
玩家i选择策略$s_i \in S_i$，并且对手选择混合策略$\sigma_{-i} \ \Delta_{-i}$，的期望收益:
\[
v_i(s_i, \sigma_{-i}) = \sum_{s_{-i} \in S_{-i}} \sigma_{-i}(s_{-i}) v_i(s_i, s_{-i})
\]
玩家i选择混合策略$\sigma_i \in \Delta S_i$，并且对手选择混合策略$\sigma_{-i} \ \Delta_{-i}$，的期望收益:
\[
v_i(\sigma_i, \sigma_{-i}) = \sum_{s_{i} \in S_{i}} \sigma_{i}(s_{i}) v_i(s_i, s_{-i}) = \sum_{s_i \in S_i} ( \sum_{s_{-i} \in S_{-i}} \sigma_{i}(s_{i}) \sigma_{-i}(s_{i-}) v_i(s_i, s_{-i}) )
\]
混合策略的纳什均衡
混合策略组合$\sigma^* = (\sigma_1^*, \sigma_2^*, \cdots, \sigma_n^*)$是一个纳什策略，如果对于每个玩家$\sigma_i^*$都是最佳响应。
\[
v_i(\sigma_i^*, \sigma_{-i}^*) \geq v_i(\sigma_i, \sigma_{-i}^*), \ \forall \sigma_i \in \Delta S_i
\]

推论 6.1

如果$\sigma^*$是一个纳什博弈，并且$\sigma^*支持$s_i$和$s‘_i$,则
$v_i(s_i, \sigma_{-i}^*) = v_i(s'_i, \sigma_{-i}^*) = v_i(\sigma^*, \sigma_{-i}^*)$

Rock-Paper-Scissor

断言 6.1:

如果一个玩家选择纯策略，另一个玩家选择混合策略，则不存在纳什均衡。

断言 6.2:

如果至少有一个玩家选择只有两个纯策略的混合策略，则不存在纳什均衡。

严格劣势策略的迭代消除和可合理化(IESDS and Rationalizability)

严格劣势
$s'_i \in S_i$严格劣势于$\sigma_i \in \Delta S_i$，如果满足条件：
\[
v_i(\sigma_i, s_{-i}) > v_i(s'_i, s_{-i}), \ \forall s_{-i} \in S_{-i} \\]
不可能是一个最佳响应
对于玩家i的混合策略$\sigma_i \in \Delta S_i$，这个混合策略作为最佳响应的对手混合策略$\sigma_i \in BR_i(\sigma_{-1})$，如果对手的任何混合策略$\sigma_{-1} \in \Delta S_{-i}$都不在玩家i的信念中，则$\sigma_i \in \Delta S_i$不可能是一个最佳响应。

断言

一个劣势混合策略$sigma_i$不可能是一个最佳响应。

推论 6.2

任何两人博弈中，策略$sigma_i$是一个严格劣势纯策略，当且仅当策略$sigma_i$不可能是一个最佳响应。

纳什存在定理

纳什存在定理(Nash‘s existence Theorem)

任何普通形式、具有限策略集合的博弈存在一个纳什均衡的混合策略。
纳什存在定理的证明用到了不动点定理。

布劳威尔不动点定理(Brouwer‘s Fixed-Point Theorem)

如果f(x)是一个连续函数从域[0, 1]到[0, 1]$f:[0, 1] \to [0, 1]$,则存在至少一个点$f(x^*) = x^*, x^* \in [0, 1]$。
证明过程简介：连续函数f(x)一定和函数$f_1(x) = x$至少有一个交点。

最佳响应对应(collection of best response correspondence)
最佳响应对应集合$BR \equiv BR_1 \times BR_2 \times \cdots \times BR_n$，映射$\Delta S \equiv \Delta S_1 \times \Delta S_2 \times \cdots \times \Delta S_n $ 到自身。
也就是说：$BR : \Delta S \rightrightarrows \Delta S$, $BR(\sigma) \subset \Delta S, \ for \ \sigma \in \Delta S$

角谷不动点定理(Kakutani Fixed-Point Theorem)

一个对应$C: X \rightrightarrows X$有一个不动点，如果以下四个条件都满足：

X是非空的，紧凑的，$\mathbb{R}^n$的凸子集

C(x)对于所有的x都非空。

C(x)对于所有的x都是凸的。

C有一个闭合图。

凸的(convex)
集合$X \subseteq \mathbb{R}^n$是凸的，如果集合X中任何两点的连线上的点都在集合X中。
闭合的(closed)
集合$X \subseteq \mathbb{R}^n$是闭合的，如果集合X边缘点在集合X中。(0, 1]是非闭合的，[0, 1]是闭合的。
紧凑的(compact)
集合$X \subseteq \mathbb{R}^n$是紧凑的，如果集合X是闭合并且有界。[0, 1]是紧凑的，$[0, ∞]$是非紧凑的。
闭合图(closed graph)
图$C: X \rightrightarrows X$是闭合图, 如果C是闭合的。

参照

Game Theory An Introduction (by Steven Tadelis)
读书笔记: 博弈论导论 - 01 - 单人决策问题
读书笔记: 博弈论导论 - 02 - 引入不确定性和时间
读书笔记: 博弈论导论 - 03 - 预备知识
读书笔记: 博弈论导论 - 04 - 理性和公共知识
读书笔记: 博弈论导论 - 05 - 理性和公共知识

原文地址：https://www.cnblogs.com/steven-yang/p/8118418.html

时间： 2025-01-04 16:40:45

读书笔记: 博弈论导论 - 06 - 混合的策略的相关文章

读书笔记: 博弈论导论 - 12 - 不完整信息的静态博弈贝叶斯博弈

读书笔记: 博弈论导论 - 12 - 不完整信息的静态博弈贝叶斯博弈贝叶斯博弈(Bayesian Games) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记. 不完整信息的静态博弈(Incomplete information static games) 不完整信息博弈意味着玩家之间缺乏共识(common knowledge),具体指的是其它对手的行动集.结果集和收益函数等信息. 对不完整信息博弈的处理方法来自于Harsan

读书笔记: 博弈论导论 - 14 - 不完整信息的静态博弈机制设计

读书笔记: 博弈论导论 - 14 - 不完整信息的静态博弈机制设计机制设计(Mechanism Design) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记. 机制设计的概念机制设计的目标是设计一个可以达到期望收益的博弈. 由于这是根据博弈结果来推导博弈的形式,也被称为反向博弈论(reverse game theory). 这个理论明显在经济和政治方面有很多用途. 我们假象这样一个例子: 某个政府需要设计一个关于化工厂的环

读书笔记: 博弈论导论 - 17 - 不完整信息的动态博弈建立信誉

读书笔记: 博弈论导论 - 17 - 不完整信息的动态博弈建立信誉建立信誉(Building a Reputation) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记. 为什么我们要建立良好的信誉?为什么我们更愿意和有信誉的人交往? 本章从囚徒困境这个问题,证明了即使在2阶段的囚徒困境中,如果一方有可能选择合作(也就是沉默),另一个方在第一阶段也有可能选择合作. 让我们回忆一下囚徒困境. 囚徒困境的均衡是双方都告密. 在有限

读书笔记 -- 算法导论 (序言+第一部分)

什么是基础呢? 就是要把我们大学所学的离散数学,算法与数据结构,操作系统,计算机体系结构,编译原理等课程学好.对计算机的体系,CPU本身,操作系统内核,系统平台,面向对象编程,程序的性能等要有深层次的掌握.要编写出优秀的代码同样要扎实的基础,如果数据结构和算法学的不好,怎么对程序的性能进行优化,怎样从类库中选择合适的数据结构.如果不了解操作系统,怎样能了解这些开发工具的原理,它们都是基于操作系统的.不了解汇编,编译原理,怎么知道程序运行时要多长时间要多少内存,就不能编出高效的代码.把面向对象,软

读书笔记 -- 算法导论(第二部分排序和顺序统计学)

输入数据的结构在实际中,待排序的数很少是孤立的值,它们通常是一个称为记录的数据集的一部分.每个记录有一个关键字key,它是待排序的值.记录的其他数据称为卫星数据,即它们通常以key为中心传送.在一个排序的算法中,当交换关键字时,卫星数据也必须交换.如果记录都很大,我们可以交换一组指向各个记录的指针而不是记录本身,以求将数据移动量减少到最小. 在一定意义上,正式这些实现细节才使得一个完整的程序不同于算法.不管我们要排序的是单个的数值还是包含数据的大型记录,就排序的方法来说它们都是一样的.因为,为

Head First Design Pattern 读书笔记（1）策略模式

Head First Design Pattern 读书笔记(1) Strategy Pattern 策略模式这几天为了锻炼看英语文档的能力,开着有道硬着头皮看 <Head First Desgin Pattern>的原版书,顺便做下笔记,把里面提到的每个模式通过回忆的方式画出来复习并记下来总结下学习成果=.= 关于设计模式使用设计模式是为了增强程序的复用性,拓展性,易维护性. 设计模式会增加程序代码的复杂度,并不是所有情况都必须使用设计模式,需要根据需求以及经验评估使用场景. 学习并掌握

effective C++ 读书笔记条款06

条款06:若不想使用编译器自动生成的函数,就该明确拒绝: 直接看代码与注释: #include <iostream> using namespace std; class Test { public: Test() { } ~Test() { } /* void TT() { Test t1; Test t2(t1); } */ private: Test(const Test& test); Test& operator = (const Test& test); }

《算法导论》读书笔记(一)

本章是本书的开篇,介绍了什么是算法,为什么要学习算法,算法在计算机中的地位及作用. 算法(algorithm)简单来说就是定义良好的计算机过程,它取一个或一组值作为输入,并产生出一个或一组值作为输出.即算法就是一系列的计算步骤,用来将输入数据转换成输出数据. 书中有一句话非常好: Having a solid base of algorithm knowledge and technique is one characteristic that separates the truly skill

《算法导论》读书笔记(七)

前言:贪心算法也是用来解决最优化问题,将一个问题分成子问题,在现在子问题最优解的时,选择当前看起来是最优的解,期望通过所做的局部最优选择来产生一个全局最优解.书中先从活动选择问题来引入贪心算法,分别采用动态规划方法和贪心算法进行分析.本篇笔记给出活动选择问题的详细分析过程,并给出详细的实现代码进行测试验证.关于贪心算法的详细分析过程,下次在讨论. 1.活动选择问题描述有一个需要使用每个资源的n个活动组成的集合S= {a1,a2,···,an },资源每次只能由一个活动使用.每个活动ai都有