读书笔记: 博弈论导论 - 12 - 不完整信息的静态博弈 贝叶斯博弈

读书笔记: 博弈论导论 - 12 - 不完整信息的静态博弈 贝叶斯博弈

贝叶斯博弈(Bayesian Games)

本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。

不完整信息的静态博弈(Incomplete information static games)

不完整信息博弈意味着玩家之间缺乏共识(common knowledge),具体指的是其它对手的行动集、结果集和收益函数等信息。
对不完整信息博弈的处理方法来自于Harsanyi。
他引进了两个概念来解决这个问题。
type space: 将对手隐藏的信息(行动集、结果集和收益函数等)转化为多个types,每个type中的信息都是可知的。
belief: 由于不知道对手的具体type是什么,因此使用分布概率表示对手选择某个type的可能性。
这样就可以通过概率统计来计算可能的收益。

  • 静态不完整信息贝叶斯博弈(static Bayesian game of incomplete information)的normal-form描述
    \[
    \left \langle N, \{ A_i \}_{i=1}^n, \{ \Theta_i \}_{i=1}^n, \{ v_i(\cdot; \theta_i), \theta_i \in \Theta_i \}_{i=1}^n, \{ \phi_i \}_{i=1}^n \right \rangle \where \N = \{ 1,2,\cdots, n\} \text{ : is the set of players} \A_i \text{ : the action set of player i} \\Theta_i \text{ : the type space of player i} \v_i : A \times \Theta_i \to \mathbb{R} \text{ : type dependent pay of function of player i} \\phi \text{ : the belief of player i with respect to the uncertainty over the other players' types} \\phi(\theta_{-i} | \theta_i) \text{ : the posterior conditional distribution on } \theta_{-i}
    \]
  • 静态不完整信息贝叶斯博弈处理流程:
  1. 自然选择一个类型组合(profile of types)\(\theta_1, \theta_2, \cdots, \theta_n\)。
  2. 每个玩家知道自己\(\theta_i\),使用先前的\(\phi_i\)来形成对对手type的分布概率。
  3. 玩家选择行动。
  4. 根据玩家们的行动\(a = (a_i, a_2, \cdots, a_n)\),可以或者收益\(v_i(a; \theta)\).
  • 条件概率(conditional probability)
    当事件S发生时,事件H发生的条件概率为:
    \[
    \Pr{H|S} = \frac{\phi(S \land H)}{\phi(S)}
    \]
  • 静态不完整信息贝叶斯博弈 - 纯策略
    \[
    \left \langle N, \{ A_i \}_{i=1}^n, \{ \Theta_i \}_{i=1}^n, \{ v_i(\cdot; \theta_i), \theta_i \in \Theta_i \}_{i=1}^n, \{ \phi_i \}_{i=1}^n \right \rangle \\]
    玩家i的一个纯策略\(s_i(\theta_i) \to a_i\)
  • 静态不完整信息贝叶斯博弈 - 混合策略
    玩家i的一个混合策略是一个在纯策略之上的概率分布。
  • 静态不完整信息贝叶斯博弈 - 纯策略贝叶斯纳什均衡(pure-strategy Bayesian Nash equilibrium)
    一个纯策略贝叶斯纳什均衡\(s^* = (s_1^*, \cdots, s_n^*)\),如果对于每个玩家i,每个玩家的类型\(\theta_i \in \Theta_i\),每个行动\(a_i \in A_i\),满足:
    \[
    \sum_{\theta_{-i} \in \Theta_{-i}} \phi_i(\theta_{-i}|\theta_i) v_i(s_i^*(\theta_i), s_{-i}^*(\theta_{-i});\theta_i)
    \geq \sum_{\theta_{-i} \in \Theta_{-i}} \phi_i(\theta_{-i}|\theta_i) v_i(a_i, s_{-i}^*(\theta_{-i});\theta_i) \where \ v_i(a_i, s_{-i}^*(\theta_{-i});\theta_i) \text{ : only on type } \theta_i \text{, the player i's payoff function}
    \]
    其含义:对于每个玩家,其行动\(s_i^*(\theta_i)\)的分布概率收益总和总是最大的。

关于这章(甚至整本书),重要的是学会如何使用这些理论,书中提供了很好的示例。但这里就不介绍了。

参照

原文地址:https://www.cnblogs.com/steven-yang/p/8321756.html

时间: 2024-10-11 06:11:14

读书笔记: 博弈论导论 - 12 - 不完整信息的静态博弈 贝叶斯博弈的相关文章

读书笔记: 博弈论导论 - 14 - 不完整信息的静态博弈 机制设计

读书笔记: 博弈论导论 - 14 - 不完整信息的静态博弈 机制设计 机制设计(Mechanism Design) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记. 机制设计的概念 机制设计的目标是设计一个可以达到期望收益的博弈. 由于这是根据博弈结果来推导博弈的形式,也被称为反向博弈论(reverse game theory). 这个理论明显在经济和政治方面有很多用途. 我们假象这样一个例子: 某个政府需要设计一个关于化工厂的环

读书笔记: 博弈论导论 - 17 - 不完整信息的动态博弈 建立信誉

读书笔记: 博弈论导论 - 17 - 不完整信息的动态博弈 建立信誉 建立信誉(Building a Reputation) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记. 为什么我们要建立良好的信誉?为什么我们更愿意和有信誉的人交往? 本章从囚徒困境这个问题,证明了即使在2阶段的囚徒困境中,如果一方有可能选择合作(也就是沉默),另一个方在第一阶段也有可能选择合作. 让我们回忆一下囚徒困境. 囚徒困境的均衡是双方都告密. 在有限

读书笔记: 博弈论导论 - 06 - 混合的策略

读书笔记: 博弈论导论 - 06 - 混合的策略 混合的策略 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记. 策略,信念和期望收益 混合策略 玩家i的有限纯策略集合\(S_i = {s_{i1}, s_{i2}, \cdots, s_{im}}\). 将\(\Delta S_i\)定义为\(S_i\)的单纯形,是在\(S_i\)上所有概率分布的集合. 玩家i的一个混合策略(mixed strategy)是\(\sigma_i \

【读书笔记】2016.12.10 《构建高性能Web站点》

本文地址 分享提纲: 1. 概述 2. 知识点 3. 待整理点 4. 参考文档 1. 概述 1.1)[该书信息] <构建高性能Web站点>: -- 百度百科 -- 本书目录: 第1章 绪论 1.1 等待的真相 1.2 瓶颈在哪里 1.3 增加带宽 1.4 减少网页中的HTTP请求 1.5 加快服务器脚本计算速度 1.6 使用动态内容缓存 1.7 使用数据缓存 1.8 将动态内容静态化 1.9 更换Web服务器软件 1.10 页面组件分离 1.11 合理部署服务器 1.12 使用负载均衡 1.1

读书笔记 -- 算法导论(第二部分 排序和顺序统计学)

输入数据的结构 在实际中,待排序的数很少是孤立的值,它们通常是一个称为记录的数据集的一部分.每个记录有一个关键字key,它是待排序的值.记录的其他数据称为卫星数据,即它们通常以key为中心传送.在一个排序的算法中,当交换关键字时,卫星数据也必须交换.如果记录都很大,我们可以交换一组指向各个记录的指针而不是记录本身,以求将数据移动量减少到最小. 在一定意义上,正式这些实现细节才使得一个完整的程序不同于算法.不管我们要排序的是单个的数值还是包含数据的大型记录,就排序的方法来说它们都是一样的.因为,为

《javascript设计模式》读书笔记二(封装和隐藏信息)

1.为什么要封装和信息隐藏 做过编程的朋友们知道"耦合"这个词,其实封装的效果就是为了解耦,让类和类之间没有太多的联系,防止某一天修改某一类的时候,产生"多米骨诺牌效应". 我们可以把信息隐藏看成目的,把封装看成达到信息隐藏的技术.通过封装就可以把对象的内部数据表现形式和实现细节进行隐藏.就好比你会看电视,但是你不知道电视的内部结构一样.但是在javascript中没有任何内置的机制,所以我们还需做些处理,同样来模仿封装. 2.创建对象的方法 1)最简单的一种方法就

《UNIX环境高级编程》读书笔记之系统数据文件和信息(1)

1.UNIX系统口令文件包括了下图所看到的的各字段,这些字段包括在<pwd.h>中定义的passwd结构体中 POSIX定义了两个获取口令文件项的函数. 在给出用户登录名或用户ID后.这两个函数就能查看相关项. #include <pwd.h> struct passwd *getpwuid(uid_t uid); struct passwd *getpwnam(const char *name); 假设想要查看整个口令文件,则要用到以下三个函数: #include <pwd

读书笔记2014第12本:《创新者的窘境》

这本书中的理论可能对于国企员工并无大用,但作为一员科研工作者,整天在总结创新性技术,也算是创新者吧,所以就想了解创新者会遇到什么窘境?全书啰啰嗦嗦就为了说明一个观点:一些优秀企业在市场变化和技术变革的大潮中失败,并不是由于他们疏于管理,而是他们非常重视倾听消费者的意见.积极投资新技术研发.更努力地工作.更积极地投资.全书分析了硬盘行业.挖掘机行业和钢铁行业中的一些现象,得出了上述结论.正由于该理论,该书的作者Clayton M. Christensen奠定了其在哈佛商学院的地位. 看书的致谢部分

【计算机网络(谢希仁)-读书笔记】1.1计算机网络在信息时代中的作用

21世纪是以网络(电信网络,有线电视网络,计算机网络)为核心的信息时代 电信网络:向用户提供电话,电报及传真等服务 有线电视网络:向用户提供各种电视节目 计算机网络(三网核心):使用户能够迅速传送数据文件,以及从网络上查找并获取各种有用资料,包括图像和视频. Internet是仅次于全球电话网的世界第二大网络(是人类自印刷技术发明以来在通信方面最大的变革). 计算机网络是一种通信基础设施,端设备是功能强大且有智能的计算机. 计算机网络向用户提供的最重要的两个功能:连通性和(资源)共享