三方博弈如何建立模型
首先应考虑动态博弈模型,要三方有先后的行动顺序;其次,加上各方的行动策略;再次,加上对应的效用或得益(payoff,现多译为“支付”);最后进行基于得益或支付的均衡分析。
博弈本意是:下棋。引申义是:在一定条件下,遵守一定的规则,一个或几个拥有绝对理性思维的人或团队,从各自允许选择的行为或策略进行选择并加以实施,并从中各自取得相应结果或收益的过程。时候也用作动词,特指选择的行为或策略进行选择并加以实施的过程。
*** 攻防到底要学啥
*** 攻防学习的内容:
1.首先学习windows基础,比如电脑系统安装,故障排除等等。然后多看《计算机 *** 五版》《黑客就这么几招》。
2.进入深度学习,选择语言学习,比如Python,java,c,c++等高级语言,但是英语不好的,像我先学会儿易语言,了解编程,编程思维。然后学习英语,至少单词会了。然后学习其他语言。
3.学习数据库结构,数据库配置,服务器相关配置,以及 *** 配置,为了更好了解目标,也为了防御。
4.可以开始学习渗透了,服务器渗透等。5.学习社会工程学。危则变,变则通,通则久。 *** 攻防是一场此消彼长的动态平衡较量,当前国际 *** 安全局势日趋复杂与严峻,合规驱动的正向 *** 安全防护思维已经不足以满足各行各业的新生安全需求,逆向思维的“攻防实战演习”便成为企业精准评估自身潜在脆弱性、验证安全防护是否健全的方案。
基于随机博弈与改进WolF-PHC的 *** 防御决策 ***
基于随机博弈与改进WolF-PHC的 *** 防御决策 *** 杨俊楠
问题:实际 *** 攻防中很难达到完全理性的要求,使得现有 *** 的准确性和指导价值有所降低。状态爆炸。
思路:从 *** 攻防对抗实际出发,分析有限理性对攻防随机博弈的影响,在有限理性约束下构建攻防随机博弈模型。针对 *** 状态爆炸的问题,提出一种基于攻防图的 *** 状态与攻防动作提取 *** ,有效压缩了博弈状态空间。在此基础上引入了强化学习中的WoLF-PHC算法进行分析,并设计了具有在线学习能力的防御决策算法,通过引入资格迹改进WoLF-PHC算法,进一步提高了防御者的学习速度。
所得策略在有限理性下优于现有攻防随机博弈模型的纳什均衡策略。
本文贡献:
(1)提出一种以主机为中心的攻防图模型并设计了攻防图生成算法,有效压缩了博弈状态空间。
(2)本文将强化学习引入到随机博弈中,使随机博弈由完全理性拓展到有限理性领域。现有有限博弈大多采用生物进化机制进行学习,以群体为研究对象,与其相比,本文所提 *** 降低了博弈参与人之间的信息交换,更适用于指导个体防御决策。
(3)基于资格迹对WoLF-PHC算法进行了改进,加快了防御者的学习速度,减少了算法对数据的依赖并通过实验证明了 *** 的有效性。
强化学习:一种经典的在线学习 *** ,其参与人通过环境的反馈进行独立学习,相比生物进化 *** ,强化学习更适于指导个体的决策。
基于随机博弈的攻防对抗建模
问题描述与分析
有限理性下的攻防随机博弈学习机制需满足2点需求:
1)学习算法的收敛性。
2)学习过程不需要过多攻击者信息。
WoLF-PHC算法是一种典型的策略梯度强化学习 *** ,使防御者通过 *** 反馈进行学习,不需要与攻击者之间过多的信息交换。
WoLF机制的引入保证了WoLF-PHC算法的收敛性:在攻击者通过学习采用纳什均衡策略后,WoLF机制使得防御者能够收敛到对应的纳什均衡策略;在攻击者尚未学习到纳什均衡策略时,WoLF机制使得防御者能够收敛到对应的更优防御策略。
攻防随机博弈模型
对每个状态下博弈所需的“信息”和“行动顺序”2个关键要素进行假定。
(1)“信息”。受有限理性的约束,将攻击者历史动作和攻击者的收益函数设定为攻击者的私有信息。 *** 状态为双方的共同知识。
(2)“行动顺序”。由于攻防双方的非合作行,双方只能通过检测 *** 来观察对方的行动,这会比动作的执行时间至少延迟一个时间片,所以在每个时间片攻防双方是同时行动的,这里的“同时”是一个信息概念而非时间概念,即尽管从时间概念上攻防双方的选择可能不在同一时刻,但由于攻防双方在选择行动时不知道对方的选择则认为是同时行动。
为了增强模型的通用性将转移概率设定为攻防双方的未知信息。
定义1.攻防随机博弈模型(attack defense stochastic game model,AD-SGM)是一个六元组AD-SGM=(N,S,DR,Q, ),其中:
①N=(attacker,defender)为参与博弈的2个剧中人,分别代表 *** 攻击者和防御者;
②S=( , ,···, )为随机博弈状态 *** ,由 *** 状态组成;
③D=( , ,···, )为防御者动作 *** ,其中 ={ , ,···, }为防御者在博弈状态 的动作 *** ;
④ ( ,d, )为防御者状态转移后的立即回报
⑤ ( ,d)为防御者的状态-动作收益函数,指期望收益
⑥ 为防御者在状态 的防御策略
基于攻防图的 *** 状态与攻防动作提取 ***
随即博弈模型重要组成部分—— *** 状态与攻防动作
关键点是对两者的提取
每个 *** 状态包含当前 *** 所有节点的安全要素, *** 状态的数量是安全要素的幂集,会产生“状态爆炸”。为此提出了以主机为中心的攻防图模型,每个状态节点仅描述主机状态,可以有效压缩状态节点规模。利用此攻防图提取的 *** 状态及攻防动作更有利于进行 *** 攻防对抗分析。
定义2.攻防图是一个二元组G=(S,E)。其中S={ , ,····, }是节点安全状态 *** , =host,privilege,其中host是节点的唯一标识,privilege={none,user,root}分别标识不具有任何权限、具有普通用户权限、具有管理员权限。E=( , )为有向边,标识攻击动作或防御动作的发生引起节点状态的转移, =( ,v/d, ),k=a,d,其中 为源结点, 为目标结点。
攻防随机博弈模型的状态 *** 由攻防图节点提取,防御动作 *** 由攻防图的边提取。
1) *** 安全要素
*** 安全要素NSE由 *** 连接关系矩阵C 、 节点脆弱性信息V 、 节点服务信息F 、 节点访问权限P 组成。其中C=host host port描述节点之间的连接关系,矩阵的行表示源节点shost,矩阵的列表示dhost,矩阵元素表示shost到dhost的端口port访问关系,当port= 时表示shost与dhost之间不存在连接关系;V=host,service,cveid表示节点host上的服务service存在脆弱性cveid,包括系统软件、应用软件存在的安全漏洞和配置不当或配置错误引起的安全漏洞;F=host,service表示节点host上开启服务service;P=host,privilege表示攻击者在节点host上拥有privilege访问权限。
2)攻击模板
攻击模板AM时对脆弱性利用的描述:AM=tid,prec,postc。其中tid是攻击模式标识;prec=P,V,C,F描述攻击者利用一个脆弱性所需具备的前提条件 *** ,包括攻击者在源节点shost上具有的初始访问权限privilege、目标节点的脆弱性信息cveid、 *** 节点关系C、节点运行服务F,只有满足该条件 *** ,攻击者才能成功利用该脆弱性;postc=P,C,sd描述攻击者成功利用一个脆弱性而产生的后果,包括攻击者在目标节点上获得权限的提升、 *** 连接关系的变化以及服务破坏等。
3)防御模块
防御模板DM是防御者在预测或者识别攻击后采取的相应措施:DM=tid,dset,tid是攻击标识,dset={ ,post , ,post ,····, ,post }是应对特定攻击的防御策略集。其中, 是防御策略标识;post =F,V,P,C描述防御策略对 *** 安全要素的影响,包括对节点服务信息、节点漏洞信息、攻击者权限信息、节点连接关系等的影响。
攻防图生成算法
基于WoLF-PHC的博弈分析与策略选取
将强化学习机制引入到有限理性随机博弈中,采用WoLF-PHC算法在AD-SGM基础上进行防御策略选取。
WoLF-PHC算法原理
Q-learning算法
Q-learining是WoLF-PHC算法的基础,是一种典型的免模型强化学习算法,
Q-learning中Agent通过与环境的交互获得回报和环境状态转移的只是,知识用收益 来表示,通过更新 来进行学习。其收益函数 为
Q-learning的策略为
PHC算法
爬山策略算法是一种适用于混合策略的简单实用的梯度下降学习算法,是对Q-learning的改进。PHC的状态-动作收益函数 与Q-learning相同,但不再沿用Q-learning的策略更新方式,而是通过执行爬山算法对混合策略 进行更新, 为策略学习率。
WoLF-PHC算法
狼爬山策略算法是对PHC算法的改进。通过引入WoLF机制,使防御者具有2种不同的策略学习率,当获胜时采用低策略学习率 ,当失败时采用高策略学习率 .
2个学习率使得防御者在比与其表现差时能快速适应攻击者的策略,比预期表现差时能快速适应攻击者的策略,比与其表现好时能谨慎学习。最重要的时WoLF机制的引入,保证了算法的收敛性。WoLF-PHC算法采用平均策略作为胜利和失败的判断标准
基于资格迹的改进WoLF-PHC及防御策略算法
为提高WoLF-PHC算法的学习速度,减少算法对数据量的依赖程度,引入资格迹对WoLF-PHC进行改进。资格迹能跟踪最近访问的特定状态-动作轨迹,然后将当前回报分配给最近访问的状态-动作。
对WoLF-PHC进行改进。定义,每个状态-动作的资格迹为e(s,a)设定当前 *** 状态为 ,资格迹更新:
算法2 防御决策算法
实验分析
利用工具对实验 *** 进行扫描
构建实验场景的AD-SGM
①N=(attacker,defender)为参与博弈的局中人,分别代表 *** 攻击者和防御者。
②随机博弈状态 *** S=(s0,s1,s2,s3,s4,s5,s6),随机博弈状态由 *** 状态组成,从攻击图与防御图种的节点提取。
测试与分析
实验的目的:1)测试不同参数设置对算法的影响,从而找出适用于本场景的实验参数
2)将本文的 *** 与现有典型 *** 进行比较,验证本文 *** 的先进性;
3)测试基于资格迹对WoLF-PHC算法改进的有效性。
1)
2)
之一组实验:
[12]随即博弈 [16]演化博弈
[12]防御策略为 =0.7, =0.3
[16]演化稳定均衡的防御策略为 =0.8, =0.2
第二组实验:
可知,当面对学习能力较弱的攻击者时,本文 *** 由于文献[12]和文献[16]的 *** 。当面对学习能力较强的攻击者时,如果攻击者尚未通过学习得到纳什均衡,此时本文的 *** 仍然优秀;如果攻击者通过学习得到了纳什均衡策略,取得与文献[12]相同的效果,并优于文献[16]。
有无资格迹的对比测试
每1000次的平均收益变化对比
统计有、无资格迹下前3000次防御收益的平均值,各统计10次。
博弈的几种基本类型是什么?
根据博弈中参与者是否了解对方的行动以便采取自己的行动,博弈可以分为静态博弈和动态博弈。
静态博弈是指参与者同时采取行动,或者尽管参与者采取的行动有先后顺序,但后行动的人不知道先采取行动的人采取的是什么行动。
举一个简单的例子。小孩子常常玩一种“剪刀、石头、布”的游戏,这就是一种静态博弈。两个小孩同时出招,出招之前,任何一方都不知道对方会出哪一招,只能根据自己的猜测或者随意选择自己的策略。这就属于静态博弈。
动态博弈是指参与者的行动有先后顺序,并且后采取行动的人可以知道先采取行动的人所采取的行动。
下面这个故事就包含了一个典型的动态博弈:
在一家小旅馆里,一位住店的男青年走入厕所。突然,一个打扮得花枝招展的女郎闪电似的跟着进了厕所,并迅速地把厕所门关上,对青年说道:“把你的钱和手表给我,不然我就喊你非礼。”
厕所里没有第三者,真相难以说清,不给钱女郎就喊非礼,弄不好会使自己声名狼藉。男青年遇此困境,并未惊慌失措,而是急中生智,用手指指自己张大的嘴巴,又指指自己的耳朵,然后“呜呜啊啊”地叫起来。
女郎见事情不顺利,便想转身溜走。此时男青年掏出钢笔递给她,并将自己的手掌伸出来,示意女郎把刚才的话写在他的手掌上。
青年这一动作如此逼真,女郎以为真的遇到了哑巴,放松了警惕。她还想继续敲诈,便拿起笔在男青年的手上写道:“把钱和手表给我,不然就喊你非礼!”
这个青年取得了女郎的罪证,便一把抓住她,大喊一声:“抓抢劫犯!”
女郎是个惯犯,每天抢劫别人,没想到今天被人抓了。
在青年与女郎的博弈过程中,先是女郎威胁青年,接着是青年急中生智装哑巴,女郎与青年这一先一后的行为就是动态博弈了。青年根据女郎的威胁策略做出了装哑巴的行动,但到这里博弈过程并未结束。动态博弈就是把博弈过程重复下去,如果是无限重复,那就是无限动态博弈,有限重复就是有限动态博弈,像平时玩的接龙游戏就属于无限动态博弈,而案例中的女郎与青年的博弈显然是个有限动态博弈。接着女郎根据小伙子的行动判断出小伙子是哑巴,然后做出在小伙子手上写字的行动,直到小伙子又做出行动策略:喊抓抢劫犯。至此,整个博弈过程结束。
从知识的拥有程度来看,博弈又可以分为完全信息博弈和不完全信息博弈。
完全信息博弈指参与者对所有参与者的策略空间及策略组合下的支付有完全的了解,否则就是不完全信息博弈。
有名的“警察与小偷”博弈就是完全信息博弈:
某警察负责城市中某区的治安。警察要对该区的A、B两地进行巡逻。假定该区只有一个小偷要实施偷盗。警察要防止小偷的偷盗,但警察只能一次在一个地方巡逻。而对于小偷而言,他也只能去一个地方。假定A地需要保护的财产价值为2万元,B地的财产价值为1万元。若警察在某地进行巡逻,而小偷也选择了去该地,因警察在场,小偷无法偷盗该地的财物;若警察没有去某地巡逻,而小偷选择了去该地,则小偷偷盗成功。警察怎么巡逻才能使效果更好呢?暂时不谈警察和小偷的更佳策略,单就此博弈本身而言,其中的信息比如A、B两地的财产价值、城区的交通环境等对于博弈双方都是公开的,不存在信息不对称的情况,这就是完全信息博弈。
如果对这个博弈模型稍加改造,假设警方在某个路口设下了埋伏,而小偷却不知情,也就是博弈的参与人之一(小偷)对所有参与者的策略空间(博弈的环境和条件)不完全了解,此博弈就会演变成不完全信息博弈。
以上是对博弈论几种基本类型的简单介绍。关于更详细的内容,会在下面的章节中讲到。
动态博弈写出该博弈的策略式表达 找出纯策略纳什均衡 急求大神详解!!
要识别纳什均衡其实可以使用划线法,首先我们从经销商的角度来看,如果制造商采取产品升级策略,那么经销商的更佳策略是继续特价销售,如果制造商采取不升级,那么经销商的更佳策略是采取不停止特价销售;接着我们站在制造商的角度来看,如果经销商采取停止特价销售,那么制造商的更佳策略是产品升级如果经销商继续特价销售,制造商的更佳策略是采取产品升级。因此综合上面的分析不难发现,该博弈中的优势策略即为唯一的纳什均衡策略(继续特价销售,产品升级)。第三个问题其实是将原有的静态博弈模型转变为了一个动态博弈模型,可以通过逆推归纳法来分析,由于比较麻烦如果你有需要可以直接找我,将原有的博弈展开成为一个博弈树不难发现,无论是谁先动,该博弈的子博弈完美纳什均衡仍然是经销商选择继续特价销售,制造商选择产品升级。如果加入更新成本后,响应的在产品升级那一列中制造商的收益都减5,然后继续使用划线法,不难发现新博弈模型中(停止特价销售,不升级)是新的纳什均衡。
0条大神的评论