发布日期：2021-05-08 03:56:20 浏览次数：22 分类：原创文章

本文共 6361 字，大约阅读时间需要 21 分钟。

可重构天线最佳模态选择问题中多臂老虎机的应用

基本问题

可重构天线阵(Reconfigurable Antenna, RA)

在之前的MIMO系统中，我们对于发端信号预处理的讨论是不考虑天线方向图的，我们利用预编码处理之后的发射信号，通过改变相控阵上各个天线单元的馈电相位及幅值来达到分集复用的目的。这里的每个天线单元默认为全向天线。而可重构天线阵则是通过改变天线的结构，进而改变天线的电流分布，从而实现天线不同工作模式的切换。按照种类可以分为频率可重构天线（包括实现宽频带和实现多频带）、极化可重构天线、方向图可重构天线等，下面仅讨论方向图可重构。
从物理意义上讲，RA的引入在原有MIMO系统的基础上新加了一个自由度，进而在原有MIMO的基础上可以提高其理论信道容量。另一个理解角度是：通过合适地选取天线的模态，使得考虑天线模态之后的等效信道相比原先的物理信道能够有更好的性质，即我们通过RA等效地改善了信道环境，这个理解与智能反射面如出一辙。
而由于模态数的增加，RA的信道估计囿于巨大的开销而难以实用，故而目前业界相当一部分精力集中在降低RA信道估计开销上，其中高效选取最优模态是降低信道估计开销的一个思路。

多臂老虎机(Multi-Armed Bandit, MAB)

多臂老虎机是简化之后的强化学习，每一本关于强化学习的教材基本都会从这里开始。多臂老虎机的场景对于RA最佳模态选择问题有一种天然的契合感，下面仅对MAB做简单介绍。

基本问题

在k个选项或者动作中选择，每次做出选择时会得到一定的收益(reward)，该收益由所选择动作决定的分布(未知，且不一定平稳)产生，目标是在一段时间内最大化总收益的期望(价值 value)。

tradeoff：探索利用窘境

每一次动作的选择，会有两个倾向性：一是探索目前未知的arm的知识，目的是完善目前对问题分布的认识；二是利用目前已知的知识做贪婪选择，目的是在当前认识基础上所得收益最高。

问题基本结构

MAB讨论一般从4个方面入手：价值（value）、价值估计函数、策略。
1.价值（value）
$q_{*}(a) \doteq \mathbb{E}\left[R_{t} \mid A_{t}=a\right]$
价值是选取动作 $a$ 时获得的收益的期望，其中 $R_{t}$ 是当前时刻获得的实际收益，它由该模态的分布决定。价值代表的往往是系统本身蕴含的我们想知而未知的知识，我们MAB的试探利用过程既是在探索价值的同时，能够尽可能地保证一段时间内整体收益最大化。
2.价值估计函数
$Q_{t}(a) \doteq \frac{\text { sum of rewards when } a \text { taken prior to } t}{\text { number of times } a \text { taken prior to } t}=\frac{\sum_{i=1}^{t-1} R_{i} \cdot \mathbb{1}_{A_{i}=a}}{\sum_{i=1}^{t-1} \mathbb{1}_{A_{i}=a}}$
此处展示的是价值估计函数的一种，表意是： $t$ 时刻对动作 $a$ 的价值估计函数指，到当前时刻 $t$ 为止，动作 $a$ 历史上获得的收益的平均值。如果说价值代表系统自然含有的，我们预知而未知的知识，则价值估计函数可以粗略理解为，我们基于已有知识对于价值的一个认识，随着实验过程的推进，价值估计函数应该越来越接近实际价值，代表着我们对于整个系统的规律认知的越来越清楚（当然对于有的价值估计函数严格来来说不能这么理解）。
3.策略（policy）
$A_{t} \doteq \underset{a}{\arg \max } Q_{t}(a)$
策略是我们基于价值估计函数选择动作的一个准则，这里展示的是一个贪婪算法，即每次选择选取价值估计函数最大的值。贪婪算法可以保证算法的收敛速度，但是得到的大概率是一个次优解而并非最优解。
这里需要说明，我们对于MAB算法的设计，很大程度是为了解决上述的探索利用窘境，其解决态度既可以体现在价值估计函数的设计中，也可以体现在策略的设计中。

RA最佳模态选取中MAB的应用现状

传统MAB

由RA中最佳模态选取问题与MAB问题的契合性，第一份工作即是直接将原问题建模为MAB问题。
参考文献：
文章将每一个模态建模为MAB的一个动作，通过设计可以反应信道好坏的奖赏函数，利用UCB准则作为动作选取准则，可以实现用MAB选取最佳模态的目的。文章还讨论了不同UCB算法的性能好坏，此处不表。下面讨论两个问题：reward函数设计以及policy设计。

reward函数

文章中reward函数采用了两种方式，第一是Post-Processing SNR(PPSNR) ，另一种为Demmel Condition Number(DCN) ，前者为误差向量模值的范数，可以理解为接受信噪比的一种表征，后者定义如下：
$R_{i}(n)=\frac{1}{\kappa_{f}}=\frac{\lambda_{min}}{\left\|H_{f}\right\|_{F}^{2}}$
其中 $\lambda_{min}$ 为信道矩阵 $H_f$ 的最小特征值，DCN 可以表征信道质量，如下式：
$\begin{aligned} \frac{1}{\kappa_{f}}&=\frac{\lambda_{\min }}{\|H\|_{F}^{2}} \\ &=\frac{\lambda_{\min }}{\operatorname{tr}\left(H H^{H}\right)} \\ &=\frac{\lambda_{\min }}{\sum \lambda\left(H H^{H}\right)} \\ &=\frac{1}{\lambda_{\min }+\frac{\lambda_{1}}{\lambda_{\min }} \lambda_{1}+\frac{\lambda_{2}}{\lambda_{\min }} \lambda_{2}+\cdots+\frac{\lambda_{n}}{\lambda_{\min }} \lambda_{n}} \end{aligned}$
可以看到，当DCN 较大时，上式分母较小，信道矩阵的各特征值近似相等，MIMO信道的各个子信道接近独立，信道条件较好。

policy（UCB）

这里只通过最简单的UCB准则看该方法的设计思路：
UCB算法流程图
价值估计函数示意图如下：
在这里插入图片描述
可以看出，前半截为截至目前该模态获得收益的平均值，后半截为该模态未知的程度。随着探索开始，前半部分很小而后半部分很大，随着对该模态研究的深入，表征未知程度的后半段逐渐缩小，而前半段会越来越接近真实的价值。一个好的arm，是指在试探的过程中，未知潜能能高效地转化为已知有益知识的arm。

到此处为止，完成了MAB解决RA最佳模态选取的模型构建问题，该工作也是领域内相关工作的第一个尝试。主要问题有两个：第一、MAB的收敛速度问题；第二、当reward分布不平稳，即当信道条件变化时，现有算法可能不适用。
对于第一个问题，较成熟的方法是利用汤普森采样，具体见参考文献：

这项工作中可以看到，汤普森采样可将收敛速度提升接近50%。

解决环境突变问题的自适应追踪算法

参考文献：
本文系统模型是单用户SISO系统，收端采用可重构天线，有5种模态选择，环境中有一个干扰源，通过改变干扰源位置，实现某一时刻最佳模态的突然改变，如下图：在这里插入图片描述
文章提出了Adaptive Pursuit算法实现环境的追踪，benchmark为上述传统UCB，效果如下：
可以看到在第150个time slot时，最佳模态突变，传统UCB不能快速反应并且后续发生震荡，而AP算法可以快速收敛到新的模态上去。
AP算法如下：
在这里插入图片描述
可以看到AP算法与UCB的不同之处有两点：第一、AP算法的价值估计函数更新方式为等步长更新，这种设计在环境追踪问题中有天然的优势；第二、AP算法policy的设计，使得价值估计函数不会直接决定最佳模态的选取结果，而只会影响最佳模态选取的概率，即倾向性。这两点不同是AP可以追踪环境的关键，下面做简要分析：

AP追踪环境能力分析

价值估计函数结构

首先UCB的价值估计函数如下：
$Q_{n} \doteq \frac{R_{1}+R_{2}+\cdots+R_{n-1}}{n-1}$
为方便讨论，写为增量形式：
$\begin{aligned} Q_{n+1} &=\frac{1}{n} \sum_{i=1}^{n} R_{i} \\ &=\frac{1}{n}\left(R_{n}+\sum_{i=1}^{n-1} R_{i}\right) \\ &=\frac{1}{n}\left(R_{n}+(n-1) \frac{1}{n-1} \sum_{i=1}^{n-1} R_{i}\right) \\ &=\frac{1}{n}\left(R_{n}+(n-1) Q_{n}\right) \\ &=\frac{1}{n}\left(R_{n}+n Q_{n}-Q_{n}\right) \\ &=Q_{n}+\frac{1}{n}\left[R_{n}-Q_{n}\right] \end{aligned}$
MAB试探利用的过程，是将收益转化为对价值的认识的同时尽可能整体收益最大化。而UCB试探过程中，各个时间收益的占比相同，不分主次，使得环境变化时，导致原始过期信息尾大不掉。
而AP算法的价值估计函数：
$\begin{aligned} Q_{n+1} &=Q_{n}+\alpha\left[R_{n}-Q_{n}\right] \\ &=\alpha R_{n}+(1-\alpha) Q_{n} \\ &=\alpha R_{n}+(1-\alpha)\left[\alpha R_{n-1}+(1-\alpha) Q_{n-1}\right] \\ &=\alpha R_{n}+(1-\alpha) \alpha R_{n-1}+(1-\alpha)^{2} Q_{n-1} \\ &=\alpha R_{n}+(1-\alpha) \alpha R_{n-1}+(1-\alpha)^{2} \alpha R_{n-2}+\\ & \cdots+(1-\alpha)^{n-1} \alpha R_{1}+(1-\alpha)^{n} Q_{1} \\ &=(1-\alpha)^{n} Q_{1}+\sum_{i=1}^{n} \alpha(1-\alpha)^{n-i} R_{i} \end{aligned}$
可以看到，AP试探过程中，越早的历史信息占比越小，所以价值估计函数中主成分仅为最近几个时刻的收益值，AP因此具有追踪环境变化的能力。

policy设计思路

从UCB的角度看，本质上仍然是一个贪婪算法，在平稳环境中它之所以可以平衡探索利用窘境是因为将未知知识以方差的形式，作为该arm潜能的一部分写进了价值估计函数中，而在环境发生变化时，除去前半部分的reward均值问题（上一小节），后半部分对于该arm未知的表述也存在过期的问题，并且这一问题缺乏有效的处理手段。
而AP通过价值估计函数影响选择概率的思路，使得价值估计函数不会直接决定最佳模态的选取结果，而只会影响最佳模态选取的概率，即倾向性，为环境的变化留下了一定余地，这应是在policy设计方面，解决环境变化可以借鉴的思路。

结语

可以看到，在RA最佳模态选取方面，MAB应用有天然的优势。而目前在该方面的工作比较有限，且都停留在比较基础的MAB算法应用上。除此之外，在降开销的同时，MAB在性能方面所付出的代价也有待进一步的讨论和研究。

上一篇：凸优化问题

下一篇：《智能家居系统》6

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

可重构天线最佳模态选择问题中多臂老虎机的应用

基本问题

可重构天线阵(Reconfigurable Antenna, RA)

多臂老虎机(Multi-Armed Bandit, MAB)

基本问题

tradeoff：探索利用窘境

问题基本结构

RA最佳模态选取中MAB的应用现状

传统MAB

reward函数

policy（UCB）

解决环境突变问题的自适应追踪算法

AP追踪环境能力分析

价值估计函数结构

policy设计思路

结语

发表评论

最新留言

关于作者

推荐文章