IC、IR 和 BR 的定义
首先假定一下,我们要预测的应该是残差收益,而不是整体收益。
定义“残差收益”residual return 为收益中与基准无关的那部分。用 r~ 表示 N 个股票的残差收益,f 表示用来预测残差收益的 K 个因子。为了预测残差收益,可以对下式进行估计:
r~t=Bft+ϵ~t,t=1,⋯,T
其中 B 是需要估计的因子的暴露,ϵ 是回归误差。
完成对上式的估计之后,就可以用来估计 E(r~T+1) 和 Var(r~T+1)。
定义 IR
有了 E(r~T+1) 和 Var(r~T+1) 之后,投资组合经理就可以构建最优残差仓位(optimal residual position),即让 r~T+1 的基准 β 为 0 的最小方差组合。构造出该组合时候,就可以用该组合的期望收益除以标准差来定义 IR。用 w 表示最优残差仓位中各个股票的权重向量,那么:
IR≡wTE(r~T+1)wTVar(r~T+1)w−−−−−−−−−−−−−√
定义 BR
Grinold 和 Kahn 定义 Breadth 即 BR 为帮助预测残差的不同信号个数,也就是信号向量的维数。在前面所述的框架中,其实就是 f 的维数 K。
理论上来说,预测因子的个数不是一定等于信号个数的,但在实践中,两者一般相等。它们的相等有两个原因:第一,给出残差收益关于信号的条件分布,信号个数不能被独立地决定,外人无法从残差收益的预测中自己决定信号的个数(Outsiders cannot determine by themselves the number of signals from the forecast of residual returns)。第二,一旦因子的个数确定了,信号的个数就不重要了,比如用两个因子拼出一个新的因子,并把新因子加入到预测的回归模型中,那么新因子是来自两个因子的事实就不重要了。
再举一个例子,有一个因子是分析师评级,是由几千名分析师的预期构成的,有人会觉得信号个数应该是几千,但这显然不现实,我们无法知道究竟是多少分析师给出了不受他人影响的独立观点,真正起作用的是那个叫“分析师评级”的因子。
因为上述原因,在决定 BR 值的时候有必要进行调整,小心不要将同一个因子重复计数了。用数学语言来说,我们要计算的是最大的线性无关因子数。
定义 IC
在定义 IC 之前,要对 r~ 和f 进行标准正交化(orthonormalize)。操作如下:
先寻找矩阵 G 和 H,使
r~=Gxf=Hy
其中 x 和 y 是服从多元标准正态分布的随机变量(假设 r~ 和f 服从多元正态分布),也就是说,x 和 y 方差为 0,协方差矩阵为单位矩阵。G 和 H 本质上就是 r~ 和f 的方差(协方差矩阵)的平方根,即
Var(r~)=GGTVar(f)=HHT
在标准正交化之后,就可以定义 IC2了:
IC2≡1K∑j=1K∑i=1NCov(xi,yj)2
这和 Grinold 和 Kahn 给出的公式不太一样,他们假设 ∑i=1NCov(xi,yj)2 在所有的 j 上都一样,因此省略了前面一步的求和,另外,他们用相关系数而不是协方差来定义,但由于 x 和 y 已经标准正交化了,这两者等价。
IC、IR 和 BR 的简单解释
首先,我们要预测 r~T+1,这是由 N 个股票组成的向量,但我们只需要预测 N−1 个数值即可。想一想为什么?这是因为,残差收益是在总体收益中剔除了基准之后的收益,如果用 rB,t 表示基准在 t 时刻的收益,β 表示基准组合中各成分股的 β 系数,那么有:
rt=α+βrB,t+r~t,t=1,⋯,T
用 wB 来表示基准中各成分股的比例,那么有 wTBβ=wTBCov(rt,rB,t)Var(rB,t)=1 (β 系数的定义),以及 wTBrt=rB,t,从而我们可以推出 wTBr~t=0,即所有股票的残差收益的加权和为零。
由此可见,我们只需预测 N−1 个股票的下一期残差收益即可。设前 N−1 个股票的 T+1 期残差收益为 r~1,T+1,权重向量为 wB1,第 N 个股票(最后一个)的 T+1 期残差收益为 r~2,T+1,权重值为 wB2,可以推出
r~2,T+1=−1wB2wTB1r~1,T+1≡−cTr~1,T+1
其中 c=1wB2wB1。
为了预测 r~1,T+1,设 B1 为前 N−1 个股票的 (N−1)×K 的因子载荷矩阵,那么有
r~1,t=B1ft+ϵ~1,t,t=1,⋯,T
我们先假设已经得到了 r~1,T+1 的均值和方差估计:
E(r~1,T+1)=BT1fT+1≡μ1Var(r~1,T+1)≡Σ11
那么对于 r~2,T+1,有:
E(r~2,T+1)=−cTμ1Var(r~2,T+1)=cTΣ11cCov(r~1,T+1,r~2,T+1)=−Σ11c
我们的目的是,在收益不变的情况下,求出具有最小残差的仓位(权重向量),即求解以下约束优化问题:
mins.t.(w1w2)T(Σ11−cTΣ11−Σ11ccTΣ11c)(w1w2)(w1w2)T(β1β2)=0(w1w2)T(μ1−cTμ1)=μ¯
接下来,就让我们把它解出来!
第一个约束可以把 w2 直接表示成 w2=−1β2βT1w1≡−dTw1,那么要最小化的式子为:
wT1Σ11w1+wT1Σ11cdTw1+wT1dcTΣ11w1+wT1dcTΣ11cdTw1=wT1(I+cdT)TΣ11(I+cdT)w1
第二个限制条件变为 wT1μ1+wT1dcTμ1=wT1(I+dcT)Tμ1=μ¯
定义 w∗≡(I+cdT)w1,原问题就转化为
minw∗w∗TΣ11w∗s.t.w∗Tμ1=μ¯
可以直接表示出 w∗=μ¯Σ−111μ1μT1Σ−111μ1。
具有最优残差的组合,它的均值和方差是
Var(wTr~T+1)=μ¯21μT1Σ−111μ1E(wTr~T+1)=μ¯
而由 IR 的定义,迹的性质,以及 μ1 的确切表达式,可进行推导:
IR2=[wTE(r~T+1)]2wTVar(r~T+1)w=μT1Σ−111μ1=tr(Σ−111μ1μT1)=tr(Σ−111B1fT+1fTT+1BT1)
可以用 f 的二阶矩来近似式中的 fT+1:
B1fT+1fTT+1BT1≈1T∑t=1TB1ftfTtBT1=1T∑t=1Tr1,trT1,t−1T∑t=1Tϵ~1,tϵ~T1,t=⎛⎝⎜(1T∑t=1Tr1,trT1,t)12⎞⎠⎟TR2(1T∑t=1Tr1,trT1,t)12
这里的 R2 定义为
R2≡I−⎛⎝⎜(1T∑t=1Tr1,trT1,t)−12⎞⎠⎟T(1T∑t=1Tϵ~1,tϵ~T1,t)(1T∑t=1Tr1,trT1,t)−12
我们还可以用回归误差的二阶矩来近似 Σ:
Σ≈1T∑t=1Tϵ~tϵ~Tt=⎛⎝⎜(1T∑t=1Tr1,trT1,t)12⎞⎠⎟T(I−R2)(1T∑t=1Tr1,trT1,t)12
把这两个近似代回到 IR2 中,有 tr(Σ−111B1fT+1fTT+1BT1)≈tr[(I−R2)−1R2],再近似一下,有 tr[(I−R2)−1R2]=tr(R2)。
综上所述,我们可以得到一条引理:
Lemma The squared information ratio is approximately the goodness of fit of the return forecastingregression: IR2≈tr(R2).
接下来,我们来看看 IC,从 R2 出发:
tr(R2)=⎡⎣⎢⎢I−⎛⎝⎜(1T∑t=1Tr1,trT1,t)−12⎞⎠⎟T(1T∑t=1Tϵ~1,tϵ~T1,t)(1T∑t=1Tr1,trT1,t)−12⎤⎦⎥⎥=tr[(Var(r~)−12)TVar(Bf)Var(r~)−12]=tr[Var(r~)−1BVar(f)BT]=tr[Var(r~)−1Cov(r~,fT)Var(f)−1Cov(f,r~T)]
其中最后一行的推导来自于 B=Cov(r~,f)Var(f)−1。
对 r~ 和 f 进行标准正交化,我们有:
Var(r~)=GGTVar(f)=HHTCov(r~,fT)=GCov(x,yT)HT
于是,可以进一步化简 R2:
====tr[Var(r~)−1Cov(r~,fT)Var(f)−1Cov(f,r~T)]tr[(GGT)−1GCov(x,yT)HT(HHT)−1HCov(y,xT)GT]tr[Cov(x,yT)Cov(y,xT)]∑j=1K∑i=1NCov(xi,yj)2K⋅IC2
于是,又可以得出一条引理:
Lemma The squared information coefficient is the average contribution of each forecasting factor in
increasing the goodness of fit: tr(R2)=K⋅IC2.
当没有基准时……
在以上的计算过程中,基准都扮演了很重要的角色。但事实上,不需要基准也完全没问题。当没有基准时,我们可以在整个组合的总收益上进行计算,而不是在残差收益上。这样的应用在实践中很有价值,并且容易让人看清 IR 和夏普比率的关系。其实,IR 就是最大化的夏普比率。
设 rt 为 N 个股票在时刻 t 超过无风险收益率的超额收益。那么,我们要估计的是:
rt=Bft+ϵt,t=1,⋯,T
我们假设 f 和 ϵ 都服从均值为0的正态分布,那么 rt 也服从均值为0的正态分布,但 rt 的条件均值不是0(比如关于 ft 的条件均值)。
将前文的分析应用过来,同样可以预测 rT+1 的期望和方差,并且它服从正态分布。假设 fT+1 已经知道或被准确估计,那么有:
E(rT+1)=BTfT+1≡μ1Var(rT+1)≡Σ11
这个公式和前面的几乎一样,只是在这里指的是组合的整体收益。同样,我们也可以对 IR 进行类推,设 w 为最优组合的权重向量,我们可以定义
IR≡wTE(rT+1)wTVar(rT+1)w−−−−−−−−−−−−−√
在没有基准的时候,前述的分析依然正确。Breadth 依然是因子的数量,而 IC2 依然是对提高回归的 R2 来说每个因子的平均贡献。但新的 IR 定义提供了新的视角:IC2 还是对提高最大夏普比率平方的每个因子的平均贡献。
我们先寻找最小方差组合,即求解
minws.t.wTΣwwTμ=μPwTι=1
其中 μP 是组合的期望收益,ι 是全为1的向量。
这个问题的解是:
w∗=DΣ−1ι−AΣ−1μDC−A2+CΣ−1ι−AΣ−1ιDC−A2μP
其中:
ACD=ιTΣ−1μ=ιTΣ−1ι=μTΣ−1μ
最小方差组合的方差是:
w∗TΣw∗=Cμ2P−2AμP+DDC−A2
而夏普比率 SR 是:
μpw∗TΣw∗−−−−−−−√=DC−A2C−2A1μP+D1μ2P
当 μP=DA 时,具有最大夏普比率,也就是 IR:
IR=D=μTΣ−1μ=tr(Σ−1μμT)=tr(Σ−1BfT+1fTT+1BT)
同样,可以用 f 的二阶矩来估计 fT+1:
BfT+1fTT+1BT≈1T∑t=1TBftfTtBT=1T∑t=1TrtrTt−1T∑t=1Tϵ~tϵ~Tt=⎛⎝⎜(1T∑t=1TrtrTt)12⎞⎠⎟TR2(1T∑t=1TrtrTt)12
也同样,我们用回归误差的二阶矩来估计 Σ:
Σ≈1T∑t=1TϵtϵTt=⎛⎝⎜(1T∑t=1TrtrTt)12⎞⎠⎟T(I−R2)(1T∑t=1TrtrTt)12
将这两个近似代入到 IR2 的新定义中:
tr(Σ−1BfT+1fTT+1BT)≈tr[(I−R2)−1R2]≈tr(R2)
因此,在没有基准时,上一节的两个引理依然成立。