主要内容

  • 矩阵
  • 特征值和特征向量
  • 矩阵求导

矩阵

SVD的提法

(ATA)vi=λivi{σi=λiui=1σiAνiA=UΣVT\left(A^T\cdot A\right)v_i=\lambda_iv_i\Rightarrow\left\{\begin{aligned}&\sigma_i=\sqrt{\lambda_i}\\&u_i=\frac{1}{\sigma_i}A\cdot\nu_i\end{aligned}\right.\Rightarrow A=U\Sigma V^T

  • 奇异值分解(Singular Value Decomposition)是一种重要的矩阵分解方法,可以看做对称方阵在任意矩阵上的推广。
  • 假设A是一个m×nm\times n阶实矩阵,则存在一个分解使得:

Am×n=Um×mΣm×nVn×nTA_{m\times n}=U_{m\times m}\Sigma_{m\times n}V_{n\times n}^T

  • 通常将奇异值从大到小排列,这样\sum就能由A唯一确定了。

  • 与特征值、特征向量的概念相对应

    *\sum在对角线上的元素称为矩阵A的奇异值;

    • U的第i列称为A的关于σi\sigma_i的左奇异向量;
    • V的第i列称为A的关于σi\sigma_i的右奇异向量。
      例子:
      己知4x5阶实矩阵A,求A的SVD分解:

    A=[10002003000000004000]A=\begin{bmatrix}1&0&0&0&2\\0&0&3&0&0\\0&0&0&0&0\\0&4&0&0&0\end{bmatrix}

    U=[0010010000011000]U=\begin{bmatrix}0&0&1&0\\0&1&0&0\\0&0&0&1\\1&0&0&0\end{bmatrix}

    Σ=[40000030000050000000]\Sigma=\begin{bmatrix}4&0&0&0&0\\0&3&0&0&0\\0&0&\sqrt{5}&0&0\\0&0&0&0&0\end{bmatrix}

    VT=[01000001000.20000.8000100.80000.2]V^T=\begin{bmatrix}0&1&0&0&0\\0&0&1&0&0\\\sqrt{0.2}&0&0&0&\sqrt{0.8}\\0&0&0&1&0\\\sqrt{0.8}&0&0&0&-\sqrt{0.2}\end{bmatrix}

    矩阵U和V都是单位正交方阵:UTU=I, VTV=I\mathrm{U^TU=I,~V^TV=I}

线性代数

方阵的行列式

  • 一阶方阵的行列式为该元素本身
    截屏2020-03-02下午7.03.35
  • n阶方阵的行列式等于它的任意行(或列)的各元素与其对应的代数余子式乘积之和
    *2×22\times 2的方阵
    截屏2020-03-02下午7.03.54

代数余子式

在n阶行列式D中划去任意选定的k行、k列后,余下的元素按原来顺序组成的n-k阶行列式M,称为行列式D的k阶子式A的余子式。如果k阶子式A在行列式D中的行和列的标号分别为i1,i2,…,ik和j1,j2,…,jk。则在A的余子式M前面添加符号:
img
后,所得到的n-k阶行列式,称为行列式D的k阶子式A的代数余子式。

伴随矩阵

对于n×nn\times n方阵的任意元素aija_{ij}都有各自的代数余子式Aij=(1)i+jMijA_{ij}=(-1)^{i+j}M_{ij},构造n×nn \times n的方阵A^\*;
截屏2020-03-02下午7.20.07
A^_称为A的伴随矩阵。注意,AijA_{ij}位于A_的第j行第i列。

方阵的逆

截屏2020-03-02下午7.21.53

范德蒙行列式Vandermonde

范德蒙行列式:
截屏2020-03-02下午7.23.03
第n行是x1,x2,...,xnx_1,x_2,...,x_n的n-1次幂。
如果我们能使得x1,x2,...,xnx_1,x_2,...,x_n互不相等,那么矩阵DD不为0,则存在D1D^{-1}

矩阵的乘法

A为m×sm \times s阶矩阵,B为s×ns\times n阶的矩阵,那么,C=A×BC=A \times Bm×nm\times n阶的矩阵,其中:
截屏2020-03-02下午7.31.22

矩阵模型

考虑随机过程ii,它的状态有n个,用1~n表示。记在当前时刻t时刻时位于i状态,它在t+1时刻处于j状态的概率为P(i,j)=P(ji)。
即状态转移的概率只依赖于前一个状态
(思考马尔可夫过程?)
截屏2020-03-02下午7.37.32
举例:
假定按照经济状况将人群分为上中下三个阶层,用123表示。假定当前处于某阶层只和上一代有关,即,考察父代为第i阶层,则子代为第j阶层的概率。假定为如下转移概率矩阵:
截屏2020-03-02下午7.39.54
图解为:
截屏2020-03-02下午7.40.19

概率转移矩阵

第n+1代处于第j个阶层的概率为:
截屏2020-03-02下午7.41.32
矩阵P即为(条件)概率转移矩阵。
第i行元素表示,在上一状态为i时的分布概率,每一行元素的和为1.
那么思考:初始概率分布对最终分布的影响?

Think!

初始概率i =\[0.21,0.68,0.1\]迭代
截屏2020-03-02下午7.45.45
初始概率i =\[0.75,0.15,0.1\]迭代
截屏2020-03-02下午7.45.11

平稳分布

初始概率不同,但经过若干次迭代,ii最终稳定收敛在某个分布上。这是转移概率矩阵P的性质,而非初始分布的性质。
上例中,矩阵P的n次幂,每行都是截屏2020-03-02下午7.56.34,这实际上就是特征向量。
如果一个非周期马尔可夫随机过程具有转移概率矩阵P,且它的任意两个状态都是连通的,则截屏2020-03-02下午7.54.14存在,记作截屏2020-03-02下午7.55.00
In Fect,下面两种写法等价:
截屏2020-03-02下午7.58.27
同时,若某概率分布iP=ii P=i,说明

  • 该多项分布是状态转移矩阵P的平稳分布;

矩阵和向量的乘法

截屏2020-03-02下午8.01.30

矩阵和向量的乘法应用

截屏2020-03-02下午8.01.59

矩阵的秩

m×nm\times n矩阵A中,任取k行k列,不改变这k2k^2个元素在A中的次序,得到k阶方阵,称为矩阵A的k阶子式。
截屏2020-03-02下午8.05.03
设在矩阵A中有一个不等于0的r阶子式D,且所有r+1阶子式(如果存在)全等于0,那么,D称为A的最高阶非零子式,r称为A的秩,记作R(A)=r
截屏2020-03-02下午8.07.01

秩与线性方程组解的关系

截屏2020-03-02下午8.07.41 截屏2020-03-02下午8.07.58

推论

  • Ax=0有非零解的充要条件是R(A)<n
  • Ax=b有解的充要条件是R(A)=R(A,b)

向量组等价

截屏2020-03-02下午8.10.30

系数矩阵

将向量组A,B所构成的矩阵依次记作A(a1,a2,...,am)A(a_1,a_2,...,a_m)B(b1,b2,...,bm)B(b_1,b_2,...,b_m),B组能由A组线性表示,即对于每个向量bib_i,存在k1j,k2j,...,kmjk_{1j},k_{2j},...,k_{mj}
使得:
截屏2020-03-02下午8.13.34
从而得到系数矩阵K
截屏2020-03-02下午8.16.16

对C=AB的重新认识

由上,若C=A×BC= A\times B,则矩阵C的列向量由A的列向量线性表示,B即为这一表示的系数矩阵;C同样由B的行向量线性表示,A为这一表示的系数矩阵。
向量组B:b1,b2,...,bnB:b_1,b_2,...,b_n能由向量组A:a1,a2,...,anA:a_1,a_2,...,a_n线性表示的充要条件是矩阵A=(a1,a2,...,an)A=(a_1,a_2,...,a_n)的秩等于矩阵(A,B)=(a1,a2,...,an,b1,b2,...,bn)(A,B)=(a_1,a_2,...,a_n,b_1,b_2,...,b_n)的秩。

正交阵

若n阶矩阵A满足ATA=IA^TA=I,称A为正交矩阵,简称正交阵。

I为对角线为1,其他为0的矩阵
A是正交阵,x为向量,则Ax称作正交变换。
正交变换不改变向量长度。

特征值和特征向量

A是n阶矩阵,若数λ\lambda和n纬非0列向量x满足Ax=λxAx=\lambda x,那么数λ\lambda称为A的特征值,x称为对应于特征值的特征向量。
截屏2020-03-02下午8.33.14

特征值的性质

设n阶矩阵A(aij)A(a_{ij})的特征值为λ1,λ2,...,λn\lambda_1,\lambda_2,...,\lambda_n,则:
λ1+λ2+...+λn=a11+a22+...+ann\lambda_1+\lambda_2+...+\lambda_n=a_{11}+a_{22}+...+a_{nn}
λ1λ2...λn=A\lambda_1\lambda_2...\lambda_n=A
矩阵A主对角线行列式的元素和,称作矩阵A的迹

不同特征值对应的特征向量

截屏2020-03-02下午8.43.11

  • 不同特征值对应的特征向量,线性无关。
  • 若方阵A是对称阵,结论是否加强?
    截屏2020-03-02下午8.44.36

引理

实对称阵的特征值是实数
截屏2020-03-02下午8.46.58
应用:
将实数λ\lambda带入方程组(AλI)x=0(A-\lambda I)x=0,该方程组为实系数方程组,因此,实对称阵的特征向量可以取实向量。

实对称阵的不同特征值的特征向量正交

令实对称阵为A,其两个不同的特征值λ1λ2\lambda_1 \lambda_2对应的特征向量分别是μ1μ2\mu_1\mu_2
截屏2020-03-02下午8.50.52

最终结论

截屏2020-03-02下午8.51.18

正定阵

对于n阶方阵A,若任意n阶向量x,都有x^TAx&gt;0则称A是正定阵。
若条件变为xTAx0x^TAx\ge0,则A称作半正定阵。
类似的还有负定阵,半负定阵。
给定任意m×nm\times n的矩阵A,证明ATAA^TA一定是半正定阵。

正定阵的判定

  • 对称阵A为正定阵;
  • A的特征值都为正;
  • A的顺序主子式大于0;
  • 以上三个命题等价。
    例题:
    截屏2020-03-02下午9.21.04
    定义证明:
    截屏2020-03-02下午9.21.35

向量的导数

A为m×nm\times n的矩阵,x为n×1n \times1的列向量,则Ax为m×1m\times1的列向量,记为:
截屏2020-03-02下午9.25.58

推导

令:
截屏2020-03-02下午9.26.39
从而:
截屏2020-03-02下午9.27.00

结论与直接推广

截屏2020-03-02下午9.27.26

注意

关于列向量求导,资料中有如下方案:
截屏2020-03-02下午9.28.46
以上公式将会导致向量间求导得到“超越矩阵”-矩阵的每个元素仍然是一个矩阵,不利于应用。

标量对向量的导数

截屏2020-03-02下午9.30.50
推导公式:截屏2020-03-02下午9.31.44
截屏2020-03-02下午9.32.14

标量对方阵的导数

截屏2020-03-02下午9.33.09