0x00 数学基础
0x00 全体方差和样本方差
全体方差:
σ2=n(x1−μ)2+(x2−μ)2+...+(xn−μ)2
样本方差:
s2=n−1(x1−xˉ)2+(x2−xˉ)2+...+(xn−xˉ)2
全体方差和样本方差的区别只有样本方差的分母是n-1而全体方差的分母则是n,为什么会这样呢?
我们首先要明白一点,全体方差描述的是客观事实,样本方差描述的则是一个估算,或者说预测。
样本方差的分母上,这个减了1的n被称为贝塞尔校正。因为我们发现当样本量较小的时候,偏差影响比较明显,样本方差比全体方差偏小。当样本量增大时,偏差逐渐减少,直到影响可以忽略不计。既然样本方差相比于总体方差变小了,那干脆让分母变小,增大样本方差就行了。
那为什么当样本量较小的时候,偏差影响比较明显,样本方差比全体方差偏小呢?
举个例子,公司要进行晋升答辩,员工答辩,领导在下面打分,我们假设所有的领导打分都相互独立,每个人的评分则会出现较大的差异性。现在我们假设,打分的领导中有一个老好人,他自己没有任何的主见,只是看看别人的评分,然后再取个折中的得分。
在这种情况下,这个领导的观点是不独立的,他没有贡献任何的新观点,只是重复了别人的观点。但是这个重复的数据的出现却污染了整体数据的独立性,让原本差异性较大数据,因为折中数据的出现,减少了差异,或者说,出现了一些趋同效应,这就产生了偏差。
回到样本方差 s2上,因为样本的平均值xˉ是根据抽样样本来计算的。此时,样本平均值xˉ就成了那个贡献重复数据的领导,让原来独立的、随机的、没有偏差的样本数据,在计算加工的过程中引入了偏差,减少了数据之间的差异性,就是这种趋同效应让样本方差s2变小。
参考资料:
为什么样本方差(sample variance)的分母是 n-1?
0x01 协方差和协方差矩阵
在统计学中,方差被用来度量单个随机变量的离散程度,而协方差则一般用来刻画两个随机变量的相似程度。协方差的计算公式如下,其中n表示样本量:
σ(x,y)=n−11i=1∑n(xi−xˉ)(yi−yˉ)
我们发现,其实随机变量x的方差,就是其关于自身的协方差,即s2=σ(x,x)。
对于一堆随机变量x1,x2,⋯,xd,求出两两之间的协方差,我们就得到了其协方差矩阵:
Σ=σ(x1,x1)⋮σ(xd,x1)⋯⋱⋯σ(x1,xd)⋮σ(xd,xd)∈Rd×d
因为σ(x,y)=σ(y,x),所以上述矩阵是一个对称矩阵。
0x02 线性相关与线性无关
对于向量空间内的一组向量α1,α2,⋯,αm而言,如果存在一组不全为0的数k1,k2,⋯,km,使得:
k1α1+k2α2+⋯+k3α3=O
成立,则称这组向量是线性相关的。反之,如果当且仅当数k1,k2,⋯,km全部等于0时才能使上述等式成立时,则称其是线性无关的。
0x03 向量的基和基变换
在我们常说的坐标系中,向量(3,2)其实隐式引入了一个定义:以x轴和y轴上正方向长度为 1 的向量为标准。向量(3,2)实际是说在x轴投影为3而y轴的投影为2的一个向量。注意投影是一个标量,所以可以为负。
所以,我们要准确描述向量,首先要确定一组基,然后给出在基所在的各个直线上的投影值,就可以了。同时,为了方便求坐标,我们希望这组基向量的模长为1。因为向量的内积运算,当模长为1时,内积可以直接表示投影。然后还需要这组基是线性无关的。同时我们一般用正交基,正交基就是元素两两正交的基。
向量的基变换就是用这组向量与新基进行内积,然后得到新坐标的过程。我们可以用矩阵的形式来简洁的表示这个变换。例如,对于向量(3, 2)而言,在(21,21)和(−21,21)这组基下的坐标即为:
(21−212121)(32)=(25−21)
0x04 标准正交基和施密特正交化方法
一个内积空间的正交基就是元素两两正交的基,正交的判定方法就是两两相乘等于0,如下三个向量即为R3内的一组正交基:
a=(41,−41,1),b=(2,−2,1),c=(1,1,0)
而标准正交基,就是模长为1的正交基,如下即为R3内的一组标准正交基:
α=(1,0,0),β=(0,1,0),γ=(0,0,1)
施密特正交化方法是从欧式空间中的任意线性无关向量组α1,α2,⋯,αn出发,求得正交向量组β1,β2,⋯,βn,使二者等价,然后再将正交向量组进行单位化,得到一个标准正交向量组。其基本算法如下:
β1=α1β2=α2−⟨β1,β1⟩⟨α2,β1⟩β1βn=αn−⟨β1,β1⟩⟨αn,β1⟩β1−⟨β2,β2⟩⟨αn,β2⟩β2−⋯−⟨βn−1,βn−1⟩⟨αn,βn−1⟩βn−1
此后再将每个向量都单位化,即得到了其单位正交向量组:
ei=∥βi∥βi
其基本的几何意义就是把非正交基变为正交基,也就是将两个向量正交化,如下图所示:
参考资料:
施密特正交化的几何意义是什么?
0x05 矩阵的特征值与特征向量
矩阵的特征值和特征向量所针对的条件是矩阵A是一个n阶方阵。对于一个n阶方阵A而言,如果存在一个数λ和非零n维列向量x,并且满足Ax=λx的话,那数λ和非零n维列向量x即被称为矩阵A的特征值和特征向量。
0x01 PCA算法
0x02 SVD与PCA的关系
SVD,即奇异值分解,对一个矩阵A进行奇异值分解,得到的结果是将矩阵分解成若干个秩一矩阵之和。用公式表示就是:
A=σ1u1v1T+σ2u2v2T+⋯+σrurvrT
其中每一项的系数σ就是矩阵的奇异值,u,v分别代表列向量,每一项的uvT都是一个秩为1的矩阵。我们假定奇异值满足σ1≥σ2≥⋯≥σr>0,如果不满足的话,重新排序即可,这无非是一个编号的问题。
如果A的大小为m×n的话,那列向量u,v的大小即为m×1和n×1。这样对于矩阵A而言,原先需要存储m×n个参数,经过奇异值分解后,存储参数的个数就被压缩为r×(m+n+1),其中r为保留的奇异值项个数。
奇异值往往对应着矩阵中隐含的重要信息,且重要性和奇异值大小正相关。每个矩阵A都可以表示为一系列秩为1的小矩阵之和,而奇异值则衡量了这些小矩阵对于A的权重。