线性代数的本质

视频来自3Blue1Brown频道的“线性代数的本质”，不同分p之间用分隔线分开。有个人理解，并非全部照抄，可能有省略，如果发现错误及建议欢迎在文章下方留言，我会及时改正。

什么是向量？

物理学：向量是空间中的箭头，决定一个向量的是它的长度和它所指的方向。但是只要以上两个特征相同，你可以自由移动一个向量而保持它不变。处在平面上的向量是二维的，而处在真实世界中的向量是三维的。
计算机学：向量是有序的数字列表。“向量”只不过是“列表”的一个花哨的说法。向量的维度取决于列表的长度。
数学：向量可以是任何东西，只要保证两个向量相加以及数字与向量相乘有意义即可。

向量的表示方法

一个横坐标为-2，纵坐标为3的向量可以表示为：

$\begin{bmatrix} -2 \\ 3 \end{bmatrix}\quad$

纵向排列，第一个数是x轴坐标，第二个数是y轴坐标。

推而广之，一个三元向量的表示方法为:

$\begin{bmatrix} 2 \\ 1\\ 3\end{bmatrix}\quad$

同样，第一个数对应x轴，第二个数对应y轴，第三个数对应z轴。

向量的加法

两个向量相加时，平移第二个向量，使它的起点与第一个向量的终点重合，和向量就是从第一个向量的起点出发，指向第二个向量终点的向量。

为什么如此定义？

如果你先沿着第一个向量运动，然后再按照第二个向量所描述的运动方式运动，总体效果与你沿着这两个向量的和运动无异

如何计算？

向量的各个维度依次相加

$\begin{bmatrix} 1 \\ 2\end{bmatrix} + \begin{bmatrix} 3 \\ -1\end{bmatrix} = \begin{bmatrix} 1+3\\ 2-(-1)\end{bmatrix}$

从上式来看，运算规则可以简单记为对应项相加

$\begin{bmatrix} x_1 \\ y_1\\ \vdots\end{bmatrix} + \begin{bmatrix} x_2 \\ y_2\\ \vdots\end{bmatrix} = \begin{bmatrix} x_1+x_2\\ y_1+y_2\\ \vdots\end{bmatrix}\quad$

向量的乘法

向量与常数（标量）的乘法

图像含义

把该向量拉长\缩短为原来的常数倍，当常数是负数时，意味着先将该向量反向，然后拉长\缩短原来的常数倍。

计算方法

向量与标量相乘就是将向量中的每个分量与标量相乘

$2\cdot \begin{bmatrix} x\\ y\\ \vdots\end{bmatrix} = \begin{bmatrix} 2x\\ 2y\\ \vdots\end{bmatrix}$

基向量

对于二维空间，x方向的单位向量称为i帽，y方向的单位向量成为j帽，分别写作

$\hat i , \hat j$

它们就是xy坐标系的“基向量”。

将向量看作这两个基向量的经过放缩的和

$\begin{bmatrix}3\\ -2\end{bmatrix} = (3)\hat i+(-2)\hat j$

如果我们选择不同的基向量会怎么样？

会变成另一个新的坐标系

每当我们使用数字描述向量时，它都依赖于我们正在使用的基。

线性组合

两个数乘向量的和被称为这两个向量的线性组合

$a\vec v+b\vec w$

↑（v与w的线性组合，a与b是常量）

什么是线性组合？

如果固定其中一个标量，让另一个标量自由变化，所产生的向量终点会描出一条直线。

线性关系：如果称一个数学函数L(x)是线性的，那么L(x)具有下面两条性质：

可加性：L(x+t)=L(x)+L(t)

一次齐次性：L(mx)=mL(x)

张成的空间

所有可以表示为给定向量线性组合的向量的集合，被称为给定向量张成的空间。

理解：仅通过向量加法与向量数乘这两种基础运算，你能获得的所有可能向量的集合是什么。

类型：

在二维空间，当两基向量不共线时，张成的空间就是整个坐标系。
在二维空间，当两基向量共线时，张成的空间只有这条线的延长线
当基向量均为零向量时，张成的空间仅包括零向量

向量与点

通常我们用向量的终点代表该向量

当只考虑一个向量时，就把它看作箭头，当你考虑多个向量时，就把他们看作点。

线性相关

一组向量中至少有一个是多余的（两向量共线），没有对张成空间做任何贡献；有多个向量，并且可以移除其中一个而不减小张成的空间，当这种情况发生时，我们称它们是线性相关的。

另一个表述方法是其中一个向量可以表示为其他向量的线性组合，因为这个向量已经落在其它向量张成的空间中。

$\vec u=a\vec v +b\vec w$

↑（三维空间的三个基向量u、v、w）

另一方面，如果所有向量都给张成空间增添了新的维度，它们就被称为是线性无关的

$\vec w\neq a \vec v$

↑（二维空间的基向量w、v）

线性变换

“变换”本质上是“函数”的一种花哨的说法，它接受输入内容，并输出对应结果。特别地，在线性代数的情况下，我们考虑的是接受一个向量并且输出一个向量的变换

直观地说，如果一个变换具有以下两条性质，我们就称它是线性的：

直线在变换后仍然保持为直线，不能有所弯曲
原点必须保持固定

变换类型

1.旋转

2.剪切

如何用数值描述线性变换

记录两基向量的位置，其他向量也会跟着变换

变换前：

$\vec v=-1\hat i+2\hat j$

变换后：

$\vec v=-1(变换后\hat i)+2(变换后\hat j)$

示例：

$\hat i \rightarrow \begin{bmatrix}1\\ -2\end{bmatrix}\quad \hat j \rightarrow \begin{bmatrix}3\\ 0\end{bmatrix}\\ \begin{bmatrix}x\\ y\end{bmatrix}\rightarrow x\begin{bmatrix}1\\ -2\end{bmatrix}+y\begin{bmatrix}3\\ 0\end{bmatrix}=\begin{bmatrix}1x+3y\\ -2x+0y\end{bmatrix}$

我们通常将变换后i与j的坐标包装在一个2*2的格子中，称它为2*2矩阵：

$\begin{bmatrix}1&3\\ -2&0\end{bmatrix}$

左列是变换后的i，右列是变换后的j

如果想了解线性变换对某个特定向量的作用，只需要取出向量的坐标，将他们分别与矩阵的特定列相乘，然后将结果相加即可。

我们可以将其定义为矩阵的乘法：

$\underbrace{ \begin{bmatrix}a&b\\ c&d\end{bmatrix} }_{\text{应用的变换}} \underbrace{ \begin{bmatrix}x\\ y\end{bmatrix} }_{\text{被变换的向量}}=x \begin{bmatrix}a\\ c\end{bmatrix}+y \begin{bmatrix}b\\ d\end{bmatrix}= \underbrace{ \begin{bmatrix}ax+by\\ cx+dy\end{bmatrix} }_{\text{变换后的向量}}$

这里矩阵放在左边，类似一个函数。但是我们完全可以把矩阵的列看作变换后的基向量

结论：以基向量变化后的坐标为列所构成的矩阵为我们提供了一种描述线性变换的语言，而矩阵向量乘法就是计算线性变换作用于给定向量的一种途径。这里重要的一点是，当你看到一个矩阵时，你都可以把它解读为对空间的一种特定变换。

复合变换

$\underbrace{ \begin{bmatrix}1&1\\ 0&1\end{bmatrix} }_{\text{剪切矩阵}} (\underbrace{ \begin{bmatrix}0&-1\\ 1&0\end{bmatrix} }_{\text{旋转矩阵}} \begin{bmatrix}x\\ y\end{bmatrix})= \underbrace{ \begin{bmatrix}1&-1\\ 1&0\end{bmatrix} }_{\text{复合矩阵}} \begin{bmatrix}x\\ y\end{bmatrix} \\ \Longrightarrow \underbrace{ \begin{bmatrix}1&1\\ 0&1\end{bmatrix} }_{\text{剪切矩阵}} \underbrace{ \begin{bmatrix}0&-1\\ 1&0\end{bmatrix} }_{\text{旋转矩阵}}= \underbrace{ \begin{bmatrix}1&-1\\ 1&0\end{bmatrix} }_{\text{复合矩阵}} \\ \xleftarrow{从右向左读}\quad\quad\quad\quad$

如上式，对向量应用复合变换时，实际应用顺序应是先应用右边的矩阵，再应用左边的矩阵。

计算方法

$\underbrace{ \begin{bmatrix}a&b\\ c&d\end{bmatrix} }_{M_1} \underbrace{ \begin{bmatrix}e&f\\ g&h\end{bmatrix} }_{M_2}= \begin{bmatrix}?&?\\ ?&?\end{bmatrix}$

要知道i帽首先去哪，先将右边矩阵M1的第一列取出，再应用于左边矩阵M2，得出的结果就是i帽在第二个变换作用后的结果：

$\underbrace{ \begin{bmatrix}a&b\\ c&d\end{bmatrix} }_{M_1} \begin{bmatrix}e\\ g\end{bmatrix}= e \begin{bmatrix}a\\ c\end{bmatrix} + g\begin{bmatrix}b\\ d\end{bmatrix}= \begin{bmatrix}ae+bg\\ ce+dg\end{bmatrix} \\ \therefore \underbrace{ \begin{bmatrix}a&b\\ c&d\end{bmatrix} }_{M_1} \underbrace{ \begin{bmatrix}e&f\\ g&h\end{bmatrix} }_{M_2}= \begin{bmatrix}ae+bg&?\\ ce+dg&?\end{bmatrix}$

同样方法，可以求出j帽在第二个变换作用后的结果：

$\underbrace{ \begin{bmatrix}a&b\\ c&d\end{bmatrix} }_{M_1} \begin{bmatrix}f\\ h\end{bmatrix}= f \begin{bmatrix}a\\ c\end{bmatrix} + h\begin{bmatrix}b\\ d\end{bmatrix}= \begin{bmatrix}af+bh\\ cf+dh\end{bmatrix} \\ \therefore \underbrace{ \begin{bmatrix}a&b\\ c&d\end{bmatrix} }_{M_1} \underbrace{ \begin{bmatrix}c&d\\ g&h\end{bmatrix} }_{M_2}= \begin{bmatrix}ae+bg&af+bh\\ ce+dg&cf+dh\end{bmatrix}$

性质举例

1.先旋转后剪切与先剪切后旋转，二者总体效应显然不同，所以乘积顺序显然会有影响

$M_1M_2\neq M_2M_1$

2.结合律

$M_1(M_2M_3)=(M_1M_2)M_3$

(始终遵循从右向左的顺序，虽然运算单个矩阵的顺序有改变，但是整体顺序没有倒换)

线性变换的行列式

线性变换前由基向量围成的面积（二维）与变换后基向量围成面积之比。

→线性变换改变面积的比例

例：一个线性变换的行列式是1/2，就是说它将一个区域的面积缩小一半。一个二位线性变换的行列式为0，说明它将整个平面压缩到一条线上，甚至是一个点上。

一个区域的缩放为负数倍是什么意思？

如果将二维空间想象为一张纸，这个变换像是将纸反转到了另一面（空间的定向发生了改变）。换成图像意义，就是j帽移动到了i帽的右侧。

行列式的绝对值仍然是缩放面积的比例。

三维空间的行列式

它所表示的含义依然是变换前后的缩放比例，不过对三维空间则是体积的缩放。

当行列式为0时，则意味着整个空间被压缩为零体积的东西，也就是一个平面或者一条线，甚至是一个点。（线性相关）

当行列式为负数时，则代表变换后的空间已不符合“右手定则”。

计算

二维行列式：

$\begin{vmatrix}a&b\\ c&d\end{vmatrix}=ad-bc$

三维行列式：

$\text{要计算方法去看同济版教材啊！！！那里教得比这里好！}$

性质举例

$\begin{vmatrix}M_1M_2\end{vmatrix}=\begin{vmatrix}M_1\end{vmatrix}\begin{vmatrix}M_2\end{vmatrix}$

矩阵的用途

解线性方程组

对于以下方程组：

$\begin{cases} 2x+5y+3z=-3\\ 4x+0y+8z=0\\ 1x+3y+0z=2 \end{cases}$

即，在每个方程中，所有未知量只有常系数，这些未知量之间只进行加和。这种方程组称为线性方程组，可以交给矩阵来解。

要整理这一特定的方程组，一个典型的方法是未知量放在等号左边，剩余常数项放在等号右边，将未知量竖直对齐，必要时添加系数0。

它的样子与矩阵乘法相仿，所以可以将所有方程合并为一个向量方程：

$\begin{cases} 2x+5y+3z=-3\\ 4x+0y+8z=0\\ 1x+3y+0z=2 \end{cases} \Rightarrow \underbrace{ \begin{bmatrix}2&5&3\\ 4&0&8\\ 1&3&0\end{bmatrix} }_{\text{系数}} \underbrace{ \begin{bmatrix}x\\ y\\ z\end{bmatrix} }_{\text{未知变量}}= \underbrace{ \begin{bmatrix}-3\\ 0\\ 2\end{bmatrix} }_{\text{常数}}\\ 即系数矩阵A、未知变量向量\vec x、常数向量\vec v符合：\\ A\vec x=\vec v$

矩阵A代表一种线性变换，所以求解Ax=v意味着我们去寻找一个向量x，使得它变换后与v重合。

逆变换

以二维空间举例，若想寻找一个向量在变换前的位置，需要考虑施加的线性变换A是否将空间压缩为0，即它的行列式结果是否为0，若不为零，则代表有且仅有一个向量可变换到目前向量的位置，这时就需要对变换矩阵A进行逆变换。

如变换A的效果是将空间逆时针旋转90度，那么逆变换就是将空间顺时针旋转90度。

总的来说，A逆是满足以下效果的变换：

首先应用A代表的变换，在应用A逆代表的变换，你会回到原始状态

$A^{-1}A=\underbrace{ \begin{bmatrix}1&0\\ 0&1\end{bmatrix} }_{\text{“什么都不做”的变换}}$

当你找到A逆，你就可以带入Ax=v式，求得x：

$\vec x=A^{-1}\vec v$

只要变换A不将空间压缩到一个更低的维度上，也就是它的行列式不为零，拿他就存在逆变换，使得应用A在应用A逆变换之后，结果与恒等变换无异。而要想求解方程，只需要将A逆与向量v相乘即可。

但是当行列式为零时，与这个方程组相关的变换将空间压缩到更低的维度上，此时没有逆变换，不能将一条线“解压缩”为一个平面。

即使不存在逆变换，解仍然可能存在，比如，向量v恰好处于压缩到的直线上。

秩

当变换的结果为一条直线时，也就是说结果是一维的，我们称这个变换的秩为1。如果变换后的向量落在某个二维平面上，我们称这个变换的秩为2。

所以说“秩”代表着变换后空间的维数。

不管是一条直线、一个平面还是三维空间等，所有可能的变换结果的集合被称为矩阵的“列空间”。

当秩达到最大时，意味着秩与列数相等，我们称为满秩。

注：0向量必然存在在空间中，因为线性变换必须保持原点位置不变。

变换后落在原点的向量的集合称为矩阵的“零空间”或“核”。对于Ax=v，当v恰好为零向量时，零空间给出的就是这个向量方程所有可能的解。

非方阵

对于行与列不相等的矩阵：

$\begin{bmatrix}3&1\\ 4&1\\ 5&9\end{bmatrix}$

可知，其由两个变换后的基向量（3，4，5）、（1，1，9）组成，列空间为2，而每个基向量却有三个维度，所以这是一个将二维向量提升至三维向量的过程。

$每个变换后的基向量用三个坐标描述 \underbrace{ \begin{cases} \begin{bmatrix}3&1\\ 4&1\\ 5&9\end{bmatrix} \end{cases} }_{\text{有两个基向量}}$

所以，非方阵是可以将不同维度坐标系进行转换的变换。

点积

向量的点积

如果有两个维度相同的向量，求它们的点积，就是将对应坐标配对，求出每一对坐标的乘积，然后将结果相加

$\begin{bmatrix}2\\ 7\\ 1\end{bmatrix} \cdot \begin{bmatrix}8\\ 2\\ 8\end{bmatrix}= 2\cdot8+7\cdot2+1\cdot8$

图像意义

对于两向量v、w，想象将向量w朝着过原点和向量v终点的直线上投影，将投影的长度与向量v的长度相乘

$\vec v \cdot \vec w=(\vec w投影的长度)(\vec v的长度)$

顺序无关，也可以是v的投影长度乘w的长度

除非w的投影与v的方向相反，这种情况下点积为负值。

当它们相互垂直时，意味着一个向量在另一个向量上的投影为零向量，它们的点积为零

矩阵的点积（内积）

如果一个列矩阵乘一个行矩阵，其运算形式与两向量相乘形式类似：

$\begin{bmatrix}1&-2\end{bmatrix} \begin{bmatrix}4\\ 3\end{bmatrix}=4\cdot1+3\cdot-2= \begin{bmatrix}1\\ -2\end{bmatrix}\cdot \begin{bmatrix}4\\ 3\end{bmatrix}$

那么矩阵[1 -2]与向量(1,-2)有什么关系呢？

实际上，如果在二维坐标系中画出向量(1,-2)，那么矩阵[1 2]的含义就是将其他向量对应到向量(1,-2)所在的直线上。

根据对称性，将各向量投影到目标直线上时，它们的基向量的变化比恰好为直线上向量的坐标。

像这样的巧合，称为对偶性。

叉积（外积）

伪叉积

在二维坐标系中，如果有两个向量v和w，考虑他们所张成的平行四边形:

而v和w的叉积，就是这个平行四边形的面积。

另外，如果v在w的右侧，那么v与w的叉积为正；如果v在w的左侧，那么v与w的叉积为负。所以叉积是顺序有关的。

计算方法

因为矩阵的行列式的图像意义是变换前后面积比，而图像变化前面积为1，所以计算两向量的叉积时，可将两向量并成行列式计算。

$\vec v=\begin{bmatrix}3\\ 1\end{bmatrix}\quad\quad \vec w=\begin{bmatrix}4\\ 3\end{bmatrix}\\ \therefore \vec v \times \vec w= \begin{vmatrix}3&2\\ 1&-1\end{vmatrix}$

真叉积

实际上，叉积并不在二维坐标系中存在，它是一个向量，刚刚算出的结果其实是叉积这个向量的模长。它存在于三维或更高维度坐标系中，是与两个向量为围成的平面垂直，并满足右手定则的方向。

计算方法

$\begin{bmatrix}v_1\\ v_2\\ v_3\end{bmatrix} \times \begin{bmatrix}w_1\\ w_2\\ w_3\end{bmatrix} = \begin{vmatrix}\hat i&v_1&w_2\\ \hat j&v_2&w_2\\ \hat k&v_3&w_3\end{vmatrix}$

计算形式的解释

每当看到一个从空间到数轴的线性变换，都能找到一个向量，被称为这个变换的对偶向量，使得线性变换与对偶向量点乘等价（点积章节对偶性）

根据v和w定义一个三维到一维的线性变换
找到它的对偶向量
说明这个对偶向量就是v*w

（待续）