Featured image of post 线性代数笔记 III

线性代数笔记 III

矩阵空间与线性映射空间

$$ % ===== ===== \gdef \vect #1{\mathbf{#1}} % abstract vector \gdef \cvect #1{\boldsymbol{#1}} \gdef \basis #1#2{\mathcal{#1}_{#2}} % basis of vector space \gdef \basev #1#2#3{\{\vect{#1}_{#2}\}_{#2=1}^{#3}} % base vector collection \gdef \cbasev #1#2#3{\{\cvect{#1}^{#2}\}_{#2=1}^{#3}} % dual basis e^i \gdef \vrep #1#2{[\vect{#1}]_{#2}} % coordinate representation [v]_B \gdef \rep #1{[\vect{#1}]} \gdef \mrep #1#2#3{[{#1}]_{#2}^{#3}} % representation [L]_{C,B} % \gdef \iprod #1#2{\langle #1, #2 \rangle} % inner product \gdef \tran #1{\vect{#1}^{\mkern-1.5mu\mathsf{T}}} \gdef \mat #1{\mathbf{#1}} % matrix (representation) \gdef \field #1{\mathbb{#1}} % \gdef \xto #1{\xrightarrow{#1}} % arrow with label \gdef \xfrom #1{\xleftarrow{#1}} % left arrow with label \gdef \Hom {\operatorname{Hom}} % morphisms between A and B \gdef \Iso {\operatorname{Iso}} \gdef \End {\operatorname{End}} % \gdef \Aut {\operatorname{Aut}} % \gdef \cat #1{\mathsf{#1}} % category symbol: e.g., \cat{Vect}, \cat{Set} \gdef \Mat {\operatorname{Mat}} \gdef \Bilin {\operatorname{Bilin}} \gdef \t {^{\mathsf{T}}} \gdef \id {\mat{I}} % identity matrix \gdef \R {\field{R}} % \gdef \C {\field{C}} % \gdef \ot {\otimes} % tensor product symbol \gdef \zero {\vect{0}} % \gdef \one {\vect{1}} % \gdef \idop {\mathrm{id}} % identity morphism \gdef \comp {\circ} % composition symbol \gdef \Set {\cat{Set}} % category of sets \gdef \Vectk {\cat{Vect}_{\field{k}}} % category of vector spaces \gdef \Vect {\cat{Vect}} % % \gdef \BaseB {\basis{B}{}} \gdef \BaseC {\basis{C}{}} \gdef \BaseBV {\basis{B}{V}} \gdef \BaseCW {\basis{C}{W}} \gdef \BaseE {\basis{E}{}} \gdef \BaseH {\basis{H}{}} $$

书接上回,在对 $\Hom(\R,V)$ 以及 $\Hom(V,\R)$ 有了一定认识,且有了 对偶 这样特殊的对象后,我们终于可以出发研究线性映射空间 $\Hom(V,W)$ 了。而矩阵空间 $\Mat(m,n)$ 与线性映射空间之间又有什么样的联系呢?让我们就在这一章里探索一番吧!

头图信息参考第一章,感谢~!本次选曲为 椎乃味醂 调教,初音未来与重音 Teto演唱,在 2025 VCCL 上拿到第 7 名好成绩的 まだ知らない君がいる!/存在着我还不曾知晓的你!(B站链接)。非常强而有力的一首歌。本曲在网易云音乐需要会员,感兴趣可以至 B 站收听并观看精美 MV。原投稿链接(Niconico):まだ知らない君がいる! - 初音ミク・重音テト

前言

上一章里,我们以 $\Hom(\R,V)$ 和 $V^* = \Hom(V,\R)$ 为例,简单看了看 $\Hom(V,W)$ 这一类线性空间中的两个特殊的例子,以及它们和矩阵表达之间的关系。由于线性空间、对偶空间和双对偶空间之间的关系,我们可以把余向量看作向量到 $\R$ 的函数,同时可以把向量看作它的二次对偶,从而成为余向量到 $\R$ 的函数。从线性映射的矩阵表达,我们也能理解它们为什么可以写成列向量和行向量。

然而,我们依旧没有完全阐明 $\Hom(V,W)$ 的内部结构。它和矩阵空间 $\Mat(m,n)$ 之间究竟是什么样的关系?这个空间的基是什么样的?它自己的对偶空间是是什么样的?本章我们就来着重研究这个更加一般的线性空间。

不过在直接深入这个线性空间之前,我们先回到线性空间的基上,就这个重要的概念加一些说明。

基:有限与无限的桥梁

线性代数笔记 I 中,我们首次引入了线性空间的基的概念,并且在研究后续提到的线性空间的过程中均或多或少地使用了这个概念。我们在这里简单回忆它的定义:

[!NOTE] 线性空间的基 线性空间 $V$ 的基是它的一个子集 $\BaseBV$,里面的向量称为基向量,这个子集可以张成这个线性空间,而里面的基向量又是两两线性独立的。

由于线性张成以及线性无关的特点,在选定线性空间的基之后,空间中的所有向量都可以被唯一地表示为基向量的线性组合。

再回忆我们之前使用基的情形,我们常常能把任意一个向量化为一组基以及它的线性组合,从而由对这个线性组合的操作来证明线性空间的一系列性质。线性空间中的元素(向量)从集合论的角度来讲应该是无穷多的,但是通过它的基,线性空间的 无穷性 被基这个概念给消解了,变成有限的,可处理的数学对象了。基就像是沟通有限(有限个系数)和无限(无限多的向量)的桥梁。

具体地说,当我们本来要处理一个不知道具体情况的线性空间中的向量时,我们可以借由 线性空间总有一组基 1 这一点,来先选择一组基,进而根据 向量可以被一组基唯一地用一组系数表示出来 来将向量表达为一组数。随后经过对这组数的一些处理,得到我们需要的,这个向量 在这组基下的 结论后,我们可以在最后说明:这一组基是 任意 选取的,而得到这个结论的过程中不依赖特定基的选取,因此即便换一组基,我们依然能得到这个结论,从而成功地说明了这个任意选取的向量的一些结论。

这一点在研究线性空间之间的同态(线性映射)时颇为关键:直接构建两个抽象线性空间之间的线性映射是不那么现实的,而当我们给线性映射左右两边的线性空间都所选择一组基后,线性映射似乎就完全变成了从基到基的映射了,空间中的一组基在映射后怎么用另一空间中的基表示出来。

于是,我们似乎可以说:线性空间的性质全部凝结在它的基上,而研究线性映射的问题则在给两边选择好基后成为了研究线性表出系数关系的问题。我们会在后面的部分验证这句话是否合理。

是时候出发了,将目光转向 $\Hom(V,W)$ 吧。有了 $\Hom(V,\R)$ 和 $\Hom(\R,V)$ 的性质(特别是它们的基),相信您对 $\Hom(V,W)$ 也有了一些直观上的认识。

再探 $\operatorname{Hom}(V,W)$

我们在上一章中提到过矩阵和线性映射的关系,我们知道,线性映射在两端选择好基之后,线性映射可以被表达为一个矩阵。我们还指出了,这样的矩阵全体又能够构成一个线性空间,它的基为在某一个位置为 $1$,其余均为 $0$ 的矩阵的集合。如果这个线性空间中的每个矩阵是 $m\times n$ 的,那么它的一组基一共有 $mn$ 个基向量。那么,如果在选定了线性映射两边空间的基后,所有可能的线性映射都可以被 唯一地 表达为一个矩阵,那么我们就能在线性映射的集合与矩阵集合之间建立一个双射;如果,进一步地,这个双射能够保留两边作为线性空间中定义的两种运算,那么我们就成功地将两个空间用同构联系在了一起。那么我们要怎么做呢?

$\operatorname{Hom}(V,W)$ 与 $\operatorname{Mat}(m,n)$

那么,要怎么证明唯一性呢?其实我们只需要检查线性映射被表达为一个矩阵的过程即可。回顾 线性映射的两种路径,在选择好基后,基向量 $\vect{b}_j$ 在线性映射 $L$ 下的像 $\vect{f}_j$ 是唯一的, $\vect{f}_j$ 的线性表出也是唯一的,而后者的线性表出系数就是我们要的矩阵系数 $A^i{}_j$ 。因此,在选择好两个线性空间的基后,这两个线性空间之间的线性映射都能被唯一地表达为一个矩阵了。

那么,这个双射能保留 $\Hom(V,W)$ 与 $\Mat(m,n)$ 上定义的加法与数乘吗?完全可以。实际上,因为我们给 $\Hom(V,W)$ 的加法和数乘定义是逐点的,而我们给 $\Mat(m,n)$ 的加法与数乘的定义也是逐点的,两边的这两种运算的保留是非常明显且直观的。比如,有两个线性映射 $T,S\in\Hom(V,W)$,它们的矩阵表达为 $A,B\in\Mat(m,n)$,则 $T+S$ 完全对应了 $A+B$:一个 $V$ 中的向量 $\vect{v}$ 在 $T+S$ 的映射后,其在 $W$ 中的线性表出系数完全可以由矩阵 $A+B$ 左乘以 $\vect{v}$ 的列矩阵(列向量)。数乘也是如此,我们就不再赘述。

总之,当 给两边的线性空间选择好基之后,我们就可以把线性映射空间与矩阵空间联系起来,它们俩之间就有了同构。不过,这个条件有点扎眼:我们非得选择好基之后,才能给 $\Hom(V,W)$ 与 $\Mat(m,n)$ 之间用同构联系起来吗?换言之,这个同构是自然的吗?

从 $\Hom(V,\R)$ 与 $V^*$ 的关系,也许大家也能猜到,这个同构不是自然的。简单来说,当我们给 $V$ 选定一组基之后,$W$ 的基的选择会影响 $V$ 的基向量在 $W$ 中的线性表出系数,进而影响这个线性映射的矩阵表示,从而最终影响它们之间的这个同构。

在我们研究 $\Hom(V,W)$ 的基之前,我们先给 $\Mat(m,n)$ 的基一些记号。在上一章中,我们提到,$\Mat(m,n)$ 可以有一组最简单的基,其基向量即为在某一行的某一列处取值 $1$ 而让其他位置的值均为 $0$ 的矩阵。我们希望用一套记号来表示这个基向量以及矩阵空间的基。

[!NOTE]{矩阵空间的基向量和基的记号}

对于矩阵空间 $\Mat(m,n)$,我们记在第 $i$ 行 ($0\leq i \leq m$) 第 $j$ 列 ($0\leq j \leq n$) 的元素为 $1$ 而其余元素均为 $0$ 的矩阵为 $\mat{E}_i{}^j$,所有这样的矩阵的集合成为 $\Mat(m,n)$ 的一组基,成为其标准基 $\basis{E}{}{}^m_n$。称 $\mat{E}_i{}^j$ 为 $\Mat(m,n)$ 的第 $(i,j)$ 个基向量。

$\operatorname{Hom}(V,W)$ 的基

那么,作为线性空间,它的基到底是什么样的?由于它与 $\Mat(m,n)$ 存在同构,我们是否可以从 $\Mat(m,n)$ 的基出发,来反推出 $\Hom(V,W)$ 的基的含义?

我们先选好 $V$ 和 $W$ 的基 $\BaseBV$ $\BaseCW$,此时考虑 $\Mat(m,n)$ 的标准基,取其中第 $(i,j)$ 个标准基矩阵 $\mat{E}_i{}^j$,它的第 $i$ 行第 $j$ 列的矩阵元为 $1$,其余均为 $0$。

我们尝试将 $\mat{E}_i{}^j$ 在 $\Hom(V,W)$ 的框架下做出解释,即这个基向量是这样的一个线性映射,它将 $\BaseBV$ 中的第 $j$ 个向量在映射到 $W$ 后得到了 $\BaseCW$ 中的第 $i$ 个向量,而其余 $\BaseBV$ 中的向量均被映射到 $W$ 的原点处。这个做法很像我们在 $\Hom(V,\R)$ 中见到的那样:将 $V$ 中的某个基向量映射到 $1$ 处,让其余的所有基向量都映射到 $0$ 上。只不过这次,因为 $W$ 中不只有一个维度,我们需要指定 $V$ 中的这个基向量应该被映射到哪个 $W$ 中的基向量上。

我们形式化地把它的基向量写出来:记 $\Hom(V,W)$ 的基为 $\BaseH{}_{V}{}^W$,第 $(i,j)$ 个基向量记为 $ {H}_i{}^j$,则我们上面定义的基向量的形式化定义为:

$$ {H}_i{}^j (\vect{b}_k) = \begin{cases} \vect{c}_i &\text{if }\ k=j\\ 0_W &\text{if }\ k\neq j\\ \end{cases} $$

这个形式中总是让人感到它暗含了 Kronecker delta。没错,它可以被表示为:

$$ {H}_i{}^j (\vect{b}_k) = \delta^j{}_k \vect{c}_i, $$

其中 $0 \vect{c}_i = 0_W$ 被隐含了。

这样的线性映射能张成这个线性空间吗?答案是肯定的。我们只要凑够所有的 ($mn$ 个) 这样的基向量,就可以通过线性组合实现这样的事:一个 $\Hom(V,W)$ 中的线性映射,先将 $V$ 中的第一个基向量映射到 $W$ 的第一个基向量上,得到一个分量,然后在将它映射到第二个基向量上,再是第三个,第四个……随后对 $V$ 的第二个基向量做同样的处理,第三个,第四个……直到所有 $V$ 中的基向量都在 $W$ 中成功表示出来,从而成为一个完整的,从 $V$ 到 $W$ 的线性映射。

当然,一个线性空间中理应有无数多个基,我们姑且称刚刚构建出来的基为在 $\BaseBV$ 与 $\BaseCW$ 下的 诱导基,因为它便于解释,也方便进行后续的处理。我们称上面处理的那个基向量为第 $(i,j)$ 个基向量。另外值得注意的是,即便这里我们称之为 基向量,但它却是 $\Hom(V,W)$,线性映射空间的基向量,它实际上是一个 $V$ 到 $W$ 的线性映射。由于语言的贫瘠,我们滥用一下定义,也称它为基向量,请注意区别。

最后,我们给出这个基向量的定义:

[!DEF]{$\operatorname{Hom}(V,W)$ 的诱导基}

向量空间 $\Hom(V,W)$ 的 诱导基 是一组由 $V$ 到 $W$ 的,依赖于 $V$ 与 $W$ 的基的选取的线性映射。其中的基向量满足条件

$$ {H}_i{}^j (\vect{b}_k) = \delta^j{}_k \vect{c}_i,$$

其中 $\delta^j{}_k$ 为 Kronecker delta,$\vect{b}_k$ 为 $V$ 中的第 $k$ 个基向量,$\vect{c}_i$ 为 $W$ 中的第 $i$ 个基向量。称这个基向量为 $\Hom(V,W)$ 的第 $(i,j)$ 个(诱导)基向量。

$\operatorname{Hom}(V,W)$ 的对偶

我们在得到一个线性空间的基本信息后,总是很难不去想这个线性空间的对偶空间是什么样的。根据对偶的定义,我们知道它的对偶是 $\Hom(V,W)^* = \Hom(\Hom(V,W),\R)$,即给每个从 $V$ 到 $W$ 的线性映射都赋予一个实数。这个对偶空间的基向量,根据我们在上一章聊过的对偶基的概念,如果作用在对应的基向量上则给出 $1$,而作用在其他的基向量上则给出 $0$。

然而我们观察到,$V$ 与 $\Hom(\R,V)$ 之间存在自然同构,而 $V$ 的对偶空间是 $\Hom(V,\R)$,也就是说,$\Hom(\R,V)$ 的对偶空间是 $\Hom(V,\R)$。这是否暗示,$\Hom(V,W)$ 的对偶空间是 $\Hom(W,V)$?如果真的如此,那么 $\Hom(W,V)$ 的基向量就成为 $\Hom(V,W)$ 的对偶基向量了。为了确定这件事,我们还是先从对偶基开始,看看在使用对偶基的定义时,$\Hom(V,W)$ 的基向量会给出什么样的对偶空间的基向量吧。

$\operatorname{Hom}(V,W)$ 的对偶基向量

依旧,我们先给 $V$ 和 $W$ 找好对应的基向量,然后掏出 $\Hom(V,W)$ 在这两个基下的诱导基。取其中第 $(i,j)$ 个基向量,尝试定义它的对偶基向量。它的对偶向量应该也是一个线性映射,它在作用上 $\Hom(V,W)$ 的第 $(i,j)$ 个基向量时得到 $1$,而作用在其余的基向量上时则得到 $0$。我们记这个对偶基向量为 $ {\Theta}^m{}_n$,形式化地,根据对偶基的定义,则有:

$$ {\Theta}^m{}_n ({H}_i{}^j) = \begin{cases} 1&\text{if }\ m=i \land n = j;\\ 0 &\text{if }\ m\neq i \lor n \neq j.\\ \end{cases} $$

要怎么解释这里的 $1$ 和 $0$ 呢?这样线性映射的复合应该得到另一个线性映射才对呀?不过我们也可以方便地解释这一点:当一个线性映射经过什么东西的作用后得到了数字 $1$ 和 $0$ 时,我们可以认为这实际上是得到了 恒等映射 以及 零映射。可是,这个恒等映射和零映射的定义域和陪域都是谁呢?我们可以从作用到一个具体元素的结果上着手考察这个问题。

由于 $ {H}_i{}^j (\vect{b}_k) = \vect{c}_i \delta^j{}_k $, 当我们尝试给这个定义中的式子再套上 $\Theta^m{}_n$ 时,得到的结果应该是:

$$ \Theta^m{}_n (H_i{}^j(\vect{b}_k)) = \Theta^m{}_n (\delta^j{}_k \vect{c}_i) = \begin{cases} \vect{b}_k&\text{if }\ m=i \land n = j;\\ 0_V &\text{if }\ m\neq i \lor n \neq j.\\ \end{cases} $$

这下可以看到,$\Theta^m{}_n$ 是一个从 $W$ 到 $V$ 的线性映射!那么作为这样一个线性映射,当与 $H_i{}^j$ 复合时得到了恒等映射,这是否能用 Kronecker delta 来表达呢?答案是肯定的:

$$ \Theta^m{}_n (H_i{}^j(\vect{b}_k)) = \delta^m{}_i\delta^j{}_n\vect{b}_k, $$

注意到我们这里正巧利用了 0乘以任何数都是0 的特点,把 $m=i$ 且 $n=j$ 的条件用两个 Kronecker delta 来表达出来了。至此,我们正式给出 $\Hom(V,W)$ 的对偶基向量定义:

[!DEF]{$\operatorname{Hom}(V,W)$ 的对偶基向量}

我们将 $\Hom(V,W)$ 的对偶基中的一个向量记作 $\Theta^m{}_n$,其为一个由 $W$ 到 $V$ 的线性映射,满足条件:

$$\Theta^m{}_n (H_i{}^j) = \delta^m{}_i\delta^j{}_n.$$

其中,$H_i{}^j$ 是 $\Hom(V,W)$ 的第 $(i,j)$ 个诱导基向量。

对偶基向量的其他解释

我们形式化地得到了 $\Hom(V,W)$ 的对偶基向量,从而明白了它的对偶基情况,进而了解到,这个线性空间的对偶空间不是别的,就是 $\Hom(W,V)$。然而,我们还可以从另一个角度去观察 $\Hom(V,W)$ 的诱导基,它也可以给出对偶基的一些信息。我们简单描述一下。

首先,我们从作用到基向量的情况出发,来考察对偶基向量的情况。当 $V$ 中的第 $j$ 基向量 $\vect{b}_j$ 被映射到 $W$ 中的第 $i$ 个基向量 $\vect{c}_i$ 上,而其他的 $V$ 中基向量被映射到 $W$ 中的零向量 $0_W$ 时,这个映射给出 $1$, 而若 $\Hom(V,W)$ 中的其他的任何基向量作为输入,都只能得到 $0$。也就是说,将 $\vect{b}_j$ 映射到其他 $W$ 中的其他基向量时,或者让 $V$ 中 的基向量 $\vect{b}_k (k\neq j)$ 映射到 $\vect{c}_i$ 时,对偶基的映射都给出 $0$。

我们观察上面的这些情形:当 $\vect{b}_j$ 指向 $\vect{c}_i$ 时,我们的对偶基向量给出 $1$;当 $\vect{b}_j$ 不指向 $\vect{c}_i$ 时,根据定义,它要么指向 $0_W$,要么指向别的 $\vect{c}_l \neq \vect{c}_i$,而此时上面的对偶基向量都给出 $0$。

不过,如果我们换一个角度呢?当 $\vect{c}_i$ 和 $\vect{b}_j$ 配对时,上述对偶基向量给出 $1$;当 $\vect{c}_i$ 不与 $\vect{b}_j$ 配对时,对偶基向量就给出 $0$。于是,这个对偶基向量实际上形成了一个选择:令 $W$ 中基向量 $\vect{c}_i$ 对应到 $V$ 中基向量 $\vect{b}_j$ 上,而其余的 $W$ 的基向量由于没有去处,就映射到 $0_V$ 上。这样的定义是完全符合 $\Hom(W,V)$ 上第 $(j,i)$ 个诱导基向量的定义的。但总的来说,这个方法还是略显抽象。

不过我们还有更简单的方法:从矩阵出发。首先,我们让 $\Hom(V,W)$ 和矩阵空间 $\Mat(m,n)$ 之间建立起由 $V$ 与 $W$ 的基诱导出的同构。然后我们考虑 $\Mat(m,n)$ 的对偶基。它的对偶基应该是与原基相乘后得到 $1$ 的矩阵。如此一来,我们很快就明白了 $\Mat(m,n)$ 的对偶空间应该是 $\Mat(n,m)$,而给定条件下能满足需要的对偶线性空间中,最简单的就是 $\Hom(W,V)$ 了。

然而这个方法存在一些弊端,比如怎么确定就是 $\Hom(W,V)$ 而不是 $\Hom(W^*,V)$ 之类的线性空间,但它很好地给了我们一个方向。

最后我们做一个总结,关于线性映射空间和它的对偶空间有这样的一个小结论:

[!NOTE]{对偶与线性映射}

对于线性映射空间 $\Hom(V,W)$,其对偶空间为 $\Hom(W,V)$,即交换前后两个空间的顺序,或者说让映射的箭头反向。

注意到了吗?对偶和 让箭头调转方向 联系了起来。我们会在范畴论中见到很多对偶的概念,而它们中的大多数,到头来也就是让 箭头反向。也许我们还有机会见到这样的例子,不过这里就不多赘述了。毕竟,这个是线性代数的笔记,不是范畴论的笔记()

线性映射空间与矩阵空间的对偶

另一个自然而然且有趣的话题是,对偶空间内元素的矩阵表示是什么样的?然而在这个 $\Hom(V,W)$ 的对偶空间中,结论是有点明显的。如果 $\Hom(V,W)$ 这个线性空间对应的矩阵空间为 $\Mat(m,n)$,那么 $\Hom(V,W)^* = \Hom(W,V)$ 对应的矩阵空间自然就是 $\Mat(n,m)$ 了。

然而尽管如此,想要知道每个元素的具体情况,我们依旧需要仔细考察。好消息是,对偶向量的概念能帮助我们观察对偶空间中的情况。要回顾 对偶向量 的概念,请参考这里

矩阵不止有一种乘法

这里我们取 $\Mat(3,2)$ 中的一个矩阵 $\mat{M}$:

$$ \mat{M} = \begin{bmatrix} 1&2\\ 3&4\\ 5&6 \end{bmatrix}, $$

看看它的对偶向量是什么样的。为求得它,我们需要先得到 $\Mat(3,2)$ 在基下的分解。我们这里就直接取 $\Mat(m,n)$ 的标准基 $\basis{E}{}{}_m^n = \{\vect{E}_{i}{}^j\}_{1\leq i\leq m}^{1\leq j\leq n}$,得到的结果即为:

$$\mat{M} = 1\vect{E}_{1}{}^1 + 2\vect{E}_{1}{}^2 + 3\vect{E}_{2}{}^1 + 4\vect{E}_{2}{}^2 + 5\vect{E}_{3}{}^1 + 6\vect{E}_{3}{}^2.$$

在此之后,我们需要保留这些线性表出系数,然后将每个基向量都换成对应的对偶基向量。根据对偶基向量的定义,我们有:

$$ \vect{F}^{i}{}_{j} \vect{E}_{j}{}^{i} = 1, $$

其中 $\vect{F}^{i}{}_{j} \in \Mat(2,3)$。可是,这带来了一个问题:矩阵乘法不会给出一个数字。它给出的是一个矩阵,而且矩阵形状取决于两个矩阵和乘法方向!这该如何是好啊……

好消息是,我们 没有定义矩阵空间中的乘法,也没有声明 只有一种矩阵乘法。事实上,矩阵乘法可以有很多种。而这里,为了得到一个值,我们 自定义一个乘法。乘法规则很简单,让 “镜像位置” 的分量相乘后,把所有的乘积相加。

比如,一个 $m\times n$ 的矩阵 $\mat{A}$ 和 $n\times m$ 的矩阵 $\mat{B}$ 在我们的计算方法下相乘,得到的结果是:

$$ \mat{A} \boxtimes \mat{B} = \sum_i^m \sum_j^n A_{ij} B_{ji},$$

其中 $\boxtimes$ 是我们自定义的乘法,而 $A_{ij}$ 是矩阵 $\mat{A}$ 的第 $(i,j)$ 个元素。这里我们只使用前后来表示矩阵元的位置。关于矩阵的记号我们后面会多聊一些。我们这里把这个乘法的定义写一下,并暂时给它一个名字。

[!DEF]{矩阵的对偶乘法}

定义 $\Mat(m,n)$ 与 $\Mat(n,m)$ 间的 对偶乘法 $\boxtimes$ 为:

$$\begin{align*} \boxtimes &\vcentcolon \Mat(m,n) \times \Mat(n,m)\to \field{F} \\ &\quad \mat{A}\boxtimes\mat{B} \mapsto \sum_i^m\sum_j^n A_{ij} B_{ji},\end{align*} $$

其中 $A_{ij}$ 为 $\mat{A}$ 的第 $(i,j)$ 个元素。

顺带,由定义我们很容易知道,这个乘法的定义是符合交换律的,因为到头来也只是交换和式内部的乘法顺序,不会影响结果。另外,零矩阵会让乘积为 $0$,但为了得到 $0$ 的结果,两个矩阵可以不是零矩阵:在每个 对应 的位置上都出现一次 $0$ 就好了。

矩阵空间的对偶空间&矩阵的对偶向量

那么,在我们的 $\boxtimes$ 的定义之下,$\Mat(m,n)$ 的矩阵就可以和 $\Mat(n,m)$ 的矩阵相乘并得到一个数了。我们顺理成章地定义 $\vect{F}^{i}{}_{j}$ 的形式,即只在第 $i$ 行第 $j$ 列的位置上元素为 $1$ 而其余矩阵元全为 $0$ 的矩阵。就这样,我们得到了矩阵空间 $\Mat(m,n)$ 的对偶基,进而得到了矩阵空间的对偶。

回到最开始的矩阵 $\mat{M}$,经过在 $\mat{M}$ 的分量表示中替换 $\mat{E}_i{}^j$ 为对应的对偶基向量 $\mat{F}^j{}_i$,我们得到这样的结果:

$$ \mat{M}^* = \begin{bmatrix} 1&3&5\\ 2&4&6\\ \end{bmatrix}. $$

如此,我们得到了矩阵在矩阵空间中的对偶向量。把一个 矩阵 叫做 对偶向量 总是让人感觉怪怪的,而我们后面可能又会遇到更多奇怪的东西,它们各自也有自己的对偶。因此,自此以后,我们称呼这类事物为 对偶元素,在一般线性空间和向量的情况下,向量的对偶元素还是一个向量,又称对偶向量;在矩阵线性空间中,矩阵也有自己的对偶元素,也是一个矩阵;对线性映射而言,它也有自己的对偶元素,同样是一个线性映射。

转置

虽然上面的结果我们称它为 矩阵的对偶,但是这个定义似乎太局限:我们依赖了一个自定义的乘法,才得到了这么一个结果,而从根本上来讲却又只是把元素重新排列一下。对于 纯矩阵 来讲,我们完全可以直接从元素排列的角度出发,把元素像上面那样重排来得到一个新的矩阵。这样的重排操作,由于非常实用(也非常单纯),被人们称为 转置

[!DEF]{矩阵转置}

设一矩阵 $\mat{A}$ 为矩阵集合 $\Mat(m,n)$ 中的元素,其第 $(i,j)$ 个矩阵元记为 $A_{ij}$,则其 转置 的结果记作 $\tran{A} \in \Mat(n,m)$,第 $(i,j)$ 个矩阵元为 $[\tran{A}]_{ij} = A_{ji}$。

矩阵转置是依赖且仅依赖矩阵元素排列顺序的。实际上我们最早可以在引入矩阵的同时就介绍矩阵的转置了。没有这么做的主要原因在于,没什么动机/动力去做这件事。一个矩阵可以被转置生成另一个矩阵,然后呢?希望这里的 对偶 能够回答一部分问题:线性映射的对偶元素,在将二者表达为矩阵时,二者之间只差一个转置操作。

那么为什么不用矩阵的对偶来替代矩阵转置呢?原因其实在上面已经提过了:矩阵的对偶是严格依赖矩阵空间作为线性空间的事实以及上面所定义的 矩阵对偶乘法 的定义的。当我们提到矩阵的对偶元素时,必然要预设这些背景才可以进一步讨论。而矩阵转置则 “轻量化” 许多:它就只是单纯地重新排列一下矩阵元素。

当然,我们也可以赋予矩阵转置一些性质,比如矩阵的转置是一种对偶。也许你可以说,转置也是掉换了元素排列方向,这和对偶调换箭头方向是相似的。后面在专门聊矩阵的时候,我们还会再次遇到矩阵转置。

$\operatorname{End}(V)$ 与 $\operatorname{Mat}(n)$

在了解过一般线性映射空间 $\Hom(V,W)$ 之后,我们来考察一类特殊的线性映射空间 $\End(V)$,即 $\Hom(V,V)$,以及这个线性映射空间对应的矩阵空间 $\Mat(n)$。

在第一章中,我们提到过所有 $V$ 上的线性变换全体称为 $\End(V)$,这里的 $\End$ 是 Endomorphism 的缩写,意为 自同态。而这里的 $\Mat(n)$ 是对 $\Mat(n,n)$ 的简写,即 $n\times n$ 的 方阵 集合。自同态带来了很多有趣的性质,最明显的一点即为同态的复合是封闭的,即:

$$L(R(\vect{v}))\in V\ \forall L,R\in \End(V), $$

或者,如果我们接受只对线性映射复合的运算的话,

$$ L(R) \in \End(V)\ \forall L,R\in \End(V).$$

对应到矩阵空间,就是方阵的乘法总是得到同型方阵:

$$ \mat{AB}\in \Mat(n)\ \forall A, B\in \Mat(n).$$

我们来研究一下这些特殊的性质。

自同态复合与双线性映射

我们从线性自同态入手,方阵由于是被线性自同态完全决定的,因此方阵的情况我们这里就不再赘述。

线性自同态的复合由于满足封闭性,我们可以认为它是某种独立于加法和数乘的新运算。既然如此,我们就来看看,线性自同态的复合(以下简称映射复合)与原本定义的加法和数乘之间有什么联系,三者之间能给出什么样新的性质。

首先是加法。我们知道,加法和数乘之间是有分配律的,直观上讲,数乘从外部作用到(缩放)一个计算好的向量,和把参与加法的每个向量缩放后得到的结果再相加,结果是一样的。这似乎对映射复合也是成立的:

取 $\vect{v}\in V$ 以及 $L,R,S\in\End(V)$,我们有:

$$ \begin{align*} (L(R+S))(\vect{v}) &= L((R+S)(\vect{v})) = L(R((\vect{v})+S(\vect{v}))) \\ &= L(\vect{u} + \vect{w}) =L(\vect{u}) + L(\vect{w})\\ &= L(R((\vect{v}))+L(S(\vect{v}))) =L(R)(\vect{v}) + L(S)(\vect{v})\\ &= (L(R)+L(S)) (\vect{v}) \end{align*} $$

我们给 $L(R+S)$ 这样一个映射复合作用上了一个向量 $\vect{v}$,检查了这个向量的参与下这个线性映射的形式能改变成什么样。整个过程几乎就是反复利用线性映射的性质,中间在需要的时候用两个向量来代表 $\vect{v}$ 的不同的像。这里得到了一个似乎与 $\vect{v}$ 无关的,只和线性映射本身相关的结果。

那么,翻过来又如何呢?我们试一试:

$$\begin{align*} (L+R)(S(\vect{v})) &= ((L+R)S)(\vect{v}) \\ &= (L+R)(\vect{w}) = L(\vect{w}) + R(\vect{w})\\ &= L(S(\vect{v})) + R(S(\vect{v}))\\ &= L(S)(\vect{v})+R(S)(\vect{v})\\ &= (L(S)+R(S))(\vect{v}), \end{align*} $$

这里也是像上面那样不断地利用定义,最后得到了一个和 $\vect{v}$ 似乎无关的结果。

那除了加法,数乘又如何呢?我们依旧放入一个向量来测试一下:

$$ \begin{align*} (a\cdot L(R))(\vect{v}) &=a\cdot L(R(\vect{v})) = a\cdot L(\vect{w}) \\ &= (a\cdot L)(\vect{w}) = (a\cdot L)(R)(\vect{v}) \\ &= L(a(R(\vect{v}))) = L((a\cdot R)(\vect{v}))\\ &= L(a\cdot R)(\vect{v}). \end{align*} $$

上面的操作令人有点摸不着头脑,只不过是重复应用线性映射的性质以及定义在线性空间 $\End(V) = \Hom(V)$ 中的加法和数乘的定义罢了。然而,当我们去掉三个式子最后的 $\vect{v}$ 时,就有神奇的事发生了:

$$L(R+S) = L(R) + L(S)$$

$$(L+R)S = L(S) + R(S)$$

$$ a\cdot(L(R)) = (a\cdot L)(R) = L(a\cdot R)$$

而当我们将 映射的复合 看成一种 乘法,且我们不再用括号代表映射复合,而是只用来代表运算顺序,直接将映射按顺序写好代表复合时,我们得到:

$$L(R+S) = LR + LS$$

$$(L+R)S = LS + RS$$

$$ a\cdot (LR) = (a\cdot L)R = L(a\cdot R)$$

我们可以看到:这个 乘法 有左分配律,有右分配律,且对每个位置都是线性的。这样的乘法很特别,我们特别地将它称为 双线性映射,因为它对参与乘法的前后两个位置都满足线性性。我们给出双线性映射的定义:

[!DEF]{双线性映射}

设有 $\field{k}$ 上的线性空间 $V,W,U$,且有 $\vect{v}\in V, \vect{w}\in W, \vect{u}\in U$,再设 $a,b\in \field{k}$;定义映射 $B$:

$$ \begin{align*} B&\vcentcolon V\times W \to U\\ &\quad (\vect{v},\vect{w})\mapsto B(\vect{v},\vect{w})\in U,\end{align*} $$

若它满足下列三条性质:

  • $B(\vect{v},\vect{w}+\vect{u})=B(\vect{v},\vect{w})+B(\vect{v},\vect{u})$;
  • $B(\vect{v}+\vect{w},\vect{u})=B(\vect{v},\vect{u})+B(\vect{w},\vect{u})$;
  • $B(a\vect{v},b\vect{w})=ab B(\vect{v},\vect{w})$,

则此时我们称映射 $B$ 为 $\field{k}$ 上的 双线性映射

等价地,若对于任何 $\vect{w}\in W$,映射

$$\vect{v}\mapsto B(\vect{v},\vect{w})$$

是 $V$ 到 $U$ 的线性映射,且对任何 $\vect{v}\in V$,映射

$$\vect{w}\mapsto B(\vect{v},\vect{w})$$

是 $W$ 到 $U$ 的线性映射,则称 $B$ 为 $\field{k}$ 上的双线性映射。

我们可以检验,当我们定义映射复合为一个从 $\End(V)\times \End(V)$ 到 $\End(V)$ 的二元乘法时,这个二元乘法是满足双线性映射的定义的。另外,我们还可以将这个概念不断拓展,得到所谓的 多线性映射。本笔记的目标之一,就是写到这个 多线性映射 为止,也就是所谓的 张量,但是现在,我们还有别的更有趣的对象值得研究。

双线性这样的性质非常吸引数学家们的关注,尤其是当这种运算定义在一个线性空间上并回到它自身的时候。因此,在给线性空间附带了一个从自己到自己的双线性二元运算后,人们便给这个线性空间以新的名字: 代数,或者更准确地讲,域上的代数

域上的代数

我们先给出它的定义。

[!DEF]{域上的代数}

设 $A$ 为一数域 $\field{k}$ 上的线性空间,定义 $\field{k}$-双线性二元乘法:

$$\begin{align*} \cdot&\vcentcolon A\times A \to A\\ &\quad (\vect{x},\vect{y})\mapsto \vect{x}\cdot\vect{y}, \end{align*} $$

则称 $A$ 为 数域 $\field{k}$ 上的代数

为什么人们称它为 代数 呢?明明这个学科已经叫代数学,而这个子类别更是叫 线性代数 了。这个嘛,我也不知道。不过这倒是能从另一种角度解释 “线性代数研究什么” 的问题了。如果采用 域上的代数 的角度,我们可以说,线性代数就是在研究线性的代数(笑)2

除了从线性空间出发,我们观察到,一个域 $\field{k}$ 上的代数拥有三种计算:数乘,加法和乘法。如果我们去掉数乘,而只保留加法和乘法呢?我们得到的就是 。因此,我们还可以从环的角度,用 环+额外的数乘结构 来定义域上的代数。我们暂时不会考虑环这个代数结构,因此这里就不再赘述。不过,得益于代数的多重身份,我们不仅可以利用线性代数的性质来研究它,也利用环的性质来研究它。

比起线性自同态构成的代数,实际上人们更多地关心方阵在矩阵乘法下构成的代数,它被称为 矩阵代数。由于方阵和线性自同态之间的关系清晰且紧密,验证 所有 $n$ 阶方阵全体在加法、乘法与数乘下构成 $\field{k}$ 上的代数 的命题就交给读者自己尝试了。理应比上面验证 $\End(V)$ 是代数要简单的多(毕竟大家对矩阵还是熟悉一些吧)。

最后我们指出:这里的 $\End(V)$ 和 $\Mat(n)$ 在乘法下形成的代数天然拥有 乘法结合律,因此更严谨地讲应该称其为 结合代数。而且,这两个代数结构在乘法下都有 幺元恒等映射 以及 单位阵,因此这个代数也是 含幺代数。如果说,有某个代数的乘法更进一步地满足交换律,那么我们将称之为 交换代数。交换代数在一些领域占据中心地位,说的就是你,代数几何。笔者的愿望是,有生之年能学到交换代数,一窥代数几何的玄妙。当然,就当前的情况来看,有点痴人说梦了()

小结

本章我们的内容不算太多。可能大多数的内容,读者在读之前就已经从前面的章节中获得了提示,或者在线性代数的学习中早已了然于心了。不过,我们还是在这里总结一下。

  • 阐述了基在线性代数中的位置。线性空间的几乎所有性质都凝结在了它的基上;
  • $\Hom(V,W)$ 和 $\Mat(m,n)$ 之间可以通过对 $V$ 和 $W$ 选择合适的基来将二者联系起来,形成一一对应(线性同构);
  • $\Hom(V,W)$ 的基可以从 $\Mat(m,n)$ 的 标准基 中得到:将某一个 $V$ 中基向量映射到 $W$ 中的另一个基向量,而将其余的 $V$ 中所有基向量全部映射到 $W$ 的零向量上;
  • $\Hom(V,W)$ 的对偶空间是 $\Hom(W,V)$,可以通过研究对偶基向量得到;
  • 可以定义矩阵的 对偶乘法,将 $\Mat(m,n)$ 与 $\Mat(n,m)$ 的元素相乘得到一个数,以此可以定义 $\Mat(m,n)$ 的对偶空间;
  • 矩阵可以定义 转置 操作,具体做法是让旧矩阵的第 $(i,j)$ 个元素变成新矩阵的第 $(j,i)$ 个元素;
  • 转置和对偶元素之间有特殊的联系,但对向量取对偶依赖对偶本身的定义,而转置只关心元素的排列;
  • 线性自同态有特殊的性质,通过复合这一双线性操作可以得到线性自同态间的乘法;
  • $V$ 上的线性自同态全体构成数域 $\field{k}$ 上的代数;
  • 方阵在矩阵乘法下构成矩阵代数。

上一章节中,我们提到过 内积,且它是一种 双线性形式。而所谓 双线性形式 其实是一种特殊的双线性映射。这一章的 对偶乘法 从某种意义上再次提示我们有关内积的一些情况。然而受限于篇幅(以及笔者的脑仁儿),只能留在下一章详细介绍了。另外,提到内积,不得不提的便是(笔者)常常容易搞混的三个概念:内积、范数和度量。我们也许会在下一章中提到三者,对它们做一个区分;最后,在建立了线性映射和矩阵之间的关系之后,我们对线性映射的研究终于可以放在更具体的矩阵上进行了。本章只是为后续研究线性映射和矩阵搭建起来一个舞台而已,敬请期待后续的相关内容。


  1. 这个结论是有一定的适用范围的,在有限维线性空间是完全适用的,但在处理无穷维线性空间时就不见得了。详情可以参考我的 另一篇博文 ↩︎

  2. 代数这个概念实际上非常宽泛。这里所提到的 “代数” 只是众多代数定义中的一种,即在线性空间上构建起来的一种数学结构。而广义上的代数则是指代了带有两种运算,满足一定条件的系统,注意是 两种。实际上,后者 才更有可能是 线性代数 的名称由来。而与之类似的,可以参考布尔代数,$\sigma$-代数等。我们有机会可以聊聊这个小话题,挺有趣的。 ↩︎

Licensed under CC BY-NC-SA 4.0
最后更新于 3月 06, 2026 15:57 UTC