08

在本博客文章《理解矩阵与矩阵乘积(三)》六、矩阵分块的实质中,已经提到过矩阵分块乘法是有清晰的几何意义的。写那篇文章的时候我的头脑中还浮现出一个图表,为什么矩阵乘法和分块的乘法有一样的计算规则,在图表中一目了然。但当时嫌画图太麻烦没有画出来。几个月过去了,那篇文章的浏览量也不小,但似乎那篇文章说得还不够清楚。因此这里把当时想到的图表补充进来。


图示:2×3与3×2分块矩阵的乘法

X,Y 是两个向量空间,A,B 分别是 YZXY 的线性映射,它们两个的复合映射是从 XZ 的,可以用两个矩阵的乘积 AB 来计算。
我们把 X 按照基底的顺序分成两个子空间(例如,设 X 是三维空间,x,y,z 是它的基底,将 xoy 平面和 z 轴作为 X 的两个子空间),把 Y 按照基底的顺序分成三个子空间,把 Z 按照基底的顺序分成两个子空间(Z 子空间个数不必与 X 子空间个数相等,它们都可以分成是三个,四个或其它数目的子空间。)在上面的图示中,我们用方格子代表分得的子空间,X 上方的两个方格代表 X 中的两个子空间。
这样,图中的箭头代表各个子空间之间由原来映射诱导出来的新的映射,比如,图中标明 B11 的箭头,表示 X 第一个子空间中的向量经过 B 的映射到 Y 中,又向 Y 的第一个子空间做投影得到的向量,考虑下面的与这种分解方式相对应的分块矩阵的乘法,这个映射的矩阵实际上就是 B11。

AB=\begin{pmatrix}A_{11}&A_{12}&A_{13}\\ A_{21}&A_{22}&A_{23}\end{pmatrix}\begin{pmatrix}B_{11}&B_{12}\\ B_{21}&B_{22}\\ B_{31}&B_{32}\end{pmatrix}

 =\begin{pmatrix}A_{11}B_{11}+A_{12}B_{21}+A_{13}B_{31}&A_{11}B_{12}+A_{12}B_{22}+A_{13}B_{32}\\ A_{21}B_{11}+A_{22}B_{21}+A_{23}B_{31}&A_{21}B_{12}+A_{22}B_{22}+A_{23}B_{32}\end{pmatrix}

分块矩阵运算结果,第一行第一列矩阵块,是从 X 第一个子空间到 Z 第一个子空间的映射,等于 A_{11}B_{11}+A_{12}B_{21}+A_{13}B_{31},恰好是图中 X 第一个方格经由 Y 的三个方格到达 Z 的第一个方格的这些映射复合的叠加。

Tagged with:
十二 16

(五)拓扑空间中的序列极限与集合聚点

极限是序列的极限,聚点是点集的聚点。但二者却有很大的联系,在欧氏空间或更一般的度量空间中,x 是一个点集的聚点,当且仅当在这个点集中可以取出一列收敛到 x 但每一项都不等于 x 的点列;如果 x 是一个序列的极限,并且这个序列中有无限多项不等于 x,那么 x 就是这个序列元素构成集合的聚点。
这一节试图充分讨论极限与聚点在一般的拓扑空间中的关系。

前面说过,聚点和极限分别是不同对象的性质:极限是序列的极限,聚点是点集的聚点,为了比较两者,必须寻找到序列和集合之间转换的所有方式。

序列与集合的转换方式不外乎经常讨论的几种:
1) 从序列到集合:序列元素构成的集合。一个序列中有无限多项,但是把元素组成集合之后,形成的集合可能含有可数无穷多个元素,也可能只含有有限多个元素
2) 从集合到序列:从一个非空集合中可重复或不重复地抽取一列元素构成序列。
3) 从序列到序列:从一个序列中按原来的顺序抽出一个子列。

首先,一个序列的极限点可能并不唯一,因此我认为,写 \lim_{n\to\infty}x_n=x 这种形式的表达式可能会引起混淆,因为它不能被理解成等式,极限符号也不表示一个运算,等号右边也不表示一个运算的结果,两个这样的等式 \lim_{n\to\infty}x_n=x,\lim_{n\to\infty}x_n=y 放在一起也不能得出 x=y 的结论。而另一种记号 x_n\to x(n\to\infty) 就不会出现这个问题。但在 Housedoff 空间中,因为序列的极限唯一,所以两种形式的写法都是没有歧义的。

命题1:x_n\to x(n\to\infty),则对任意自然数 Nx 都是集合 \{x_n|n>N\} 的触点。
证明:根据极限的定义,任意自然数 N,以及 x 的任意邻域 U,存在自然数 N',当 n>\max(N,N') 时,x_n\in U,即 U\cap\{x_n|n>N\}\not=\emptyset,因此 x 是集合 \{x_n|n>N\} 的触点。

这个命题之后,自然想到,它的逆命题是否成立?如果对任意自然数 Nx 都是集合 \{x_n|n>N\} 的触点,虽然不能指望这个序列一定收敛到 x,但是否可以指望这个序列的某个子列收敛到 x
这在度量空间中是成立的,回想一下数学分析中的经典证法:取 n_1=1, x_{n_1}=x_1,对任意自然数 k>1,假设 n_{k-1} 已经取定,那么因为 x 是集合 \{x_n|n>n_{k-1}\} 的触点,可以取得 n_k>n_{k-1},使得 x_{n_k}\in B(x,\frac{1}{k}),这样取得的一个序列极限就是 x

但是在一般的空间中遇到了麻烦:在度量空间中,我们可以用一列以有理数为半径的球形邻域来筛选出满足要求的子列,其关键就是度量空间实质上在任何一点处都有一个可数的邻域基;但在一般的空间中,x 处的邻域基的个数可能是不可数的,无法像度量空间中那样一个一个地筛选元素,使得 x 的任何邻域中都包含子序列某一项之后的所有元素。那么在一般的空间中这个命题是否还成立?

书上例举了这方面相关的一个反例:在实数的可数补拓扑中,任何一个不可数子集 A 的导集 d(A) 是整个空间,但是 A 之外的点都不可能成为 A 中序列的极限。
但这个反例要求 A 是不可数的,够不成我们研究的命题的反例。设想一下在实数的可数补拓扑中,一个序列元素构成的集合是闭集,如果 x\{x_n|n>N\} 的触点,那么序列中必然有无穷多项等于 x,我们研究的命题自然成立。

是不是只要集合可数,集合的聚点就有可能是集合内序列的极限呢?我们先考察有限集合的聚点。

命题2:设序列 x_n 的元素集合 \{x_n|n\in\mathbf N\} 是有限集,那么如果对任意自然数 Nx 是集合 \{x_n|n>N\} 的触点,则 x_n 一定有一个子列收敛到 x
证明:因为 x 是有限集的触点,根据有限个集合并集的闭包等于这些集合闭包的并,一定存在某个单点集 \{x_m\}x 为触点,并且 x_m 在序列中无限次重复出现,取子列为 x_{n_k}=x_m,则 x 是这个子列的极限。

遗憾的是,因为无穷个集合并集的导集不一定就等于导集的并,所以这个论证过程还无法推广到可数集合的情形。下面是有关可数集聚点不是序列极限点的反例:

反例1:X 是有可数个元素的拓扑空间,X 的子集 A 存在聚点 x,但 A-\{x\} 中不存在收敛到 x 的序列。
解:Q 为有理数集,定义 Y\subset QQ 上的开集当且仅当 Q-Y 在通常的实数空间中的导集是有限集,或 Y 本身是空集。显然这样定义的开集族包括空集和全集,并且任意多个开集的并也是开集,由于 d(Q-Y_1\cap Y_2)=d(Q-Y_1)\cup d(Q-Y_2),所以两个开集 Y_1,Y_2 的交集 Y_1\cap Y_2 也是开集。因此这是个有理数集上的拓扑。
任意取一有理数 x,设一个有理序列 x_n\in Q-\{x\},下证 x_n 不收敛到 x。如果在实数拓扑中集合 \{x_n|n\in N\} 的导集是空集,那么其余集 Q-\{x_n|n\in N\} 就是这个拓扑中的开集,并且是 x 的一个邻域,但这个邻域中不存在序列 x_n 的任何一项,所以此时 x_n 不收敛到 x;反之,如果在实数拓扑中 y 是集合 \{x_n|n\in\mathbf N\} 的聚点,那么 x_n 有一子列 x_{n_k} 收敛到 y,从而 G=\{x_{n_k}|k\in\mathbf N\} 在实数中的导集就是单点集 \{y\}。这样 Q-G 就是这个拓扑中的开集,从而是 x 的邻域,但这个邻域中不含 x_{n_k} 的任何项,所以子列 x_{n_k} 不收敛到 x,整个序列也不可能收敛到 x
但是 x 的任何邻域 U 都是无限集,因此都与 Q-\{x\} 有非空的交,从而 x 是集合 Q-\{x\} 的聚点。

以这个反例为基础,我们就可以构造我们的命题的反例:

反例2:对任意自然数 Nx 都是 \{x_n|n>N\} 的聚点,但 x_n 任何子列都不收敛到 x
解:设拓扑空间如反例1 所述,x 是任意一个有理数,将 Q-\{x\} 的元素排成一列 x_n,那么对于任意自然数 N,由于 x 的任意邻域 U 都是无限集,都与 \{x_n|n>N\}=Q-\{x,x_1,\dots,x_N\} 有非空的交,从而 x\{x_n|n>N\} 的聚点。但根据反例1,x_n 任何子列都不收敛到 x

前面的讨论涉及到拓扑空间的两个性质:
1),xA 的聚点,那么 A-\{x\} 中存在序列收敛到 x
2),x_n 有子列收敛到 x 当且仅当对任意自然数 Nx 是集合 \{x_n|n>N\} 的触点。

这两条性质之间是什么关系?刚才讨论中已经看到一个满足性质 2) 却不满足性质 1) 的例子(实数的可数补拓扑),下面证明,如果一个拓扑空间满足性质1),那么它也一定满足性质2)。

命题3:如果一个拓扑空间满足性质1),那么它也一定满足性质2)。
证明:性质2) 中的必要性已经证明在一般的拓扑空间中都成立了,只需证明性质1) 可以保证性质2) 中的充分性。
X 是一个满足性质1) 的拓扑空间,在这个空间中,有序列 x_n 和元素 x 满足对任意自然数 Nx 都是集合 \{x_n|n>N\} 的触点。
如果对任意自然数 Nx\in\{x_n|n>N\},那么显然有子列 x_{n_k}=x,命题自然成立。以下设 x_n\not=x,\forall n,从而对任意 Nx 是集合 \{x_n|n>N\} 的聚点。由于空间满足性质1),那么在集合 \{x_n|n\in\mathbf N\} 中就有序列 x_{n_k} 收敛到 x。 如果当 k\to\infty 时下标 n_k\to\infty,那么 n_k 就有严格单调递增的子列,从而存在 x_n 的子列收敛到 x,命题得证;反之,如果下标 n_k 是个有界序列,设 M 是下标的上界,那么由于 x 是集合 \{x_n|n>M\} 的聚点,在这个集合中同样取一序列 x_{m_k} 收敛到 x,依次下去,会出现两种情形:第一,某次得到的序列其下标可以增长到无穷大,这时根据前面所述,我们已经得到满足要求的子列;第二,每次取到的序列其下标都是有界的,我们就得到一个序列的序列,设为 x^i_n,其中 i 代表序列的编号,n 代表序列元素编号。而每一个序列都是由有限个元素重复构成,那么对其中任何一个序列 x^i_n,存在一个元素 x^i_{n_i} 使得 x 是单点集 \{x^i_{n_i}\} 的聚点,取所有的 \{x^i_{n_i}\} 构成一个新的序列,这个序列就是满足要求的子列。

命题4:如果 x_n 的任何子列都有收敛到 x 的子列,那么 x_n 本身也收敛到 x
证明:假设 x_n 不收敛到 x,那么存在 x 的一个邻域 U,对任意自然数 N,存在 n>N 使得 x_n\not\in U,那么就存在 x_n 的一个子列 x_{n_k} 使得 \forall k, x_{n_k}\not\in U。这个子列的任何子列显然都不收敛到 x,与假设矛盾。

命题5:在满足性质2) 的空间中,一个序列 x_n 收敛到 x 当且仅当对 x_n 的任何子列 x_{n_k} 以及任何自然数 Nx 都是集合 \{x_{n_k}|k>N\} 的触点。
证明:这是命题4 的简单推论。

命题6:A1 空间满足上面讨论过的性质1),而在 T1 空间中,单点集是闭集,从而任意有限集的导集是空集,因此在一个满足 A1、T1 公理的列紧空间中,每个序列都有收敛子列,即满足 A1、T1 公理的列紧空间都是序列紧的。
证明:在这样空间中的一个序列 x_n,不妨设 \{x_n|n\in\mathbf N\} 是无限集,根据列紧性,这个集合有凝聚点 x,对于任意自然数 N,集合 \{x_1,\dots,x_N\} 的导集是空集,因此 x 是集合 \{x_n|n>N\} 的聚点,根据命题3,x_n 有收敛到 x 的子列。因此这个空间是序列紧空间。

这是在满足A1、T1 公理的空间中从列紧向序列紧推导的另外一条路。

Tagged with:
十二 06

分析教材中有一部分是点集拓扑中的内容在欧氏空间中的应用,所以索性在温习的时候把点集拓扑也顺便复习一遍。当年我们用的是熊金城的《点集拓扑讲义》作为教材,所以现在还用这本书为底本做一些笔记性的补充。

(一)集合与映射的运算的一些事实

命题1:f:X\to YA,B\subset XC,D\subset Y,则
a) 若 A\subset Bf(A)\subset f(B)
C\subset Df^{-1}(C)\subset f^{-1}(D)
b) f(A\cup B)=f(A)\cup f(B)f(A\cap B)\subset f(A)\cap f(B)
c) f^{-1}(C\cup D)=f^{-1}(C)\cup f^{-1}(D)f^{-1}(C\cap D)=f^{-1}(C)\cap f^{-1}(D)
d) f(f^{-1}(C))\subset C, f^{-1}(f(A))\supset A
e) f^{-1}(A-B)=f^{-1}(A)-f^{-1}(B)
f) f(A\cap B)=f(A)\cap f(B) 对任意 A,B\subset X 都成立当且仅当 f 是单射
g) f(f^{-1}(C))=C 对任意 C\subset Y 都成立当且仅当 f 是满射;f^{-1}(f(A))=A 对任意 A\subset X 都成立当且仅当 f 是单射。
h) f(f^{-1}(f(A)))=f(A)f^{-1}(f(f^{-1}(C)))=f^{-1}(C)
i) f(X-A)=f(X)-f(A) 对任意 A\subset X 都成立当且仅当 f 是单射。

这些命题证明都很容易,略去。另外在证明这些命题的过程中,但凡涉及集合的交、并的时候都只涉及到谓词逻辑,因此所有的交与并都可以是无限个集合的交与并。

(二)拓扑空间中点的分类

X 是拓扑空间,A\subset X,那么空间中的点可在 A 的作用下进行分类,分类的方式有以下两种:第一种方式,依据某点邻域与 A 的关系,可将全空间中的点分为 A 的内点、外点与边界点,三类点构成的集合分别称为 A 的内部(A^\circ)、A 的外部,与 A 的边界(\partial A);第二种方式,依据某点的去心邻域与 A 的关系,可将空间中的点分为 A 的聚点、A 的孤立点与 A 的外点,其中 A 的聚点构成的集合称为 A 的导集(\mathrm dA)。

命题2:A 的内部、A 的外部,与 A 的边界三个集合两两不相交,且三个集合的并集为 X
证明:任意一个点 x\in X,如果 xA 的内点,则存在 x 的邻域包含于 A,从而 x 不可能是边界点,由于此时 x\in A,那么它也不可能是外点。同样容易证明边界点不可能是内点或外点;外点不可能是内点或边界点。从而三个集合两两不交。
任意一个点 x\in X,如果 x 既不是 A 的内点也不是 A 的外点,则它的任何一个邻域不包含于 A,从而它的任何一个邻域中都有不属于 A 的点;它的任何一个邻域又不包含于 A',从而它的任何一个邻域中都有属于 A 的点,因此 xA 的边界点。这说明三个集合的并集是 X

命题2:A 的导集、A 的孤立点集,与 A 的外部三个集合两两不相交,且三个集合的并集为 X
证明:根据聚点和孤立点的定义,二者互不相交;设 xA 的外点,则存在 x 的一个邻域包含于 A',从而 x 不可能是 A 的聚点或孤立点;又因为聚点或孤立点或者属于 A,或者其任何一个邻域内都有 A 中的点,因此不可能是 A 的外点。所以三个集合两两不交。
任意一点 x,如果不是 A 的聚点,则存在 x 的一个邻域 U 使得 U\cap (A-\{x\})=\emptyset。如果 x\in A,则根据孤立点的定义,xA 的孤立点;否则,U\cap A=\emptyset,即 U\subset A',此时 xA 的外点。这说明三个集合的并集为 X

命题3:根据定义,A 的外部等于 A' 的内部,A 的边界等于 A' 的边界。

这样两种分类方式都是把全空间分成三个不交子集,A 的外部是两种方法共同分出的一类点集。
在欧氏空间 R^n 中,一个集合的内点也一定是这个集合的聚点,而一个集合的孤立点也必是这个集合的边界点。但是在一般的拓扑空间中这种关系不一定成立,即一个集合的内点既可能是这个集合的孤立点又可能是这个集合的聚点(考虑  [0,1]\cup \{2\} 作为 R 的子空间,A=[0.5,1]\cup\{2\},则 2 是 A 的内点,但又不是 A 的聚点,因此是 A 的孤立点;但 A 的其它内点都是聚点);而一个集合的孤立点既可能是这个集合的内点又可能是这个集合的边界点。

命题4:一个空间的任何子集的内点都是该子集的聚点,当且仅当这个空间的任何开集都不是单点集。因此在这样的空间中,一个子集的孤立点都是这个子集的边界点。
证明:必要性:设一个空间中的任何子集的内点都是该子集的聚点,那么如果单点集 \{x\} 是开集,则 x 是这个集合的内点,但却不是聚点,矛盾。
充分性:设一个空间的任何开集都不是单点集,如果 xA 的内点,那么存在 x 的开邻域 U\subset A,设 Vx 的任一开邻域,U\cap V 也是 x 的开邻域,这个开集不会只有 x,因此存在 y\in U\cap V\subset V,y\in A,y\not=x,即 V\cap(A-\{x\})\not=\emptysetxA 的聚点。
在这样的空间中,一个集合的孤立点不可能是内点也不可能是外点,只可能是边界点。

这样我们就深刻认识了这几种点的定义,然后在这个基础上定义闭集、闭包。

定义(闭包):A 的闭包 \bar A 定义为 \bar A=A\cup d(A)

有些分析的书上用所谓的 A 的触点定义 A 的闭包,触点定义为,如果 x 的任何邻域中都包含 A 中的点,则称 xA 的触点。触点的集合定义为闭包。那么根据定义,触点既有可能是 A 中的点,也有可能是 A 的聚点;而 A 中的点和 A 的聚点都是 A 的触点。所以这两种定义是等价的。

按照全空间中点的三分类来考察 A 的闭包,可见在第一种分类中,A 的内点和边界点都是 A 的触点,外点不可能是触点;在第二种分类中,A 的聚点和孤立点都是 A 的触点,因此,全空间中除去 A 的外点就是 A 的触点,即 A 的闭包等于 A 外部的余集,下面等式成立:
a) \bar A=A'^\circ',A^\circ=A'^-'}
b) \bar A=A\cup\partial A=A^\circ\cup\partial A
c) \bar A=A\cup d(A)=A^\bullet\cup d(A) 其中 A^\bullet 表示 A 的孤立点集合

定义(闭集):拓扑空间 X 的子集 A 称为闭集,如果 A 的聚点都在 A 中,即 d(A)\subset A

下面的命题根据定义或点的分类容易得到:

命题5:A 为闭集当且仅当 \bar A=AA 为闭集当且仅当 A' 为开集。
证明:第一个结论根据闭集的定义;
A' 为开集当且仅当 A'=A'^\circ,当且仅当 A=A'^\circ'=\bar A

命题6:A\subset B 蕴含 d(A)\subset d(B)d(d(A))\subset A\cup d(A)
证明:第一个结论证明见《讲义》定理2.4.1(61页)。
第二个结论因为 d(A)\subset\bar A,则 d(d(A))\subset d(\bar A),又 \bar A 为闭集(因为其余集为开集)故 d(\bar A)\subset\bar A,因此 d(d(A))\subset\bar A=A\cup d(A)

(三)拓扑空间的定义,决定拓扑空间的要素

教材中例举了一系列定义拓扑空间的等价方法,不是为了告诉我们拓扑空间的经典定义可以被取代,而是在某些情况下不需要明确地写出开集族就可以知道一个集合上存在着一个满足一定条件的拓扑。这些等价定义例举如下:

命题7:闭集定义拓扑:一个集合 X 的子集族如果满足 a) 包括空集与全集 b) 满足有限并性质 c) 满足任意交性质,那么存在唯一一个X上的拓扑以这个子集族为闭集族。
这是比较明显的。

命题8:闭包运算定义拓扑:在一个集合 X 的幂集上定义的运算 c^* 如果满足如下的 Kuratovski 闭包公理:
a) c^*(\emptyset)=\emptyset
b) A\subset c^*(A)
c) c^*(A\cup B)=c^*(A)\cup c^*(B)
d) c^*(c^*(A))=c^*(A)
则 X 上存在唯一一个拓扑使得 \forall A\subset X, \bar A=c^*(A)
证明:构造一个集族 \mathcal P=\{U\subset X\,|\,\exists A\subset X,\mathrm{s.t.}U=c^*(A) \},这个集族满足 1),\emptyset\in\mathcal P,又由性质 b),有 X=c^*(X)X\in\mathcal P。2) 满足有限并性质,即 \mathcal P 中任意有限个元素的并仍然在 \mathcal P 中。这可以通过 c) 性质直接得到。下面证明 \mathcal P 中任意多个集合的交集还在 \mathcal P 中。
首先,如果 A\subset B,那么 c^*(B)=c^*(A\cup(B-A))=c^*(A)\cup c^*(B-A),从而 c^*(A)\subset c^*(B)
A_\lambda\in\mathcal P,\lambda\in\Lambda,其中 \Lambda 为指标集,那么存在 B_\lambda 使得 A_\lambda=c^*(B_\lambda),那么这时有 \forall \lambda_0\in\Lambda
\begin{aligned}c^*(\cap A_\lambda)&=c^*(\cap c^*(B_\lambda))\\ &\subset c^*(c^*(B_{\lambda_0}))\\ &=c^*(B_{\lambda_0})\\ &=A_{\lambda_0}\end{aligned}
从而有 c^*(\cap A_\lambda)\subset \cap A_\lambda。又根据性质 b),有 \cap A_\lambda\subset c^*(\cap A_\lambda),所以 c^*(\cap A_\lambda)=\cap A_\lambda,这说明 \bigcap A_\lambda\in\mathcal P
这样,存在唯一的拓扑以 \mathcal P 为闭集族。在这个拓扑中,因为 c^*(A) 为闭集,所以
\bar A\subset c^*(A)\subset c^*(\bar A)
\bar A 也为闭集从而存在 B 使得 \bar A=c^*(B),从而
c^*(\bar A)=c^*(c^*(B))=c^*(B)=\bar A
那么就有 \bar A=c^*(A)

命题9:拓扑基定义拓扑:设 X 是一个集合,B 是 X 的一个子集族,如果 B 满足
1) B 中所有集合之并等于 X
2) 若 B_1,B_2\in\mathcal B,则对 \forall x\in B_1\cap B_2,\exists B\in\mathcal B 使得 x\in B\subset B_1\cap B_2
那么 X 上有唯一的拓扑以 \mathcal B 为拓扑基。
命题10:拓扑子基定义拓扑:设 X 是一个集合,B 是 X 的一个子集族,如果 B 中所有集合之并等于 X,那么在 X 上存在唯一一个拓扑以 B 为拓扑子基。

这两个命题的证明可以参看书中的证明。值得说明的是,一个拓扑空间就是一个集合再附带上一个开集族,这个开集族是满足对有限交和任意并运算封闭的子集族,如果类比于向量空间中的子空间概念:对加法和数乘运算封闭的向量集合,联想到几个少量的向量通过加法和数乘运算可以张成一个完整的向量子空间,那么同样的道理,少量的开集也可以通过有限交与任意并运算”张成”一个拓扑的开集族,这就是基与子基张成拓扑,也就是这两个命题的来意。拓扑基只能用并运算生成拓扑,因此需要保证生成的子集族满足对有限交封闭,需要基底满足的条件就多一些,而拓扑子基可以用有限交和任意并进行扩张,只需要能把全集扩张进子集族就可以了。

命题11:邻域系定义拓扑:设 X 是一个集合,又设对于每一个 x\in X,指定了一个子集族 \mathcal U_x,并且它们满足
1) \forall x\in X,\mathcal U_x\not=\emptyset,并且如果 U\in\mathcal U_x,则 x\in U
2) 若 U,V\in\mathcal U_x,则 U\cap V\in\mathcal U_x
3) 若 U\in\mathcal U_x,并且 U\subset V,则 V\in\mathcal U_x
4) 若 U\in\mathcal U_x,则存在 V\in\mathcal U_x 满足 V\subset U,且 \forall y\in V,V\in\mathcal U_y
则有唯一的拓扑使得对每一个点 x\mathcal U_xx 的邻域系。
命题12:邻域基定义拓扑:设 X 是一个集合,又设对于每一个 x\in X,指定了一个子集族 \mathcal V_x,并且它们满足
1) \forall x\in X,\mathcal V_x\not=\emptyset,并且如果 V\in\mathcal V_x,则 x\in V
2) 若 U,V\in\mathcal V_x,则存在 W\in\mathcal V_x 满足 W\subset U\cap V
3) 若 V\in\mathcal V_x,则存在 U\in\mathcal V_x 满足 U\subset V,且 \forall y\in U,U\in\mathcal V_y
则有唯一的拓扑使得对每一个点 x\mathcal V_xx 的邻域基。
证明:命题11可见书中定理2.3.3,命题12没有在书中出现,下证命题12。
对任意 x\in X,定义子集族 \mathcal U_x=\{U\subset X\,|\,\exists V\in\mathcal V_x, \mathrm{s.t.} V\subset U\}
那么 \mathcal U_x 显然满足命题11 中的 1) 2) 3) 4),则有唯一的拓扑使得对每一个点 x\mathcal U_xx 的邻域系,从而 \mathcal V_x 为邻域基。

(四)一些习题,关于导集和边界、闭包和内部的性质举例。

在我见过的教材里,点的两种三分类方式的思想都没有得到足够的强调,只是叙述了各种点的定义,然后就零散地证明一些他们的性质,如果认识不深刻,这些点的概念会让人很糊涂。

1 \partial A^\circ\subset\partial A,\partial\bar A\subset\partial A
证明:x\in\partial A^\circ,则 x 不是 A 的内点,因为 A 的内点都在 A^\circ 中,从而是 A^\circ 的内点;x 也不是 A 的外点,因为 A 的外点不可能是 A^\circ 的边界,所以 x\in\partial A
所以 \partial\bar A=\partial(A^-')=\partial(A'^\circ)\subset\partial A'=\partial A
证法2:\partial A^\circ=A^\circ^-\cap A^\circ'^-\subset A^-\cap A'^-=\partial A
另一个类似。

2 \partial(A\cup B)\subset\partial A\cup\partial B,\partial(A\cap B)\subset\partial A\cup\partial B
证明:x\in\partial(A\cup B)x\not\in\partial A,则 x 的任何邻域中有属于 A\cup B 的点和不属于 A\cup B 的点,那么 x 不可能是 A 的内点,只可能是 A 的外点,因此 x 的任何邻域中属于 A\cup B 的点都是属于 B 的点,从而 x 的任何邻域中都有属于 B 和不属于 B 的点,因此 x\in\partial B,因此 \partial(A\cup B)\subset\partial A\cup\partial B
第二个因为 \partial(A\cap B)=\partial((A\cap B)')=\partial(A'\cup B')\subset\partial A'\cup\partial B'=\partial A\cup\partial B

3 \partial(\partial A)\subset\partial A,\mathrm d(\partial A)\subset\partial A
证明:因为 \partial A=\bar A\cap A'^- 所以 \partial A 是个闭集,从而两式成立。

4 如果 d(A)\subset B\subset A,则 B 是闭集,即如果 A 是闭集,那么 A 的子集如果包含 A 导集,则一定是闭集。
证明:因为 B\subset A 所以 d(B)\subset d(A)\subset B,因此 B 是闭集。

5 几个反例
1) 闭集取内部再取闭包,不等于原来的闭集;开集取闭包再取内部,不等于原来的开集
解:实数空间中的一个单点集,取内部是空集,再取闭包也是空集;而实数空间中单点集的余集,取闭包之后是全集,再取内部还是全集。
2) 子集的导集不是闭集的例子
解:包含多于一个点的平庸空间,其单点子集的导集是这个单点子集的余集,不是闭集。

6 度量空间中每一个子集的导集是闭集,因此度量空间中有 \partial(d(A))\subset d(A)d(d(A))\subset d(A)
证明:x\in\d(d(A)),那么在 x 的任何去心球形邻域 \check U(x,\delta) 中都有 A 的聚点,取其中一个聚点为 y,设 \delta'=\min(\rho(x,y),\delta-\rho(x,y)),那么在 U(y,\delta')\subset\check U(x,\delta) 中有 A 中的点,从而 xA 的聚点,因此 d(d(A))\subset d(A)d(A) 是闭集。

7 设 X 是一个拓扑空间,\{A_\gamma\}_{\gamma\in\Gamma} 是 X 的一个子集族,证明如果对于每一个 \gamma\in\Gamma,集合 A_\gamma 的导集是闭集,则集合 \bigcup_{\gamma\in\Gamma}A_\gamma 的导集也是闭集。
证明:我们将要证明 d(d(\cup A_\gamma))\subset d(\cup A_\gamma)
假设存在 x\in d(d(\cup A_\gamma))x\not\in d(\cup A_\gamma),则根据命题6(书上定理2.4.1),有 x\in\cup A_\gamma,从而 x\cup A_\gamma 的孤立点,即存在 x 的开邻域 U 使得在 U 中除 x 之外的点都不属于 \cup A_\gamma。但因为 xd(\cup A_\gamma) 的聚点,那么在 x 的任何邻域中存在 y\not=xy\in d(\cup A_\gamma)
x\in A_{\gamma_0},那么 \forall y\in U\cap d(\cup A_\gamma),设 Vy 的任一邻域,因为 U\cap V 也是 y 的邻域,但这个邻域中除 y 之外只有 x 可能属于 \cup A_\gamma,而 y 又是 \cup A_\gamma 的聚点,因此 x\in U\cap V,因此 y\in d(A_{\gamma_0})
x 的任何邻域中都有 d(A_{\gamma_0}) 中的点,因此 x\in d(d(A_{\gamma_0})),由条件,有 x\in d(d(A_{\gamma_0}))\subset d(A_{\gamma_0})\subset d(\cup A_\gamma),与假设矛盾。

由于在 T1 空间中,每一个单点集都是闭集,其导集是空集,而根据上面的命题,因为这样的空间中每一个子集都是单点集之并,所以 T1 空间中每一个子集的导集是闭集。仿照度量空间中的类似证法也可直接证明。

Tagged with:
01

定理1(隐函数定理):设二元函数 F(x,y) 满足
i) F(x_0,y_0)=0
ii) F(x,y)F_y(x,y)(x_0,y_0) 的某个邻域内连续
iii) F_y(x_0,y_0)\not=0
则存在 \delta,\eta>0 和唯一的定义于 (x_0-\delta,x_0+\delta) 取值于 (y_0-\eta,y_0+\eta) 的函数 y=y(x) 满足
1) y_0=y(x_0)F(x,y(x))=0,\forall x\in(x_0-\delta,x_0+\delta)
2) y(x)(x_0-\delta,x_0+\delta) 内连续
进一步地,如果
iv) F_x(x,y) 也在 (x_0,y_0) 的一个邻域内连续,则上述的 y=y(x)x_0 的一个邻域内一阶导数连续,且
\displaystyle y'(x)=-\frac{F_x(x,y(x))}{F_y(x,y(x))}

这就是南开大学《数学分析》(黄玉民,李成章 编)下册中隐函数定理的二元函数情形。而在某些教材上,只讨论了 F(x_0,y_0) 的某个邻域内连续可微的情形,如张筑生版的《数学分析新讲》。

我们以南开版《数学分析》中的隐函数定理为基础,利用上一篇 《偏导数与可微性的进一步讨论》 中证明过的几个命题,我们可以讨论一下南开版中也没有提到过的几个情况,把隐函数定理补充成如下命题:

命题2:设 n+1 元函数 F(x_1,\dots,x_n,y) 满足
i) F(x_1^0,\dots,x_n^0,y_0)=0
ii) F(x_1,\dots,x_n,y)F_y(x_1,\dots,x_n,y)(x_1^0,\dots,x_n^0,y_0) 的某个邻域内连续
iii) F_y(x_1^0,\dots,x_n^0,y_0)\not=0
则存在 (x_1^0,\dots,x_n^0,y_0) 的开邻域 Uy_0 的开邻域 V 以及唯一的定义于 U 取值于 V 的函数 y=y(x_1,\dots,x_n) 满足
1) y_0=y(x_1^0,\dots,x_n^0)F(x_1,\dots,x_n,y(x_1,\dots,x_n))=0,\forall(x_1,\dots,x_n)\in U
2) y(x_1,\dots,x_n)U 内连续
进一步地,
iv) 如果 FU\times V 中对某变量 x_i 的偏导数 F_{x_i} 存在,则 yU 中对该变量的偏导数也存在,并且
\displaystyle\frac{\partial y}{\partial x_i}(x_1,\dots,x_n)=-\frac{F_{x_i}(x_1,\dots,x_n)}{F_y(x_1,\dots,x_n)}
v) 如果 FU\times V 中可微,则 yU 中也可微
vi) 如果 FU\times V 中连续可微,则 yU 中也连续可微
证明:命题的基本部分就是隐函数定理的基本部分。下面证明 v),再用 v) 证明 iv) 与 vi)。
如果 FU\times V 中可微,设 x=(x_1,\dots,x_n)\in U,则对于充分小的向量 \Delta x=(\Delta x_1,\dots,\Delta x_n),有 x+\Delta x\in U,那么设 \Delta y=y(x+\Delta x)-y(x),由 y 的连续性,有
\displaystyle\lim_{\|\Delta x\|\to 0}\Delta y=0
F 的可微性,有

\begin{aligned}0=&F(x+\Delta x,y+\Delta y)-F(x,y)\\ =&F_x(x,y)\Delta x+F_y(x,y)\Delta y+\alpha(\Delta x,\Delta y)\Delta x+\beta(\Delta x,\Delta y)\Delta y\end{aligned}

\alpha,\beta\Delta x\to 0 时的无穷小量,且在 UF_y(x,y)\not=0,故只要 \|\Delta x\| 充分小,就可以使 F_y(x,y)+\beta(\Delta x,\Delta y) 不为零,因此
\displaystyle\Delta y=-\frac{F_x+\alpha}{F_y+\beta}\Delta x
\Delta x 的系数,有
\displaystyle-\frac{F_x+\alpha}{F_y+\beta}=-\frac{F_x}{F_y}+\gamma
其中 \gamma 也是关于 \Delta x 的无穷小量。因此就有
\displaystyle\Delta y=-\frac{F_x}{F_y}\Delta x+\gamma\Delta x=-\frac{F_x}{F_y}\Delta x+o(\|\Delta x\|)
即函数 y 可微。
对于 iv),如果 FU\times V 中对某变量 x_i 的偏导数 F_{x_i} 存在,那么由于 F_yU 中连续,根据上一篇已证明的命题,固定其他变量,F 是关于 (x_i,y) 的可微函数,因此根据 v) 可得结论。对于 vi),这就是通常隐函数定理中的附加条件,另外由 v) 得到的微分表达式也可直接看出其偏导数的连续性。证毕。

为了节省篇幅,我在上面的证明中使用了一些缩写,旨在表达证明思路,不难吧它还原为严格的完整写法。

用南开版数分中提供的归纳法,不难把这个补充推广到函数组的隐函数定理中。

下面说一说这个新的补充在几何上为什么会成立。首先,如果 F 在某一点可微,那么函数图像 z=F(x,y) 在这一点就会有切平面,F_y\not=0 表示这个切平面不会与 y 轴平行,那么这个切平面与 x-y 平面的交线,就是曲线 F=0 在该点的切线,不论这条切线沿着曲线是否会连续变化,它只是在这一点是存在的。

Tagged with:
29

首先回顾一下多元函数的偏导数存在与可微的关系问题。

F(x,y) 是二元实函数,x_0,y_0 是其定义域的一个内点,如果存在两个实数 A,B,使得对于极限过程 \sqrt{h^2+k^2}\to 0,以下关系成立:
F(x_0+h,y_0+k)-F(x_0,y_0)=Ah+Bk+o(\sqrt{h^2+k^2})
则称 F 在点 (x_0,y_0) 处可微。

据《数学分析新讲》(张筑生著,北京大学出版社,1990)第二册209页叙述,一个多元函数可微的等价叙述为:
F(x_0+h,y_0+k)-F(x_0,y_0)=Ah+Bk+\alpha h+\beta k
其中 \alpha=\alpha(h,k), \beta=\beta(h,k) 满足
\displaystyle\lim_{(h,k)\to(0,0)}\alpha(h,k)=\lim_{(h,k)\to(0,0)}\beta(h,k)=0

一个多元函数 F 在某点可微,意味着它在这点对各个变元的偏导数存在,但是偏导数存在却不蕴含可微性。如果函数 F 在某点的一个邻域中每个一阶偏导数都存在且这些偏导数都在该点连续,那么函数 F 在该点可微,但是 F 在某点可微却又不蕴含一阶偏导数在该点连续。
这些基本事实可参见任何一本数学分析教材。

各个教材只讨论所有一阶偏导数连续是可微的充分不必要条件,却没有讨论可以把这个条件减弱到什么程度依然可以蕴含可微的结论。那么我们是否可以把这个条件减弱呢?

注意到这个定理的证明中,用到了如下的分解:
F(x_0+h,y_0+k)-F(x_0,y_0) =F(x_0+h,y_0+k)-F(x_0+h,y_0)+F(x_0+h,y_0)-F(x_0,y_0)
然后用一元函数的中值定理,有
F(x_0+h,y_0+k)-F(x_0,y_0) =F_y(x_0+h,y_0+\theta_1 k)k+F_x(x_0+\theta_2 h,y_0)h
其中 \theta_1,\theta_2\in(0,1)
之后利用 F_x,F_y 的连续性,得到结论。

但是,在估计 F(x_0+h,y_0)-F(x_0,y_0) 这一项的时候,也可以不用中值定理啊,只要 F_x(x_0,y_0) 存在,那么根据偏导数的定义,设
\displaystyle\alpha(h)=\begin{cases}\frac{F(x_0+h,y_0)-F(x_0,y_0)}{h}-F_x(x_0,y_0)&\text{ if } h\not=0\\ 0&\text{ if } h=0\end{cases}

F(x_0+h,y_0)-F(x_0,y_0)=F_x(x_0,y_0)h+\alpha(h)h
并且满足 \lim_{h\to 0}\alpha(h)=0
这样,在估计 F(x_0+h,y_0+k)-F(x_0+h,y_0) 部分的时候照常使用中值定理,那么我们就可以得到判断可微性的一个较弱的条件:

命题1:设二元函数 F(x,y)(x_0,y_0) 的一个邻域内有定义,且在 (x_0,y_0) 处它的两个一阶偏导数都存在,那么只要有一个偏导数在这点邻域内存在且在这点连续,则函数 F(x_0,y_0) 处可微。

例如:考虑函数
\displaystyle F(x,y)=\begin{cases}x+y^2\sin\frac{1}{y}&\text{ if } y\not=0\\ x&\text{ if } y=0\end{cases}
由于 F_x 在整个平面内存在且连续,根据一元分析学,F_y 也处处存在,可知 F 在整个平面内可微。但是 F_y 却不是处处连续的。

下面把这个命题推广到三元以上的函数。

在增量式子
F(x_1+h_1,\dots,x_n+h_n)-F(x_1,\dots,x_n) 中,我们可以插入2n-2个首尾相接的中间项,使得最后一个差式是 F(x_1,\dots,x_{n-1},x_n+h_n)-F(x_1,\dots,x_n),在一项里用偏导数定义,其余各项照常用一元函数的微分中值定理,那么就有

命题2:设 n 元函数 F(x_1,\dots,x_n) 在点 x^0=(x_1^0,\dots,x_n^0) 的一个邻域内有定义,且在该点处它的各个一阶偏导数都存在,那么如果有 n-1 个偏导数在该点邻域内存在且在该点连续,则函数 F 在该点可微。

我们可以引入偏微分的概念,来把偏导数与全微分这两个概念统一起来,设一个多元数值函数或向量值函数 F(x_1,\dots,x_n),固定某些参数 x_1,\dots,x_r,只把其余的参数看成变量,而把 F 看成是 n-r 元的函数 f(x_{r+1},\dots,x_n)=F(x_1^0,\dots,x_r^0,x_{r+1},\dots,x_n),如果这个 n-r 元函数在某点 x_{r+1}^0,\dots,x_n^0 可微,则把 f 在该点的微分称为 F 在点 x_1^0,\dots,x_n^0 处对 x_{r+1},\dots,x_n 的偏微分。(见《数学分析新讲》P263-264)那么函数在某点的某个偏导数存在,就是这个函数在该点对这个变元的偏微分存在。

那么一个函数在某点可微的判定条件就可以更一般化地叙述为:

命题3:设 n 元函数 F(x_1,\dots,x_n) 在点 x^0=(x_1^0,\dots,x_n^0) 的一个邻域内有定义,如果 F 在该点处对一部分变元的偏微分存在,而对另一部分变元有连续偏导数,则函数 F 在该点可微。

这个命题的证明类似于命题1的证明。

看到命题2,你可能觉得本篇文章没多大意义,相比于所有偏导数都连续的条件来,本文中的几个命题毕竟没有多大的改观。但是这几个命题可以让我们把隐函数定理补充得更加丰满,这是下一篇的内容。

Tagged with:
17

三、四元数乘法的性质与几何意义

四元数的乘法不满足交换律,比如,ij=-ji,jk=-kj,ik=-ki。但不是所有的四元数乘积在交换因子之后都变换符号,比如:
(1+2i+3j+4k)(5+6i+7j+8k)=-60+12i+30j+24j

(5+6i+7j+8k)(1+2i+3j+4k)=-60+20i+14j+32k
但是也不是所有的四元数都不遵循交换律,比如,
(1+2i+3j+4k)(1-2i-3j-4k)=(1-2i-3j-4k)(1+2i+3j+4k)=30

这个事情比较奇怪,两个四元数 p,q,它们不同顺序的乘积 pqqp 到底有什么关系呢?看一下刚才的三个例子,好像不管两个乘积是否相等,它们的实数部分都是相等的。
您可以再试验几个例子,看一看是不是这样,甚至可以编写一个计算四元数乘积的程序,尝试更多的例子,看一看两个乘积到底有什么关系。但是在我们讨论之后,事情就会比较明朗了。

我们从最简单的例子思考,ij=-ji=k,jk=-kj=i,ki=-ik=j,这几个式子让我们想起了三维空间中的外积,如果把 i,j,k 看成三维空间中右手直角坐标系的三个坐标轴上的单位向量,那么它们之间的外积完全符合四元数乘法表。外积也满足乘法对加法的分配律,数量乘法也可以自由出入外积的运算,等等。所以,两个三维向量的外积运算就很类似于四元数的乘法运算:
(ai+bj+ck)\times (xi+yj+zk)=axi^2+byj^2+czk^2+(bz-cy)i-(az-cx)j+(ay-bx)k
但是所不同的是,在四元数乘法中,三个平方项都等于 -1,而在外积中,同方向的向量外积是零。我们或许为此感觉沮丧,但话说回来,这样也许更好,查看三个平方项的系数,发现它们的和恰好构成三个向量的内积,因此,四元数的乘积把两个三维向量的内积和外积都包含在了结果里,总结起来就是:
设两个三维向量,用四元数表示为 u=ai+bj+ck,v=xi+yj+zk,他们的乘积为
uv=-\langle u,v\rangle+u\times v

现在我们涉及了三种乘积:四元数乘积,我们用 \cdot 表示,或干脆省略符号;内积,用尖括号 \langle,\rangle 表示;外积,用叉乘号 \times 表示。我们还涉及两种量:实系数,a,b,c,d,w,x,y,z,m,n 表示;四元数,p,q 表示;三维向量,u,v。注意有时向量和四元数没有严格的区分,一个三维向量也可以看成实数部分为零的四元数,而一个一般的四元数也可以看成四维向量。

因此,一个四元数可以分解为一个实数和一个三维向量的和:
p=d+u
我们通常称这两部分是四元数的实数部分和(三维)向量部分。那么两个四元数的乘积就可以表示为
pq=(d+u)(w+v)=dw-\langle u,v\rangle+dv+wu+u\times v
而如果把它们交换乘积,就有
qp=wd-\langle v,u\rangle+wu+dv+v\times u
注意这两个乘积中,实数乘积和向量内积都是有交换律的,三维向量线性组合部分也相同,只有三维向量外积与顺序有关,有 u\times v=-v\times u。这样,刚才的问题就明朗了,pq-qp 就是两个向量部分的外积的二倍。如果向量部分外积为零,两个四元数的乘积就可交换了。
注意一下乘积式中如果让向量部分内积那一项改变一下符号,就会有更简单的表达式,我们用 \bar p=d-u 表示与 p 实部相等,向量部分成相反数的四元数,称为 p 的共轭。显然 \overline{\overline p}=p,那么
\bar pq=\langle p,q\rangle+dv-wu-u\times v
其中 \langle p,q\rangle 表示四维向量之间的内积。
q=p 的时候,我们有
\bar pp=\langle p,p\rangle=\|p\|^2=d^2+a^2+b^2+c^2=p\bar p
联想到普通复数的模方公式,这里的公式就是复数模方公式的推广。那么,如果 p\not=0,四元数乘法倒数的问题就解决了,设 p^{-1}=\frac{\bar p}{\|p\|^2},那么 pp^{-1}=p^{-1}p=1。尽管每个非零四元数都有倒数,但是因为四元数乘法没有交换律,也就不可能像实数或复数那样写分式。设想一个算式写成 \frac{p}{q},那么是理解为 pq^{-1} 还是理解为 q^{-1}p 呢?这两个乘积可能是不同的。这一点跟矩阵的情形是类似的。

接下来,用上面提到的四元数乘积的内外积表达式,可以验证,\overline{pq}=\bar q\bar p,再用这个结果得到 \|pq\|=\|p\|\cdot \|q\|。这些都是简单的。

为了更清楚地看到两个四元数乘积到底是什么样子,我们把上节用到的向量空间的观点拿过来,四元数的全体构成的集合 F 是实数域上的四维向量空间,可以把四元数 p=d+ai+bj+ck 看成四维实数元组 (d,a,b,c)。而且,同样的,一个固定的四元数 p=d+u 乘以四元数变量 q,就相当于四维向量空间 F 上的线性变换,我们考察一下这样的线性变换 Tq=pq,如果 p 是个实数,那么这个线性变换只是四维空间中的伸缩变换。所以现在,我们假设 p 的向量部分不为零。
因为 \|Tq\|=\|p\|\|q\|,所以这是个可逆的线性变换,不仅如此,所有的向量长度都伸缩相同的倍数,也就是一个等距线性变换和一个伸缩的复合。根据线性代数理论,一个等距线性变换要么是单纯的旋转,要么是单纯的对称变换,要么是二者的复合。而四维空间上这样的线性变换必有两个垂直的二维不变子空间,也就是说,可以在四维空间中找到两个相垂直的平面,在每个平面上的向量经过变换之后还是在这个平面上。那么我们现在找一下变换 T 的两个不变子空间。
Tq=pq=\langle\bar p,q\rangle+dv+wu+u\times v
q 的向量部分与 p 向量部分同向或反向时,即 q=w+xu 时,pq=\langle\bar p,q\rangle+(dx+w)u,乘积之后还是一个实数加上 u 的倍数的形式。这表明,四维向量 (1,0,0,0)u 张成的二维平面就是一个不变子空间。
那么另一个不变子空间就应该是和向量 (1,0,0,0)u 都垂直的平面,因为与 (1,0,0,0) 垂直,所以这个平面上所有向量的第一个分量,也就是四元数的实部都是零,它们与 u 一样,都是某个四元数向量部分。在向量部分构成的三维空间中,可以找到两个单位向量 u_1,u_2,使得 u,u_1,u_2 两两垂直并且三个向量成右手定则关系。那么如果 q=xu_1+yu_2,则由于 \bar p,q 垂直,有 \langle\bar p,q\rangle=0,由于 u,u_1,u_2 的位置关系,有 u\times q=u\times u_1+u\times u_2=mu_2+nu_1,因此
Tq=(n+x)u_1+(m+y)u_2,还是在这个平面上。

考察一下这个乘积在这两个平面上分别干了什么事情,我们就能把四元数乘积看得更清楚了。

(1,0,0,0)\frac{u}{\|u\|} 张成的平面上,T(1,0,0,0)\frac{u}{\|u\|} 分别映射为 d+u-\|u\|+du/\|u\|,因此,T 在这个不变子空间上的矩阵为
\begin{bmatrix}d&-\|u\|\\ \|u\|&d\end{bmatrix}
u_1,u_2 张成的平面上,两个基底分别映射为 du_1+\|u\|u_2du_2-\|u\|u_1。因此在这个不变子空间上的矩阵也为
\begin{bmatrix}d&-\|u\|\\ \|u\|&d\end{bmatrix}

回想一下平面上的旋转矩阵的公式,T 在这两个平面内的行为都是一个旋转再复合一个伸缩,旋转的角度是 \theta 满足 \cos\theta=\frac{d}{\|p\|},\sin\theta=\frac{\|u\|}{\|p\|},在第一个平面上是从 (1,0,0,0)u 旋转,而在第二个平面上是从 u_1u_2 旋转。伸缩因子为 \sqrt{d^2+\|u\|^2}=\|p\|T 的行列式值也是这两个矩阵行列式的乘积,即 \|p\|^4

如果 p 乘在右面,那么在第一个平面内,这个变换的作用与上述 T 相同,因为在这个平面内的向量与 p 的乘积是可交换的;而在第二个平面内,旋转角度不变而旋转方向与上述 T 相反。这个可以计算矩阵来验证。

四元数乘积并不能表示四维空间中所有的伸缩旋转,因为它要求两个不变子空间上的旋转角相同。而一般的四维旋转并不要求这一点。所以,这就构成了四元数与二维复数的一个不同点,复数的乘积可以表示复平面上的任意旋转与伸缩变换。

那么四元数能表示三维空间中的任意伸缩和旋转吗?

四、四元数用于三维空间旋转变换

我们要关心的是三维空间上任意的伸缩旋转变换是否可用四元数的乘积来表示,而这一点对四元数来说是完全能够胜任的。

我们把三维空间中的点用实部为零的四元数表示成 v=xi+yj+zk,可以理解为,我们就生活在这个三维空间中。那么用一个四元数 p=d+u 左乘 v 我们得到了什么?

根据上节内容,变换 pv 有两个相互垂直的不变子空间,其中一个是垂直于 u 的平面,是完全在我们的三维空间中的平面,我们可以看得到它。这个平面上的向量 vp 左乘的作用下旋转了一个角度,外加伸缩一个比例;还有一个不变子空间,是与这个平面垂直的平面,即 (1,0,0,0)u 所在的平面,这个平面超越了我们的三维空间,我们无法完全看到它,只能看到它与我们的三维空间的一条交线,就是 u 所在的直线,这条直线上的向量经过变换之后被旋转到了四维空间中,我们看不到了。怎样才能让转到四维空间的向量转回来,同时又不影响与 u 垂直的平面上的向量呢?

设向量 vu 共线,那么 pv 就是 v 向四维空间转过了一个角度 \theta,我们把这个转出去的向量再右乘 \bar p,这样,让左乘 p 转出三维空间的向量经右乘 \bar p 之后按刚才的反方向转动相同的角度,它又转回我们的三维空间,相当于方向没变;而与 u 垂直的二维平面上的向量右乘 \bar p 之后又继续按刚才的方向转了相同的角度,相当于按某个方向转动了 2\theta

这样,我们做变换 Sv=pv\bar p,其中 p=d+u,因为 \bar p=d-uu 乘积可交换,所以 Su=p\bar pu=\|p\|^2u,所以 uS 作用下方向不变,u 就是这个旋转的转轴。而在与 u 垂直的平面上相当于做了两次同向的旋转,每次转动的角度是 \theta 满足 \cos\theta=\frac{d}{\|p\|},\sin\theta=\frac{\|u\|}{\|p\|},转动的方向是 u_1u_2,其中 u_1,u_2,u 顺次构成右手坐标系。S 除了旋转之外还附加了一个伸缩变换,伸缩比例为 \|p\|^2

如果已知一个三维空间的伸缩旋转的转轴方向、旋转角度和伸缩比例,来求相应的四元数,是比较容易的。设转轴是 (\xi,\eta,\zeta),其中 \xi^2+\eta^2+\zeta^2=1,旋转角度是 \omega,伸缩比例是 T^2,那么根据上段叙述,反求 p=d+u 如下:
我们要让 u 的方向就是转轴方向,即 p=d+a(\xi i+\eta j+\zeta k),其中 d,a 是待定系数。考虑到伸缩比例是 \|p\|^2=d^2+a^2=T^2,旋转角度满足 \cos\frac{\omega}{2}=\frac{d}{T}, \sin\frac{\omega}{2}=\frac{a}{T},因此 d=T\cos\frac{\omega}{2},a=T\sin\frac{\omega}{2}

如果需要这个旋转的矩阵表示,就是把三个基底 i,j,k 分别代入,求得基底经过变换之后的坐标值,作为矩阵的三个列向量。

这样,我们对四元数的初步总结到此结束。在克莱因的那本《初等数学》中还有一些详细的内容,另外《可视化复分析》中有一些对四元数和莫比乌斯变换的关系的精彩描述,如果以后觉得有必要记录的话再继续写。

9月24日补充:

对三维空间旋转的公式 Sv=pv\bar p 的分析,我最初用的是这个公式:

pv\bar p=(d^2-\|u\|^2)v+2d(u\times v)+2\langle u,v\rangle u

这个公式的由来,就是把四元数乘积按乘法加法运算律展开,然后按内外积公式整理,其中用到三个三维向量的外积表示
a\times b\times c=-\langle b,c\rangle a+\langle a,c\rangle b

把这个结果看成两个部分:d^2v+2d(u\times v)2\langle u,v\rangle u-\|u\|^2v 这两个部分都明显地有几何意义。但是这两部分的几何意义还不足以完美地表征它是个空间旋转,还需要寻找不变子空间才能看出来它是个旋转。

所以到后来我能够解释清楚四元数普通乘积的几何意义之后就把这个公式抛弃掉了。但是这个公式可以更简洁直接地计算出 p 用于三维空间旋转时所对应的矩阵表示。因此今天把它记录在这。

Tagged with:
15

前一阵子,以前公司的一位同事向我请教一段计算机图形程序中的算法,其中涉及齐次坐标和四元数。齐次坐标问题到好讲解,但四元数方面以前所知几乎为零。正好我看到齐民友在《复分析,可视化方法》译后记中提到的一本书:《高观点下的初等数学》([德]克莱因 著,以下简称《初等数学》)当中有一段讲到四元数,于是就细读了一遍,把这个专题的整理笔记写下来。

但是那本书里有很多结果依靠繁杂的机械运算,让人看了不知道这样的结果是怎么得出来的。因此我们这里用向量代数的观点重新审视四元数的一些结果,让四元数的特性看起来更直观,更自然。另外还有一些我认为重要的有关四元数引入的背景知识,例如数域的扩充问题的证明,那本书里只有一部分提示,这里也试着补全一些。

一、四元数引入的理论背景

将实数域扩充到复数域,并用复数来表示平面向量,用复数的加、乘运算表示平面向量的合成、伸缩和旋转变换,这些观念已经在中学课程中学过了。那么,很自然的问题就是,在三维,或更高维空间中是否也有复数的类似物?也就是说,像扩充实数那样,在复数域的基础上添加一个或几个新的元素,并且让它们跟原来的复数做加减乘除,是否就可以得到一个新的数集,并且其中的元素还可以像复数域那样做加、减、乘、除运算,并满足通常复数的那些运算律,包括加法和乘法的交换律与结合律、乘法对加法的分配律等待?更进一步,我们是否可以期望用这样的数来表示三维或更高维空间中的伸缩和旋转,就像用复数表示平面向量的伸缩旋转那样方便?

把问题说得明确一些,即是说,我们是否可以像得到复数域那样,在复数域中再添加一个新的元素 j(因此也是在实数基础上添加两个元素 ij),得到一个类似于复数集合 F=\{a+bi+cj\,|\,a,b,c\in\mathbf R\\},这个集合中的元素 a+bi+cjc=0 时就是普通的复数,当 b=c=0 时就是普通的实数,并且通常数的加减乘除运算及其性质都可以在这个集合上保持,即满足:
1、对于任意两个数,它们的和是唯一确定的。
2、对于任意两个数,它们的积是唯一确定的。
3、存在一个数0,它具有性质:对于任意a,均有a+0=a。
4、对于每一个数a,均存在数x,适合等式a+x=0。
5、加法适合交换律:a+b=b+a。
6、加法适合结合律:(a+b)+c=a+(b+c)。
7、乘法适合交换律:a·b=b·a。
8、乘法适合结合律:(a·b)·c=a·(b·c)。
9、乘法对加法适合分配律:a (b+c)=ab+ac 和 (a+b)c=ac+bc。
10、1 是乘法单位元,即仍然满足 1·a=a·1=a
11、乘法有逆元,即对每个非零数 a,存在唯一的数 x,满足等式 xa=ax=1。

历史上有很多数学家试图寻找过三维的复数,但后来证明这样的三维复数是不存在的。有关这个结论的证明,我没有查到更明确的版本,据《古今数学思想》中的一个理由,三维空间中的伸缩旋转变换需要四个变量来决定:两个变量决定轴的方向,一个变量决定旋转角度,一个变量决定伸缩比例。这样,只有三个变量的三维复数无法满足这样的要求。

但是历史上得到的应该是比这个更强的结论,即使不考虑空间旋转,只从代数角度来说,三维的复数域作为普通复数域的扩张域是不存在的。并且,据《古今数学思想》叙述,即使像哈密尔顿后来引入四元数那样,牺牲乘法交换律,这样的三维复数也得不到。(”……经过一些年的努力之后,Hamilton 发现自己被迫应作两个让步,第一个是他的新数包含四个分量,而第二个是他必须牺牲乘法交换律。”–《古今数学思想》第三册177页)
据《初等数学》中给出的提示,我们可以做出这个命题的证明:
证明:假设这样的数域 F 存在,那么类似于复数,我们显然可以将 F 看成实数域 \mathbf R 上的三维向量空间。这是因为 F 上有加法运算和数乘运算,满足
1) 加法交换律与结合律
2) 数量乘法的结合律
3) 0 可以作为零向量
4) 加法有负元
5) 1a=a
验证以上各性质没有用到乘法交换律。同时,因为 1,i,j 是这个向量空间上的一组基底,所以这是个三维向量空间。
接下来考察 F 上的一个变换 f(x)=cx,其中 c 不是实数,我们可以任取一个普通复数,比如 1+i。可知这样的变换是线性变换,这是因为,由乘法对加法的分配律,有
f(x_1+x_2)=f(x_1)+f(x_2)
由乘法结合律,以及在复数范围内乘法有交换律,那么
f(kx)=kf(x), \forall k\in\mathbf R
因此,这是个实数域上三维向量空间中的线性变换,根据线性代数理论知,f 有特征值与特征向量,即存在实数 \lambdaF 中的元素 v\not=0 满足
cv=\lambda v
同时在等式两边右乘 v 的乘法逆元 v^{-1},就得到 c=\lambda,这与 c 不是实数的假设矛盾。

知道了复数不能推广到三维,我们把目光移向哈密尔顿构造的四维复数,即四元数。

复数推广到四元数,必须牺牲掉数域的某一条或几条性质,哈密尔顿抛弃了乘法交换律。为什么是这样呢?因为:

命题2:在实数域中再添加有限个新的元素 e_2,e_3,\dots,e_n 得到的数域 F=\{a_1+a_2e_2+\dots+a_ne_n\,|\,a_i\in\mathbf R,i=1,2,\dots,n\} 都不可能比复数域大,也就是说,如果要求 F 还是数域,还满足所有运算性质,那么 F 就只能是跟复数域一样的东西(即跟复数域同构)。
证明:假设 F 是数域,那么同样的,可以把 F 看成实数域上的 n 维向量空间,在这个集合中任取一个非实数 v,那么向量组 1,v,v^2,\dots,v^n 因为有 n+1 个向量,所以线性相关,所以存在实数 c_0,c_1,\dots,c_n 使得
c_0+c_1v+c_2v^2+\dots+c_nv^n=0
因为 v 不是实数,所以这个多项式至少是2次的,因此不妨设 c_n=1,因此 v 是这个实系数 n 次方程的根。因 v 与实数满足通常的运算律,根据多项式因式分解定理,可以把上面的实系数多项式分解为一次与二次实系数因式的乘积,得到
(v-x_1)\dots(v-x_r)(v^2+a_1v+b_1)\dots(v^2+a_sv+b_s)=0
因为 v 不是实数,所以前面的一次式不为零,只有后面某个二次式等于零。设 v^2+av+b=0 其中实数 a,b 满足 a^2-4b<0
做变换 y=\frac{2v+a}{\sqrt{4b-a^2}},则有 y^2+1=0
对于每一个新元素 e_i,都有相应的 y_i 满足 y_i^2+1=0,现在我们任取两个这样的 y_i,不妨设为 y_1y_2,如果考察 F 的一个子集 K=\{a+by_1\,|\,a,b\in\mathbf R\},那么这个 y_1 就相当于我们通常的复数单位 i,这个 K 也同构于通常的复数域 \mathbf C。如果在 K 上分解二次多项式 x^2+1,我们就可以得到 x^2+1=(x+y_1)(x-y_1)。现在把 y_2 代入,有
(y_2+y_1)(y_2-y_1)=y_2^2+1=0。(注:关键在这个式子中的交换律,四元数没有交换律,因此四元数在这里没有问题)因此或者 y_1=y_2,或者 y_1=-y_2,说明 e_2 可以用 e_1 与实数运算表示出来,也就是 e_2\in K
所以只能 F=K,故 F 与复数域同构。

这样,又由于三维空间中的伸缩旋转的复合运算不满足交换律,那么哈密尔顿牺牲乘法交换律而引入四元数,就显得很自然了。

二、四元数的加乘运算

哈密尔顿在实数基础上添加三个新的基本单位元素 i,j,k,做成一个新的数集:F=\{d+ai+bj+ck\,|\,d,a,b,c\in\mathbf R\},基本元素之间的乘法满足
i^2=j^2=k^2=-1, ij=k,jk=i,ki=j,ji=-k,kj=-i,ik=-j
同时,1 仍然有乘法单位的特性,即 1 与任何单位元素相乘都等于那个元素:
1^2=1,1i=i1=i,1j=j1=j,1k=k1=k

这样,相当于制定了一张单位元素之间的乘法表:

1 i j k
1 1 i j k
i i -1 k -j
j j -k -1 i
k k j -i -1

以上表格中,最左边的列表示被乘数,最上面行表示乘数。

那么根据这个乘法表,并且规定两个四元数 p=d+ai+bj+ck, q=w+xi+yj+zk 的加法与乘法运算如下:

对于加法,有
p+q=(d+w)+(a+x)i+(b+y)j+(c+z)k
对于乘法,有
p\cdot q=(d+ai+bj+ck)(w+xi+yj+zk)
我们先将 i,j,k 当成普通的三个变量来展开这个乘积,但要注意 i,j,k 之间的乘积的顺序,因为它们之间不满足乘法交换律;然后再对照乘法表,将之化简,就得到
p\cdot q=(dw-ax-by-cz)+(aw+dx+bz-cy)i
    +(bw+dy+cx-az)j+(cw+dz+ay-bx)k

以上就是四元数加法与乘法的定义。

可以立即验证加法交换律、结合律,以及等式 p+0=0+p=p,方程 p+x=0 恒有解,还有乘法对加法的分配律都是成立的。对于乘法结合律,我们使用一点小技巧,先不管 i,j,k 是什么,把它们当成普通的字母,那么对它们的加乘运算就类似于多元多项式运算了,只不过字母之间没有乘法交换律。但是结合律对字母乘法是成立的,因为可以用乘法表验证。这样的多元多项式之间必然是满足乘法结合律的,因此 p(qr)(pq)r 从形式上相等(即 i,j,k,i^2,j^2,k^2,ij,ji,jk,kj,ik,ki,iji,jij… 等等这些一次到三次乘积的系数对应相等,想想矩阵运算!)那么把它们按乘法表替换之后也相等。这是《初等数学》中提出的方法。
另一种更讨巧的方法是《复分析,可视化方法》中用矩阵具体构造的四元数模型,设置四个二阶矩阵
\begin{bmatrix}1&0\\ 0&1\end{bmatrix},\begin{bmatrix}0&i\\ i&0\end{bmatrix},\begin{bmatrix}0&-1\\ 1&0\end{bmatrix},\begin{bmatrix}i&0\\ 0&-i\end{bmatrix}
分别定义成四元数中的四个单位元素 1,i,j,k,它们的乘法表符合四元数乘法表,那么它们的实系数线性组合对应的矩阵的加法与乘法可以与四元数集合一一对应。利用矩阵的结合律,可证明四元数的结合律(这个过程中需注意四个矩阵的线性无关性,否则这样的证明是无效的)。因此乘法结合律也可以证明是成立的。

1是乘法单位元,即 1p=p1=p,这条性质也容易验证。

所以,对于上面提到的数域的十一条性质,除第七条乘法交换律,和第十一条乘法逆元存在性之外的所有性质,四元数都满足。四元数显然不满足乘法交换律,那么对于乘法逆元的存在性,以及乘法的逆运算–除法的讨论将在下一节进行。下一节还将集中于四元数运算的几何意义。

9月16日补充:

1, 有关四元数乘法表的确定

可能有些人看到四元数乘法规则的时候,会感觉到有些奇怪,为什么三个数的平方都定义成 -1?就没有其他方式的定义吗?而更多的人可能觉得乘法表的指定完全是人为规定的,没有什么道理。
这个问题在昨天做出”命题2″的证明的时候就有了一点启示,昨天躺在床上终于把它想清楚了。

在”命题2″的证明前半部分我们看到,没有乘法交换律的时候,每引入一个新的类型的数,比如在实数中引入 i,再引入 j,每引入一个这样的数,就相当于引入了方程 x^2+1=0 的一个新的根。即使不令 j^2=-1,还是会有一个新的数满足 (a+bi+cj)^2=-1,那么这个数与原来的复数之间的关系就是平凡的相加相乘关系,用一个可以表示另一个。这样倒不如直接设 j^2=-1
在复数基础上只添加一个 j 还不够,还有新的数需要引入,那就是 k。怎么引入 k 呢?注意到乘积 i\cdot j,它不可能是三元的复数,不可能是 a+bi+cj 的形式,因为如果那样的话,参照上面乘法表,去掉最后的 k 做被乘数和乘数的行与列,其它行列就都与 k 无关,1,i,j 三个数的实系数线性组合就构成”三元数”了,这是不可能的。所以乘积 i\cdot j 就引入一个新的数,定名为 k。那么 ik=iij=-j, kj=ijj=-i 就是必然的。这样,乘法表中只剩余四个空缺没有填满,分别是 ji,ki=iji,jk=jij,k^2=ijij。这四个值互相关联,只要确定一个,其它的也确定。目前还没有找到合适的必然的理由来定义它们的值。但它们的值不是随意确定的。比如,如果令 ji=k,那么由于 ijji=-i^2=1,得 k^2=1,即 (k+1)(k-1)=0,为了没有零因子只能 k=\pm 1。所以 k^2 如果是实数那么只能是负数。现在我们接受 k^2=-1,那么其它值也随之确定,乘法表就确定下来了。

Tagged with:
27

用了半个月左右的时间粗浅地略读了《复分析,可视化方法》的前十一章,当然略去了所有加星号的内容和所有习题。整体的感觉是,四两拨千斤,比较精彩,很多以前不知道的问题现在茅塞顿开。但是有些地方的处理方式实在谈不上严格,以至于我在读到某些地方时不由得心存狐疑,他这种演绎发展数学的方式真的能有可靠的结果吗?

比如,第三章 3.2.4(中译本115页),论证对圆周反演的反共形性的过程,为什么可以用与两条任意曲线 S1,S2 相切的圆周来代替这两条曲线呢?粗浅地看,这似乎没什么问题。然而这里面似乎隐藏着一个问题:原来的曲线 S 和与曲线 S 相切于 p 点的圆 C,经过反演变换之后变为 T(S) 和 T(C) (由于 C 与反演圆周正交,所以 T(C)=C),那么 T(C) 是否仍然与 T(S) 相切于点 T(p)?这个他似乎想当然认为是对的,并没有证明过。但是如果只把 C 也看成一条特殊的曲线,那么曲线 S 与 C 的在 p 点的夹角就可以看成是零角,因此这个未证明的命题又可表述为”反演保持零角”,所以这里有循环论证之嫌。
这应该跟反演映射的实部与虚部构成的实向量函数的可微性有关,可惜这里记不太清了,所以导致读到这种章节的时候很难认识深刻。另外,除了某些特殊的地方,作者似乎总是以实向量函数的可微性为前提,比如讨论复函数解析的条件的时候。

又比如,幂级数逐项求导的论证,见 5.5.2 幂级数。在中译本第200页脚注中,译者再次忍不住强烈指出,作者的这种论证”有严重问题”。因为但凡数学专业科班出身的人都知道,函数项序列 \{f_n\} 如果收敛到某个函数 ff_n 每项的连续或可导并不能保证 f 也有同样的性质,在一般的实分析中是这样表述这个命题的:如果 f_n 每项都连续且这个函数列一致地(或广义一致地)收敛到 f,那么 f 也连续;如果 f_n 每项都连续可导并且导数序列 f'_n 广义一致收敛,那么 f'_n 的极限也恰是 f'。译者在这如此强调地指出一致收敛性的必要性,可能他认为作者在做这段论述的过程中并没有用到幂级数广义一致收敛这个前提,或者至少是作者强调的不够。
但是作者确实用到一致收敛性了,因为在中译本199页,作者有一句话说:”因为每个多项式均为解析的,每个象也都是无穷小圆盘。然而我们已经知道这些象会越来越完全地与 S(D) 重合,所以 S 把无穷小圆盘变为另一个无穷小圆盘,从而它是解析的。”如果没有一致收敛性的前提,哪里有”这些象会越来越完全地与 S(D) 重合”这个结论呢?
作者这一段的逻辑是这样:由 S_n 的一致收敛性,并且 S_n 每一项都解析,那么一个无穷小圆盘 D 在每一个 S_n 下的像 S_n(D) 都是无穷小圆盘,并且这些圆盘整个地趋向于最终的 S(D),那么 S(D) 也是个无穷小圆盘,从而 S 是解析的(这里应该还是有 S 作为实向量函数的可微性做前提)。然后,作者开始论证 S 的伸扭和各个 S_n 的伸扭的关系,有了 S 解析性为前提,这时只需分析几个无穷小向量(作者选了三个)与它们各自的像之间的夹角和长度比就可知道,S_n 的伸扭也在趋向于 S 的伸扭。
当时看到这里的时候,这么领会作者意图之后,我注意到这里的论述除了用到 S_n 的广义一致收敛性之外没有用到幂级数的其它性质。那么是否在这里作者也在暗示一个比实分析中那条定理更强的命题呢?即是否有”如果 S_n 一致地收敛于 S,并且每个 S_n 都解析,那么 S 也是解析的,并且 S_n 的导数趋向于 S 的导数”?果不其然,在第九章末尾译者就补充了这个叫做维尔斯特拉斯定理的命题。

因此可以看出,这本书的写作风格,作者经常把某些严格论述所需要的东西潜移默化地埋藏在了几何论述当中。如果读者有深厚的功力,再来看这里面的论述,或者对照其它版本的复分析教材看收获应该更大一些。

以上是初读此书的一点点想法,如有不同意见欢迎讨论。

八月二十九日更新:

有关幂级数逐项求导的论证,昨天又想了一下。虽然我很想维护作者的论述过程,不愿承认作者在这个问题上的论述有很大缺陷,但果真像译者所说的那样,确实有很大问题。即使在某些地方应用了一致收敛性,但用得不充分,而且这个问题在复解析函数和实可微函数之间有很大区别,只有用到这些区别,才能得到维尔斯特拉斯定理的结论。因为:

像作者那样的论证过程,似乎也可以完全不变地套用到实函数的情形,只要把解析换成可微,把无穷小圆盘换成无穷小邻域,那么作者的论述完全可以得出:如果 f_n 一致收敛到 f,并且每个 f_n 可微,那么 f 也可微,并且 f_n' 逐点收敛到 f'

这在实函数情形是错误的,因为可以举出无穷多的反例,比如,闭区间上连续函数可用伯恩斯坦多项式一致逼近,多项式都是无穷次可微的,但连续函数却不一定可微。

那么是不是只要有了 f 的可微性就有 f_n' 逐点收敛到 f' 呢?这也是不成立的,在  [0,\pi] 区间上考虑函数列 f_n(x)=\frac{\sin nx}{n},它是一致收敛到 y=0 函数的,但是 f_n'=\cos nx 却不逐点收敛到 y'=0。注意这个反例中不论是函数列的每一项还是极限函数,都是无穷次可微的。

之所以这里出现了错误,是因为作者在论述过程中只考虑了一个特定的无穷小圆盘,没考虑到这个无穷小圆盘逐渐收缩时候会怎么样。用形式化的语言重述作者论述过程(至少我是这么理解作者意图的),就是:

y=f(x) 的可微性,得到

\forall\epsilon>0,\exists\delta>0 使得当 |\Delta x|<\delta 时,有

|\frac{\Delta y}{\Delta x}-y'|<\epsilon

y_n=f_n(x) 的一致收敛性,得到

\forall\Delta x,\exists N\in\mathbf N 使得当 n>N 时,有

|\frac{\Delta y_n}{\Delta x}-\frac{\Delta y}{\Delta x}|<\epsilon

又由 y_n=f_n(x) 每项都可微,得到

\forall n\in\mathbf N,\exists\delta>0 使得当 |\Delta x|<\delta 时,有

|\frac{\Delta y_n}{\Delta x}-y_n'|<\epsilon

但是,在第二和第三个不等式中,n\Delta x 相互依赖,它们很难达成一致,所以这三个不等式可能无法同时满足,也就得不出 y'_n 逼近 y' 的结论。

Tagged with:
27

在我读高中的时候,数学课程里是没有微积分的,当时自学微积分,用的是一种很简明的数学手册,里面只有结果没有证明。看到指数函数求导的时候,怎么也想不明白这个 y=e^x 的导数 y'=e^x 是怎么求出来的。

在当时那个信息闭塞的时代,我没有办法直接找到问题的答案,所有的证明都得依靠自己努力思考,才能使很多问题的证明在一定程度上得以补全,这其中包括指数函数求导、牛顿-莱布尼茨公式、反正切函数的泰勒展式等等,都是通过自己的思考来做出的所谓的”证明”,当然都是不严格的,但大多数只缺少其中的某个环节罢了,比如 \arctan x=x-\frac{x^3}{3}+\frac{x^5}{5}-\dots,当时想到了两边同时求导,只是对两个重要的环节苦思不解:幂级数逐项积分的合理性和 x=1 时怎么证明右边还等于左边。

y=e^x 的导数也是自己想出的”证明”:

\frac{\Delta y}{\Delta x}=e^x\cdot\frac{e^{\Delta x}-1}{\Delta x}
所以只需要证明极限
\displaystyle\lim_{\Delta x\to 0}\frac{e^{\Delta x}-1}{\Delta x}=1
即可。

怎么证明这个极限是 1 呢?那就要用到 “e” 这个数的定义了,因为不是所有指数函数的导数都是它本身的。那么 “e” 表示什么呢?它是一个极限:
\displaystyle e=\lim_{n\to\infty}(1+\frac{1}{n})^n
我把它换一种写法表示:
\displaystyle e=\lim_{\Delta x\to 0}(1+\Delta x)^\frac{1}{\Delta x}
这样,这里的 \Delta x 正好和导数极限里的指数 \Delta x 相互抵消,得到
\displaystyle\lim_{\Delta x\to 0}\frac{e^{\Delta x}-1}{\Delta x}=\lim_{\Delta x\to 0}\frac{(1+\Delta x)^{\frac{1}{\Delta x}\cdot\Delta x}-1}{\Delta x}=1
这样就算”证明”出了这个极限确实是1。当时也有些顾虑,不知道这样的替换是否合理,但对于一个高中生,能用一种自己可以接受的方式去理解这个东西已经很不错了。

到大学之后,ε-δ语言成了数学学院师生们炫耀的资本,严格性是权威教授们手里挥舞的大棒,我自己对这个问题的想法被告知”不严格”,不得不抛弃掉。取而代之的是一般数学分析教材中的做法,先求另一个重要极限
\displaystyle\lim_{x\to 0}\frac{\ln(1+x)}{x}=\lim_{x\to 0}\ln(1+x)^\frac{1}{x}=1
然后再设 x=e^t-1,令 t\to 0x\to 0,这样就得出了
\displaystyle\lim_{t\to 0}\frac{t}{e^t-1}=\lim_{x\to 0}\frac{\ln(1+x)}{x}=1

不可否认的是,这种方法非常巧妙,也确实是这个问题的最简洁的证法,但总觉得在思路上显得不够直接,有点绕,难道求一个关于指数函数的极限就必须先绕到对数那里,再通过变量替换绕回来吗?自己的思路就真的一无是处无法补救吗?就没有一个想法上更直接的,同时也很严格的证明指数函数导数的方式吗?

一直对这个问题耿耿于怀,直到最近,在复习数学分析的时候,有了一些思路,应该可以不借助对数函数而直接求出指数函数的导数,而这思路就是把高中时那个粗浅的证明方法的漏洞补全。我们依然从 e 的定义开始。

众所周知,e 在通常的分析教材中被定义为
\displaystyle e=\lim_{n\to\infty}(1+\frac{1}{n})^n
右边的极限的存在性是教材中单调有界原理的例题。我们这里稍微用一点小技巧,先证明序列 (1+\frac{1}{n})^n 严格递增,序列 (1+\frac{1}{n})^{n+1} 严格递减且有下界,从而有极限,而这两个序列极限相等,定义为常数 e,这样既可以避免繁琐的二项式展开,又可以证明一个重要不等式
(1+\frac{1}{n})^n<e<(1+\frac{1}{n})^{n+1}

证明:n>1 时,利用均值不等式有
\displaystyle\frac{1+\frac{1}{n}}{1+\frac{1}{n-1}}=\frac{n-1+\frac{n-1}{n}}{n}>(\frac{n-1}{n})^\frac{1}{n}
因此
\displaystyle(1+\frac{1}{n})^n>(1+\frac{1}{n-1})^{n-1}

同样的,
\displaystyle\frac{1+\frac{1}{n-1}}{1+\frac{1}{n}}=\frac{n+\frac{n}{n-1}}{n+1}>(\frac{n}{n-1})^\frac{1}{n+1}
因此
\displaystyle(1+\frac{1}{n-1})^n>(1+\frac{1}{n})^{n+1}

(1+\frac{1}{n})^{n+1} 有一个自然的下界 1,从而这个序列有极限。那么显然 (1+\frac{1}{n})^n 也有极限并且两个序列的极限相等,记为 e,且由于它们的单调性有
\displaystyle(1+\frac{1}{n})^n<e<(1+\frac{1}{n})^{n+1}
证毕。

利用这个不等式,我们可以证明
\displaystyle\lim_{n\to\infty}n(e^\frac{1}{n}-1)=1
证明:a_n=(1+\frac{1}{n})^n,b_n=(1+\frac{1}{n})^{n+1},f(x,n)=n(x^\frac{1}{n}-1),那么
0<f(e,n)-f(a_n,n)<f(b_n,n)-f(a_n,n)= n(1+\frac{1}{n})((1+\frac{1}{n})^\frac{1}{n}-1)
接下来就是研究右边这个关于 n 的极限,设
(1+\frac{1}{n})^\frac{1}{n}-1=t,那么根据伯努力不等式,有
1+\frac{1}{n}=(1+t)^n\ge 1+nt,从而有 nt\le\frac{1}{n},因此有
\displaystyle\lim_{n\to\infty}(f(e,n)-f(a_n,n))=0

因为 f(a_n,n)=1,所以 \lim_{n\to\infty}f(e,n)=1,这就证明了结论。

进一步的,将离散的变量 n 变为连续变量 x,再变为倒数 1/t,这些步骤比较简单,不一一赘述。

8月31日更新:

昨天又想到一种新的做法,也是不需要对数函数的。

根据幂函数在 (0,+\infty) 的连续性和 \lim_{x\to\infty}(1+\frac{1}{x})^x=e

\displaystyle\forall t\in\mathbf R, \lim_{n\to\infty}(1+\frac{t}{n})^n=e^t

用这个事实,可以把要求的极限写成

\displaystyle\lim_{t\to 0}\lim_{n\to\infty}\frac{(1+\frac{t}{n})^n-1}{t}

做不等式估计:当 |t|<1 时,有

\displaystyle\left|\frac{(1+\frac{t}{n})^n-1}{t}-1\right|=\left|\frac{\mathrm C_n^2}{n^2}t+\dots+\frac{\mathrm C_n^n}{n^n}t^{n-1}\right|<\frac{|t|}{1-|t|}

依次令 n\to\inftyt\to 0 可得结论。

进一步的,一般的数学分析教材中都会在数列极限部分证明

\displaystyle e=1+1+\frac{1}{2!}+\dots+\frac{1}{m!}+\cdots

用完全相同的方法,可以证明当 t\ge 0 时,e^t 的麦克劳林展式也成立:

\displaystyle e^t=1+t+\frac{t^2}{2!}+\dots+\frac{t^m}{m!}+\cdots

这是不用微分学证明的级数展开式。可惜的是,我现在没有找到 t<0 时的简洁证法。可以利用幂级数取倒数的方法,但这种方法一般的数学分析教程里没有。

Tagged with:
14

Linear Algebra Done Right 还有一章总结没有写,现在我的主要数学精力已经转向了另一个更为有趣的方向:复分析,读的是早已经买回的书《复分析,可视化方法》。这是一本读来让人心潮澎湃的书,曾经读了这本书的第一章,开设这个博客很大一部分原因还是想写写读这本书时的一些感受和记录它当中的问题。但三年多没有碰过数学我的数学能力已经回退到最原始状态了。它的译后记中说需要读者”比较认真地读过微积分和线性代数”,可是不光线性代数方面本来当初学得就不扎实,就连几年前十分拿手的数学分析我也基本上忘光了(当然初等微积分还记得一些)。我想务必要让自己的数学能力恢复一下再来读这本书,所以后来就读了《Linear Algebra Done Right》并作了这些札记。

注记部分:

1 一个线性变换可以表示成 ST-TS (其中 ST 也是线性变换)的充要条件

我们知道一个变换如果可以写成两个线性变换的运算 ST-TS 的形式,因为 \mathrm{trace}\,(ST-TS)=0,那么这个线性变换就必须也满足迹为零。但是,是否只要满足这一个条件就够了呢?

这个问题我发在了百度贴吧中,不久被”四元数”解答了,讨论过程见
http://tieba.baidu.com/f?kz=847919631

需要补充的是他提出的另外一个命题:任何一个 trace 为 0 的矩阵都相似于一个对角线上都是 0 的矩阵,或者说,trace 为 0 的线性变换在某组基底下的矩阵其对角线上的元素都为 0。

我们先对二阶矩阵证明一个更强的命题:

命题1:对于一般的2阶方阵,如果这个方阵不是单位阵或单位阵的倍数,那么必然可以相似于一个对角元为零的矩阵。
证明:设这个方阵为
\begin{pmatrix}a&b\\ c&d\end{pmatrix}
如果 a,d 其一为 0 则命题得证。故以下假设 ad\not=0
如果 b=c=0,那么可以断定 a\not=d,我们考虑以下相似变换
\begin{pmatrix}1&k\\ 0&1\end{pmatrix}\begin{pmatrix}a&0\\ 0&d\end{pmatrix}\begin{pmatrix}1&-k\\ 0&1\end{pmatrix}=\begin{pmatrix}a&kd-ka\\ 0&d\end{pmatrix}
k\not=0 即可把右上角元素变为非零。故以下假设 b\not=0。那么考虑以下相似变换
\begin{pmatrix}1&0\\ -k&1\end{pmatrix}\begin{pmatrix}a&b\\ c&d\end{pmatrix}\begin{pmatrix}1&0\\ k&1\end{pmatrix}=\begin{pmatrix}a+kb&b\\ c-ka+kd-k^2b&d-kb\end{pmatrix}
由于 b\not=0,那么我们总能取到适当的 k 使得 a+kb=0c-kb=0。证毕。

再往下就可按照”四元数”说的方式证明结论。

部分习题解答:

8V 是内积空间且 v,w\in V。定义 T\in\mathcal L(V)Tu=\langle u,v\rangle w,找到 \mathrm{trace}\,T 的表达式。
解1:首先注意到如果 e_1,\dots,e_nV 的标准正交基底,那么
\displaystyle\mathrm{trace}\,T=\sum_{i=1}^n\langle Te_i,e_i\rangle
e_1=w/\|w\|,将其扩充成标准正交基底 e_1,\dots,e_n,那么
\displaystyle\mathrm{trace}\,T=\sum_{i=1}^n\langle Te_i,e_i\rangle=\langle w,v\rangle
如果 w=0 则显然这个表达式也成立。
解2:也可以用 v 代替上面的 w 做同样的分析,设 e_1=v/\|v\| 并且 e_1,\dots,e_n 是标准正交基底,那么由于 Te_2=\dots=Te_n=0,则
\displaystyle\mathrm{trace}\,T=\langle Te_1,e_1\rangle=\langle w,v\rangle

9 证明如果 P\in\mathcal L(V) 满足 P^2=P,那么 \mathrm{trace}\,P 是非负整数。
证明:由前几章习题知如果 P^2=P,那么 \mathrm{range}\,P\oplus\mathrm{null}\,P=V
\mathrm{range}\,P\mathrm{null}\,P 中分别取基底,可以组成 V 的基底,并且由于在 \mathrm{range}\,P 中的每一个向量 v=PuPv=P^2u=Pu=v,从而在这组基底下 P 对应的矩阵是对角矩阵,其对角线上的元素只有 1 或 0,它们的和是个非负整数。

15T\in\mathcal L(V),证明如果对任意 S\in\mathcal L(V) 都有 \mathrm{trace}\,ST=0,那么 T=0
证明:T 在某基底下的矩阵是 A,取 S 是在同样的基底下对应矩阵 A^H(共轭转置)的线性映射,那么显然
\mathrm{trace}\,ST=\mathrm{trace}\,A^HA=\sum |a_{ij}|^2,由题设条件有 a_{ij}=0,故 T=0

(16题可以用15题的方法,也可用8题解答中用到的事实。17题应用16题结论,注意不等式右边等于 \mathrm{trace}\,T^*T,当选用标准正交基底使得 T 对应上三角矩阵时,可看出左边是小于等于 \|Te_1\|^2+\dots+\|Te_n\|^2 的。19题也可用16题的结论,并利用 \mathrm{trace}\,T^*T=\mathrm{trace}\,TT^*,证得 \|T^*e_i\|=\|Te_i\|,注意这是对任意标准正交基底都成立的,也就是把任意一个非零向量标准化并扩充成标准正交基底即可得 \|T^*v\|=\|Tv\|。)

18V 是内积空间,证明 \langle S,T\rangle=\mathrm{trace}\,(ST^*) 定义了 \mathcal L(V) 上的内积。
证明:根据 16 题结论,可得 \langle T,T\rangle=\mathrm{trace}\,(TT^*)\ge 0 并且当且仅当 T=0\langle T,T\rangle=0
由迹的性质,有 \langle S+W,T\rangle=\langle S,T\rangle+\langle W,T\rangle\langle kS,T\rangle=k\langle S,T\rangle 以及
\langle S,T\rangle=\mathrm{trace}\,(ST^*)=\overline{\mathrm{trace}\,(TS^*)}=\overline{\langle T,S\rangle}
因此 \langle S,T\rangle=\mathrm{trace}\,(ST^*) 定义了 \mathcal L(V) 上的内积。

Tagged with:
分页: 1 2 3 4 5 Next
preload preload preload