tzyt的博客

从微积分和线性代数的角度理解最小二乘法

2023-12-09T01:48:06.814Z

之前尝试实现图形学一些论文的时候用到过最小二乘法，不过之前是从微积分的角度理解的。今年学了线性代数的课，发现这个东西也可以用线性代数的概念解释，并且更加直观（有几何角度的理解），所以准备用这篇文章记录一下最小二乘法的两种理解方式。

开始之前先吐槽一下这个东西的名字 “最小二乘”。就感觉很奇怪，最小化误差的平方为什么叫二乘呢？嗯。。。查了一下发现是从日语翻译过来的，那我只能说这个翻译水平是有点高的。。。虽然我很不想用这个迷惑的名字，但是因为都这么用的，那也没办法了。

问题的定义

学习最小二乘法之前先得理解这个算法在尝试解决什么。最小二乘法最常见的用途是用一个函数拟合数据，进而用这个函数来预测数据的趋势。为了拟合数据我们就需要用数学的方法来定义怎样的拟合是好的，然后我们尽量一个函数更好的拟合数据。

这里我们假设有 $m$ 个数据点 $(x_i, y_i) \ \ i \in \{0, 1, \cdots, m\}$ 。然后有一个函数 $f(x)$ 用于拟合这些数据点。我们定义单个点的误差为：

$s_i = f(x_i) - y_i$

注意这里函数 $f(x_i)$ 的含义是使用 $x_i$ 来预测 $y_i$ ，你可以把这两个值理解成标量，但实际上最小二乘法也可以用于拟合向量，因为两种情况下公式完全一样，这里简单起见就假设是标量。

那么误差的平方和就是

$I = \sum_{i=0}^m s_i^2 = \sum_{i=0}^m (f(x_i) - y_i)^2$

我们希望能调整这个函数的参数使得这个值最小。

具体来说，可以把函数 $f(x)$ 表示成如下形式：

$f(x) = a_0\varphi_0(x) + a_1\varphi_1(x) + \cdots + a_n\varphi_n(x)$

其中, $a_i$ 是我们需要调整的参数，而 $\varphi_i(x)$ 是一些线性无关的函数。

微积分角度

这部分内容的来源主要是这个视频，讲的内容还是很完整的但是有些快和笔误，我也看了好几遍才搞懂。

我们可以把误差表示成下面这样的形式，然后从微积分的角度最小化这个误差。

$\begin{align*}I(a_0, \cdots, a_n) &= \sum_{i=0}^m w(x_i) (f(x_i) - y_i)^2 \\I(a_0, \cdots, a_n) &= \sum_{i=0}^m w(x_i)\left(\sum_{j=0}^n [a_j\varphi_j(x_i)] - y_i\right)^2 \end{align*}$

写成这样的形式可以更加清楚的表示出我们的目的：通过调整 $a_0, \cdots, a_n$ 这些参数使得误差最小化。

注意这里在给每个数据点的误差平方求和的时候多了一个权重 $w(x_i)$ ，通过这个权重可以更加方便的调整每个数据点的重要性。

通过微积分我们知道，函数在达到其最值的时候导数一定为 0。我们通过这个性质可以从微积分的角度来调整参数使得误差最小。不过这个最值可以是最小值也可以是最大值。在计算误差 $I$ 的时候，一定只存在一个最小值（可以想象把所有的参数设置到 $\infty$ 的情况）。

因为 $I$ 是一个多变量函数，所以要通过上面的方法求最小值，我们需要用偏导数：

$\frac{\partial I}{\partial a_k} = 2\sum_{i=0}^m w(x_i)\left(\sum_{j=0}^n[ a_j\varphi_j(x_i)] - f(x_i)\right)\varphi_k(x_i) = 0 \\$

在上面的偏导数中，除了 $a_k$ 都可以作为常数处理。因为偏导数的定义就是改变参数 $a_k$ ，对误差 $I$ 造成的影响。

在 $\frac{\partial I}{\partial a_k} = 0$ 的时候，我们可以说在只调整参数 $a_k$ 的情况，误差已经达到了最小值，但是因为每个参数都是可以调整的，所以我们希望对于每个 $k \in \{0, \cdots, n\} \ \frac{\partial I}{\partial a_k} = 0$ 。

这样一来，可以得到一个线性方程组。看到线性方程组第一个想到的肯定是用线性代数的方式来表示这个式子，这样在求解的时候可以极大的提升速度。

经过一定的变形，可以得到下面的公式：

$\begin{align*}0 &= 2\sum_{i=0}^m w(x_i)\left(\sum_{j=0}^n[ a_j\varphi_j(x_i)] - f(x_i)\right)\varphi_k(x_i)\\ &= 2\sum_{i=0}^m\left(w(x_i)\varphi_k(x_i)\sum_{j=0}^n\left[a_j\varphi_j(x_i)\right] - w(x_i)y_i\varphi_k(x_i) \right) \\ &= \sum_{i=0}^m\left(w(x_i)\varphi_k(x_i)\sum_{j=0}^n\left[a_j\varphi_j(x_i)\right]\right) - \sum_{i=0}^m\left[w(x_i)y_i\varphi_k(x_i)\right]\end{align*}$

因为我们希望往线性代数的方向上靠，所以可以把下面这个求和表示成点乘的形式：

$\sum_{i=0}^m\left[w(x_i)y_i\varphi_k(x_i)\right] \\= \vec{w} \cdot \vec{y} \cdot \vec{\varphi_k}$

其中， $\vec{w} = w(x_i) \ i \in \{0, \cdots, m\}$ ， $\vec{y} = y_i \ i \in \{0, \cdots, m\}$ ， $\vec{\varphi_k} = \varphi_k(x_i) \ i \in \{0, \cdots, m\}$ 。

同理，式子的另外一部分也可以表示成点乘形式：

$\sum_{i=0}^m\left(w(x_i)\varphi_k(x_i)\sum_{j=0}^n\left[a_j\varphi_j(x_i)\right]\right) \\= \vec{w} \cdot \vec{\varphi_k} \cdot \sum_{j=0}^n \vec{a_j} \cdot \vec{\varphi_j} \\= \sum_{j=0}^n \vec{w} \cdot \vec{\varphi_k} \cdot \vec{\varphi_j} \cdot \vec{a_j}$

那么如果:

$\vec w \cdot \vec y \cdot \vec \varphi_k = \sum_{j=0}^n \vec{w} \cdot \vec{\varphi_k} \cdot \vec{\varphi_j} \cdot \vec{a_j}$

就符合误差的偏导为 0，也就是 $\frac{\partial I}{\partial a_k} = 0$ 。

当然，我们最终的目标是把这个式子写成一个矩阵乘法的等式来提升求解速度。仔细观察等式的右边，我们其实可以发现这个求和在本质上也是一个点乘。

$\sum_{j=0}^n {\color{red}\vec{w} \cdot \vec{\varphi_k} \cdot \vec{\varphi_j}} \cdot \vec{a_j}$

为了方便理解，我们把式子中标红的部分记作 $\vec A_k = [\vec{w} \cdot \vec{\varphi_k} \cdot \vec{\varphi_0}, \cdots, \vec{w} \cdot \vec{\varphi_k} \cdot \vec{\varphi_n}]$ ，其是一个 $n$ 维的向量，那么这个求和就是 $\vec A_k \cdot \vec a$ 。其中 $a = [a_0, \cdots, a_n]$

同理可以把 $\vec w \cdot \vec y \cdot \vec \varphi_k$ 记作 $B_k$ （标量）。

这样只要解决下面的方程组，就能解决最小二乘问题：

$\begin{cases} \vec A_0 \cdot \vec a = B_0 \\ \vec A_1 \cdot \vec a = B_1 \\ \qquad \vdots \\ \vec A_m \cdot \vec a = B_m\end{cases}$

这个形式就非常的眼熟了，可以直接表示成矩阵形式。

$\begin{bmatrix} A_{00} & A_{01} & \cdots & A_{0n} \\ A_{10} & A_{11} & \cdots & A_{1n} \\ \vdots & & \ddots & \\ A_{m0} & A_{m1} & \cdots & A_{mn} \\\end{bmatrix} \cdot \begin{bmatrix} a_0 \\ a_1 \\ \vdots \\ a_n \\\end{bmatrix} = \begin{bmatrix} B_0 \\ B_1 \\ \vdots \\ B_m \\\end{bmatrix}$

写的简单点就是 $\bm A \vec a = \vec B$ 。

线性代数角度

待完成

GAMES101 学习笔记1

2023-06-16T23:30:42.507Z

因为学校里的各种事情，以及复习考试，自从上次更新博客已经是四个多月的事情了，距离上次写图形学的博客那就更久了。

最近刚放暑假把之前只看了光线追踪部分的 GAMES101 完整的学习了一遍，还是非常惊喜的：很多之前不太清楚的概念（特别是数学方面的）过了一段时间再看又有了些新的理解。因为课程时间限制的问题，有有部分内容没有比较详细的讲，这里记录一些我自己的理解。

三维旋矩阵

这个东西我已经在之前 RT: The Next Week 的文章中写过了，不过之前的解释比较。。。怪，很啰嗦，并且没有从坐标系变换的角度来解释，这里就重新写下（当然我还没有系统的学过线性代数，所以以下内容可能还是很扯）。

绕三个轴的三维旋转矩阵分别可以写作下列的形式：

$R_x(\theta) = \begin{bmatrix}1 & 0 & 0 \\0 & \cos \theta & -\sin \theta \\0 & \sin \theta & \cos \theta\end{bmatrix}$

$R_z(\theta) = \begin{bmatrix}\cos \theta & -\sin \theta & 0 \\\sin \theta & \cos \theta & 0 \\0 & 0 & 1\end{bmatrix}$

$R_y(\theta) = \begin{bmatrix}\cos \theta & 0 & \sin \theta \\0 & 1 & 0 \\-\sin \theta & 0 & \cos \theta\end{bmatrix} \\$

不难发现，绕 y 轴旋转的矩阵中， $\sin \theta$ 和 $-\sin \theta$ 的位置似乎是反的，非常奇怪。原视频中，旋转矩阵是通过选取一些特殊点完成推导的，这里我感觉用坐标系变换的方法更加易于理解（~~虽然闫老师觉的这个更复杂~~）。

首先看绕 z 轴的，这个比较简单，基本上就是二维旋转矩阵的情况：

注意这里我虽然没有加入 z 轴，但是通过右手定则，可以发现 z 轴是朝着穿出屏幕方向的。

我们可以分别把新 x 轴（ $\hat i$ ）和新 y 轴（ $\hat j$ ）用向量形式表示出来，注意这里这两个向量都是单位向量：

$\hat i = \begin{bmatrix}\cos \theta \\\sin \theta \\0\end{bmatrix} \\$

观察 $\hat j$ 和原 y 轴的夹角，可以发现是 $\theta$ ，所以可以把 $\hat i$ 的向量形式“反”一下。还有一点需要注意的是： $\hat j$ 的 x 分量是负数：

$\hat j = \begin{bmatrix}-\sin \theta \\\cos \theta \\0\end{bmatrix} \\$

其实不管在什么坐标系中，任何坐标都是通过单位向量乘以一些长度得到的（可以想象成一个点在某个方向移动一些距离）。比如在平面直角坐标系中， $(1, 2)$ 的坐标就可以理解成，把一个点向着 x 方向移动 1，向着 y 方向移动 2。

所以，在旋转过后的坐标系，对于一个点 $(x, y, z)$ ，他的新坐标就是 $(x\hat i, y\hat j, z)$ 。相当于是向着 $\hat i$ 方向移动了 x 个单位，向着 $\hat j$ 方向移动了 y 个单位，以及向原来的 z 方向（虽然没有变换，但是这里我们还是把它标记成 $\hat k$ ）移动了 z 个单位。

所以新的坐标就是：

$p = x\begin{bmatrix}\cos \theta \\\sin \theta \\0\end{bmatrix} + y\begin{bmatrix} -\sin \theta \\\cos \theta \\0\end{bmatrix} + z\begin{bmatrix}0 \\0 \\1\end{bmatrix}$

观察之前提供的旋转矩阵公式，能发现 $R_z$ 确实能满足上式：

$\begin{bmatrix}\textcolor{red}{\cos \theta} & \textcolor{blue}{-\sin \theta} & \textcolor{green}{0} \\\textcolor{red}{\sin \theta} & \textcolor{blue}{\cos \theta} & \textcolor{green}{0} \\\textcolor{red}{0} & \textcolor{blue}{0} & \textcolor{green}{1}\end{bmatrix}\begin{bmatrix} x \\ y \\ z \\\end{bmatrix} = x\textcolor{red}{\begin{bmatrix}\cos \theta \\\sin \theta \\0\end{bmatrix}} + y\textcolor{blue}{\begin{bmatrix} -\sin \theta \\\cos \theta \\0\end{bmatrix} } + z\textcolor{green}{\begin{bmatrix}0 \\0 \\1\end{bmatrix}}$

这里有一个比较有意思的地方，已经通过不同的颜色标记出来了：可以发现，旋转矩阵中的三列分别对应着 $\hat i$ ， $\hat j$ 和 $\hat k$ ，也就是新坐标系中的三个轴的方向。

这样一来，从坐标系变换的角度，就非常容易理解为什么旋转矩阵是这么写的了。我们可以直接把变换后的三个轴的方向写到矩阵中的三列，从而得到旋转矩阵。

我们可以用相同的方法来分析绕 y 轴的旋转，就是那个看起来“反”了的矩阵。

虽然看起来和刚刚的图很相似，但是可以发现图中的标签已经变过了。同样，通过右手定则，可以发现这时 y 轴是朝着穿出屏幕方向的。

那么有了刚刚的观察，现在我们只需要找到当前情况下的 $\hat i, \hat j, \hat k$ 就可以写出绕 y 轴的旋转矩阵了。

首先，对于新的 z 轴，也就是 $\hat k$ ，我们可以类比绕 z 轴情况下的 $\hat i$ ，它的向量形式如下：

$\hat k = \begin{bmatrix}\sin \theta \\0 \\\cos \theta\end{bmatrix} \\$

这里 y 分量为 0 的原因很明显，因为我们考虑的是绕 y 轴旋转，所以 y 肯定没有变化。

然后，类比绕 z 轴情况下的 $\hat j$ ，我们可以得到 $\hat i$ 的向量形式：

$\hat i = \begin{bmatrix}\cos \theta \\0 \\-\sin \theta\end{bmatrix} \\$

对于 $\hat j$ ，因为和原来没有变化，所以可以简单的写作：

$\hat j = \begin{bmatrix}0 \\1 \\0\end{bmatrix} \\$

合并这些表示新 x，y，z 方向的向量，可以得到：

$\left[\hat i \ | \ \hat j \ | \ \hat k\right] = \begin{bmatrix}\cos \theta & 0 & \sin \theta \\0 & 1 & 0 \\-\sin \theta & 0 & \cos \theta\end{bmatrix} \\$

重心坐标

和 GAMES101 课程中讲的一样，重心坐标（特别是三角形的）在图形学中非常有用，可以很方便的把三角形节点上的信息插值到三角形面上。

我最初听课的时候还是有较多疑惑的，比如为什么一定要三个系数和相加等于 1，并且三个系数都不为负数，某个点才是在三角形内部的呢？

后来思考了一段时间，感觉用“顾名思义”的方式理解这个概念是直观的，也就是从重心的角度去理解。

物理角度

假设有一个三角形，其三个顶点的质量分别为 $M_a, M_b, M_c$ ，并且除了顶点外，别的区域质量均为 0，那么根据重心的定义，三角形的重心就是：

$\text{重心} = \frac{M_aA + M_bB + M_cC}{M_a + M_b + M_c}$

把这三个项分开，可以得到：

$A\frac{M_a}{M_a + M_b + M_c} + B\frac{M_b}{M_a + M_b + M_c} + C\frac{M_c}{M_a + M_b + M_c}$

这个形式简直和重心坐标的 $\alpha A + \beta B + \gamma C$ 太相似了，每项都是一个系数乘以一个顶点的坐标。

观察形如 $\frac{M_a}{M_a + M_b + M_c}$ 的项，可以发现，计算重心时的系数完全符合重心坐标的要求，即 $\alpha + \beta + \gamma = 1$ ，并且每项不是负数。

现在用物理上重心的思路来思考，我们在转换普通坐标到重心坐标时到底在转换什么？

把重心公式的系数对应到重心坐标的系数，也就是 $\frac{M_a}{M_a + M_b + M_c} \to \alpha$ ，我们能发现，这些系数实际上是三角形每个顶点的质量占总质量的比例。

也就是说，在转换的过程中（假设把 $p$ 点从笛卡尔坐标系转换到重心坐标系），我们实际上计算的是这样一个问题：三角形的三个顶点如何分配重量，才能使得三角形的重心位于 $p$ 点？

转换后的坐标， $(\alpha, \beta, \gamma)$ 其实就是在三角形三个顶点上分配的重量的比例。

这样一来，我们就很容易理解这三个数为什么符合相加为 1 并且非负才能使点在三角形内部的要求了。首先，从物理的角度来思考，如果质量非负，那么重心一定在物体的内部。其次，如果要符合重心的定义，那么 $\alpha, \beta, \gamma$ 相加一定是等于 1 的。因为它们三个代表的是三个顶点的质量占总质量的比例，所以这三个数字相加一定是 1（对应总质量）。

当然，重心坐标是由物理上的定义推广出来的，所以用纯代数的方法来说明可能更有说服力。

代数角度

我们知道，三角形的重心坐标就是三个顶点的线性组合来标记一个坐标，也就是 $p = \alpha A + \beta B + \gamma C$ 。现在我们可以尝试用代数的方式来说明，为什么这三个系数相加等于 1 并且非负才能使点在三角形内部。

首先，我们可以把 $p$ 点用另一种方式表示出来，这对之后的推导会有帮助：

$p = A + u\overrightarrow{AB} + v\overrightarrow{AC}$

注意这里的 $u$ 和 $v$ 其实和重心坐标的三个系数没有关系，这个式子的含义是：从 A 点出发，沿着 AB 方向走 $u$ 个单位，然后沿着 AC 方向走 $v$ 个单位，就可以到达 $p$ 点。

首先，如果要让点在三角形内部，有一点是可以确定的： $u$ 和 $v$ 是非负的，因为考虑当前在 A 点上，只向着 $\overrightarrow{BA}$ 或者 $\overrightarrow{CA}$ 方向走任何距离，马上就会走出三角形。

对上式稍微做一点变形，可以得到：

$p - A = u\overrightarrow{AB} + v\overrightarrow{AC} \\\overrightarrow{pA} = u\overrightarrow{AB} + v\overrightarrow{AC} \\u\overrightarrow{AB} + v\overrightarrow{AC} - \overrightarrow{pA} = {0}$

可以这么理解这个式子：我们把包括 $p$ 点在内的所有点都通过 $-\overrightarrow{OA}$ 移动了一个距离，这个时候 $A$ 一定在原点。

这样这个式子就很直观了：先通过 $u\overrightarrow{AB} + v\overrightarrow{AC}$ 这个向量从原点走到 $p$ 点，再从 $p$ 点用 $\overrightarrow{pA}$ 走回 $A$ ，也就是原点。

因为这两个部分方向相反并且大小相同（一个从 $A$ 走到 $p$ ，一个从 $p$ 走到 $A$ ），所以这两个向量相加一定是 0。

拆开这个式子，再重新整理，可以得到：

$\begin{align*}u(B - A) + v(C - A) + A - p &= 0 \\uB - uA + vC - vA + A - p &= 0\\A(1 - u - v) + uB + vC - p &= 0 \\(1 - u - v)A + uB + vC &= p\end{align*}$

这个形式完全和重心坐标一致，所以我们可以确定： $\alpha = 1 - u - v$ ， $\beta = u$ ， $\gamma = v$ 。

把这些东西相加，可以发现 $1 - u - v + u + v = 1$ ，确实，重心坐标的三个系数相加一定是 1。

前面我们已经说明了， $u$ 和 $v$ 是非负的，但如果 $u + v > 1$ ， $\alpha$ 不就是负数了吗？

考虑下图， $AM$ 是 $A$ 到 $BC$ 的一条垂线（ $M$ 不是 $BC$ 的中点，这里不用等边三角形可能更清晰，~~但是我懒~~）：

回到最初的定义中，也就是 $p = A + u\overrightarrow{AB} + v\overrightarrow{AC}$ ， $uv$ 分别是朝 $\overrightarrow{AB}$ 和 $\overrightarrow{AC}$ 方向走过的距离。

那么 $u\overrightarrow{AB}$ 投影在 $\overrightarrow{AM}$ 上的长度就是 $u\overrightarrow{AB} \cdot \overrightarrow{AM} \over |\overrightarrow{AM}|$

观察上图可以发现，如果 $u$ 为 1，也就是 $\overrightarrow{AB}$ 有完整的长度，这个投影的长度一定等于 $|\overrightarrow{AM}|$ 。同样的，如果 $u$ 为 0，投影在 $\overrightarrow{AM}$ 方向的长度也一定是 0。

因为投影，或者说点乘是一个线性的操作，所以如果 $u$ 为 0.5，投影的长度一定是 $|\overrightarrow{AM}|$ 的一半。

因此我们可以说， $\overrightarrow{AB}$ 在 $\overrightarrow{AM}$ 上的投影长度是 $u|\overrightarrow{AM}|$

相同的， $\overrightarrow{AC}$ 在 $\overrightarrow{AM}$ 方向的投影长度符合一样的规则。

为了让 $p$ 点留在三角形内部， $u\overrightarrow{AB} + v\overrightarrow{AC}$ 这个向量投影在 $\overrightarrow{AM}$ 上的长度必须小于等于 $\overrightarrow{AM}$ 本身的长度，不然 $p$ 点就会从 $BC$ 这条边跑出三角形。

$\overrightarrow{AB}$ 在 $\overrightarrow{AM}$ 上的投影长度是 $u|\overrightarrow{AM}|$ ， $\overrightarrow{AC}$ 在 $\overrightarrow{AM}$ 上的投影长度是 $v|\overrightarrow{AM}|$ ，自然，这两个向量的和在 $\overrightarrow{AM}$ 上的投影长度就是 $(u + v)|\overrightarrow{AM}|$ 。

前面说过，为了使得 $p$ 点留在三角形内部， $u\overrightarrow{AB} + v\overrightarrow{AC}$ 这个向量投影在 $\overrightarrow{AM}$ 上的长度必须小于等于 $\overrightarrow{AM}$ 本身的长度，也就是 $(u + v)|\overrightarrow{AM}| \le |\overrightarrow{AM}|$ ，那么 $u + v \le 1$ 。

因为 $\alpha = 1 - u - v$ ，并且 $u + v \le 1$ ，所以我们可以说明， $\alpha$ 也一定是非负的。

至此我们已经能说明，为什么一个在三角形内部的点就要符合 $\alpha + \beta +\gamma = 1$ ，并且每个系数非负了。当然要把一个平面直角的坐标转换到重心坐标，还是需要一些相对复杂的计算的。这部分的内容，我觉得这篇博客中介绍的第一种方法相对易于理解并且很巧妙，有兴趣的可以看下。

USACO23JAN Find and Replace S（洛谷 P9013）题解

2023-02-06T02:15:37.710Z

题目链接

博客中观看体验更佳

分析

题意非常简洁，即问你通过一系列的字符替换，最少花多少步能把一个 $s$ 串变成 $t$ 串。

拿到题之后，可以先从样例开始分析。

从 $\texttt{BBC} \to \texttt{ABC}$ 这个样例可以发现，不可能同时把某个字符替换成两个字符（ $\texttt{BB} \to \texttt{AB}$ ），会起冲突。

那直接统计 $s_i \ne t_i$ 的个数（给串去重之后，即不存在 $s = \texttt{AA}, t = \texttt{BB}$ 这种）就可以作为答案了吗？可以从最后一个样例发现不是这样的。

环的处理

因为最后一个样例中， $\texttt{CD}$ 的部分是一样的。我们直接考虑 $\texttt{AB} \to \texttt{BA}$ 的变换。如果直接执行 $\texttt{A} \to \texttt{B}$ 的操作，会得到一个 $\texttt{BB}$ 的串。这个时候就有了和前面一样的问题，不能将其转换成 $\texttt{BA}$ 。执行 $\texttt{B} \to \texttt{A}$ 也是同理。

解决的办法就是先执行 $\texttt{AB} \to x\texttt{B}$ 再处理 $x\texttt{B} \to \texttt{BA}$ 。（ $x$ 是任意别的字符）

是否所有“相互依赖”的情况下，都可以通过这种方式解决呢？我们可以再思考一个大一点的样例 $\texttt{ABCD} \to \texttt{BCDA}$ ，用图（创建 $s_i \to t_i$ 的边，并且去掉重边和自环）的方式表示出来会更加清晰：

  graph LR    A --> B    B --> C    C --> D    D --> A

可以发现，这是一个环。无论我们先执行哪种 $x \to y$ 的变换，都会需要再执行 $y \to z$ 的变换。因为 $y$ 希望能变成别的。这个时候，先前 $x$ 会跟着一起被变成 $z$ 。

不过，如果能“化环为链”，就可以解决问题了。比如我们可以先执行 $\texttt{A} \to x$ ，这个链就会变成：

  graph LR    x --> B    B --> C    C --> D    D --> A

这样，就有一个执行 $x \to y$ 后，不用再执行 $y \to z$ 的地方了。即 $\texttt{D} \to \texttt{A}$ （执行完之后， $\texttt{C} \to \texttt{D}$ 也符合这个条件，我们倒着的按照链的顺序就可以把整条串转换为目标）。

从这两个例子可以看出，在一般的情况下，一个操作能把环转化为链，或者把链的长度（边的数量）减少 1。

所以答案的数量就是（环的数量 + 链的长度）了吗？

两种特例

1

首先，化环为链的操作需要一个不在环中出现的字符，假设环包含了字符集中所有的字符，我们是不能处理的。

假设我们的字符集只有 $\texttt{A} \sim \texttt{D}$ 这四个字符，那处理下面这个例子时候，就会发现问题。

  graph LR    A --> B    B --> C    C --> D    D --> A

不管先把 $\texttt{A}$ 变成什么字符，这个字符之后都会再经历最少一次的变换，导致 $\texttt{A}$ 不能被转换成目标字符 $\texttt{B}$ 。

当然，我们处理不了的情况不一定要求整张图中只有一个环，只要符合：

所有节点都在环里
字符集中的所有字符都被用到了

就不能处理了，比如下面这个例子，有两个环还是不行（字符集为 $\texttt{A} \sim \texttt{C}$ ）：

  graph LR    A --> B    B --> A    C --> D    D --> C

2

考虑这样一个输入： $\texttt{ABCDEF} \to \texttt{BCDABE}$

  graph LR    A --> B    B --> C    C --> D    D --> A    E --> B    F --> E

我们可以在一个操作内即化环为链，又把链的长度减少 1。观察到 $\texttt{A}$ 和 $\texttt{E}$ 都希望能被转换成 $\texttt{B}$ 。从字符转换的角度来说， $\texttt{A} \to \texttt{B} \And \texttt{E} \to \texttt{B}$ 和 $\texttt{A} \to \texttt{E} \And \texttt{E} \to \texttt{B}$ 的最终结果和操作步数都是一样的。但是第二种方法在执行 $\texttt{A} \to \texttt{E}$ 时，也把环中的一个字符转换成了环外的字符，将环化成了链。

能这么做的前提条件是，有多个环外字符希望变成环内的一个字符。更严谨的说就是环中某个节点的入度大于等于 2。

到此为止，所有的情况都基本分析好了，可以写出以下的总结（括号中的为实际判断方法）：

一个字符希望转换成多个字符是无解的。（节点出度最多为 1）
所有节点（所有可能的字符）全部在环中是无解的（每种字符的入度都为 1）。
答案 = 边的数量 + 绝对环的数量（环中每个节点的入度出度都为 1）

这里第二点的判断方法可以稍微解释一下：

没有选择使用出度是考虑到了环连着树的情况，参考上图。

代码实现

实现的时候找环的部分需要注意一下，其他部分都比较简单。

我们知道 tarjan 算法就可以判环，不过这道题可以用“简化版”的 tarjan，不用记录访的时间戳。我们把 dfs 的时候把所有访问过的节点从队尾压入一个双向队列。

如果我们开始 dfs 的时候是从一个环上的点进入的，之后一定会访问到一个和队头一样的节点。这个时候把所有在队头和队尾之间的节点都弹出，就得到了环中的所有节点。

如果我们发现某个节点之前访问过，但是并不在队头，就可以确定队列中的节点都不是“绝对环”，因为有树连着他（参考上图，如果从 F 节点开始搜就会出现这种情况）。

#include using namespace std;const int CHSZ = 52;  // char set sizeint out[CHSZ + 1];   // 出度只能有一个int lpid[CHSZ + 1];  // 环的 id，不知道 -> -1，不是环 -> 0，是环 -> 1,2,3...enum LP_STAT { UNKNOWN = -1, NOT_ABS_LP = 0 };deque<int> vised_dq;   // 用于在找环的时候储存信息bool vised[CHSZ + 1];  // 用于在找环的时候储存信息set<int> in_nds[CHSZ + 1]; // in nodes，入度可以有多个int in1_cnt = 0; // 入读为 1 的节点的数量int abs_lp_cnt = 0;  // 绝对环数，即环不连树的环数int diff_chs = 0;void init() {    memset(out, 0, sizeof(out));    fill(lpid, lpid + CHSZ + 1, UNKNOWN);    vised_dq.clear();    memset(vised, 0, sizeof(vised));    for (int i = 0; i <= CHSZ; i++) in_nds[i].clear();    in1_cnt = 0;    abs_lp_cnt = 0;    diff_chs = 0;}inline int ch2id(char x) {    // char to id    if (x >= 'a' && x <= 'z') return x - 'a' + 1;    if (x >= 'A' && x <= 'Z') return x - 'A' + 27;    return -1;}bool check_loop_connect_to_tree() {    for (int cur : vised_dq)         if (in_nds[cur].size() >= 2)             // 有树连这个环            return true;    return false;}void fill_lpid_in_vised_dq(int val) {    for (int cur : vised_dq)        lpid[cur] = val;    vised_dq.clear();}void mark_loop(int cur) {    if (vised[cur] && vised_dq.front() != cur) {        // 从一个树进入的环，不是绝对环        fill_lpid_in_vised_dq(NOT_ABS_LP);        return;    }    vised[cur] = true;    if (out[cur] == cur) {        // 没有出度，找到一个链        fill_lpid_in_vised_dq(NOT_ABS_LP);        return;    }    if (vised_dq.size() && vised_dq.front() == cur) {        // 找到环        if (!check_loop_connect_to_tree()) {            // 如果环不连树            abs_lp_cnt++;            fill_lpid_in_vised_dq(abs_lp_cnt);        } else {            fill_lpid_in_vised_dq(NOT_ABS_LP);        }        return;    }    vised_dq.push_back(cur);    mark_loop(out[cur]);}void solve(const string& origs, const string& tars) {    // orig str -> tar str    init();    for (int i = 0; i < origs.size(); i++) {        int och = ch2id(origs[i]);        int tch = ch2id(tars[i]);        if (out[och] && out[och] != tch) {            // 如果 o 串已经有要转换的字符，但是不是 t            // 串的字符，那么会产生多对一            cout << -1 << '\n';            return;        }        if (!out[och]) {            out[och] = tch;            in_nds[tch].insert(och);            if (och != tch)                 diff_chs++;        }    }    for (int i = 1; i <= CHSZ; i++) {        if (in_nds[i].size() == 1)             in1_cnt++; // 统计入度为 1 的节点数量    }    for (int i = 1; i <= CHSZ; i++) {        if (out[i] && lpid[i] == UNKNOWN) {            // 标记环            vised_dq.clear();            memset(vised, 0, sizeof(vised));            mark_loop(i);        }    }    if (origs != tars && in1_cnt == CHSZ) {        // 判断是否全部都在环中，用入度为 1 的数量来判断        cout << -1 << '\n';        return;    }    cout << diff_chs + abs_lp_cnt << '\n';}int main() {    int t;    cin >> t;    while (t--) {        string origs, tars;        cin >> origs >> tars;        solve(origs, tars);    }}

[Stanford CS144] Lab4 实验记录

2023-01-29T16:00:00.000Z

代码实现 TCP 状态流转图

Lab4 的主要作用是把前面的 receiver 和 sender 结合起来，形成一个完整的 TCP 协议栈。所以熟悉 TCP 的状态流转图就很重要了。

下面是一个 TCP 的状态流转图：

TCP 连接的建立

参考上图，可以看到 TCP 有两种建立连接的方法。第一种是主动连接，即给对方发送一个 SYN 包。第二种是被动连接，即接收到一个 SYN 包后，回复 SYN+ACK 包。

主动连接

对于主动连接，我们需要实现 connect() 函数：

void TCPConnection::connect() {    _shutted = false;    _sender.fill_window();    send_sender_segs();}

这里的 shutted 变量表示连接是否已经关闭，之后在 active() 函数中使用。因为我们之前实现过 TCPSender 的 fill_window() 函数，它会记录连接是否已经建立，如果没有会自动发送 SYN 包。

不过 TCPSender 的 fill_window() 仅仅会把要发送的 TCP 包推入它的 _segments_out 队列。我们需要把这里的包放到 TCPConnection 的 _segments_out 中，这样 sponge 才会用 IP 协议把它们发送出去。

所以 fill_window() 后面的 send_sender_segs() 中的一个作用就是把 _segments_out 中的包放到 TCPConnection 的 _segments_out 中。

当然，TCPSender 发送包的时候是不清楚一些报头中的信息的。比如 win 和 ackno，前者代表 TCPReceiver 还能接收多少数据，后者代表 TCPReceiver 已经收到的数据。所以我们还需要在 send_sender_segs() 中把这些信息填好：

填写过程中有一个比较坑的地方，就是报头中 win 的范围。查看 TCPHeader 中 win 的定义：

uint16_t win = 0;           //!< window size

可以发现这是一个 16 位的无符号整数。但是在 TCPReceiver 中，window_size() 返回的是一个 64 位的整数：

size_t TCPReceiver::window_size() const {     // 从 ackno 开始，还能接收多少字节    return _capacity - _reassembler.stream_out().buffer_size();    // window_size() + buffer_size() = capacity}

如果强行调用 window_size() 给 win 赋值，可能会造成溢出，所以赋值的时候需要这样写：

seg.header().win = min(_receiver.window_size(), (size_t)numeric_limits<uint16_t>::max());

被动连接

再参考状态流转图，如果现在在 LISTEN 状态。收到一个 SYN 包并且回复了 SYN+ACK 包后，连接就建立了。

但是如何确定这个 LISTEN 的状态呢？一个很方便的方法是直接使用 Sponge 提供的 TCPState 类。

其不仅可以判断 TCPConnection 整体的状态，也可以分别判断 TCPSender 和 TCPReceiver 的状态。

这里的 LISTEN 是整体的一个状态。

在 segment_received() 函数中这么写就可以判断当前是否要进行被动连接了：

bool passive_connect = (state() == TCPState::State::LISTEN && seg.header().syn);

如果发现是需要被动连接，那么直接这么写就行了：

// 如果是在 listen 状态，被动建立连接bool passive_connect = (state() == TCPState::State::LISTEN && seg.header().syn);// 对于 receiver, LISTEN// 对于 sender, CLOSED_receiver.segment_received(seg);  // 先调用 segment_received 才知道要回复什么 acknoif (passive_connect) {    connect();    return;}

现在为止，我们已经成功的建立了连接。对于每个新到达的包，只需要在 segment_received() 中调用 _receiver.segment_received() 和 _sender.ack_received() （这样 sender 知道对方收到了哪些信息，可以重发没有收到的）来更新信息就可以一直维持连接了。

TCP 连接的关闭

相比建立连接，关闭连接会显得复杂一些，并且不能保证总是“完美”的关闭。

计算机网络学科中，有一个著名的思想实验来描述 TCP 不能完美关闭连接的问题 – 两军问题。维基百科的描述^[1]如下：

两支军队由不同将军领导，准备进攻一座坚固的城市。军队在城市附近的两个山谷扎营。由于有另一个山谷将两山隔开，两名将军只能透过派信使穿越山谷通信，但这山谷由城市护卫占领，有可能俘虏途径山谷传递消息的任何信使。
虽然两军已约定要同时进攻，但尚未约定进攻时间。要顺利攻击，两军必须同时进攻。如果同一时间仅一支军队进攻就会战败，因此两名将军须约定攻击时间，并确保对方知道自己同意了进攻计划。

将军甲首先派信使向将军乙传递消息“在8月4日9时进攻”。然而，派遣信使后，将军甲不知道信使是否成功穿过敌方领土。由于担心自己成为唯一的进攻军队，将军甲可能会犹豫要否按计划进攻。
为了消除不确定性，将军乙可以向将军甲发送确认消息“我收到了您的消息，并会在8月4日9时进攻”，但传递确认消息的使者同样可能会被敌方俘虏。由于担心将军甲没有收到确认消息而退缩，将军乙会犹豫要否按计划进攻。
再次发送确认消息看来可以解决问题——将军甲再让新信使发送确认消息：“我已收到您确认在8月4日9时进攻”。但是，将军甲的新信使也可能被俘虏。显然，无论确认几次都无法满足该问题的条件二，即两方都必须确保对方已同意计划，两名将军总会怀疑他们最后派遣的使者有否顺利穿过敌方领土。

可以发现，TCP 关闭连接的时候，也存在同样的问题。当 A 发送断开连接的消息后，B 可以发送一个 ACK 包表明收到了断开的消息。然而，B 不知道 A 是否收到了 ACK 包，从而担心 A 是否会正常关闭。A 当然可以再回复一个 ACK 包，但这就陷入了两个将军的困境中。

多次的互相发送确认消息看起来可能能减少错误，但是 TCP 协议中是不会对一个 ACK （即不包含实际数据的包，只有 ACK）包回复 ACK 包的，所以我们还需要一些别的解决方案。

和建立连接类似，断开连接时我们也可以分为主动和被动两个方面去讨论。

被动关闭解释

和主动关闭相比，被动关闭相对比较简单。所以我们可以先讨论。

被动和主动关闭端点的唯一区别就是发送 FIN 包的先后。主动关闭在发送完所有自身出向字节流产生的 TCP 包后，会发送一个带 FIN 的包。

虽然这时连接的一方已经发送 FIN 了，但这并不代表连接就已经关闭了。因为被动的一方可能还有数据没发完。等到发完后，被动端也会发送一个 FIN 进入 LST_ACK 状态。

这个状态唯一的目的就是等待另一端发送对 FIN 的确认信息。如果主动方没确认，被动方还需要一直发送 FIN 来确保对方收到了。

待收到 ACK 后，就可以直接关闭了。

主动关闭解释

如果出向的字节流已经被完全发送出去了，连接的一方就会发送 FIN 并进入 FIN_WAIT_1 状态。表明 TCP 双向连接的其中一向已经关闭了（即当前端点只接收数据，不会再新发送）。对方确认该 FIN 消息后，当前端点会转换到 FIN_WAIT_2 状态，等待对方完全发送它想传输的数据。

收到对方的 FIN，并且确认后，端点就进入了 TIME_WAIT 状态。这个状态代表代表着：

当前端点完成了对入向字节流的重排，并且入向字节流已经关闭
出向字节流被完全发送并且确认。

虽然进入 TIME_WAIT 后，我们无法确定对方是否收到了对于其 FIN 的确认消息，但是如果对方没有收到，大概率是会在一定的时间内重发 FIN 的（TCP 的超时重传机制，TCPSender 有实现）。

虽然网络可能比较拥堵，但如果我们等待（linger）了比较长的一段时间对方都没有重发，那大概率是对方已经收到确认消息并且关闭连接了。

这个等待的时间在实验指导书中有写到：

it has been at least 10 times the initial retransmission timeout (cfg.rt_timeout) since the local peer has received any segments from the remote peer.^[2]

如果采用的是默认的 cfg.rt_timeout，那么总的等待时间最少是 10 秒。

被动关闭实现

前面提到了被动关闭的一方不需要等待，也就是 linger，用如下的代码就可以实现出来：

// 在 segment_received 中    // 后发 fin（先收到 fin）的端点不需要 linger    // 这里是 ESTABLISHED 向 CLOSE_WAIT 的转换    if (TCPState::state_summary(_receiver) == TCPReceiverStateSummary::FIN_RECV &&        TCPState::state_summary(_sender) == TCPSenderStateSummary::SYN_ACKED) {        // 不能直接用 state() == CLOSE_WAIT 是因为 CLOSE_WAIT 要求 linger_after 也是 false        // 但是我们假设先 linger        _linger_after_streams_finish = false;    }        // 这里是 LAST_ACK 向 CLOSED 的转换    if (TCPState::state_summary(_receiver) == TCPReceiverStateSummary::FIN_RECV &&        TCPState::state_summary(_sender) == TCPSenderStateSummary::FIN_ACKED && !_linger_after_streams_finish) {        // 不能用 state() == LAST_ACK 是因为其代表 sender 发送了 FIN。并不是 FIN 被确认，即 FIN_ACKED        _shutted = true;        return;    }

主动关闭实现

因为 _linger_after_streams_finish 这个变量是默认设为 true 的，所以只要在之前的判断中，这个变量没有被设置成 false，那么我们就是主动关闭的一方。

TCPConnection 类中。唯一一个能够获取当前时间的函数就是 tick() 了，为了实现超时直接断开连接的功能，我们可以在 tick() 中加入如下代码：

if (state() == TCPState::State::TIME_WAIT && _since_lst_rx_ms >= 10 * _cfg.rt_timeout) {        _shutted = true;        _linger_after_streams_finish = false;    }

完成这些后再加上亿点点细节，就可以通过测试了（因为实验指导书上的合作政策写了不能公开代码，所以这里只放部分的代码片段），测试结果如下：

./tcp_benchmarkCPU-limited throughput                : 0.37 Gbit/sCPU-limited throughput with reordering: 0.36 Gbit/s

说实话速度还是比较慢的，主要原因也能从之前的火焰图看出来，是字符串拷贝和处理的问题。我在优化完后应该还会再写一篇博客来介绍优化的过程和内容。

[Stanford CS144] Lab0-Lab3 实验记录

2022-12-24T16:00:00.000Z

注：因为实验指导书和课程文件^[1]里都明确的写了不能公开代码，所以博客上的实验记录就主要记录思路以及一些核心代码片段，不会公开完整的仓库。

Lab0 networking warmup

Lab 要求实现一个在内存层面上可靠的字节流（ByteStream），感觉和 unix 中的管道挺像的。其实这样先进先出的结构完全可以直接使用 STL 的 queue 实现，会非常简单。但是考虑到 lab 的要求是一个固定大小（capacity）的字节流，个人认为直接开个数组模拟更合适，速度也应该会更快。

具体来说，就是开一个 string（没有直接使用字符数组是因为实验指导书提到了最好使用现代 C++ 的风格，避免使用 new 来手动分配内存）来储存数据，以及一个头指针和尾指针指向字节流的开始和结尾。这样就实现了一个环形队列，peek_output() 函数的实现大概是下面这样的：

string ByteStream::peek_output(const size_t len) const {    size_t peek_size = min(buffer_size(), len);    size_t i = 0;    string ret = "";    ret.resize(peek_size);    while (i < peek_size) {        ret[i] = _data[(_head + i) % _capa];        i++;    }    return ret;}

不过这样的实现虽然看起来比较直观，其性能是比较差的。这主要是因为环形队列中大量的使用了取模运算，造成速度大幅下降。因为我现在还没开始做 Lab4，所以暂时没有太过考虑性能问题，Lab0 的测试结果如下（release 模式）：

[100%] Testing Lab 0...Test project /mnt/e/ocourses/st_cs144/sponge/build    Start 26: t_byte_stream_construction1/9 Test #26: t_byte_stream_construction .......   Passed    0.01 sec    Start 27: t_byte_stream_one_write2/9 Test #27: t_byte_stream_one_write ..........   Passed    0.01 sec    Start 28: t_byte_stream_two_writes3/9 Test #28: t_byte_stream_two_writes .........   Passed    0.01 sec    Start 29: t_byte_stream_capacity4/9 Test #29: t_byte_stream_capacity ...........   Passed    0.22 sec    Start 30: t_byte_stream_many_writes5/9 Test #30: t_byte_stream_many_writes ........   Passed    0.01 sec    Start 31: t_webget6/9 Test #31: t_webget .........................   Passed    0.81 sec    Start 53: t_address_dt7/9 Test #53: t_address_dt .....................   Passed    0.05 sec    Start 54: t_parser_dt8/9 Test #54: t_parser_dt ......................   Passed    0.01 sec    Start 55: t_socket_dt9/9 Test #55: t_socket_dt ......................   Passed    0.01 sec100% tests passed, 0 tests failed out of 9Total Test time (real) =   1.17 sec[100%] Built target check_lab0

Lab1 stitching substring into a byte bytestream

这个 Lab 需要实现一个“重排器（reassembler）”，即把不同的数据片段根据提供的起始下标重新排列成连续的字节流。并且我们还需要保证尽可能快的把收到的数据放入字节流中（即如果 $[0, i]$ 范围内的字符全部被收到了，就应该把这一段的数据立刻放入字节流中）。

先不提实验本身，实验指导书中的要求就挺难理解的，特别是 capacity 的概念。简单来说就是字节流中未读取数据的大小加上重排器的接收范围。

或者说，重排器的容量是有限的，如果某个数据段的 index 太大了，重排器可以直接抛弃。而字节流中的未读取数据越多，最小的，会被抛弃的 index 就会越小。

实现

粗略描述

实现这个重排器有很多种方法，最简单的当然是把每个到达数据片段都复制一遍，然后一发现重排器的前面有连续的数据片段就放入字节流中。

但是很明显，这样的算法是非常低效的，对于每个新到达的数据段，都必须要完整的遍历一遍，即使是之前已经接收过完全一样的数据了。

这里我采用的避免重复复制的方法是实现一个专门维护“段的集合”的数据结构。

对于任何一个新到达的数据段，我们都可以把他的范围表示成 $[l, r)$ 这样的形式。那么我们也可以维护一个段的集合，表示当前还没接收到的数据范围，用 $u$ 表示。对于新到达的段 $x = [l, r)$ ，如果我们能求出 $u$ 和 $l$ 相重合的部分，或者说 $u \cap x$ ，我们就只需要遍历这部分了（即 $x$ 能覆盖的，还未填充的段），而如果我们发现 $u \cap x$ 的长度为 $0$ （新到达的数据不包含任何未接收部分），就可以直接返回了，避免了前面提到的重复遍历问题。

在新数据段的 $u \cap x$ 部分被写入后，我们也需要能够改变 $u$ ，让其去掉 $u \cap x$ 这部分，表示该段已经接收到。

例子

看这样的描述不太清晰，下面是一个例子：

假设我们的目标是接收一个 $[0, 10)$ 的数据段，那么在最开始的时候，还没有任何数据， $u$ 就是 $[0, 10)$ 这个范围。

现在接收到了一段新的数据，为 $x = [2, 5)$ ，那可以求出 $u \cap x = [2, 5)$ ，也就是 $x$ 范围内的数据完全没有重复。

在填充完 $x$ 后，我们进行 $u = u - (x \cap u)$ 的操作（注意这里的 $-$ 不表示差集，表示从 $u$ 中移除一部分），代表 $x \cap u$ 不再是未填充段。现在 $u$ 就变成了 $\{[0, 2), \ [5, 10)\}$ 。

现在再接收一个新数据段 $y = [1, 6)$ ，可以发现其完全覆盖了之前的 $x = [2, 5)$ ，但是我们不需要重复的去遍历之前已经被填充的部分，而是根据 $y$ 和 $u$ 求交的结果 $u \cap y = \{[1, 2), \ [5, 6)\}$ 来填充。

需求

到此为止，需要实现的数据结构就比较清晰了。我们应该先实现两个类，第一个表示单个的段（Seg），第二个表示很多段的集合（Segs）。

对于 Segs，需要有以下几个功能：

求出和一个 Seg 的交集，即前面提到的 $u \cap x$ 操作。
删去一个 Seg，即前面提到的 $u = u - (u \cap x)$ 操作。

我们知道一个 Segs 里面可能有很多个 Seg。如果我们要实现 Segs $a$ 和 Seg $b$ 的求交操作，就需要先找出 $a$ 的一个子集 $c$ ，这个子集里的每一个 Seg 都和 $b$ 有重合的部分，大概是下面这样的：

         1        2(c1)            3(cn)            4Segs a : |---|    |-----|          |--------|       |---|Seg  b :        |-----------------------|

图中 $a$ 的 2 号和 3 号 Seg 就和 $b$ 有重合部分，属于子集 $c$ 。

算法

可是一个一个的去遍历 $a$ 中的小 Seg 是线性的复杂度，也没比朴素算法好多少。

这里我采用的优化方法是二分。

我们设子集 $c$ 的第一个段为 $c_1$ （在上图中就是 2 号段），再设子集 $c$ 的结束段为 $c_n$ （上图中的 3 号段）。

那么通过观察可以发现， $c_1$ 一定是第一个右端点比 $b$ 的左端点大的段。而 $c_n$ 一定是最后一个左端点比 $b$ 的右端点小的段。很明显，这样如同“最大化最小值”的表达是可以通过二分解决的，但前提是 Segs 类里对于多个 Seg 的储存必须是有序的。

因为 Segs 类中会处理频繁的插入和删除，我实现的时候采用了 std::set 来储存不同的段，同时把这些段维持在一个有序的状态里，方便查询。

这样一来，查询 $c_1$ 和 $c_n$ 的复杂度就降到了 $\log(段数)$ 。

这个查询 $c_1$ 和 $c_n$ 的函数可以说是整个数据结构里最核心的函数了，如下，别的部分因为不公开代码的规定还是不太方便展示。

template <integral T, bool REC_LEN>typename std::pair<typename Segs<T, REC_LEN>::s_iter_t, typename Segs<T, REC_LEN>::s_iter_t>Segs<T, REC_LEN>::intersect_iter(const Seg<T> &b) const {    // return the first and last iterator of the intersected segments    // 返回第一个和最后一个和 b 有重叠的段的迭代器    if (b.len() == 0)        return {_segs.end(), _segs.end()};    auto fir = fir_GT_iter_r(b.l); // 前文讲的 c1，是第一个右端点比查询段大的段    if (fir != _segs.end() && ((*fir) ^ b).len() == 0)  // if no intersection        fir = _segs.end();    auto las = lst_LT_iter(b.r); // 前文的 cn，是最后一个左端点比查询段的右端点小的段    if (las != _segs.end() && ((*las) ^ b).len() == 0)        las = _segs.end();    // 处理 c1 和 cn 没找到的一些情况    if (fir == _segs.end() && las != _segs.end())        fir = las;    if (fir != _segs.end() && las == _segs.end())        las = fir;    return {fir, las};}

然后在 StreamReassembler::push_substring，就可以直接根据 Segs 提供的范围填充数据了：

……    // insert new arrival into _tmp    const Seg coverage{index, index + data.size()}; // 新到达数据段的范围    auto &&unfilled_intersect = _unfilled_segs ^ coverage; // 这里我重载了 ^ 这个符号，表示求交    for (auto &s : unfilled_intersect) {        // s 表示一个未填充的段        for (size_t i = s.l; i < s.r && (i - _fir_unpushed_idx) <= _capacity; i++) {            _tmp[i - _fir_unpushed_idx] = data[i - index];            // 这里 _tmp[0] 对应的是 _fir_unpusehd_idx，即第一个没被放入字节流的位置            // 所以要加一个偏移量，同时 (i - _fir_unpushed_idx) <= _capacity 确保了 _tmp 不会越界            _unassembled_bt++;        }    }    _unfilled_segs -= coverage;    // find the first unfilled segment, before this segment, all data are filled……

这样实现的 push_substring，性能还是比较令人满意的，如下：

[100%] Testing the stream reassembler...Test project /mnt/e/ocourses/st_cs144/sponge/build      Start 18: t_strm_reassem_single 1/16 Test #18: t_strm_reassem_single ............   Passed    0.01 sec      Start 19: t_strm_reassem_seq 2/16 Test #19: t_strm_reassem_seq ...............   Passed    0.01 sec      Start 20: t_strm_reassem_dup 3/16 Test #20: t_strm_reassem_dup ...............   Passed    0.01 sec      Start 21: t_strm_reassem_holes 4/16 Test #21: t_strm_reassem_holes .............   Passed    0.01 sec      Start 22: t_strm_reassem_many 5/16 Test #22: t_strm_reassem_many ..............   Passed    0.10 sec      Start 23: t_strm_reassem_overlapping 6/16 Test #23: t_strm_reassem_overlapping .......   Passed    0.01 sec      Start 24: t_strm_reassem_win 7/16 Test #24: t_strm_reassem_win ...............   Passed    0.10 sec      Start 25: t_strm_reassem_cap 8/16 Test #25: t_strm_reassem_cap ...............   Passed    0.07 sec      Start 26: t_byte_stream_construction 9/16 Test #26: t_byte_stream_construction .......   Passed    0.01 sec      Start 27: t_byte_stream_one_write10/16 Test #27: t_byte_stream_one_write ..........   Passed    0.01 sec      Start 28: t_byte_stream_two_writes11/16 Test #28: t_byte_stream_two_writes .........   Passed    0.01 sec      Start 29: t_byte_stream_capacity12/16 Test #29: t_byte_stream_capacity ...........   Passed    0.20 sec      Start 30: t_byte_stream_many_writes13/16 Test #30: t_byte_stream_many_writes ........   Passed    0.01 sec      Start 53: t_address_dt14/16 Test #53: t_address_dt .....................   Passed    0.05 sec      Start 54: t_parser_dt15/16 Test #54: t_parser_dt ......................   Passed    0.01 sec      Start 55: t_socket_dt16/16 Test #55: t_socket_dt ......................   Passed    0.01 sec100% tests passed, 0 tests failed out of 16Total Test time (real) =   0.70 sec[100%] Built target check_lab1

后面我还用 perf 生成过火焰图尝试继续优化一下这个实现，生成的结果如下（这个 svg 图是可以交互的，不过需要在单独的一个窗口打开）：

这里第一张是 debug 模式下的，第二张是 release 模式下的，可以看到，在 release 模式下，很多函数都被内联了，没法很好的分析。但是 debug 模式中，可以发现在 push_substring 这个函数里，Segs 的操作只使用了很少的时间，反倒是 deque 的字符串操作非常耗时，比如：

_ZNSt5dequeIcSaIcEEixEm -> std::deque >::operator[](unsigned long)_ZNSt5dequeIcSaIcEE5frontEv -> std::deque >::front()

这样的函数。

很显然，用 deque 去存临时数据不是一个很好的选择，不过鉴于 Segs 的性能是比较良好的，我现在就先不改了，等到 Lab4 优化性能的时候在专门去改善一下字符串拷贝的问题。

Lab2 the TCP receiver

这个 Lab 有两个部分，第一个需要实现相对和绝对 seqno 的互相转换，第二部分才真正的使用之前实现的包装类来写 TCP receiver。

要写出这个 Lab 还得对 TCP 报头（header）有一些基本的了解。首先，一段消息在 TCP 协议中可能会被拆成很多小段传输，而每段都会有一个报头。其中的 SYN 和 FIN 分别标志着传输的开始和结束。

即，如果报头中的 SYN 标志位为真，表明这个 TCP 包是整段消息的第一个包，对于 FIN 也是同理（最后一个包）。

一般来说，我们把 0 作为一串数据中第一个的下标（比如字符数组），但是在 tcp 中不是这样的，这个第一个数据的下标是随机出来的。每个 TCP 报头都会包含一个 seqno，表示这个包中数据的启示下标，那我们知道含有 SYN 的包是整段数据的第一个包，这个包的 seqno 自就是整段数据的第一个下标，我们把这个第一个下标称为 ISN (initial sequence number)。

所以为什么要使用随机的 seqno 呢？这主要是因为防止和历史数据混淆，如果在前面的连接中，有些包发送的特别慢（在网络阻塞时），等到连接关闭了接收端才收到。这个时候，如果 seqno 不是随机出来的，刚刚历史数据的 seqno 有很大可能就在接收端的接收窗口中，被错误的接收了^[2]。

seqno 包装类

虽然这个 TCP 数据包的下标是随机出来的，但是我们使用的时候（比如之前实现的 push_substring 函数），还需要转换成从 0 开始的下标，并且这个下标和 seqno 不一样，是 64 位的。

对于这个从 0 开始的下标，实验指导书称之为 abs seqno（即绝对 seqno），我们需要写一个类来专门转换这两种 seqno。

从 abs seqno 转换到 seqno 非常简单，只需要直接返回 ISN + abs_seqno 就行了，自然溢出后直接就能得到 seqno。

但是从 seqno 转换到 abs seqno 就没那么简单了。seqno 是 32 位的，而 abs seqno 是 64 位的。同一个 seqno 可以对应多个 abs seqno。所以要实现的 unwrap 函数里面多了一个 checkpoint，转换出来的 abs seqno 需要是最接近 checkpoint 的那个。

其实这个问题还是用数学的语言来解释更加清晰一点。设 checkpoint 为 $c$ ，seqno 为 $s$ ， $M = 2^{32}$ 。

那么问题就转化为了：求一个 $s_a$ (asb seqno)，使得 $s_a \equiv s - \text{isn} \pmod M$ ，同时，最小化 $|s_a - c|$ 。

我的实现是下面这样的，第一眼看上去可能有些迷惑（实际上下面解释也挺迷惑的，我试了好几种表达方法，但碍于本人的数学和语文水平，都没法把这个想法清晰的表达出来）：

//! \param n The relative sequence number//! \param isn The initial sequence number//! \param checkpoint A recent absolute 64-bit sequence numberuint64_t unwrap(WrappingInt32 n, WrappingInt32 isn, uint64_t checkpoint) {    WrappingInt32 wrapped_ckp = wrap(checkpoint, isn);     // 模 2^32，同时 + isn    // 实际上是把一个绝对的 ckp 变成一个在 isn 意义下的相对 ckp     int32_t offset = n - wrapped_ckp;    static constexpr uint32_t MX32 = numeric_limits<uint32_t>::max();    int64_t ret = offset + checkpoint;    if (ret < 0)        return ret + MX32 + 1;     return ret;}

这里的 offset 代表的是 checkpoint + isn 到要转换的 seqno（在模 $2^{32}$ 的意义下）的距离，可以是正的也可以是负的。

0     2^32     2*2^32     3*2^32|        |        |        ||--------|--------|--------| |     |                 |seqno  ckp + isn       ckp + isn（实际） |<--->|  offset

为了得到一个和 ckp + isn 最近的 seqno，可以把刚刚得到的 offset 加到 ckp + isn 上。相当于是给 seqno 加上了某个 $2^{32}$ 的倍数。

把这个 offset + ckp + isn 减去 isn 就得到了 abs seqno （因为 seqno 和 abs seqno 就差了个 isn）。

所以 abs seqno 就等于 offset + ckp。

不过，直接这样计算可能会有得不到最优解，下面就是直接采用这个方法的计算结果：

0     2^32     2*2^32     3*2^32|        |        |        ||--------|--------|--------|                   |     |                                 seqno  ckp + isn                         |<--->|                    offset

可以看到，如果直接给当前 seqno 加上 $2^{32}$ ，其与 ckp + isn 的距离会更近。同时也符合前面提到的 $s_a \equiv s - \text{isn} \pmod M$ 。

可以思考一下，这样得不到最优解的情况只会发生在 $|\text{offset}| > 2^{32} \div 2$ 的情况下。

因为我们给 seqno 加上任意的 $2^{32}$ 的倍数，其在模 $2^{32}$ 的意义下是不变的。但是在 seqno 加这个倍数的同时，offset 是会变化的（而我们希望最小化 offset）。

比如 $\text{offset} = -2^{32} + 1$ （这肯定符合 $|\text{offset}| > 2^{32} \div 2$ ）。那么

$\begin{align*} &(\text{offsset} + 2 ^ {32}) = 1\end{align*}$

像刚才那样的例子，直接给 seqno 加上 $2^{32}$ 就变成了：

2^32     2*2^32   3*2^32   4*2^32|        |        |        ||--------|--------|--------|                |  |                         ckp + isn  seqno                       <-->                offset

这时候，利用自然溢出，我们自己根本不用处理这个问题。

注意到在代码里面，储存 offset 的类型是 int32_t，其有符号，储存的范围刚好是 $[-2^{32} \div 2, 2^{32} \div 2 - 1]$ 。

所以一旦 $|\text{offset}| > 2^{32} \div 2$ ，offset 就会“自动”给自己加上或减去 $2^{32}$ 的倍数，来最小化自己。

当然，这样的实现还是有 bug 的，比如下面这样：

0                      2^32|-----------------------|  |                  |  ckp+isn            seqno  |<---------------->|          offset

很明显，这里的 offset 是正数，并且大于 $2^{31}$ 。虽然这个时候给 seqno 减去一个 $2^{32}$ 会让 offset 的绝对值更小，但是这会让 seqno 变成负数，显然是不行的。所以写了下面这几行来防止出现负数，即，如果出现了负数就把这个 $2^{32}$ 加回去。

static constexpr uint32_t MX32 = numeric_limits<uint32_t>::max();    int64_t ret = offset + checkpoint;    if (ret < 0)        return ret + MX32 + 1;

。

CF1774C 题解

2022-12-18T03:33:18.821Z

吐槽一下，官方题解写的挺难看懂的，看了好久还是挺迷糊的（其实也是我太菜了）。搞懂之后感觉这题挺妙的，来写下题解。

思路

我们首先需要有一个观察，就是对于 $s$ 串，最后一个连续字串不会增加可能的获胜人数。比如 $s = \texttt{0011}$ 时，后面结尾的 $\texttt{11}$ 就不会增加可能的获胜人数。

为啥呢，设我们设经过任意次数对战后，玩家可能组合的集合为 $t$ 那么对于任意的 $x \in t$ ，连续在环境 $1$ 中对战任意次数后，最终的赢家一定是 $x$ 中温度最高的（因为每个剩下的玩家都会需要连续在环境 $1$ 中对战，唯一能胜出所有对战的玩家一定是最大的）。同理， $t$ 中的玩家连续在环境 $0$ 中对战任意次数后，最终的赢家一定是 $x$ 中温度最低的。

例如， $s = \texttt{111}$ 时，最后胜出的一定是 $4$ 号玩家。

这样一来，如果结尾段是 $1$ （ $0$ 结尾同理，后面为了方便先用 $1$ 的例子了），我们只需要算出前面的部分最多能构造出多少种最大值（玩家温度）不同的玩家组合，就能知道当前长度的 $s$ 的答案了。

现在考虑如何构造出最多的最大值不同的玩家组合。如果玩家数量为 $n$ ，那么没有经过任何对战时，最大值就是 $n$ 。想要让最大值不同，只能删除当前的最大值。

特殊情况

刚刚的描述可能比较抽象，考虑 $s = \texttt{0011}$ 这个例子就能较好的理解了。

对于第一个 $0$ ，除了玩家组合中温度最低的不能删掉（这个不管怎样都能赢），其他的都能删掉（让温度最低的玩家和其他任意玩家对战），共有如下几种情况：

$1 : \texttt{1234} \cancel{\texttt{5}} \\2 : \texttt{123} \cancel{\texttt{4}} \texttt{5} \\3 : \texttt{12} \cancel{\texttt{3}} \texttt{45} \\4 : \texttt{1} \cancel{\texttt{2}} \texttt{345} \\$

观察发现，只有第一种情况改变了最大值（~~为啥呢？因为他删掉了最大值~~）。其他的情况中，必须要连续的删除结尾的一段数字，才能改变最大值。

这时候第二个 $0$ 就起到作用了。对于第二种情况，其可以把 $5$ 删掉，使得玩家组合的最大值变为 $3$ 。我们按照这个规律可以进一步推广出这个结论：设结尾段前面连续段的长度为 $l$ ，能产生的最大值不同的玩家组合就为 $l + 1$ ，具体来说，可能的最大值范围是 $[n - l, n]$ 。（这里 $+1$ 是因为可以选择不改变最初的最大值）。

现在为止，我们已经能求出 $s$ 只有两个连续段时的答案了。即 $n - k$ ，其中 $k = |s| - l$ ，表示结尾段的长度。

推广

这个时候我们把例子换成 $s = \texttt{1011}$ ，看看例子是否还成立（ $s$ 不止一段）。同样，可以列出第一次对战后的可能玩家组合。因为第一个环境是 $1$ ，所以只能删除除了最大值以外的其他玩家：

$1 : \texttt{123} \cancel{\texttt{4}} \texttt{5} \\2 : \texttt{12} \cancel{\texttt{3}} \texttt{45} \\3 : \texttt{1} \cancel{\texttt{2}} \texttt{345} \\1 : \cancel{\texttt{1}} \texttt{2345} \\$

虽然这些情况中，没有任何一种改变了玩家组合的最大值，但是我们只要在接下来的 $0$ 环境中再对战一次，删除掉 $5$ ，就产生了 $2$ 种新的最大值。对于第一种情况，最大值变为了 $3$ ，第二种变为了 $2$ 。一共也是 $n - k$ 种答案。

那如果段数再多一点呢？比如 $s = \texttt{01011}$ 。这个结论还是成立的。我们可以把 $\texttt{010}$ 看作一组环境，其中 $0$ 可以删除 $[2, n]$ 范围内的任何玩家， $1$ 则为 $[1, n - 1]$ 中的任何玩家。把这两种环境组合起来就可以从 $[1, n]$ 种任意挑选 $3$ 个删除，构造出 $4$ 种不同的最大值（取决于你删除前多少个温度最大的玩家）。

代码和实现

通过前面的例子我们已经分析出了，解决问题只需要知道 $s$ 的 $[1, i]$ 子串中，最后一个连续段的长度。不过对于每个 $i$ 都扫一遍太慢了，需要采用类似动态规划的东西，具体我在代码注释里有解释：

#includeusing namespace std;#define ll long longint main(){    int t;    cin >> t;    while(t--){        int n;        string s;        cin >> n >> s;        int cur0len = 0; // 最后一个连续段如果是 0 的话 cur0len 表示其长度，                         // 如果不是的话 cur0len 就是 0         int cur1len = 0; // 和 1 相同        int curn = 2;    // 最开始是两个玩家        for (char ch : s){            int x = ch - '0';            if (x == 0){                cur0len++;   // 当前是 0 的话 0 结尾的连续段会比原来更长                cur1len = 0; // s 的最后一个不是 1 了            } else {                cur1len++;                cur0len = 0;            }            cout << curn - (x ? cur1len : cur0len) << " ";            // 前文中的 n - k            curn++;        }        cout << '\n';    }}

反向传播（Backpropagation）算法学习笔记，基于全连接神经网络

2022-10-30T16:00:00.000Z

upd@2022/11/5：添加了具体实现，修正了推导中的一些符号错误

反向传播算法的主要目的是计算出神经网络中误差对于偏置和权重等参数的偏导数，以此来进行梯度下降。本文的上半部分主要是算法的推导，后半部分使用全连接神经网络和 mnist 数据集实现手写数字识别。

这个算法对我来说还是很难理解的，为了防止自己忘掉，就写了这篇笔记（还有就是神经网络里这些公式的上标下标太多了，如果用真的笔记本写，稍微一不小心就写错了）。如果你对神经网络还没有基本的概念，推荐去看 3b1b 的神经网络系列视频

这里必须说一句 MqCreaple 大佬真的太巨了，看了视频之后直接手推了全部的公式~~更令人震惊的是居然把我这种人教会了~~。

公式推导

符号和语言约定

${\sigma()}$ 表示激活函数
$E$ 表示最终误差
$\operatorname{err}()$ 表示误差函数
$\hat{y}$ 表示神经网络给出的预测值，而 $y$ 表示实际的答案
$l$ 表示神经网络的层数，值越小代表离输入层越近
$w^{[l]}_{ji}$ 表示一条从 $l$ 层 $j$ 节点连接到 $l - 1$ 层 $i$ 节点的边
$b^{[l]}_{i}$ 表示 $l$ 层 $i$ 节点的偏置
$z^{[l]}_{i}$ 表示 $l$ 层 $i$ 节点不加激活函数的输出
$a^{[l]}_{i}$ 表示 $\sigma(z^{[l]}_{i})$ ，即该节点经过激活函数后的输出
$n^{l}$ 表示 $l$ 层节点的数量。
变量下的下划线表示常数，如 $\underline{x}$
某个层前面的层指其 $l$ 更小，反之亦然。

每层为单节点的神经网络

先考虑一个最简单的全连接神经网络，其每层只有一个节点，那么可以画出下图，代表单个节点的输出值 $a^{[l]}$ 的计算流程（通过箭头起点的变量以及对应的函数可以得到箭头指向的变量）。

  graph TB alm1["a(l-1)"] & w & b --> z --> al["a(l)"] --> 误差值 y-->误差值

如果我们写成函数的形式，是下面这样的：

$z^{[l]} = wa^{[l-1]} + b \\a^{[l]} = \sigma(z^{[l]}) \\E = \operatorname{err}(a^{[l]}, y)$

那如果我们想要根据误差值来对于权值 $w^{[l]}$ 梯度下降，就需要求出误差对权值的偏导数，即：

$\frac{\partial E}{\partial w^{[l]}}$

使用偏导数是因为 $z^{[l]}$ 的计算依赖于三个变量，而我们希望知道改变 $w^{[l]}$ 后对误差值的影响。

求偏导时，我们假设其他变量都是常数，只有一个变量在变化（以及被这个变量直接影响的其他变量，这种情况下是上图中 $w^{[l]} \to z{[l]} \to a^{[l]} \to E$ 的链），那可以写出如下的式子（常数下有下划线）：

$E = \operatorname{err}(\sigma(w^{[l]}\underline{a^{[l-1]}} + \underline{b}), \underline{y})$

这个时候可以使用链式求导：

$\begin{align*} E^\prime = \operatorname{err}^\prime(&\sigma(w^{[l]}\underline{a^{[l-1]}} + \underline{b}), \underline{y}) \\ \cdot &\sigma^{\prime}(w^{[l]}\underline{a^{[l-1]}} + \underline{b}) \\ \cdot &(w^{[l]}\underline{a^{[l-1]}} + \underline{b})^\prime\end{align*}$

写成另一种形式（更方便之后使用）就是：

$\begin{align*} \frac{\partial E}{\partial w^{[l]}} = \frac{\partial z^{[l]}}{\partial w^{[l]}} \cdot \frac{\partial a^{[l]}}{\partial z^{[l]}} \cdot \frac{\partial E}{\partial a^{[l]}}\end{align*}$

然后可以求出链式法则的各个中间偏导数，进一步还可以写作下面的形式（假设误差函数是平方误差函数）：

$\begin{align*} \frac{\partial z^{[l]}}{\partial w^{[l]}} &= (w^{[l]}\underline{a^{[l-1]}} + \underline{b})^\prime = a^{[l-1]} \\ \frac{\partial a^{[l]}}{\partial z^{[l]}} &= \sigma^{\prime}(z^{[l]}) \\ \frac{\partial E}{\partial a^{[l]}} &= 2(a^{[l]} - y)\end{align*}$

注意 $2(a^{[l]} - y)$ 这里不能反了（举个例子， $a^{[l]}$ 过大的时候我们希望导数也大，这样可以给要调整的值减去导数）。

上面展示的是误差对于权值的偏导，对于偏置和上一层的输出，只需要替换掉 $\frac{\partial E}{\partial w^{[l]}}$ 公式中的 $\frac{\partial z^{[l]}}{\partial w^{[l]}}$ 即可。或者说让上一层的输出和这一层的偏置来影响 $z^{[l]}$ ，而不是权值。

对于 $b^{[l]}$ ，替换成：

$\frac{\partial z^{[l]}}{\partial b^{[l]}} = (\underline{w^{[l]}a^{[l-1]}} + b)^\prime = 1$

对于 $a^{[l - 1]}$ ，替换成：

$\frac{\partial z^{[l]}}{\partial a^{[l - 1]}} = (\underline{w^{[l]}}a^{[l-1]} + \underline{b})^\prime = w^{[l]}$

现在考虑如下一个网络：

  graph TB al["a(l)"] & wlp["w(l + 1)"] & blp["b(l + 1)"] --> zlp["z(l + 1)"] --> alp["a(l + 1)"] --> ...别的很多层 __["w(l + 2)"] & _["b(l + 2)"]-->...别的很多层

也就是 $a^{[l]}$ 的下一层不直接连接误差函数，而是有多层。那 $\frac{\partial E}{\partial a^{[l]}}$ 就不能直接求出了（也就不能直接求出 $w^{[l]}$ 和 $b^{[l]}$ 的偏导），因为 $E$ 在很多层之后。这时候就需要用到反向传播的思想了。

我们知道：

$\frac{\partial E}{\partial a^{[l]}} = \frac{\partial z^{[l + 1]}}{\partial a^{[l]}} \cdot \frac{\partial a^{[l + 1]}}{\partial z^{[l + 1]}} \cdot \frac{\partial E}{\partial a^{[l + 1]}}$

观察式子可以发现我们能从后层推出前层的 $\frac{\partial E}{\partial a^{[l]}}$ ，所以在求权值和偏置的偏导前，我们需要先从输出层开始，一点一点的把 $\frac{\partial E}{\partial a^{[l]}}$ 向前传。

每层为多节点的情况

在刚刚的例子中，反向传播算法的过程还是很清晰的，没有任何的线性代数。不过在真实的神经网络中，每层有多个节点，如下：

  graph LR     l1["(l-1)1"] & l2["(l-1)2"] & l3["(l-1)3"] ---> lp1["l1"] & lp2["l2"] & lp3["l3"]

误差对权值的偏导

$w^{[l]}_{ji}$ 表示一条从 $l$ 层 $j$ 节点连接到 $l - 1$ 层 $i$ 节点的边。要如何求 $\frac{\partial E}{\partial w^{[l]}_{ji}}$ 呢？

我们其实还是可以把原来的公式带进来，毕竟多节点的层本质上还是由多个单节点的层组成的，不过要注意下标：

$\begin{align*} \frac{\partial E}{\partial w^{[l]}_{ji}} &= \frac{\partial z^{[l]}_j}{\partial w^{[l]}_{ji}} \cdot \frac{\partial a^{[l]}_j}{\partial z^{[l]}_j} \cdot \frac{\partial E}{\partial a^{[l]}_j} \\ &= a^{[l-1]}_i \cdot \sigma^\prime (z^{[l]}_j) \cdot \frac{\partial E}{\partial a^{[l]}_j}\end{align*}$

注意这里和 $l-1$ 层有关的变量我们都使用的是 $i$ ，比如 $a^{[l-1]}_i$ （直观理解的话就是，改变单位权重，上一层的输入越大就对最终的误差函数影响越大），和 $l$ 层有关的使用的都是 $j$ 。

因为 $\sigma^\prime (z^{[l]}_j) \cdot \frac{\partial E}{\partial a^{[l]}_j}$ 的下标是一样的，我们为方便书写矩阵运算的公式，就叫他 $r_j$ 。

重写一下刚才的公式：

$\frac{\partial E}{\partial w^{[l]}_{ji}} = r_j \cdot a^{[l-1]}_i$

$w^{[l]}$ 写成矩阵形式的话， $j$ 随行增长， $i$ 随列增长。那上面的导数就是：

$\frac{\partial E}{\partial w^{[l]}} =\begin{bmatrix} r_1 a^{[l-1]}_1 & r_1 a^{[l-1]}_2 & \cdots & r_1 a^{[l-1]}_{n^{l-1}} \\ r_2 a^{[l-1]}_1 & r_2 a^{[l-1]}_2 & \cdots & r_2 a^{[l-1]}_{n^{l-1}} \\ \vdots & \vdots & \ddots & \vdots \\ r_{n^l} a^{[l-1]}_1 & r_{n^l} a^{[l-1]}_2 & \cdots & r_{n^l} a^{[l-1]}_{n^{l-1}} \\\end{bmatrix}$

观察发现，这个矩阵其实就等于：

$\begin{bmatrix} r_1 \\ r_2 \\ \vdots \\ r_{n^l}\end{bmatrix}\cdot\begin{bmatrix} a^{[l-1]}_1 & a^{[l-1]}_2 & \cdots & a^{[l-1]}_{n^{l-1}}\end{bmatrix}$

这样就可以使用矩阵运算库（如 numpy）来加速了。

误差对偏置的偏导

这个就相对简单，因为 $\frac{\partial z^{[l]}_j}{\partial b^{[l]}_j}$ 等于 $1$ （见前文），所以可以很方便的计算。

$\begin{align*} \frac{\partial E}{\partial b^{[l]}_j} &= \frac{\partial z^{[l]}_j}{\partial b^{[l]}_j} \cdot \frac{\partial a^{[l]}_j}{\partial z^{[l]}_j} \cdot \frac{\partial E}{\partial a^{[l]}_j} \\ &= 1 \cdot \sigma^\prime (z^{[l]}_j) \cdot \frac{\partial E}{\partial a^{[l]}_j}\\ &= r_j\end{align*}$

注意这里的误差对偏置的导数就等于前面用到的 $r_j$ ，所以实现的时候一般先计算这个，然后再把 $r_j$ 带入到前文的式子中。

误差对上层输入的偏导

再观察一下前面的多节点神经网络，不过这次主要关注单个 $l - 1$ 节点对后面的影响：

  graph LR     l1["(l-1)1"]  ===> lp1["l1"] & lp2["l2"] & lp3["l3"]

不难发现， $a^{[l-1]}_i$ 可以对每个 $z^{[l]}_j$ 都产生影响。如果我们把 $l$ 层当成一个接收 $n^{l-1}$ 个 $a^{[l-1]}_i$ ，输出 $n^l$ 个 $z^{[l]}_j$ 的函数。那么现在每个输入的变量都在变化，求的就不是偏导数了（偏微分），而是全微分^[1]（total derivative）。

根据全微分的定义，应该把每个参数的偏导加起来，在我们的例子中，就是：

$\begin{align*} \frac{\partial E}{\partial a^{[l]}_i} &= \sum_{j=1}^{n^{l+1}} \left(\frac{\partial z^{[l + 1]}_j}{\partial a^{[l]}_i} \cdot \frac{\partial a^{[l + 1]}_j}{\partial z^{[l + 1]}_j} \cdot \frac{\partial E}{\partial a^{[l + 1]}_j}\right)\\\end{align*}$

其中 $\frac{\partial z^{[l + 1]}_j}{\partial a^{[l]}_i}$ 这个部分需要比较小心的处理。我们需要清楚 $w^{[l+1]}_{ji}$ 是连接 $l + 1$ 层的 $j$ 节点和 $l$ 层 $i$ 节点的边。

那么因为

$z^{[l+1]}_j = w^{[l+1]}_{ji}\cdot a^{[l]}_i + b^{[l+1]}_j$

可以推出

$\frac{\partial z^{[l + 1]}_j}{\partial a^{[l]}_i} = w^{[l+1]}_{ji}$

而

$\frac{\partial a^{[l + 1]}_j}{\partial z^{[l + 1]}_j} \cdot \frac{\partial E}{\partial a^{[l + 1]}_j}$

在前面已经解释过了，就等于 $r_j$ 和误差对偏置的导数。

重写整个式子，可以得到：

$\frac{\partial E}{\partial a^{[l]}_j} = \sum_{j=1}^{n^{l+1}} \left(r_j \cdot w^{[l+1]}_{ji} \right)$

现在可以思考如何以矩阵运算的形式得到 $\frac{\partial E}{\partial a^{[l]}_j}$ 。

一个可行的方法是在 $r_j$ 和 $w^{[l+1]}_{ji}$ 之间做乘法。

注意我们用 $j$ 这个下标来累加，所以如果我们把 $w^{[l+1]}$ 放在左边，其 $j$ 坐标应该随着列数增加而增加（ $A\times B$ 的矩阵乘法中，会对 $A$ 的行和 $B$ 的列做向量的点乘）。而把 $r$ 放在乘法的右边，就需要让其的 $j$ 下标随行数增长。

因为 $w^{[l+1]}$ 的 $j$ 本来是随行增加的，所以要对其进行转制。

最后可以得到：

$\frac{\partial E}{\partial a^{[l]}_j} = (w^{[l+1]})^T \times r$

其中 $r$ 是一个列向量。

实现

这个部分中会使用刚刚讲到的反向传播算法来实现一个简单的全连接神经网络，并且使用这个神经网络来识别 mnist 数据集中的手写数字。

数据预处理

说实话 mnist 这个数据集挺坑的，用的是二进制储存格式，所以想要读取数据集里的内容还得费点功夫。

代码如下^[2]：

# 在项目中的位置：./src/utildef load_mnist(path: str, pref: str = "train"):    """         path: 数据集路径        data_type: 数据集名称前缀（train or t10k）    """    label_path = os.path.join(path, "{}-labels.idx1-ubyte".format(pref))    img_path = os.path.join(path, "{}-images.idx3-ubyte".format(pref))    with open(label_path, 'rb') as lfile: # rb 表示 read binary        magic, n = struct.unpack('>II', lfile.read(8))        labels = np.fromfile(lfile, dtype=np.uint8)    with open(img_path, 'rb') as ifile: # ifile 为 image file        magic, num, rows, cols = struct.unpack('>IIII', ifile.read(16))        images = np.fromfile(ifile, dtype=np.uint8).reshape(            len(labels), 28 * 28)    label_one_hot = np.zeros((len(labels), 10), dtype=int)    for i in range(len(labels)):        label_one_hot[i] = np.eye(10)[labels[i]]    return label_one_hot, images / 255.0

里面这个 struct 的包看起来可能比较迷，实际上他就是一个专门处理二进制数据的类。

struct.unpack('>II', lfile.read(8))

这句话的意思是就是从 lfile 里读取两个大端字节序的 4 字节无符号整数。>II 中的 > 表示了文件是以大端字节序储存的，而 I 则表示读取的是 4 字节无符号整数。

下面的 np.fromfile 也是一个作用，直接把二进制文件转换成了一个 np.array，不用指定字节序应该是因为 numpy 默认的就是大端。

要注意 mnist 数据集中图片单个像素的范围是 $[0, 255]$ 的整数。而我们希望其变成 $[0, 1]$ 的浮点数，所以在输出时间除 255。

想要图片在 $[0,1]$ 范围中主要是因为，如果把一个比较大的数字 sigmoid 函数就会出现溢出问题（虽然每层权值的初始值是 -1 到 1 之间随机生成的，但是有时候会输出较大值），sigmoid 的定义如下：

$\sigma(x) = \frac{1}{1 + e^{-x}}$

这里这个 $x$ 过小那 $e^{-x}$ 就会变成一个特别大的数字，因为 numpy 实际上是调用 c 完成计算工作的，所以不像 python 那样自带高精，这样的数字自然就会造成溢出。

预处理的最后一部是把标签转换成 one-hot（中文翻译为独热）形式（方便最后求误差对整个神经网络的梯度），这里可以用 np.eye(x) 这个函数，它可以生成一个 x\timesx 的对角线矩阵，那么 np.eye(10)[labels[i]] 自然就是 labels[i] 的对应独热编码了。

layer 类

单层神经网路本质上其实是一个函数，其接收一个向量，输出一个向量。不过这个函数是依赖于很多变量的，比如权重和偏置，所以我们希望用一个类将他们存起来。

同时，在反向传播的过程中，也需要用到类中储存的这些变量，所以最好能实现一个函数，其接收误差对当前层的导数，以其他必要的数据，返回误差对前层的导数（反向传播）。

最后，对于本层来说，我们还需要提供一个接口来更新其权重和偏置（如果不同层的数据不是权重和偏置，可以新建一个抽象类专门表示不同层的数据）。

根据这些需求，可以写出层类的抽象类：

注意每个函数的参数名都是符合之前的数学公式的，如果有不明白的可以看前文。

# 在项目中的位置：./src/layer.pyfrom typing import *import numpy as npfrom nptyping import NDArray, Shape, Floatfrom . import utilclass abs_layer():    def __init__(self, insize: int, outsize: int, activ: util.Dfunc = util.sigmoid):        self.insize = insize        self.outsize = outsize        self.activ = activ    def get_z(self, ipt: NDArray) -> NDArray:        """             根据输入返回一个没有经过激活函数的输出        """        pass    def get_a(self, ipt: NDArray) -> NDArray:        """             根据输入返回经过激活函数的输出        """        pass    def get_derivatives(self, prev_a : NDArray, DE_over_cur_a: NDArray, cur_z: NDArray) -> List[NDArray]:        """             prev_a        : 前面一层经过激活函数的输出            DE_over_cur_a : 误差对当前层输出的导数            cur_z         : 当前层没经过激活函数的输出        """        pass    def descent(self, w, b):            """             w : 权重的梯度            b : 偏置的梯度        """        pass

这里的 util.Dfunc 表示的是一个可导的函数，定义如下：

# 在项目中的位置：./src/util.pyclass Dfunc():    """         表示一个可导的函数，f 是原函数，df 是导数        如果 f 是多元函数，则 df 返回的应该是一个向量（不同输入参数的偏导数）    """    def __init__(self, func: Callable, Dfunc: Callable):        self.f = func        self.Df = Dfuncsigmoid = Dfunc(lambda x: 1 / (1 + np.exp(-x)),                lambda x: np.exp(-x) / ((1 + np.exp(-x)) ** 2))sq_err = Dfunc(lambda label, predict: np.sum((predict - label) ** 2),               lambda label, predict: 2 * (predict - label))

对于一个全连接神经网络，可以有如下的实现：

# 在项目中的位置：./src/layer.pyclass dense_layer(abs_layer):    def __init__(self, insize: int, outsize: int, activ: util.Dfunc = util.sigmoid) -> None:        super(dense_layer, self).__init__(insize, outsize)        self.wts = np.random.rand(outsize, insize) * 2 - 1        self.bias = np.random.rand(outsize) * 2 - 1    def get_z(self, ipt: NDArray) -> NDArray:        return np.matmul(self.wts, ipt.reshape(ipt.size, 1)).reshape(self.outsize) + self.bias    def get_a(self, ipt: NDArray) -> NDArray:        return self.activ(self.get_z(ipt))    def get_derivatives(self, prev_a : NDArray,  DE_over_cur_a: NDArray, cur_z: NDArray) -> List[NDArray]:        if (DE_over_cur_a.size != self.outsize):            raise Exception("size of DE_over_cur_a ({}) doesn't equal to number of node in this layer ({})".format(DE_over_cur_a.size, self.outsize),                            DE_over_cur_a                            )        Dbias : NDArray = DE_over_cur_a * self.activ.Df(cur_z)        DE_over_prev_a: NDArray = np.matmul(self.wts.T, Dbias)        Dweight = np.matmul(            Dbias.reshape(Dbias.size, 1),            prev_a.reshape(1, prev_a.size)        )                return [DE_over_prev_a, Dweight, Dbias]        # 返回三个变量，误差对上层输出，对当前层权重和偏置的偏导    def descent(self, w : NDArray, b : NDArray) -> None:        self.wts -= w        self.bias -= b

除了 get_derivatives，其他几个函数都比较好理解，下面大概解释一下。

误差对上层偏导的公式如下：

$\frac{\partial E}{\partial a^{[l - 1]}_j} = (w^{[l]})^T \times r$

对应到实现中，就是这一行：

DE_over_prev_a: NDArray = np.matmul(self.wts.T, Dbias)

这里的 Dbias 就等于 $r$ ，如下：

$r_j = \sigma^\prime (z^{[l]}_j) \cdot \frac{\partial E}{\partial a^{[l]}_j}$

对应代码中的：

Dbias : NDArray = DE_over_cur_a * self.activ.Df(cur_z)

误差对权值导数的公式为：

$\begin{bmatrix} r_1 \\ r_2 \\ \vdots \\ r_{n^l}\end{bmatrix}\cdot\begin{bmatrix} a^{[l-1]}_1 & a^{[l-1]}_2 & \cdots & a^{[l-1]}_{n^{l-1}}\end{bmatrix}$

对应如下代码：

Dweight = np.matmul(            Dbias.reshape(Dbias.size, 1),            prev_a.reshape(1, prev_a.size)        )

neu_net 类

网络类可以把不同的层连接在一起。把上一层的输出作为下一层的输入传递。也可以从误差函数开始反向传播：

初始化函数

# 在项目中的位置：./src/net.pydef __init__(self,  layer_sizes: List[int] | None = None, layers: List[layer.abs_layer] | None = None) -> None:    """         layer_sizes: 第一个是输入大小，最后一个是输出大小    """    if (layers != None and layer_sizes != None):        raise Exception(            "should only provide either layer_sizes or layers",            self        )    if (layers == None):        layers: List[layer.abs_layer] = []        for i in range(0, len(layer_sizes) - 1):            # 这一层的输入等于上一层的输出，等于下一层的输入            layers.append(layer.dense_layer(                insize=layer_sizes[i], outsize=layer_sizes[i + 1]))    self.lays = layers    self.num_lay = len(layers)    self.err = util.sq_err    for i in range(1, self.num_lay):        if (self.lays[i - 1].outsize != self.lays[i].insize):            raise Exception(                "layer {}'s output ({}) not equal to layer {}'s input ({})".format(i-1, self.lays[i-1].outsize, i, self.lays[i].insize), self.lays)

这里有两种方法可以初始化，可以直接提供不同的 layer，让网络类把它们组合在一起，也可以输入一个表示不同层节点数量的类，让初始化函数自动创建对应的全连接网络。

输出函数

def get_predict(self, ipt : NDArray):    lay_z: List[NDArray] = []    lay_a: List[NDArray] = []    lay_z.append(self.lays[0].get_z(ipt))    lay_a.append(self.lays[0].activ.f(lay_z[0]))    for i in range(1, self.num_lay):        lay_z.append(self.lays[i].get_z(lay_a[i - 1]))        lay_a.append(self.lays[i].activ.f(lay_z[i]))    return [lay_z, lay_a]def get_simple_predict(self, ipt : NDArray):    return self.get_predict(ipt)[1][-1]

这里神经网络的第一层比较特殊，不和上一层的输出相连，而是直接用的 ipt，所以要特殊处理。

反向传播

def bp(self, ipt: NDArray, label: NDArray, lrate: float):    lay_z, lay_a = self.get_predict(ipt)                       # 每层的输出    lay_Dw: List[NDArray] = [np.zeros(0)] * (self.num_lay)     # 对权值的导数    lay_Db: List[NDArray] = [np.zeros(0)] * (self.num_lay)     # 对偏置的导数    DE_over_a: List[NDArray] = [np.zeros(0)] * (self.num_lay)  # 误差对节点输出的导数    DE_over_a[-1] = self.err.Df(label, lay_a[-1])    for i in reversed(range(1, self.num_lay)):        DE_over_a[i - 1], lay_Dw[i], lay_Db[i] = self.lays[i].get_derivatives(            prev_a=lay_a[i - 1],            DE_over_cur_a=DE_over_a[i],            cur_z=lay_z[i]        )    lay_Db[0] = self.lays[0].activ.Df(lay_z[0]) * DE_over_a[0]    lay_Dw[0] = np.matmul(        lay_Db[0].reshape(lay_Db[0].size, 1),        ipt.reshape(1, ipt.size)    )    for Dw, Db, lay in zip(lay_Dw, lay_Db, self.lays):        lay.descent(Dw * lrate, Db * lrate)

这里主要的作用就是调用每层的 get_derivatives ，得到不同层输出，权值和偏置的导数。

不过有两个特殊的地方，首先误差对最后一层的导数需要通过误差函数和标签得到，如下：

DE_over_a[-1] = self.err.Df(label, lay_a[-1])

误差对于第一层权值和偏置的导数也只能通过输入的图片得到：

lay_Db[0] = self.lays[0].activ.Df(lay_z[0]) * DE_over_a[0]        lay_Dw[0] = np.matmul(            lay_Db[0].reshape(lay_Db[0].size, 1),            ipt.reshape(1, ipt.size)        )

效果展示

可以看到准确率有 96%，还是很不错的（大概跑了一分多钟吧）。当然训练的方式还有很大优化空间，我也没怎么调参。

1.https://zh.wikipedia.org/wiki/全微分 ↩
2.改编自 https://zhuanlan.zhihu.com/p/120378080 ↩

Ray Tracing : The Next Week 学习笔记（1）

2022-10-19T16:00:00.000Z

一个多月终于断断续续搞完了第二本书里的内容。和前面两篇文章一样，这篇也会写一些我个人花了较长时间才搞懂的部分，以及一些我在原书基础上加的新功能。

对于原书就有的功能，会直接使用书上的代码，如果是我新加进去的功能，会使用自己的代码。因为我的代码在原书基础上做了较大幅度的变化（即使是原来就有的功能），所以只看一段代码可能不太明白，这里可以参考我的 GitHub 仓库： https://github.com/ttzytt/RTOW

bvh_node

这部分主要是一些小细节我当时没太理解。首先是

bvh_node::bvh_node(    std::vector<shared_ptr<hittable>>& src_objects,    size_t start, size_t end, double time0, double time1)

首先是这个构造函数的范围问题。每颗子树是不负责 end 位置的 hittable 的。也就是这个构造函数负责的是 [start, end) 这样的一个区间。

这也解释了代码中 sort 的用法：

std::sort(objects.begin() + start, objects.begin() + end, comparator);

std::sort() 会排序的其实是 [) 这样的一个区间（~~我之前居然没注意到这个~~）。所以这里的 objects.begin() + end 其实没有包括 end。

在排序 vector 等容器时，使用的方法是 sort(vec.begin(), vec.end()) 乍一看没有把 .end() 位置的元素包含进去，但其实 .end() 指向的是一个空的，或者说是最后一个元素更后面的位置（~~这我之前也没注意到~~），所以用这样的方法可以把整个 vector 都排一遍序。

球面纹理坐标

class sphere : public hittable {    ...    private:        static void get_sphere_uv(const point3& p, double& u, double& v) {            // p: a given point on the sphere of radius one, centered at the origin.            // u: returned value [0,1] of angle around the Y axis from X=-1.            // v: returned value [0,1] of angle from Y=-1 to Y=+1.            //     <1 0 0> yields <0.50 0.50>       <-1  0  0> yields <0.00 0.50>            //     <0 1 0> yields <0.50 1.00>       < 0 -1  0> yields <0.50 0.00>            //     <0 0 1> yields <0.25 0.50>       < 0  0 -1> yields <0.75 0.50>            auto theta = acos(-p.y());            auto phi = atan2(-p.z(), p.x()) + pi;            u = phi / (2*pi);            v = theta / pi;        }};

这里使用了一个 atan2 的函数，而不是普通的 atan 函数。我们知道 tan 这个三角函数会返回圆对应角度的切线的斜率。那 atan 就是返回某个斜率的对应角度。但是我们在求纹理坐标时实际上希望从圆上的某个坐标得到对应的角度，当然可以直接使用 atan(y/x) 来先求斜率再求角度。

但问题就出在描述圆的是一个方程而不是函数，一个 x 坐标可能对应多个 y 坐标。那么一个斜率就可能对应多个角度。具体来说，虽然 $(x, y)$ 和 $(-x, -y)$ 对应的角度不一样，但是他们的斜率是一样的。如果我们使用 atan 的话还需要自己再判断一遍坐标的符号，而 atan2 相当于做了这个工作。

棋盘格纹理

书中的实现

virtual color value(double u, double v, const point3& p) const override {    auto sines = sin(10*p.x())*sin(10*p.y())*sin(10*p.z());    if (sines < 0)        return odd->value(u, v, p);    else        return even->value(u, v, p);}

这段代码把三个份量上的值加上 $\pi$ 乘了起来，如果结果是正数就返回一种颜色，反之返回另一种。乍一看可能不太好理解，如果先画一个二维的版本就好很多了：

加入另一个轴后，因为 $\sin()$ 的符号周期性的变化，所以可以看到不同的层，每层之间的颜色会翻转一下，而单层内的话因为符号没变所以可以直接当成上面二维的版本：

不过说实话我认为周期性的函数也不止三角函数这一种。书中这么写只是为了获得正负号，而不是具体的值，使用 $\sin$ 属实是有点浪费计算资源了。

一个很简单的例子就是让 $x$ 模 $100$ ，如果结果小于 $50$ 就返回正数，反之亦然。要简洁一点的话写成下面这样也可以：

$y=\operatorname{mod}\left(x,100\right)-50$

仅在表面的棋盘格

不难发现书中的棋盘格是基于点在空间中的绝对坐标的。所以才会出现上图那样的分层。既然我们已经可以计算球面的纹理坐标了（其他 hittable 的纹理坐标在书中也有讲，比如长方形片），其实可以做一个基于物体表面的棋盘格纹理，如下：

class surface_checker : public texture {   public:    using text_array = std::vector<std::shared_ptr<texture>>;    surface_checker() = default;    surface_checker(const text_array& _texts,            const std::pair<f8, f8> _siz = {514, 114})        : texts(_texts), polar_azim_siz(_siz) {}    virtual color value(f8 polar, f8 azim, const pt3& p) const override {        int x_idx = (i8)(azim * polar_azim_siz.first);        int y_idx = (i8)(polar * polar_azim_siz.second / 2.0);         // 极角只跨半球，所以想要整个球的垂直方向有 polar_azim_siz.second 这么多的格子，要先除以二        return texts[(x_idx + y_idx) % texts.size()]->value(polar, azim, p);    }    text_array texts;    std::pair<f8, f8> polar_azim_siz;  // 垂直方向和水平方向有多少格};

这里的 text_array 允许了棋盘中有多于两种颜色，而 (azim * polar_azim_siz.first) 会把原本 $[0, 1]$ 的纹理坐标范围放大到 polar_azim_siz.first，确保球上有 polar_azim_siz 的颜色变化。最后就可以得到如下的效果：

生成该场景的代码如下：

scene surf_check_sc() {    hittable_list world;    auto checker1 = make_shared<surface_checker>(        surface_checker::text_array{            make_shared<fixed_color>(color(0.2, 0.3, 0.1)),            make_shared<fixed_color>(color(0.9, 0.9, 0.9)),            make_shared<fixed_color>(color(0.3, 0.2, 0.15)),            make_shared<fixed_color>(color(0.15, 0.3, 0.9))},        std::pair<f8, f8>{60, 60});    auto checker2 = make_shared<surface_checker>(        surface_checker::text_array{            make_shared<fixed_color>(color(0.2, 0.3, 0.1)),            make_shared<fixed_color>(color(0.9, 0.9, 0.9)),        },        std::pair<f8, f8>{30, 30});    world.add(make_shared<sphere>(pt3(0, -10, 0), 10,                                  make_shared<lambertian>(checker1)));    world.add(make_shared<sphere>(pt3(0, 10, 0), 10,                                  make_shared<lambertian>(checker2)));    f8 asp_ratio = 1.0;    vec3 lookfrom = pt3(13, 2, 3) * 2;    vec3 lookat = pt3(0, 0, 0);    f8 vfov = 40.0;    auto dist_to_focus = 10.0;    auto aperture = 0;    vec3 vup(0, 1, 0);    auto cam_ptr = make_shared<camera>(lookfrom, lookat, vup, vfov, asp_ratio,                                       aperture, dist_to_focus, aperture, 1.0);    return scene(make_shared<bvh_node>(world), blue_sky_back_ptr, cam_ptr);}

柏林噪声

柏林噪声是书中一个比较难理解的点，不过柏林噪声是基于普通的值噪声的。值噪声其实就是在空间中的整数坐标上随机的生成一些随机数，再利用这些整数的坐标来给别的坐标线性插值（线性插值不懂的可以见这个链接，个人认为讲的很清楚）。

大概就是下面这样的^[1]：

垂直和平行线交错（整数坐标）的点会随机的生成一个随机数，而图中的 p 点会基于周围四个关键点（也就是坐标为整数的点，这些点会产生随机数）做线性插值，最终 p 点的值取决于离周围四个关键点的距离和周围四个关键点的随机值。

下面就是一个二维值噪声的例子：

生成代码如下：

import numpy as npimport matplotlib.pyplot as pltfrom math import *XLEN = 25 # 产生多少个整数点YLEN = 25DIFF = 0.05ptsx = np.arange(0, XLEN, DIFF)ptsy = np.arange(0, YLEN, DIFF)xs, ys = np.meshgrid(ptsx, ptsy)z_orig = np.random.random((XLEN + 1, YLEN + 1))z_interped = np.zeros((round((XLEN) / DIFF), round(YLEN / DIFF)))def lerp(a, b, t):    return a + t * (b - a)def lerp2(ld, rd, lu, ru, tx, ty): # 二维线性插值    # left down, right down, left up, right up    upmid = lerp(lu, ru, tx)    dnmid = lerp(ld, rd, tx)    return lerp(dnmid, upmid, ty)for i in range(XLEN):    for si in range(round(1 / DIFF)):  # step i        for j in range(YLEN):            for sj in range(round(1 / DIFF)):                z_interped[i * round(1 / DIFF) + si][j * round(1 / DIFF) + sj] = lerp2(                    z_orig[i][j], z_orig[i + 1][j], z_orig[i][j + 1],  z_orig[i + 1][j + 1], DIFF * si, DIFF * sj)plt.imshow(z_interped, cmap=plt.cm.gray)plt.savefig("./2d.png", dpi = 150, format = 'png')plt.show()

很容易看出这种噪声不自然，你甚至可以从图中隐约的看出坐标轴。。。虽然整张图看起来比较随机，但仔细观察就能发现整张图都是由很多小的 “方形色块” 拼凑而成的。

这是因为每个关键点对于各个方向的影响是相同的，而线性插值会让这个影响变成类似菱形的形状。下图中中间的点就是一个关键点，这个点随机出来的值比较低，所以是黑色的，可以看出这个黑色向周围发散的形状是菱形。

要改变这种情况也很简单，让某个关键点对周围的影响在不同的方向上不同。既然需要表示方向，我们可以很自然的想到向量。

现在我们在每个关键点上产生一些随机的单位向量，记为 $\vec{g_i}$ （关键点 $i$ 上生成的随机向量）像下面这样^[2]：

现在如何使用这些随机向量来达成不同方向影响就成了一个问题。一个比较自然的想法是考虑某个点相对于关键点的位置。我们可以把这个距离向量标记为 $\vec{d_i}$ （对于关键点 $i$ 的距离），像下图这样^[2]：

如果 $\vec{d_i}$ 和 $\vec{g_i}$ 的方向相近，我们就可以让这个点更亮，相反，如果 $\vec{d_i}$ 和 $\vec{g_i}$ 的方向相反，那么这个点的颜色应该偏暗。

这样的效果可以通过点积来达到，其实就是把 $\vec{d_i}$ 投影到 $\vec{g_i}$ 后的长度。结果方向相反是负数，相同是正数，垂直的话是零。

我们把这个点乘记录下来：

$\vec{v_i} = \vec{d_i} \cdot \vec{g_i}$

接下来就可以用值噪声的方式对周围四个点做线性插值了。或者说我们把 $\vec{v_i}$ 当作了原来值噪声中关键点上的值。而现在这个值对于每个位置来说会变化。

下面这张图展示了柏林噪声的效果，其中不同的箭头代表不同的 $\vec{g_i}$ ，越蓝值越小，越黄值越大 ^[2]：

注意看图中的三个框。

红框中大部分是黄色的，因为这部分点的距离向量和关键点的随机向量有相似的方向。
黄框中大部分是蓝色的，因为其左下角关键点随机向量的尾部指向了这片区域，也就是这片区域的距离向量和关键点随机向量相反。
绿框中的大部分是黄色的，虽然这片区域是左边关键点随机向量的反方向，但因为线性插值的存在，并且这片区域离右边的随机向量更近，其受到右边随机向量的影响更大。

可以很明显的看出，柏林噪声的生成的噪声并没有值噪声的方块感。

湍流（turbulence）

观察下面实现湍流的代码：

double turb(const point3& p, int depth=7) const {    auto accum = 0.0;    auto temp_p = p;    auto weight = 1.0;    for (int i = 0; i < depth; i++) {        accum += weight*noise(temp_p);        weight *= 0.5;        temp_p *= 2;    }    return fabs(accum);}

其中 turb 这个函数自身比较好理解，就是把很多频率的柏林噪声以一定的权重叠加在一起。最后的 fabs 看起来是为了让返回值符合 $[0, 1]$ 的范围，实际上还有别的目的。比如如果我们把最后一行换成 return (accum + 1) * 0.5，虽然让返回值符合了范围，但是看起来的效果却和原写法非常不同。

下图是中的蓝线是 $y = \sin x$ 的函数图像，红线是 $y = |\sin x|$ 的函数图像，而绿线是 $y = \left(\sin\left(x\right)+1\right)\times 0.5$ ：

如果采用绿线的修正方法，原来暗的地方修正过后还是暗，反之亦然。如果采用红线的修正方式，则只有原本亮度中等或者说明暗过度的地方会变暗，不管是暗部还是亮部在修正过后都会变亮。对比书中两种材质的一个特征区域可以更明显的看出红色修正方式的特点：

左图的黑边像是给右图的黑色区域描了一个边，符合刚刚只有过渡部分会变暗的预测。

一些疑问

代码中的 noise(p) 返回的最大值是 1，而 weight 最开始的值也是 1。这样的话 abs(accum) 是有可能大于 1 的。这显然是没道理的，因为不可能光线打到某个物体后还变亮（除光源）了。我之前给这个博客的博主发过这个问题有关的邮件，不过他表示他也不知道，可能只是概率问题使得大于 1 的值很少见。

随后我又查看了 Ken Perlin 1985 年在 SIGGRAPH 上的论文^[3]，其中并没有很严格的描述，也没有实际的代码，不过基本的思路是清楚的。令我奇怪的一个点是整篇文章没有说新的噪声算法是用于改进值噪声的，主要关注的是柏林噪声的效果不受各种空间变换的影响（难道说他为了发明一个和空间变换无关的噪声算法，顺便把值噪声改进了，这也太离谱了）：

Noise()
In order to get the most out of the PSE and the solid texture approach we have provided some primitive stochastic functions with which to bootstrap visual complexity. We now introduce the most fundamental of these. Noise() is a scalar valued function which takes a three dimensional vector as its argument. It has the following properties :
Statistical invariance under rotation (no matter how we rotate its domain, it has the same statistical character)
A narrow bandpass limit in frequency (its has no visible features larger or smaller than within a certain narrow size range)

Appendix. Turbulence
A suitable procedure for the simulation of turbulence using the Noise() signal is :
function turbulence(p)  t = 0  scale = 1  while (scale > pixelsize)      t += abs(Noise(p / scale) * scale)      scale /= 2  return t

扰动的伪代码和书中的基本没有区别，但是对于 Noise() 函数 Perlin 只说了其接收一个点的位置，返回一个标量，没有标量的范围，所以还是比较令人疑惑的。

但是下文的一句话还是令人感觉他是想返回一个 $[0, 1]$ 范围内的值的（他提过使用的颜色是 $[1, 1, 1]$ 这样的）：

By evaluating Noise() at visible surface points of simulated objects we may create a simple “random” surface texture (figure Spotted.Donut) :
color = white * Noise(point)

这个问题实在是困扰了我比较久，如果你知道正确的解释是什么，欢迎在评论区提出，我过一段时间也准备去 stackoverflow 提个问，如果有结果我会更新这篇博客。

实例变换

旋转矩阵

公式推导

最初看到书中下面几个公式的时候我是比较懵逼的：

$x^\prime = \cos(\theta) - \sin(\theta) \cdot y \\y^\prime = \sin(\theta) + \cos(\theta) \cdot y$

上网找了一圈后发现其实是旋转矩阵，公式的推导如下（前面这个公式是绕 z 轴旋转的，我们可以简单理解为二维平面上的旋转矩阵）^[4]：

我们先把 $x$ 和 $y$ 用极坐标的方式表示出来：

$x = r\cos\phi \\y = r\sin\phi$

在原来的角度上加上 $\theta$ ：

$x^\prime = r\cos(\phi + \theta) \\y^\prime = r\sin(\phi + \theta)$

使用如下两个两角和差公式：

$\cos(\phi + \theta) = \cos\phi\cos\theta - \sin\phi\sin\theta \\\sin(\phi + \theta) = \sin\phi\cos\theta + \cos\phi\sin\theta$

带入 $(x^\prime, y^\prime)$ 的极坐标形式得：

$\begin{align*} x^\prime &= r(\cos\phi\cos\theta - \sin\phi\sin\theta) \\ x^\prime &= (r\cos\phi)\cos\theta - (r\sin\phi)\sin\theta \\ x^\prime &= x\cos\theta - y\sin\theta \end{align*}$

$\begin{align*} y^\prime &= r(\sin\phi\cos\theta + \cos\phi\sin\theta) \\ y^\prime &= r(\sin\phi)\cos\theta + r(\cos\phi)\sin\theta \\ y^\prime &= y\cos\theta + x\sin\theta \\ &= x\sin\theta + y\cos\theta\end{align*}$

一些解释

绕 $x$ 轴的旋转基本和这个没区别，但是绕 $y$ 轴的比较令人疑惑了。
其他两个轴的旋转都是 $\cos - \sin$ ， $\sin + \cos$ 这种形式，唯独到了绕 $y$ 轴这里变成了 $\cos + \sin$ 和 $-\sin + \cos$ 这种形式。

因为绕 $y$ 旋转中 $\sin$ 的符号变了，所以很明显我们实际上旋转的不是 $\theta$ 而是 $-\theta$ 。这是因为我们希望的旋转方向和右手坐标系中的旋转方向是“不同的”。

这么说很模糊，可以先一步一步来，搞清楚自己想要的旋转方向是怎么样的：

           y+           |           |            |x- ------- z --------- x+           |           |           |           y-

这是一个右手坐标系下我们从 $z$ 轴方向观察的示意图，注意 $z$ 轴的正方向是朝着观察者的。很明显，如果我说想要绕着 $z$ 轴旋转 $90^\circ$ ，希望的就是把某个东西从 $x$ 的正方向转到 $y$ 的正方向。又或者是 $y+ \to x-$ ， $x- \to y-$ ， $y- \to x+$ ，总之就是逆时针旋转的。

再考虑绕 $x$ 轴的旋转：

           y+           |           |            |z+ ------- x --------- z-           |           |           |           y-

同样， $x$ 轴朝着观察者的方向，也是逆时针旋转，从 $y+$ 转到 $z+$ 。

现在我们再把公式加进来看一看是否符合我们的预期，也就是从 $y+$ 到 $z+$ 。

假设当前 $(x, y, z) = (0, 1, 0)$ （即在 $y+$ 上），旋转 $90^\circ$ 后 $(x^\prime, y^\prime, z^\prime)$ 就应该是在 $z+$ 上，即 $(0, 0, 1)$

我们先考虑 $y^\prime$ 的公式

$\begin{align*} y^\prime &= \cos \theta \cdot y - \sin\theta \cdot z \\ &= \cos(90) \cdot 1 - \sin(90) \cdot 0 \\ &= 0 - 0 = 0\end{align*}$

其次是 $z^\prime$ ：

$\begin{align*} z^\prime &= \sin \theta \cdot x + \cos \theta \cdot z \\ &= \sin(90) \cdot 1 + \cos(90) \cdot z \\ &= 1 + 0 = 1\end{align*}$

看起来没问题

现在考虑绕 $y$ 轴的旋转：

           z-           |           |            |x- ------- y --------- x+           |           |           |           z+

我们会发现如果还是逆时针旋转 $90^\circ$ 并且起点在 $x+$ 上的话，那应该转到 $z-$ 上，如果我们这个时候还使用和其他两个轴的公式，就会转到 $z+$ 上，如下：

$\begin{align*} z^\prime &= \sin \theta \cdot x + \cos \theta \cdot z \\ &= \cos(90) \cdot 0 - \sin(90) \cdot -1 \\ &= 0 - (1 \cdot -1) = 1\end{align*}$

果然，把公式中 $\sin$ 的符号改变一下，就能解决问题了。

那绕 $y$ 旋转有什么特殊的呢？这里举一个例子：对于另外两个轴的旋转，如果旋转角度方向是逆时针，并且是从编号小的轴转到编号大的轴（如 $x \to y,\ y \to z$ ），那么这两个轴的方向都是相同的（ $x+ \to y+,\ x- \to y-$ ）。

对于绕 $y$ 轴的旋转，如果逆时针从小编号轴转到大编号轴，那这两个轴的方向是不同的（ $x+ \to z-,\ x- \to z+$ ）。

毕竟三角函数一开始就是为了平面直角坐标系（xy 平面）设计的，现在应用到了一个符号不一样的平面，肯定得做些调整。

现在你可能会想，如果换成左手坐标系了是不是就能解决这个问题？对也不对，因为绕 $y$ 轴的变换确实不用换 $\sin$ 的符号，但是绕 $z$ 轴的就需要了（换了 $z$ 轴的方向，相当于从反方向看刚刚的 xy 平面，那么逆时针从 $x$ 转到 $y$ 就变成 $-x \to +y$ 或是 $+x \to -y$ 了）。

实现中的一些小问题

待更新

体积雾

待更新

多线程

待更新

Ray Tracing in One Weekend 学习笔记（2）：相机类的实现

2022-09-05T16:00:00.000Z

相机类的实现

除了朗伯体，RTOW 中还有个比较有趣的地方就是相机类的实现，特别是背景虚化这部分。

相机的定位

先来看一下相机类里一个相对简单的部分–相机的定位。只要通过三个参数就能确定相机的位置，分别是相机本身的位置（lookfrom），相机正在拍摄的位置（lookat）和表示相机上方位置的向量（vup），书里的图就能很好的解释：

在构造函数中，我们需要把这三个参数转换成表示相机朝向的三个参数，以及做一些对焦距，光圈和 fov 的处理，书中没有在这部分花很多的篇幅，我当时想明白也花了挺久的，下面是我对书中实现的一些思考。

因为我对书中的代码稍作了一些修改（主要是命名？）所以先贴一下代码：

#pragma once#include "rtow.h"// 这里的 f8 就是 double （八个字节的 float）class camera {   public:    camera(vec3 lookfrom, vec3 lookat, vec3 vup = vec3(0, 1, 0), f8 vfov = 90,           f8 asp_ratio = 16.0 / 9.0, f8 aperture = 0, f8 foc_len = 1) {        f8 deg_fov = deg2rad(vfov);        f8 half_hei = tan(deg_fov / 2);  // 对边比临边，但是临边是 1        f8 half_wid = half_hei * asp_ratio;        cam_z = (lookfrom - lookat).unit_vec();        // z 和镜头指向位置是反的        cam_x = cross(vup, cam_z).unit_vec();  // 同时和 vup，z 垂直        cam_y = vup.unit_vec();        horizon = 2 * half_wid * cam_x * foc_len; // 焦平面的横竖边框        vertic = 2 * half_hei * cam_y * foc_len;        orig = lookfrom;        lower_left_corner = orig - horizon / 2 - vertic / 2 - cam_z * foc_len; // 焦平面的左下角        len_radius = aperture / 2;    }    inline ray get_ray(f8 x, f8 y) const {        // x 和 y 的范围：[0, 1]        // 相机传感器的像素点坐标        vec3 rd = len_radius * rand_unit_disk();        vec3 offset = cam_x * rd.x() + cam_y * rd.y();         ray r;        r.orig = orig + offset;        r.dir = lower_left_corner + x * horizon + y * vertic -                orig - offset;              // 产生一个从 orig + offset 到对应像素的向量            // 因为 ray 对应的就是 orig + t * dir        return r;    }    vec3 orig;               // 摄像机的位置    vec3 lower_left_corner;  // 画面的左下角    vec3 horizon, vertic;    // 画面的尺寸（或者说离相机 foc_len 的平面大小）    vec3 cam_x, cam_y, cam_z;// 相机朝向    f8 len_radius;           // 光圈半径};

下面这张图描述了代码段中各个变量的关系：

按照这张图来理解代码中的内容就比较容易了。

下面这段代码首先计算出了两个变量 half_hei 和 half_wid：

f8 deg_fov = deg2rad(vfov);f8 half_hei = tan(deg_fov / 2);  // 对边比临边，但是临边是 1f8 half_wid = half_hei * asp_ratio;

其表示相机前方 1 个单位距离的位置上，看到的画面的大小。随后需要计算出 cam_x, y, z 三个向量，方法如下：

cam_z = (lookfrom - lookat).unit_vec();// z 和镜头指向位置是反的cam_x = cross(vup, cam_z).unit_vec();  // 同时和 vup，z 垂直cam_y = vup.unit_vec();

cam_z 表示一个从 lookat 到 loofrom 的方向，这个方向和相机实际拍摄的位置是相反的。
cam_x 的计算用到了向量的叉乘，在三维空间中，如果 $u = v \times w$ 那么 $u$ 就是同时垂直于 $v$ 和 $w$ 的，当然符合这个条件的向量有两个，可以用右手定则确定，这里就不赘述了。根据前面的这个定义，可以得出 cam_x 同时和 cam_z 和 vup（也就是 cam_z）垂直。
cam_y 就是 vup 的单位向量。

虽然我大概知道三维向量叉乘的几何意义，不过以前没完全理解是如何推导出来的，感觉下面这篇博客写还是非常清晰的，连我这种蒟蒻也看懂了：

https://www.cnblogs.com/qilinzi/archive/2013/05/09/3068158.html

接下来 horizon，vertic 以及 lower_left_corner 变量的计算相对比较简单，这里就不解释了，图中都有标注。

相机景深的实现

现实中的景深

要理解计算机是如何模拟实现景深效果，还是需要对相机镜头的结构有一定基本的了解，如下：

可以发现，在没有镜头的情况下，从 A 点出发的光线可以通过各种方向传播，每个方向又会到达成像面的不同位置。最终，成像面上每个点的颜色会由很多不同的光线贡献，得到的自然是模糊的影像。

加上镜头后再考虑 A 点，能观察到，从 A 点出发的每个方向的光线，最终都会汇聚在成像面的一个特定点上，也就是 A’。这样得到的影像就是清晰的了。

更宽泛的说，镜头能满足以下两个条件：

同一点发出的各个方向的光线，经过镜头后必定汇聚于同一点
同一平面上的不同点发出的光线，经过镜头后，汇聚于不同点

这里有一个前提条件，就是这个点必须在相机的焦平面上，如果某个点和相机成像面的距离不是焦距，就会有下面的情况：

如果成像平面是绿色的那个，那么 A1 就在正确的焦平面上。如果成像平面是红色的那个，那么 A2 就在正确的焦平面上。

为了方便分析，我们观察 A1 的情况，发现在红色的成像平面上，从两个方向（平着和斜着）出发的光线被汇聚到了不同的点。而在绿色成像面上，只被汇聚到了一个点。

虽然被汇聚到了不同的点，但是这个不同的程度有大有小，可以想象一下，如果我们把 A1 的位置继续向左移动。那么 A1’ 在红色成像面的位置一定会更高。反过来，如果把 A1 向右移动，A1’ 在红色成像面的位置也会随之下降，最终汇聚在正确的点上。如果继续向右移动，A1’ 在红色成像面的位置还会继续下降。最终造成从 A1 平着出发的光线和斜着出发的光线，在成像面的距离增大。

或者我们增大镜头的尺寸，就有更多从 A1 出发的，不同角度的光线可以进入镜头中，进而到达成像面。这种情况下，A1’ 在红色成像面的位置会更高，可以想象镜头被拉高了，这里光线构成的三角形也被拉高了（我实在是懒的自己画图了，就用网上的图这么解释一下吧）。

看前面的图可以发现，理论上能被相机清晰成像的距离只有一个，多一点少一点都不清晰了。但实际上，人眼的分辨能力没有这么强。我们把相机成像时，能清晰成像（人眼认为是清晰的）的距离范围称作景深。如下：

我们可以以景深的角度来思考前面提到的，镜头大小，或者说半径的影响。实际上，镜头的半径是不会改变的，通常的做法是给镜头加上一个可变的“闸门”，也就是光圈，来控制进入镜头的光线，如下：

可以发现，大光圈会让景深减少，反之亦然。

实际实现

前面考虑过，从一个点出发的不同光线在不正确的焦距会被汇聚在成像面的不同点上。不过在实际渲染的时候，我们考虑的是不同的光线对于成像面某个像素的贡献。

那么在光圈大的时候，理应有更多方向的光线同时对成像面上一个点做出贡献，造成模糊的效果。具体可以见下图，也就是 RTOW 中对景深的实现：

代码中我们会随机的在光圈上取点，然后追踪从光圈到焦平面上对应像素的光线。最后把采样光线的贡献平均一下。这样光圈越大，景深也就越小。并且因为任何的光线都需要穿过焦平面上对应的点，所以可以确保焦平面上一定是清晰的。

对比上面实际镜头的工作原理还是非常不同的，但是达到了相同的效果。不过这也是因为光线追踪的特点，及从像素开始 “逆向” 的追踪。所以我们不关注实际镜头中，一个点发出的光线会被汇聚在成像面不同位置的问题。而换了一个角度思考，及有多少不同点发出的光线会对一个像素造成影响。不得不说书里的这个实现真的牛皮。

参考资料：

https://jishuin.proginn.com/p/763bfbd2e03f

Ray Tracing in One Weekend 学习笔记（1）：朗伯体和辐射度量学

2022-08-30T16:00:00.000Z

最近（距离搞完 RTOW 已经过去一周了，我现在才把这笔记写出来，属实是懒狗）花了一些时间看完了 Ray Tracing in One Weekend （以下简称 RTOW）~~果然还是我太菜了，这玩意 One Weekend 没搞完~~，也跟着把代码写出来了。

本书写的非常不错，最后渲染出的效果也是出乎我的意料（封面图）。但是因为我以前对计算机图形学没有任何的认识，很多基本的知识都不了解。

而书上有时会把这些基本知识（或者数学推导和证明）一笔带过，因此准备写个博客把自己的思考过程写一下。

朗伯体材质（Lambertian）的实现

在书中，创建一个朗伯体漫反射材质的方法是下面这样：

class lambertian : public material {   public:    lambertian(const color& alb) : albedo(alb) {}        virtual optional<pair<ray, color>>     get_ray_out(const ray& r_in, const hit_rec& rec) const override {        vec3 ref_dir = rec.norm + rand_unit_vec(); // 注意这里        if(ref_dir.near_zero()) // 如果 rand_unit_vec() 等于 -rec.norm             ref_dir = rec.norm;        ray ref_ray(rec.hit_pt, ref_dir);        return make_pair(ref_ray, albedo);        }    color albedo;  // 反射率};

也就是，击中漫反射材质后，发散光线的起点（rec.hit_pt）会是击中的点，而发散光线的方向是一个随机的单位向量加上击中点的法向量。

但为什么要加上法向量呢，不能直接在一个半球形里随机一个向量吗？

辐射度量学

要回答这个问题，需要对辐射度量学（radiometry）有一些认识。下面首先介绍一下一些辐射度量学的基本单位。

在光线追踪中，我们希望考虑相机（或者人眼）接收到的光照，所以下面的解释会以相机的视角进行。

基本单位

首先需要考虑相机传感器接收的到底是什么物理量，显然，是能量，或者说是到达传感器上的光子数量，那么我们认为传感器接收到的物理量是辐射能量（radiant energy）用符号 $Q$ 表示，单位为焦耳。

不过能量并不能很好的反应一个物体的亮度。毕竟我们拿着相机拍同一个画面，曝光一分钟和 $\frac{1}{100}$ 秒的效果肯定是不一样的。

虽然传感器最终接收的是能量，但只要我们拿着相机不同的曝光（积分），就可以一直得到更多的能量。

自然而然的，我们会想到，把得到的能量除以收集能量的时间，那就有了辐射通量（radiant flux）这个单位：

$\Phi = \frac{\mathrm{d}Q}{\mathrm{d}t}$

也就是传感器在单位时间内能收到的能量。

反过来，这也可以表述某个光源在单位时间内传输的能量。

不过这还是不能完全的表示物体的亮度。如果我们在相机中使用更大的传感器，那么单位时间内更大的传感器能接收到更多的能量。

我们在观测时用更大的传传感器并不能改变物体本身的亮度。因此还需要把接收到的辐射通量除以面积，也就是单位面积下的辐射通量。这个单位被称为辐照度（irradiance）。

对于光源来说，使用一个更大的光源，也能提供更多的辐射通量，但是单位面积能提供的通量是不变的。

$E = \frac{\rm{d}\Phi}{\rm{d}A}$

考虑下面这样一张图^[1]：

我们会发现，观测距离变远，要收集到相同的光通量，所需的面积就要越大。那么辐照度就会越小。这显然是不符合常理的，现实中随着距离变远，我们所观察到的亮度并不会显著的减小（有衰减主要还是因为光线在传播中会碰到很多细小的颗粒）。

那这是怎么一会事呢？直观上讲，虽然观测距离更远了，收到的光通量更少了，但是人眼看到的物体也变小了。

比如有一个面积很大的灯，以及一个面积很小的灯，如果它们两个发出的光通量相同，显然是面积小的灯更亮。

因此，人眼直接接收到的光通量小了，但是观测物体的面积也对应的小了，这两个变化相互抵消，会造成观测到的亮度不变。那么我们就需要引入一个物理量，描述人眼观测到的物体大小，随后把辐射照度除以这个量，就能真正的描述亮度。而这个量就是立体角。

我们可以把人眼的视线想象成一个球，这个球的球心是人眼，因此球面上的每个点到人眼的距离都是一样的。也因此，如果我们在这个球面上放置很多大小一样物体，因为他们到人眼的距离一样，人眼看起来的大小也是一样的。

那对于距离不同的物体，都可以将其投影到这个球上面，这样在球面上占的面积大，人眼看起来也就大。

从光源的角度来说，有时我们会希望关注光源对某个方向的影响（把那个方向照亮了多少，提供了多少的辐射通量），那么这个时候也可以引入立体角来分析。

所以立体角的定义就是，某个物体在单位球（半径为 1 ）上的投影面积。

立体角的计算方法如下，单位为球面度（steradian, sr）：

$\Omega = \frac{a}{R^2}$

其中 $a$ 是投影在某个球上的面积（不一定是单位球）， $R$ 是球半径。

那么有了立体角后，我们就能真实的描述人眼所看见的物体的大小了，进一步修改辐照度就可以得到辐亮度（radiance）这个物理量了：

$L_\theta = \frac{\rm{d} \Phi}{\rm{d}A\cos(\theta)\rm{d}\Omega}$

这个公式中的 $A$ 是感光面元的面积， $\Omega$ 是球面度。而 $\cos(\theta)$ 其实是用来计算某个物体平行于球面的面积的，可以见下图：

这里的 $\theta$ 就是物体表面法线和球面法线的夹角， $\theta$ 为 $0$ 的时候 $\rm{d}A\cos(\theta)$ 最大， $\theta$ 为 $\frac{\pi}{2}$ 时，物体表面和球面垂直，因此球面发出的光线和物体完全不相交， $\rm{d} A \cos(\theta)$ 也就为 $0$ 。

辐亮度已经足够完美的描述大部分物体的亮度特征了。不过我们前面讨论的都是面光源，或者是有一定面积的传感器。一个点光源是没有面积的，这个时候辐亮度就没有意义了（因为要除以面积）。

同时，有的时候我们可能不关注光源和传感器的面积，单纯就是想知道某个发射或接收到的辐射通量，这个时候就需要有一种新的物理量——辐射强度（radiant intensity），它其实就是把辐亮度中除以面积的部分去掉了：

$I = \frac{\rm{d}\Phi}{\rm{d}\Omega}$

朗伯余弦定理

要理解朗伯余弦定律，可以看下面这张图：

用数学公式表述的话就是：

$I_{\theta} = I_n \times \cos \theta$

其中， $I_n$ 表示观察表面的法线完全平行于光线时的辐射强度。

对于观察者， $\theta$ 是观察者表面的法线和光线的夹角，这个夹角越大，收到的辐射通量也就越小。而朗伯余弦定理选择的是辐射强度就是因为辐射强度规定了方向，这样就能计算出光线和表面法线的夹角（要不然光线可以从四面八方射过来）。

至于用的为什么是 $\cos$ ，其实就是为了计算出当前观察表面投影到垂直于光线的表面后的面积。

朗伯体和漫反射

有了这些知识，就可以介绍朗伯体的性质了，以下是维基百科对朗伯体的介绍。

余弦辐射体，也称为朗伯辐射体（Lambert radiator），指的是发光强度的空间分布符合馀弦定律的发光体（不论是自发光或是反射光），其在不同角度的辐射强度会依馀弦公式变化，角度越大强度越弱

该规律以约翰·海因里希·朗伯的名字命名，因首次提出自他1760年出版的《光度学（Photometria）》。[2]遵循朗伯定律的表面被称为兰伯特表面，并表现出朗伯反射率。这样的表面从任何角度看都具有相同的辐射度。这意味着，例如，对人眼而言，它具有相同的视亮度（或亮度）。因为功率和实心角之间的比例是恒定的，所以辐射度（单位实心角单位投射源面积的功率）保持不变。

乍一看这两段话好像是反的。其中一个说强度符合照余弦定律，不同角度观察的强度不同，另一个亮度在任何角度都相同。

我们先根据定义分析一下，符合余弦定律也就是符合下面这个公式：

$I_{\theta} = I_n \times \cos \theta$

回忆一下辐强度和辐亮度的定义：

$L_\theta = \frac{\rm{d} \Phi}{\rm{d}A\cos(\theta)\rm{d}\Omega}$

$I_{\theta} = \frac{\rm{d}\Phi}{\rm{d}\Omega} \cos \theta$

尝试推导出 $I$ 和 $L$ 的关系。

$L_\theta = \frac{I_n \cancel{\cos \theta}}{\rm{d}A\cancel{\cos\theta}}$

可以看到，分子和分母的 $\cos \theta$ 被消掉了，也就是角度对辐强度有影响，但是对辐亮度没影响。

直观上讲，这也是对的，我们从观察者的角度思考。如果 $\theta$ 角大，那么观察者看到的发光表面是倾斜的，自然看到的面积也就小了。

虽然总体的辐射通量变少了，但是辐射通量从更集中的区域发出来，两者互相抵消，造成亮度没有变化（和介绍辐亮度时提到的很相）。

那么为什么发光表面在不同角度的辐强度不一样呢，假设发光表面每个区域的辐照度是一样的（单位面积的辐通量）， $\theta$ 角大的话，投影到观察者上的面积就小了，而这个投影面积的系数就是 $\cos \theta$ 。

所以完美的漫反射体在不同角度看到亮度都是一样的。

所以，代码为什么这么写？

了解辐射度量学后我们就可以分析上面朗伯体的光线追踪代码了。

在光线追踪的时候，我们其实是在反方向（也就是从相机到光源）的追踪。但是对于一条从物体到相机的光线，可能有不同的光线对这条光线做出了贡献。

或者说，我们设物体上的点为 $A$ ，而相机上的点是 $B$ ，那么可能有很多条光线打到 $A$ 上，造成了 $A$ 最终的亮度和色彩。

所以在追踪时，光线从 $A$ 到达 $B$ 后，决定下一个追踪的方向就成了问题。

我个人认为，光线追踪时追踪的是辐射强度，也就是带方向的辐射通量。这是因为，相机传感器上每个像素（每个像素的面积一样，因此不用考虑面积）最后的颜色都取决于某个方向上的光通量。那么，不考虑面积，只有方向，就是辐射强度了。

这样在分析其他光线 $B$ 对点的贡献时，就要考虑朗伯余弦定理。

我们可以把 $B$ 点当作一个面积无限小的观察者，那么别的光线（单位辐射通量）和观察面的法线夹角越小，对该面贡献的也会按照 $\cos \theta$ 的系数衰减。

对于相机得到的每个像素点，我们都会进行多次采样，书里的代码如下：

……color pixel_color(0, 0, 0);for (int s = 0; s < samples_per_pixel; ++s) {    auto u = (i + random_double()) / (image_width-1);    auto v = (j + random_double()) / (image_height-1);    ray r = cam.get_ray(u, v);    pixel_color += ray_color(r, world);}write_color(std::cout, pixel_color, samples_per_pixel);……

这样的多次采样可以模拟不同光线对 $B$ 点的贡献。为了模拟 $\cos \theta$ 的衰减，我们有两个选择，第一个是每次随机的选择一个 $B$ 点上单位半圆的表面作为光线的方向，继续追踪，大概和下图一样：

不过对于随机选出来的光线，需要计算其和 $B$ 点法线的夹角（ $\theta$ 角），然后加上衰减。

还有一种选择是，让 $\cos \theta$ 作为概率密度函数来随机的选取光线的方向，这样就不用加上衰减了，如下：

显然书里选择的是第二种方法，让 $\cos \theta$ 作为概率密度函数。这里有个比较神奇的事情，如果我们把 $\cos \theta$ 作为和 $B$ 的法线夹角为 $\theta$ 的线段的长度，并把线段的一段固定在 $B$ 点上，就会得到下面的图像，即一个和 $B$ 点相切的圆，或者在三维空间里，球：

这里我暂时不知道如何证明，但这是一个正确的结论，如果你知道可以在评论区提出。RTOW 显然是利用了这一性质，让击中点的法向量加上一个随机的单位向量（单位球球面上的随机一点）作为光线的方向，如下：

vec3 ref_dir = rec.norm + rand_unit_vec();

这里还有个小问题，即为什么我们能保证， $B$ 点收到的光照就会向周围“均匀的”发散。前面我们说了，现在讨论的朗伯体的定义如下：

$I_{\theta} = I_n \times \cos \theta$

我们追踪的也是辐射强度，那么不应该把表面的法线和摄像机的夹角算出来，然后加上 $\cos \theta$ 的衰减吗？

可以结合下面这张图理解：

可以观察到，随着夹角的增加，一个像素对应的物体表面积也相应的增大了，所以和 $\cos \theta$ 的衰减抵消了。

而对于每个像素，每次的采样是在一个像素的范围内任意选取坐标，所以可以覆盖到单个像素对应的物体表面。

如果真的要按照余弦定律加上衰减，我们也相应的对夹角更大的区域做更多的采样（单个像素对应的面积更大）。

参考资料：
1: https://www.cnblogs.com/ludwig1860/p/13930745.html
2: https://zh.wikipedia.org/zh-hans/余弦辐射体

1.http://www2.bren.ucsb.edu/~dturney/WebResources_13/RemoteSensing/TheLightHandbook.pdf ↩

[MIT 6.s081] Xv6 Lab11 Mmap 实验记录

2022-08-20T16:00:00.000Z

upd@2022/9/14：最近把实验的代码放到 github 上了，如果需要参考可以查看这里：

https://github.com/ttzytt/xv6-riscv

里面不同的分支就是不同的实验。

最后一个 lab 了，终于搞完了！！

Lab11: mmap

描述

实现一个 UNIX 操作系统中常见系统调用 mmap() 和 munmap() 的子集。此系统调用会把文件映射到用户空间的内存，这样用户可以直接通过内存来修改和访问文件，会方便很多。

mmap() 的定义如下：

void *mmap(void *addr, size_t length, int prot, int flags,           int fd, off_t offset);

意思是映射描述符为 fd 的文件，的前 length 个字节到 addr 开始的位置。并且加上 offset 的偏移量（即不从文件的开头映射）。

如果 addr 参数为 0，系统会自动分配一个空闲的内存区域来映射，并返回这个地址。

在实验中我们只需要支持 addr 和 offset 都为 0 的情况，也就是完全不用考虑用户指定内存和文件偏移量。

prot 和 flags 都是一些标志位，具体说，prot 有以下的选项：

PROT_NONE
PROT_READ
PROT_WRITE
PROT_EXEC

规定了能对映射后文件做的操作。

flags 则决定，如果在内存映射文件中做了修改，是否要在取消映射时，把这些修改更新到文件中。

有 MAP_SHARED 和 MAP_PRIVATE 两个选项。

unmap() 的定义如下：

int munmap(void *addr, size_t length);

意思是取消从 addr 开始的，长度为 length 的文件映射。不过需要注意的一点是，这个函数不支持在映射范围的中间“挖洞”，只能从开始或者结尾取消部分（或全部）的映射。

这样说可能有点不清晰，假设我们有一个 $[1, 100]$ 的映射范围，那么如果我们想要取消 $[l, r]$ 范围的映射，需要符合 $l = 1 \And r \le 100$ 或者 $l \ge 1 \And r = 100$ 。

整体思路

首先我们要考虑把内存映射的文件放在用户进程的哪个地方。用户进程的内存布局如下：

起初我想的是直接参考 sbrk() 的方式来分配映射内存的，如下：

uint64sys_sbrk(void){  int addr;  int n;  if(argint(0, &n) < 0)    return -1;  addr = myproc()->sz;  if(growproc(n) < 0)    return -1;  return addr;}

也就是给进程分配更多的堆区，然后把文件放在这里。虽然实现很方便，但是仔细一想会造成很多问题，我们默认 myproc()->sz 以下的内存都是可以给用户自由使用的， malloc() 分配的就是内存。

那么如果我们把映射的文件放在这里，完全可能会被 malloc() 分配出去，再被覆盖掉。

同时，取消文件映射后（这个时候会设置映射位置的 PTE 为 0），如果用户访问了对应位置的内存，还会引发缺页错误，这又需要去处理，显然是比较复杂的。

所以我们完全可以“倒过来”的分配文件映射的内存，来避免和用户进程的堆冲突。也就是说，我们可以从 trapframe 的位置开始，向下分配文件映射的内存。

根据给的提示，可以在内核的进程结构体中加入一个 VMA (virtual memory area, 虚拟内存区域) 结构体，这个结构体储存了文件映射的元数据，比如，映射开始的地址，长度，以及映射的文件等。有了这些元数据才能更方便的管理。

想要同时支持映射多少个文件，就需要在 struct proc 中放多少个 VMA，这里提示给的推荐是 16 个。

文件的映射还必须是懒分配的，要不然一次性拷贝大文件会很耗费时间，只有用户进程触发了缺页错误后，我们才实际的把文件拷贝过去。

最后一点，我们还需要支持在 fork() 的时候也把映射的文件 fork() 过去。当然这点比较简单，只要拷贝 VMA 就行了。因为子进程的页表中没有对应的映射，如果访问 VMA 中记录的地址会引发缺页错误，这个时候只需要把需要的文件拷贝过去就好了。

代码

注意：这个 lab 没有帮我们注册系统调用和 mmaptest，直接按照 Lab2 的方法来就好了，这里不赘述，如果你不会，可以看这篇文章。

struct mmap_vma：

// in proc.hstruct mmap_vma{  int in_use;      // 该 vma 结构体是否代表了一个正在使用的文件映射  uint64 sta_addr; // 起始地址  uint64 sz;       // 映射大小  int prot;  struct file* file; // 映射的文件  int flags;         // map_shared or map_private};#define VMA_SZ 16struct proc {  ……  struct mmap_vma mmap_vams[VMA_SZ];}

sys_mmap()：

这个调用不实际的分配内存。其调用 get_mmap_space() 找到一个没被使用的 mmap_vams，以及用于映射文件的空间，再给 vma 结构体初始化。

还需要增加被映射文件的引用计数（如果不增加，引用计数为 0 后，文件会被关闭，然后我们在懒分配的时候就无法拷贝对应文件内容到内存了）

// in sysfileuint64 sys_mmap(){  uint64 addr, length, offset; // addr 和 offset 都只有 0  int prot, flags, fd;  struct file* file;  //void *mmap(void *addr, size_t length, int prot, int flags, int fd, off_t offset);  // 这参数是真的多。。  try(argaddr(0, &addr), return -1)  try(argaddr(1, &length), return -1)  try(argint(2, &prot), return -1)  try(argint(3, &flags), return -1)  try(argfd(4, &fd, &file), return -1) // 同时取得文件和描述符  try(argaddr(5, &offset), return -1)  // 读入参数  struct proc* p = myproc();  if(addr || offset) // 我们实现的是 mmap 的子集，不支持自定内存和偏移量    return -1;  if(!file->writable && (prot & PROT_WRITE) && (flags & MAP_SHARED))    return -1;  // 如果文件本身不允许写入，但 PROT_WRITE 还是设置了  int unuse_idx = -1;  uint64 sta_addr = get_mmap_space(length, p->mmap_vams, &unuse_idx);  if(unuse_idx == -1)    return -1;  if(sta_addr <= p->sz) // 没内存来 mmap 了    return -1;  struct mmap_vma* cur_vma = &p->mmap_vams[unuse_idx];  cur_vma->file = file;  cur_vma->in_use = 1;  cur_vma->prot = prot;  cur_vma->flags = flags;  cur_vma->sta_addr = sta_addr;   cur_vma->sz = length;  filedup(file); // 增加引用计数  return cur_vma->sta_addr;}

get_mmap_space()：

此函数需要给新的文件映射找到一个可用的内存区域，那么我们需要思考一下这个策略。最稳的方法肯定是找到所有 vma 中使用到的最低虚拟地址。然后把这个位置作为新映射区域的结尾。这样永远不会造成冲突，不过也有一定问题，如下：

首先可以看到，为了方便取消映射，我们不允许同一个页帧上有两个文件的映射（要不然 kfree() 就一起释放了）。

其次，如果我们使用了找最低虚拟地址的方法来分配，就会造成实际内存够用，却还要向下增长文件映射空间的情况。这样的策略可能在某些情况下（较少）会造成用户堆内存的缩减，在极端情况下（非常极端，因为大部分时候 MAXVA 都是很大的，至少比物理内存大），是会出问题的。

但不管怎么样，我闲的没事干还是写了一个应对这种情况的代码。大概就是搞个双层循环，每层都遍历所有的 vma，具体的可以见注释。

// in sysfile.cuint64get_mmap_space(uint64 sz, struct mmap_vma* vmas, int* free_idx){  *free_idx = -1;    // 返回一个可以储存新文件映射的地址（开始地址）  // 优先查看 vma 槽中的“空隙”，如果没有，那就映射到最下面  // 其实可以写一个快速排序，但是我懒。。。  uint64 lowest_addr = TRAPFRAME;    struct mmap_vma tmp; // 作为上边界，可能和上图一样，最上方没有任何映射区域  tmp.sta_addr = TRAPFRAME, tmp.sz = 0;  for(int i = 0; i <= VMA_SZ; i++){    // 假设 vmas[i] 的 PGROUNDDOWN(sta_addr) 是新文件映射的结束位置    if(vmas[i].in_use == 0 && i != VMA_SZ){      *free_idx = i;      continue;    }     uint64 ed_pos = i != VMA_SZ ? PGROUNDDOWN(vmas[i].sta_addr)                                 : tmp.sta_addr;    lowest_addr = ed_pos < lowest_addr ? ed_pos : lowest_addr; // 取 min        for(int j = 0; j < VMA_SZ; j++){      // 假设 vmas[j] 的 sta_addr + sz（vma[j] 的结束位置） 往上是新映射的起始位置      if(vmas[j].in_use == 0 && i != VMA_SZ) continue;      uint64 st_pos = i != VMA_SZ ? vmas[j].sta_addr + vmas[j].sz                                   : tmp.sta_addr + tmp.sz; // 这个位置一定是页对齐的                                        if (ed_pos <= st_pos) continue;       // 这里直接跳过，不在下面判断是因为无符号类，如果做下面的减法会出错      if (ed_pos - st_pos >= sz){        // [st_pos, ed_pos) 的区间        return st_pos;      }    }  }   return lowest_addr - sz;}

到此为止我们所有的映射都是懒分配的，所以需要一个处理缺页错误的函数：

mmap_fault_handler()：

注意这里有个比较坑的地方。就是用户要求映射的大小超过了文件本身的大小，这个时候我们需要把剩下的映射区域设成 0，要不然 mmaptest() 就通不过了。

还有一点就是，触发缺页错误后我们只分配和映射一页内存，而不是把整个文件都映射过去。

// in trap.cint mmap_fault_handler(uint64 addr){  struct proc* p = myproc();  struct mmap_vma* cur_vma;  if((cur_vma = get_vma_by_addr(addr)) == 0){    // 找到这个地址属于哪个文件的映射    // 等于零说明不属于任何一个    return -1;  }  if(!cur_vma->file->readable && r_scause() == 13 && cur_vma->flags & MAP_SHARED){    DEBUG("mmap_fault_handler: not readable\n");    return -1;  } // 读错误      if(!cur_vma->file->writable && r_scause() == 15 && cur_vma->flags & MAP_SHARED){    DEBUG("mmap_fault_handler: not writable\n");    return -1;  } // 写错误      uint64 pg_sta = PGROUNDDOWN(addr);  uint64 pa = kalloc();  if(!pa){    DEBUG("mmap_fault_handler: kalloc failed\n");    return -1;  }  memset(pa, 0, PGSIZE);  int perm = PTE_U | PTE_V;  if(cur_vma->prot & PROT_READ) perm |= PTE_R;  if(cur_vma->prot & PROT_WRITE) perm |= PTE_W;  if(cur_vma->prot& PROT_EXEC) perm |= PTE_X;  // 在 mmap 的时候已经排除了不可能的情况了  uint64 off = PGROUNDDOWN(addr - cur_vma->sta_addr);   // 这个 off 代表文件拷贝时要跳过多少个页帧  ilock(cur_vma->file->ip);  int rdret;  if((rdret = readi(cur_vma->file->ip, 0, pa, off, PGSIZE)) == 0){    iunlock(cur_vma->file->ip);    return -1;  }  iunlock(cur_vma->file->ip); // 没有 put 是这个文件之后还需要使用                              // 在 unmap 中应该可以 put  mappages(p->pagetable, pg_sta, PGSIZE, pa, perm);  return 0;}

get_vma_by_addr()：

此函数是前面的处理函数用到的，返回对应地址所在的 vma：

struct mmap_vam* get_vma_by_addr(uint64 addr){  struct proc* p = myproc();  for(int i = 0; i < VMA_SZ; i++){    if(p->mmap_vams[i].in_use && addr >= p->mmap_vams[i].sta_addr && addr < p->mmap_vams[i].sta_addr + p->mmap_vams[i].sz){      // 判断该地址是否在文件映射区的中间      return p->mmap_vams + i;    }  }  return 0;}

usertrap()：

// in trap.c……if(r_scause() == 8){  // system call  if(p->killed)    exit(-1);  // sepc points to the ecall instruction,  // but we want to return to the next instruction.  p->trapframe->epc += 4;  // an interrupt will change sstatus &c registers,  // so don't enable until done with those registers.  intr_on();  syscall();} else if((which_dev = devintr()) != 0){  // ok} else if ((r_scause() == 13 || r_scause() == 15)){  try(mmap_fault_handler(r_stval()), bad = 1)}else{  bad = 1;}if (bad){  printf("usertrap(): unexpected scause %p pid=%d\n", r_scause(), p->pid);  printf("            sepc=%p stval=%p\n", r_sepc(), r_stval());  p->killed = 1;}……

接下来我们就可以来尝试实现 munmap() 了，如果 vma 的 flag 设置为了 MAP_SHARED，就需要在取消映射的时候拷贝内存中修改过的内容到文件。

因为这个过程相对复杂，所以专门写了一个 mmap_writeback() 函数来处理这个。其中，我们利用了 PTE 的标志位 PTE_D 来判断文件映射的某个页帧是否被修改过，如果修改过，就需要拷贝回去。

这个标志位没被定义，需要参考 risc-v 手册在 riscv.h 中定义：

#define PTE_D (1L << 7)

如果说 unmap 的 addr 和长度不是 PGSIZE 的倍数，那么这个函数会变得特别复杂，如下：

unmap 的部分可能没有跨过一个页帧，也就是说 unmap 的所有内存都在一个页帧之内，那么这个页帧不能释放，但是需要把内存中的数据复制回文件。
对于 unmap 结尾地址在某个页帧中间的情况，需要分类讨论。如果结尾是中间，但这个页帧是映射区的最后一个页帧，那既需要释放页帧，也许要写回文件。如果是中间，但不是最后一个页帧，那就不能释放。

可能也是考虑到了这个复杂度，mmaptest.c 中所有 munmap() 和 mmap() 调用的 addr 和 len 都是 PGSIZE 的倍数。实验提示中也说只要支持 mmaptest.c 使用到的特性就行了。所以下面的版本是不支持非 PGSIZE 倍数的。当然我也写了一个支持的版本，只是没有经过任何测试（我懒的再写一个加强版的 mmaptest.c，当然以后有时间，可能会）。

正常版本：

// in vm.cintmmap_writeback(pagetable_t pt, uint64 src_va, uint64 len, struct mmap_vma* vma){// 把带脏位的页帧写回文件中，并且取消映射// 写回的是 src_va 开始的，长度为 len  uint64 a;  pte_t *pte;  for(a = PGROUNDDOWN(src_va); a < PGROUNDDOWN(src_va + len); a += PGSIZE){    if((pte = walk(pt, a, 0)) == 0){       panic("mmap_writeback: walk");    }    if(PTE_FLAGS(*pte) == PTE_V)      panic("mmap_writeback: not leaf");    if(!(*pte & PTE_V)) continue; // 懒分配    if((*pte & PTE_D) && (vma->flags & MAP_SHARED)){       // 写回      begin_op();      ilock(vma->file->ip);      uint64 copied_len = a - src_va;      writei(vma->file->ip, 1, a, copied_len, PGSIZE);      iunlock(vma->file->ip);      end_op();    }    kfree(PTE2PA(*pte));    *pte = 0;  }  return 0;}

支持非 PGSIZE 倍数版本（未经测试）：

//in vm.cintmmap_writeback_na(pagetable_t pt, uint64 src_va, uint64 len, struct mmap_vma* vma){  uint64 a;  pte_t *pte;  a = PGROUNDDOWN(src_va);  if(a == PGROUNDDOWN(src_va + len)){     // 如果 unmap 的部分在一个页帧的范围内    begin_op();    ilock(vma->file->ip);    writei(vma->file->ip, 1, src_va, 0, src_va - a);    iunlock(vma->file->ip);    end_op();  }  for(; a < PGROUNDDOWN(src_va + len); a += PGSIZE){ // 这部分只处理整页                                                     // 如果结尾停在页中间不会处理    if((pte = walk(pt, a, 0)) == 0){       panic("mmap_writeback: walk");    }    if(PTE_FLAGS(*pte) == PTE_V)      panic("mmap_writeback: not leaf");    if(!(*pte & PTE_V)) continue; // 懒分配    if((*pte & PTE_D) && (vma->flags & MAP_SHARED)){       // 写回      begin_op();      ilock(vma->file->ip);      // 第一次的时候，a 会比 src_va 小      uint64 copied_len = a - src_va;      if(a < src_va){         // 第一个页帧，不是完整的        // 这种情况也需要 kfree，因为跨过了一个页帧        writei(vma->file->ip, 1, src_va, 0, src_va - a);       } else {        writei(vma->file->ip, 1, a, copied_len, PGSIZE);      }       iunlock(vma->file->ip);      end_op();    }    kfree(PTE2PA(*pte));    *pte = 0;  }    uint64 copied_len = a - src_va;  uint64 len_left = vma->sz - copied_len;  if (len_left){    // 处理 unmap 结尾在页帧中间的情况    begin_op();    ilock(vma->file->ip);    writei(vma->file, 1, a, copied_len, len_left);    if(len_left + a == vma->sz + src_va){ // 如果停在的页帧刚好是最后一个      pte_t *pte;      if((pte = walk(pt, a, 0)) == 0){         panic("mmap_writeback: walk");      }      kfree(PTE2PA(*pte));    }    iunlock(vma->file->ip);    end_op();  }  return 0;}

相比之下，munmap() 就比较简单了，但需要注意，如果 unmap 好了之后整个映射区都没了，就代表我们不需要再用到对应的文件了，所以调用 fileclose() 来减少引用计数和关闭文件。

同时，还不能忘记 munmap() 取消映射区时的限制，只能从头取消或者是结尾，不能中间挖洞（见本文开头）
。

// in sysfile.cuint64munmap(uint64 addr, uint64 len){  struct proc* p = myproc();  struct mmap_vma* cur_vma = get_vma_by_addr(addr);  if(!cur_vma)    return -1;  if(addr > cur_vma->sta_addr && addr + len < cur_vma->sta_addr + cur_vma->sz){    // 从中间挖洞    return -1;  }  mmap_writeback(p->pagetable, addr, len, cur_vma);   if(addr == cur_vma->sta_addr){     // 从起始位置删除的    cur_vma->sta_addr += len;  }   cur_vma->sz -= len;    if(cur_vma->sz <= 0){    // 如果整个映射区都没了    fileclose(cur_vma->file);    cur_vma->in_use = 0;  }  return 0;  }

可能你会发现这个函数不是系统调用的形式，这是因为我们之后还需要在内核中调用。系统调用的形式如下：

uint64sys_munmap(){  // int munmap(void *addr, size_t length);  uint64 addr;  uint64 len;  try(argaddr(0, &addr),  return -1)  try(argaddr(1, &len), return -1)  return munmap(addr, len);}

内核需要调用 munmap() 是因为有些进程在退出后还没有取消它的文件映射，那我们就需要帮它强制清理掉这些映射，要不然会造成内存泄露，这个清理可以放在 exit() 中。

这里讲一下为为什么放在 exit() 中而不是真正释放进程号的 freeproc()。我们可以观察一下，一个进程被 freeproc() 是在 wait() 函数中，如下：

// in proc.c wait():……  for(;;){    // Scan through table looking for exited children.    havekids = 0;    for(np = proc; np < &proc[NPROC]; np++){      if(np->parent == p){        // make sure the child isn't still in exit() or swtch().        acquire(&np->lock);        havekids = 1;        if(np->state == ZOMBIE){          // Found one.          pid = np->pid;          if(addr != 0 && copyout(p->pagetable, addr, (char *)&np->xstate,                                  sizeof(np->xstate)) < 0) {            release(&np->lock);            release(&wait_lock);            return -1;          }          freeproc(np); // 注意这里，只有父进程 wait 的时候才会去 freeproc。          release(&np->lock);          release(&wait_lock);          return pid;        }        release(&np->lock);      }    }    ……  }……

那么如果父进程不调用 wait() 这些映射的文件就一直放着不会被写会文件中。当然，父进程是应该调用 wait() 的，这里放在 exit() 中主要还是实验的提示，但实验提示这么写可能是这个原因。

// in proc.c exit():voidexit(int status){  struct proc *p = myproc();  if(p == initproc)    panic("init exiting");  // 释放和写回 mmap 数据需要在关闭文件之前  for(int i = 0; i < VMA_SZ; i++){    if(p->mmap_vams[i].in_use){      try(munmap(p->mmap_vams[i].sta_addr, p->mmap_vams[i].sz), panic("exit: munmap"));    }  }  // Close all open files.  for(int fd = 0; fd < NOFILE; fd++){    if(p->ofile[fd]){      struct file *f = p->ofile[fd];      fileclose(f);      p->ofile[fd] = 0;    }  }……}

实验的最后一步就是在 fork() 之后也能让子进程访问到映射的文件。前面提到过我们只需要拷贝 vma 就行了。vma 中的 sta_addr 是一个虚拟地址，那么子进程尝试访问的时候会造成缺页错误，因为这个虚拟地址没有映射到物理地址上。

因此在 mmap_fault_handler() 中，我们会发现触发缺页错误的这个地址属于一个文件映射区。因此会给这个虚拟页帧分配一个物理页，然后把对应文件拷贝过去。

当然 fork() 之后意味着有另外一个进程也在使用被映射的文件，所以需要调用 filedup() 来增加引用计数。

fork()：

// in proc.c……  for (int i = 0; i < VMA_SZ; i++){    if(p->mmap_vams[i].in_use){      np->mmap_vams[i] = p->mmap_vams[i];       filedup(p->mmap_vams[i].file);      // 复制 vma    }  }……

我最初在这里有个小问题，就是前面的 uvmcopy() 已经复制过内存了，那难道不会把 vma 也复制了吗，我们后面再复制是否会造成重复复制。

看了代码之后就解决了，uvmcopy() 只会复制 myproc()->sz 以下的内存：

// in vm.c  for(i = 0; i < sz; i += PGSIZE){ // 注意这里范围    if((pte = walk(old, i, 0)) == 0)      panic("uvmcopy: pte should exist");    if((*pte & PTE_V) == 0)      panic("uvmcopy: page not present");    pa = PTE2PA(*pte);    flags = PTE_FLAGS(*pte);    if((mem = kalloc()) == 0)      goto err;    memmove(mem, (char*)pa, PGSIZE);    if(mappages(new, i, PGSIZE, (uint64)mem, flags) != 0){      kfree(mem);      goto err;    }  }

做好之后就可以 AC 了，也祝正在做这个 lab 的人尽快 AC：

吐槽

这里我一定要吐槽一下（我都不知道是哪的 bug，xv6？qemu？还是 Makefile？）的一个 bug。

大概就是我在用 gdb 调试的时候希望能使用宏（主要是 PGROUNDDOWN() 和 PGROUNDUP()），所以在 Makefile 文件中加入了 -g3 编译选项，像下面这样：

CFLAGS = -Wall -O -g3 -fno-omit-frame-pointer -ggdb -UFDEBUG

而这就会导致 usertest.c 中的一个测试通不过，直接 panic 了，如下：

$ usertests writebigusertests startingtest writebig: panic: balloc: out of blocks

去掉这个 -g3 居然就正常了？？？我是怎么也想不到一个编译选项居然可以影响虚拟磁盘的块数。然后就因为这个东西调了一天没调出来，毕竟谁会想到一个编译选项有这种效果，后来我是直接用 git 看这个分支和别的分支文件的区别，然后一个一个试才试出来的。

这个问题我已经发在 xv6-riscv 的 github 上了，然后在 issue 区逛了一圈后还发现了更离谱的：

https://github.com/mit-pdos/xv6-riscv/issues/59

就是在编译选项里加一个 -O3 也会造成这个问题。。。我不李姐。。。

[MIT 6.s081] Xv6 Lab10 File System 实验记录

2022-08-17T16:00:00.000Z

upd@2022/9/14：最近把实验的代码放到 github 上了，如果需要参考可以查看这里：

https://github.com/ttzytt/xv6-riscv

里面不同的分支就是不同的实验。

Lab10: file system

Large files

描述

在 xv6 的底层实现中，文件是由 struct dinode 来描述的，如下：

struct dinode {  short type;           // File type  short major;          // Major device number (T_DEVICE only)  short minor;          // Minor device number (T_DEVICE only)  short nlink;          // Number of links to inode in file system  uint size;            // Size of file (bytes)  uint addrs[NDIRECT + 1];   // Data block addresses};

这里我们主要关注结构体中的 addrs 属性。维护了此文件的实际储存位置。其中有 addrs 的前十二个直接指向文件储存的块，最后一个是间接的块，即其指向的块中储存了别的指针，这些指针才指向了实际储存数据的块。听起来有点绕，大概是下面这个示意图的样子：

那我们可以计算一下 xv6 能支持的最大文件大小。已知一个 struct dinode 有 64B 的大小，一个磁盘块能储存 1024B 的数据。

那么前 12 个直接指向数据块的 addrs 就能储存 $12 \times 1024B = 12288B$

而最后一个间接的数据指针指向一个存满了指针（指向别的磁盘块）的块，这个块能存放 $1024B \div 4B = 256$ 个地址。

而这里的每个地址都是一个块，因此，这个间接 addrs 能提供 $256 \times 1024B = 262144B$ 的储存空间。

那么他们加起来就是 $262144B + 12288B = 274432B$ 的储存空间，等于 $268KB$

这样的储存空间显然是非常小的，所以在这个 lab 中我们需要给 inode 加入一个二级的间接块指针来解决这个问题。

一个一级的间接块指针就是刚刚提到的，inode 中 addrs 的最后一个，其指向一个块，而这个块中储存的块指针又指向别的数据块。

在二级块指针中，addrs 中指针指向的块中的指针会指向另外的，储存指针的块，以此加大储存空间（有点像是多级页表了），如下：

可以计算一下这个二级间接块指针能提供的空间，已知一个块能储存 256 个块指针，那么 addrs 指向的那个块能储存 256 个块指针块的块号，所以总数就是 $256\times 256 = 65536$ 个块。除以 1024 为 64MB，可见提升非常巨大。

思路

需要修改 bmap() 和 itrunc() 这两个函数，不过没有什么特别难以思考的地方，所以具体的解释还是放到代码部分。

代码

因为加入了二级间接索引，所以要先对一些宏定义进行修改：

#define NDIRECT 11 // 减少一个直接索引，增加一个二级间接索引#define NINDIRECT (BSIZE / sizeof(uint))#define NBI_INDIRECT NINDIRECT * NINDIRECT // 二级间接索引提供的块#define MAXFILE (NDIRECT + NINDIRECT + NBI_INDIRECT) //

同时也需要修改 struct dinode 和 struct inode。其中，dinode 是实际储存在磁盘上的，而 inode 在 dinode 的基础上加入了很多方便处理 inode 的元数据：

//in fs.h// On-disk inode structurestruct dinode {  short type;           // File type  short major;          // Major device number (T_DEVICE only)  short minor;          // Minor device number (T_DEVICE only)  short nlink;          // Number of links to inode in file system  uint size;            // Size of file (bytes)  uint addrs[NDIRECT + 2];   // Data block addresses 这里修改成了 + 2};

// in file.h// in-memory copy of an inodestruct inode {  uint dev;           // Device number  uint inum;          // Inode number  int ref;            // Reference count  struct sleeplock lock; // protects everything below here  int valid;          // inode has been read from disk?  short type;         // copy of disk inode  short major;  short minor;  short nlink;  uint size;  uint addrs[NDIRECT+2];// 这里修改成了 + 2};

bmap()：

这个函数接收 inode 指针和 bn，表示 inode 中的第几个块，返回对应的块号。

我们需要在这个函数中添加对二级间接块的支持。为了取得二级的间接块，我们可以先获取到一级的间接块。

代码中很多写法可以参考前面对一级间接块的处理。

// in fs.c……  bn -= NINDIRECT;  // bn 代表还剩多少个  if(bn < NBI_INDIRECT){    if((addr = ip->addrs[NDIRECT + 1]) == 0) // 如果之前没分配这个 block      ip->addrs[NDIRECT + 1] = addr = balloc(ip->dev);        bp = bread(ip->dev, addr); // buf pointer 的简称    a = (uint *)bp->data;    uint idx_b1 = bn / NINDIRECT; // 取得 bn 对应的，一级间接块在 addr 中的下标    if((addr = a[idx_b1]) == 0){  // 一个一级块负责 256 个二级块，这里检测对应一级块是否存在      a[idx_b1] = addr = balloc(ip->dev);      log_write(bp);       // 标志这个块被修改了，随后会更新到磁盘的日志区      // 修改是因为，我们给这个储存块指针的块添加了一个新的块指针    }     brelse(bp); // 释放块缓存        bp2 = bread(ip->dev, addr); // bp2 为二级块的缓存    a = (uint *)bp2->data;    uint idx_b2 = bn % NINDIRECT;    if((addr = a[idx_b2]) == 0){      a[idx_b2] = addr = balloc(ip->dev);      log_write(bp2);    }    brelse(bp2);    return addr;  }……

itrunc()：

此函数会清理 inode 中的所有块，或者可以理解成删除一个文件。这个函数内实际上是在不停的调用 brelse() 和 bfree()。

其中 brelse() 释放一个块缓存，而 bfree() 则通过修改磁盘上 bitmap 块的数据来释放磁盘上的一个块。

和 bmap() 相同，很多地方可以参考一级间接索引的实现。主要的思路类似递归，先遍历每个一级块，检查里面是否有数据，如果有，就去遍历这个一级块里的二级块。

// in fs.c……  if(ip->addrs[NDIRECT + 1]){ // 判断 inode 是否使用了二级间接索引    bp = bread(ip->dev, ip->addrs[NDIRECT + 1]);    a = (uint*)bp->data;    for (i = 0; i < NINDIRECT; i++){ // 遍历一级块      if(a[i]){ // 如果有数据，就遍历这个一级块里的二级块        struct buf* bp2 = bread(ip->dev, a[i]); // 获取这个块的对应缓存        uint *a2 = bp2->data;        for(j = 0; j < NINDIRECT; j++){          if(a2[j])            bfree(ip->dev, a2[j]); // a2[j] 存的是块号，这里把磁盘中这个块的内容清空了。或者说释放        }          brelse(bp2); // 释放块缓存        bfree(ip->dev, a[i]); // 释放磁盘中的块        // 和 a[i] 对应的是 bp2        // a[i] 是块号，bp2 是实际的块缓存      }          }    brelse(bp); // 释放缓存    bfree(ip->dev, ip->addrs[NDIRECT + 1]); // 释放磁盘块    ip->addrs[NDIRECT + 1] = 0;  }……

Symbolic links

实验描述

这个实验需要我们实现符号链接，或者说软链接（说实话我现在还不是很清楚软硬链接的本质区别），有点像 windows 中的快捷方式。

实现起来其实很简单，不过这个 lab 中的提示给的（对我来说）不是很足，所以做的时候还是有点懵逼的，最后看了别人的博客才做出来。

首先软链接就像是一个文件的“指针”，如果我们打开某个软链接，实际打开的是那个链接指向的文件，这样就可以实现某个目录打开实际储存在不同目录的文件。

思路

那么我们要如何实现这个软链接呢？软链接的本质其实也是一个文件，我们只要在这个文件（其实是 inode）中储存此链接指向的文件的路径就行了。

为了实现链接的效果，在 open() 函数中，需要去根据链接中储存的路径，递归的找到最终指向的文件（可能会有一个软链接指向另一个软链接）。

可是万一我们想打开的是这个软连接本身呢？这就需要新定义的 open() 标志位了，这些标志位用于指定打开文件描述符的一些设置。那我们可以添加一个 O_NOFOLLOW 的标志位，意味不去递归打开软连接里的路径，而打开软连接本身。

//in fcntl.h#define O_RDONLY  0x000#define O_WRONLY  0x001#define O_RDWR    0x002#define O_CREATE  0x200#define O_TRUNC   0x400#define O_NOFOLLOW 0x800

同时 inode 本身是对磁盘中储存的各种数据的一种“抽象”，为了得知 inode 里面具体放的是什么，需要定义一个新的 inode 类型：

//in stat.h#define T_DIR     1   // Directory#define T_FILE    2   // File#define T_DEVICE  3   // Device#define T_SYMLINK 4   // 软连接

注意这个实验中比较烦人的一点是，sys_symlink() 这个系统调用是没有注册好的，需要和 lab2 一样，在各种文件中加入这个系统调用，我假设看这个文章的人都是做过 lab2 的，所以不赘述，如果你没有，可以看我的这篇文章。

代码

sys_symlink()：

前面说软连接的本质其实是一种文件，不过这个文件其实又是一个 inode，那么在写代码的时候就需要注意各种操作都是对 inode 进行的。然后还有就是在各种文件相关的系统调用中，我们都需要使用 open_op() 和 end_op() 把这些系统调用包裹起来。其代表，在这个区间内的任何操作会先被记录到日志系统中（不熟悉可用参考 xv6 的书以及 lecture）。

uint64 sys_symlink(){  char tar_path[MAXPATH], path[MAXPATH];  try(argstr(0, tar_path, MAXPATH), return -1);  try(argstr(1, path, MAXPATH), return -1);  struct inode* ip;  begin_op();  ip = create(path, T_SYMLINK, 0, 0); // 创建一个文件，返回其 inode（因为没注释，我其实不是很确定这个函数                                      // 的用法，只是根据其实现猜测的）  if(ip == 0){    end_op();    return -1;  }  try(writei(ip, 0, tar_path, 0, strlen(tar_path)), end_op(); return -1);   // writei 其实就是往某个 inode 中写数据，这里把软链接想要指向的路径写进去了  iunlockput(ip);  // 使用完 inode 后的标准操作  // 先释放了锁，然后释放这个 inode  // 这里对于 inode 的 iput() 和对于块缓存的 brelse() 很相似  // 都是先减少了引用计数，然后判断是否可用真正的释放  end_op();  return 0;}

sys_open()：

下面这段 sys_open() 开头的代码打开或者创建了用户传进来路径所对应文件的 inode，记录在 ip 中。而 sys_open() 的后续代码会处理这个 ip 来完成打开的操作，我们先不用管。

\\ in sysfile.c  if(omode & O_CREATE){    ip = create(path, T_FILE, 0, 0);    if(ip == 0){      end_op();      return -1;    }  } else {    if((ip = namei(path)) == 0){      end_op();      return -1;    }    ilock(ip);    if(ip->type == T_DIR && omode != O_RDONLY){      iunlockput(ip);      end_op();      return -1;    }  }

那对于一个符号链接来说，用户传进来路径对应的 ip 并不是其想要打开的 ip，所以我们需要递归的跟随符号链接中指向的文件来修改这个 ip。注意最终这个 ip 必须是上锁的。

如下（这部分代码添加在上面代码的后面）：

\\ in sysfile.c  if(!(omode & O_NOFOLLOW)){    int rec_left = 10; // 递归次数限制，软链接可能成环    struct inode* next_file;    while(rec_left && ip->type == T_SYMLINK){            if(readi(ip, 0, path, 0, MAXPATH) == 0){        iunlockput(ip);        end_op();        return -1;      }      if((next_file = namei(path)) == 0){        // namei 可用从一个路径获得 inode        iunlockput(ip);        end_op();        return -1;      }      iunlockput(ip); // 储存链接的文件已经使用完了      ip = next_file;      rec_left--;        ilock(ip); // 在这里加锁而不在 while 的下面是因为如果这个 inode 不是一个软链接                 // 我们还是需要持有这个锁的，因为后面的处理代码会修改 inode    }    if(rec_left <= 0){      iunlockput(ip);      end_op();      return -1;    }  }

这里要特别特别注意一个点，在递归跟随软链接时，我们碰到一个不是软链接的文件需要停下来。这也要求我们去访问 inode 的 type 属性。那么判断这个属性一定要在 ilock(ip) 的后面，我调了好久才发现这个 bug。

我们先看下 ilock() 的代码：

// Lock the given inode.// Reads the inode from disk if necessary.voidilock(struct inode *ip){  struct buf *bp;  struct dinode *dip;  if(ip == 0 || ip->ref < 1)    panic("ilock");  acquiresleep(&ip->lock);  if(ip->valid == 0){    bp = bread(ip->dev, IBLOCK(ip->inum, sb));    dip = (struct dinode*)bp->data + ip->inum%IPB;    ip->type = dip->type;    ip->major = dip->major;    ip->minor = dip->minor;    ip->nlink = dip->nlink;    ip->size = dip->size;    memmove(ip->addrs, dip->addrs, sizeof(ip->addrs));    brelse(bp);    ip->valid = 1;    if(ip->type == 0)      panic("ilock: no type");  }}

可以发现，会先检查 ip->valid，这个 valid 属性表示当前 inode 的数据是否从磁盘中加载过。如果是没有，那么会先读取磁盘，然后把数据加载进这个 inode 中。

也就是说，如果在执行 ilock() 之前先访问了 inode，意味着这个 inode 很可能是空的，自然读到的东西也没意义（这也再一次提醒了我们访问线程间共享数据时，一定要加锁）。

做完这些后，就可以愉快的 AC 了，也祝在做这个 lab 的人尽快 AC：

提醒一点，如果你发现你的程序在 qemu 中跑测试没问题，但是 make grade 过不了的话，很可能是因为超时了（估计是我电脑性能太垃了），这个时候需要去 python 的计分程序 grade-lab-fs 中改下时限。

总结

数组越界，内存泄漏实在是非常可怕的事情——实际的错误和系统报的错没有任何的相关性，调都调不出来。

这里大概讲下我做这个 lab 时犯的一些傻逼到极致的错误吧，关键是调了两个下午才调出来。

最开始我在进行 symlinktest 的时候，会报 panic，信息是 virtio_disk_intr status。那这种跟虚拟磁盘有关的东西我肯定是不会处理的，于是单步了以下，找到了 symlinktest 中具体是哪一步出了问题。结果如下：

r = symlink("/testsymlink/4", "/testsymlink/3");if(r) fail("Failed to link 3->4");close(fd1);close(fd2); // 问题fd1 = open("/testsymlink/4", O_CREATE | O_RDWR);if(fd1<0) fail("Failed to create 4\n");

这里，symlinktest 调用 close(fd2) 之后就直接 panic 了。

然后我又单步了以下，大概发现，发生问题时的调用过程是这样的：

sys_close() -> fileclose() -> iput() -> itrunc() -> bread()：

我一想是 itrunc() 写错了，还直接新开了个分支，抄了别人的 itrunc() 然后还是不行。

后来又想，不会是什么玄学问题把，于是直接把那个 panic() 给注释掉了，又发现有新的 panic()，这次报的错是 freeing free block：

static voidbfree(int dev, uint b){  struct buf *bp;  int bi, m;  bp = bread(dev, BBLOCK(b, sb));  bi = b % BPB;  m = 1 << (bi % 8);  if((bp->data[bi/8] & m) == 0)    panic("freeing free block"); // 这里  bp->data[bi/8] &= ~m;  log_write(bp);  brelse(bp);}

后来又发现，在 itrunc() 中，根本没有释放一级间接索引的块，而是直接释放了二级间接索引（因为 addrs[12] 非零）。这肯定是不合理的，一定是一级的用完了再用二级的。结合 freeing free block 的 panic() 信息，我基本确定了问题可能是由某种越界引起的。

最后发现，居然是 struct inode 这里出了问题：

struct inode {  uint dev;           // Device number  uint inum;          // Inode number  int ref;            // Reference count  struct sleeplock lock; // protects everything below here  int valid;          // inode has been read from disk?  short type;         // copy of disk inode  short major;  short minor;  short nlink;  uint size;  uint addrs[NDIRECT+2];};

我把 dinode 的 addrs[NDIRECT + 1] 改成了 addrs[NDIRECT + 2]，但是忘了改 inode 的。。。

这就造成了，我在访问 addrs[12] 时，访问的实际是下一个 inode 的 dev 属性。那么事情就离谱起来了，你说一个 inode 的二级间接索引块怎么可能会在一号块（超级块）呢。。。我其实还挺好奇的，itrunc() 的时候怎么没有把超级块给释放了，又是如何引起虚拟磁盘的 panic() 的。我是懒得调了，有兴趣的可以试试看。

不说了，破大防了。。。

[MIT 6.s081] Xv6 Lab9 Lockss 实验记录

2022-08-11T16:00:00.000Z

upd@2022/8/18: 本文的第二个实验不完全正确，并且还有很多其他的做法，具体可以见这篇博客中我和博主的讨论。以及博主根据讨论新写的代码。

如果接下来有时间，会把第二部分的代码改掉并添加注释。

upd@2022/9/14：最近把实验的代码放到 github 上了，如果需要参考可以查看这里：

https://github.com/ttzytt/xv6-riscv

里面不同的分支就是不同的实验。

Lab9: locks

Memory allocator

实验描述

这 lab 的描述也是非常长，所以就不截图了。下面描述一下大概的题意：

在原本的 kalloc() 中，只有一个大锁，我们会维护一个 freelist 链表，如果有任何程序申请内存，都需要竞争 freelist 的锁，以修改 freelist 的内容。具体可见 freelist 和 kalloc() 的实现：

struct run {  struct run *next;};struct {  struct spinlock lock;  struct run *freelist;} kmem;……// Free the page of physical memory pointed at by v,// which normally should have been returned by a// call to kalloc().  (The exception is when// initializing the allocator; see kinit above.)voidkfree(void *pa){  struct run *r;  if(((uint64)pa % PGSIZE) != 0 || (char*)pa < end || (uint64)pa >= PHYSTOP)    panic("kfree");  // Fill with junk to catch dangling refs.  memset(pa, 1, PGSIZE);  r = (struct run*)pa;  acquire(&kmem.lock);  r->next = kmem.freelist;  kmem.freelist = r;  release(&kmem.lock);}// Allocate one 4096-byte page of physical memory.// Returns a pointer that the kernel can use.// Returns 0 if the memory cannot be allocated.void *kalloc(void){  struct run *r;  acquire(&kmem.lock);  r = kmem.freelist;  if(r)    kmem.freelist = r->next;  release(&kmem.lock);  if(r)    memset((char*)r, 5, PGSIZE); // fill with junk  return (void*)r;}

可以发现，不可能同时有多个核心去调用 kalloc() 函数以及 kfree() 函数，大大降低了内存分配的效率。

经测试，可以发现这个大锁就是一个很大瓶颈（kmem 这个锁是所有锁中等待次数最多，竞争最激烈的）：

$ kallocteststart test1test1 results:--- lock kmem/bcache statslock: kmem: #fetch-and-add 83375 #acquire() 433015lock: bcache: #fetch-and-add 0 #acquire() 1260--- top 5 contended locks:lock: kmem: #fetch-and-add 83375 #acquire() 433015lock: proc: #fetch-and-add 23737 #acquire() 130718lock: virtio_disk: #fetch-and-add 11159 #acquire() 114lock: proc: #fetch-and-add 5937 #acquire() 130786lock: proc: #fetch-and-add 4080 #acquire() 130786tot= 83375test1 FAIL

在这个 lab 中，我们就需要解决这个问题。实验提示中给出的提示是给每个处理器核心都分配一个 freelist，那如果某个核心想要分配一页内存，就无需等待耗时的锁操作，直接分配就行了（其实也要加锁，但是竞争显著的变少了）。

思路

这也带来了一个新的问题，有的时候某些核心会有充足的待分配页帧，而某些核心已经没有了，那么就算总的空闲页帧是足够的，也不能分配新的页帧。

所以，如果当前核心没有页帧可以分配了。我们需要去从别的核心“偷”一些新的页帧。

那我们大概可以写出下面的伪代码：

struct {  struct spinlock lock;  struct run *freelist;} kmems[NCPU];void kalloc(){    struct run* r = 0;    push_off();    int cpu = cpuid();    pop_off();    acquire(&kmems[cpu].lock);    int stealed = 0;    if(!kmems[cpu].freelist){        for (i : kmems){            acquire(&i.lock);            while (i 中还有页帧 && stealed < STEAL_CNT) {                释放 i 中 feelist 的页帧;                把释放的页帧加入 kmems[cpu].freelist;            }            if(stealed >= STEAL_CNT){                break;            }            releae(&i.lock);        }    }    r = kmems[cpu].freelist;    if (r) {            kmems[cpu].freelist = r->next;    }    release(&kmems[cpu].lock);    return r;}

看起来还是比较合理的，其实这样的代码也能通过测试。不过这个代码其实是可能发生死锁的（其实是几乎不可能）。

注意 for (i : kmems) 这个循环，可以发现，在循环中，会持有两个锁，或者说是尝试获得两个锁：第一个是本核心的锁，也就是 kmems[cpu].lock 第二个是尝试偷页帧时，获得的锁 i.lock。

假设我们的处理器只有两个核心，a 和 b，那如果这两个线程现在都没有空闲页帧了，就会先拿到自己的锁，然后去尝试偷对方的页帧。

在偷的过程中，都会先尝试拿到对方的锁，但是之前 a 和 b 都已经拿到自己的锁了。这就造成了死锁。

当然死锁不止会发生在只有两个核心的情况下，这里使用两个核心只是为了方便说明。

要解决这个问题，我们可以让每个核心不能同时持有本核心和别的核心的锁。

当然这也引出了别的问题，比如我们在偷页帧，并且加入本核心 freelist 的时候，另一个核心可能试图从我们这里偷页帧。这样两个核心同时修改 freelist 的时候，就会出现奇怪的问题。

下面解释下我的解决方案：

首先在发现没有空闲页帧后，立刻释放掉本核心的锁，然后尝试偷页。需要同时持有两个锁是因为可能有多个核心同时修改 freelist，那我们不如就让本核心不去修改 freelist，而是把可以偷的页从别的核心那里释放掉，然后把这个页加入一个候选队列。随后取得本核心的锁后，再扫描候选队列，然后把这些页加入 freelist。

同时，因为我们并没有在本核心的 freelist 中加入偷到的页，而只是记录在候选队列，如果别的核心尝试去偷本核心的页帧，就会发现已经没有空闲页了，不会更改本核心的 freelist。这样在偷页过程中没有任何核心修改 freelist，自然也不需要加锁。

不过这里需要注意一个点，就是中断。因为在偷页过程中可能是不持有任何锁的，xv6 会把中断打开。那当前核心可能会跳出去处理别的进程，而别的进程可能又会导致调用 kalloc()，会造成重复的偷页。

然后就可以写出如下代码：

代码

kinit()：

struct {  struct spinlock lock, stlk;  struct run *freelist;  uint64 st_ret[STEAL_CNT]; // 候选队列} kmems[NCPU];const uint name_sz = sizeof("kmem cpu 0");char kmem_lk_n[NCPU][sizeof("kmem cpu 0")];voidkinit(){   for(int i = 0; i < NCPU; i++){    snprintf(kmem_lk_n[i], name_sz, "kmem cpu %d", i);    initlock(&kmems[i].lock, kmem_lk_n[i]);  }  freerange(end, (void*)PHYSTOP);}

kfree() ：

voidkfree(void *pa){  struct run *r;  if(((uint64)pa % PGSIZE) != 0 || (char*)pa < end || (uint64)pa >= PHYSTOP)    panic("kfree");  push_off();  uint cpu = cpuid();  pop_off();  // Fill with junk to catch dangling refs.  memset(pa, 1, PGSIZE);  r = (struct run*)pa;  acquire(&kmems[cpu].lock);  r->next = kmems[cpu].freelist;  kmems[cpu].freelist = r;  release(&kmems[cpu].lock);}

这里相当于是哪个核心在运行当前进程，就把这个页帧分配到当前核心的 freelist。也是一个比较简单的分配策略，可能有更好的策略，~~不过我懒~~。

steal()：

这个函数是新添加的，其实就是扫描所有核心的 freelist，然后把空闲的加入当前核心的候选队列，也就是 st_ret[STEAL_CNT]：

int steal(uint cpu){ // 返回偷到了几个  uint st_left = STEAL_CNT;  int idx = 0;   memset(kmems[cpu].st_ret, 0, sizeof(kmems[cpu].st_ret));  for(int i = 0; i < NCPU; i++){    if(i == cpu)  continue;    acquire(&kmems[i].lock);    while(kmems[i].freelist && st_left){       kmems[cpu].st_ret[idx++] = kmems[i].freelist;        kmems[i].freelist = kmems[i].freelist->next;        st_left--;    }    release(&kmems[i].lock);    if(st_left == 0) { // 一共偷 STEAL_CNT 个      break;    }  }  return idx;}

kalloc()：

如果没有空闲的页帧了，会调用 steal()，之后会把偷来的真正的加到 freelist 中。注意整个 kalloc() 都是关闭中断的，因为开中断可能造成同时有两个进程执行 steal()，造成重复偷页。

void *kalloc(void){  struct run *r = 0;    push_off();  uint cpu = cpuid();     acquire(&kmems[cpu].lock);  r = kmems[cpu].freelist;  // r 是之后要返回的页帧  if(r){     kmems[cpu].freelist = r->next;    release(&kmems[cpu].lock);    } else {    release(&kmems[cpu].lock);    int ret = steal(cpu); // steal 过程中不可能 kfree，因为关闭中断    // ret 是偷到了多少页    if(ret <= 0){      pop_off();      return 0;    }    acquire(&kmems[cpu].lock);    for(int i = 0; i < ret; i++){      if (!kmems[cpu].st_ret[i]) break;      ((struct run*)kmems[cpu].st_ret[i])->next = kmems[cpu].freelist; // 把偷来的页加到 freelist 的前面      kmems[cpu].freelist = kmems[cpu].st_ret[i];    }    r = kmems[cpu].freelist;    kmems[cpu].freelist = r->next;    release(&kmems[cpu].lock);  }  if(r){    memset((char*)r, 5, PGSIZE); // fill with junk      DEBUG("kalloc 成功\n");  }  pop_off();  return r;}

Buffer cache

首先说下：这部分的思路很大程度参考抄了这位大佬的博客。

实验描述

在 xv6 中，我们是不能直接访问硬盘设备的，如果想要读取硬盘中的数据，需要先把数据拷贝到一个缓存中，然后读取缓存中的内容。

在 xv6 中，磁盘数据的最小单位是一个块，大小为 1024 kb。或者说我们每次从硬盘中最少能读出 1024kb 的数据。

在读写硬盘的时候，需要通过 bread() 函数得到相应的缓存（缓存中已经存放了硬盘对应块中的数据）：

// 文件位于 bio.c// Return a locked buf with the contents of the indicated block.struct buf*bread(uint dev, uint blockno){  struct buf *b;  b = bget(dev, blockno);  if(!b->valid) {    virtio_disk_rw(b, 0);    b->valid = 1;  }  return b;}

注意这里先调用了 bget() 函数。这个 bget() 会首先判断是否之前已经缓存过了硬盘中的这个块。如果有，那就直接返回对应的缓存，如果没有，会去找到一个最长时间没有使用的缓存，并且把那个缓存分配给当前块。如下：

// Look through buffer cache for block on device dev.// If not found, allocate a buffer.// In either case, return locked buffer.static struct buf*bget(uint dev, uint blockno){  struct buf *b;  acquire(&bcache.lock);  // Is the block already cached?  for(b = bcache.head.next; b != &bcache.head; b = b->next){    if(b->dev == dev && b->blockno == blockno){      b->refcnt++;      release(&bcache.lock);      acquiresleep(&b->lock);      return b;    }  }  // Not cached.  // Recycle the least recently used (LRU) unused buffer.  for(b = bcache.head.prev; b != &bcache.head; b = b->prev){    if(b->refcnt == 0) {      b->dev = dev;      b->blockno = blockno;      b->valid = 0;      b->refcnt = 1;      release(&bcache.lock);      acquiresleep(&b->lock);      return b;    }  }  panic("bget: no buffers");}

可以看到，所有的缓存被串到了一个双向链表里。链表的第一个元素是最近使用的，最后一个元素是很久没有使用的。

每次 bget() 的时候会先遍历一遍链表，检查当前块是否已经被存到缓存里了。如果没有，那就会从后到前遍历链表（意味着是从最久没有使用的开始找），找到第一个引用计数为 0 （代表没有程序正在使用这个块）的缓存作为当前块的缓存。

这就造成了，在任何时候想要分配缓存，都需要竞争这个链表的锁。

可能你会想到使使用前一个实验的方法来优化，但把缓存分配到不同核心的方法是行不通的。因为分配页帧和回收页帧的时候，只需要有一个核心参与，而且分配后某个页帧只会被一个进程访问。

而分配出去的块缓存可能会被不同进程访问。比如不同的进程可以访问和写入同一个块缓存。如果预先按照核心分配缓存，有很大概率进程需要的缓存不属于当前核心。那就需要去一个一个的遍历别核心的块缓存，造成性能下降。（不过如果每个块缓存单独持有一个锁，粒度更小了会不会性能更好点）。

实验描述中给我们的提示是实现一个散列表。散列表会把块号映射到块缓存的桶，那么只有两个进程试图操作同一个桶中的块缓存，才会造成竞争。而且在查找所需块缓存时页不需要遍历所有的缓存，只需要遍历对应的桶。

当然，在对应桶中没有足够缓存时，我们可以像在 kalloc() 中一样，从别的桶中偷缓存。

思路

这个实验中的散列表还是比较容易理解的。不过散列表中也有涉及页表分配实验中“偷”的过程，这样会陷入一种两难的境地。

在“偷”的过程中，我们会需要同时获得当前桶的锁，也需要检查别的桶，所以需要拿到别的桶的锁。这样就不可避免的同时持有了两把锁。

而这两把锁可能会造成死锁，如下^[1]：

假设块号 b1 的哈希值是 2，块号 b2 的哈希值是 5并且两个块在运行前都没有被缓存----------------------------------------CPU1                  CPU2----------------------------------------bget(dev, b1)         bget(dev,b2)    |                     |    V                     V获取桶 2 的锁           获取桶 5 的锁    |                     |    V                     V缓存不存在，遍历所有桶    缓存不存在，遍历所有桶    |                     |    V                     V  ......                遍历到桶 2    |                尝试获取桶 2 的锁    |                     |    V                     V  遍历到桶 5          桶 2 的锁由 CPU1 持有，等待释放尝试获取桶 5 的锁    |    V桶 5 的锁由 CPU2 持有，等待释放!此时 CPU1 等待 CPU2，而 CPU2 在等待 CPU1，陷入死锁!

这里有一个办法就是，如果发现没有需要的缓存，就在开始偷之前把自己的锁释放掉。

当然这就造成了新的问题。假设在某一时刻我们放弃了自己的锁，然后开始找别的桶里空闲的缓存。这时候另一个进程调用了 bget() 函数，并且 blockno 还是同一个。那么这另一个个进程也会进入到找空闲缓存的状态。

在两个进程都找到了空闲缓存后，它们会把两个缓存都加到当前 blockno 的桶中，这样一个 blockno 对应的缓存就有了两个。

所以我们需要对添加缓存的操作加锁，然后得到锁之后再检查一遍是否已经有了对应缓存（可能有别的进程在相同时间调用了 bget() 并且块号还是一样的）。

除了锁相关的问题，我们还需要考虑如何找出最长时间没用过的缓存（LRU, least recent used）。因为 LRU 缓存通常在短时间之内不会再用到，所以在缓存不够的时候一般会回收这些缓存。

在原来的设计中，我们维护了一个双向链表，如果有新释放的缓存就加到链表的前面。所以链表尾部的缓存是最久没使用的，反之亦然。

但是在新设计中，我们维护了好几条链表（桶）没有办法在这些链表之间做比较。那么我们可以给 buf 结构体新加一个 lst_use 属性，表示最后一次使用的时间。而这个最后使用的时间可以从 ticks 全局变量获得，这个变量是由计时器中断维护的。代码如下：

//trap.c……voidclockintr(){  acquire(&tickslock);  ticks++;  wakeup(&ticks);  release(&tickslock);}if(cpuid() == 0){  clockintr();}……

代码

binit()：

#define BUCK_SIZ 13#define BCACHE_HASH(dev, blk) (((dev << 27) | blk) % BUCK_SIZ) // 支持多个 dev                                                                // 其实也可以直接模 BUCK_SIZ// or 13, 1009, 10007struct {  struct spinlock bhash_lk[BUCK_SIZ]; // buf hash lock  struct buf bhash_head[BUCK_SIZ]; // 每个桶的开头，不用 buf* 是因为我们需要得到某个 buf 前面的 buf                                   // 用了指针会比较麻烦，见后文  struct buf buf[NBUF]; // 最终的缓存  // Linked list of all buffers, through prev/next.  // Sorted by how recently the buffer was used.  // head.next is most recent, head.prev is least.} bcache;voidbinit(void){  for (int i = 0; i < BUCK_SIZ; i++){    initlock(&bcache.bhash_lk[i], "bcache buf hash lock");    bcache.bhash_head[i].next = 0;  }  for(int i = 0; i < NBUF; i++){ // 最开始把所有缓存都分配到桶 0 上    struct buf *b = &bcache.buf[i];    initsleeplock(&b->lock, "buf sleep lock");    b->lst_use = 0;    b->refcnt = 0;    b->next = bcache.bhash_head[0].next; // 往 0 的头上插    bcache.bhash_head[0].next = b;  }}

bget()：

这个就是我们主要修改的函数

// Look through buffer cache for block on device dev.// If not found, allocate a buffer.// In either case, return locked buffer.static struct buf*bget(uint dev, uint blockno){  struct buf *b;  uint key = BCACHE_HASH(dev, blockno);  acquire(&bcache.bhash_lk[key]);  for(b = bcache.bhash_head[key].next; b; b = b->next){    // 查看 blockno 是否在对应的桶里被缓存    if(b->dev == dev && b->blockno == blockno){      b->refcnt++;      release(&bcache.bhash_lk[key]);      acquiresleep(&b->lock);      return b;    }  }  release(&bcache.bhash_lk[key]);  int lru_bkt;  struct buf* pre_lru = bfind_prelru(&lru_bkt);  // pre_lru 会返回空闲缓存前一个（链表中前一个）缓存的地址  // 并且确保拿到了缓存对应的桶锁  // 我们会传进去一个 lru_bkt，函数执行好后，这个值会储存缓存对应的桶  if(pre_lru == 0){    panic("bget: no buffers");  }    struct buf* lru = pre_lru->next;   // lru （lru 是最久没有使用的缓存，并且 refcnt = 0）是 pre_lru 后面的一个  pre_lru->next = lru->next;   // 让 pre_lru 的后面一个直接变成 lru 的后面一个，相当于删除 lru  release(&bcache.bhash_lk[lru_bkt]);  acquire(&bcache.bhash_lk[key]);    for(b = bcache.bhash_head[key].next; b; b = b->next){    // 拿到锁之后要确保没有重复添加缓存    if(b->dev == dev && b->blockno == blockno){      b->refcnt++;      release(&bcache.bhash_lk[key]);      acquiresleep(&b->lock);      return b;    }  }  lru->next = bcache.bhash_head[key].next; // 把找到的缓存添加到链表头部  bcache.bhash_head[key].next = lru;  lru->dev = dev, lru->blockno = blockno;  lru->valid = 0, lru->refcnt = 1;   release(&bcache.bhash_lk[key]);  acquiresleep(&lru->lock);  return lru;}

bfind_prelru()：

比较关键的一个函数，接收一个 lru_bkt 的指针，然后返回最久没使用的，ref_cnt 为 0 的缓存的前一个缓存的地址。注意我们需要一直持有 lru 所在的桶的锁。要不在然释放掉这个锁后，把缓存添加近当前桶前，这个缓存（指 lru）可能会被修改。

传进 lru_bkt 指针是因为我们希望给 lru_bkt 赋值，这样函数返回后我们能知道去释放哪个桶的锁。

struct buf* bfind_prelru(int* lru_bkt){ // 返回 lru 前面的一个，并且加锁  struct buf* lru_res = 0;  *lru_bkt = -1;  struct buf* b;  for(int i = 0; i < BUCK_SIZ; i++){    acquire(&bcache.bhash_lk[i]);    int found_new = 0;    for(b = &bcache.bhash_head[i]; b->next; b = b->next){       if(b->next->refcnt == 0 && (!lru_res || b->next->lst_use < lru_res->next->lst_use)){        lru_res = b;        found_new = 1;      }    }    if(!found_new){      // 没有更好的选择，就一直持有这个锁（需要确保一直持有最佳选择对应桶的锁）      release(&bcache.bhash_lk[i]);    }else{ // 有更好的选择（有更久没使用的）      if(*lru_bkt != -1) release(&bcache.bhash_lk[*lru_bkt]); // 直接释放以前选择的锁      *lru_bkt = i; // 更新最佳选择    }  }  return lru_res;}

brelse()：

// Release a locked buffer.// Move to the head of the most-recently-used list.voidbrelse(struct buf *b){  if(!holdingsleep(&b->lock))    panic("brelse");  releasesleep(&b->lock);  uint key = BCACHE_HASH(b->dev, b->blockno);  // 改成散列表后要先得到 key  acquire(&bcache.bhash_lk[key]);  b->refcnt--;  if (b->refcnt == 0) {    // no one is waiting for it.    b->lst_use = ticks;  }    release(&bcache.bhash_lk[key]);}

bpin 和 bunpin：

voidbpin(struct buf *b) {  uint key = BCACHE_HASH(b->dev, b->blockno);  acquire(&bcache.bhash_lk[key]);  b->refcnt++;  release(&bcache.bhash_lk[key]);}voidbunpin(struct buf *b) {  uint key = BCACHE_HASH(b->dev, b->blockno);  acquire(&bcache.bhash_lk[key]);  b->refcnt--;  release(&bcache.bhash_lk[key]);}

1.https://blog.miigon.net/posts/s081-lab8-locks/ ↩

[MIT 6.s081] Xv6 Lab8 Networking 实验记录

2022-08-07T16:00:00.000Z

upd@2022/9/14：最近把实验的代码放到 github 上了，如果需要参考可以查看这里：

https://github.com/ttzytt/xv6-riscv

里面不同的分支就是不同的实验。

Lab8: Networking

这个 lab 的描述属实是长，不过很多的篇幅都在介绍 E1000 网卡。最终的任务其实很简单，就是实现 E1000 网卡驱动中的 transmit() 和 recv() 函数。

这个 lab 的代码不复杂，但写出来需要对 lab 中的提示有很好的理解。同时，也需要查阅 E1000 的文档。

下面先介绍处理器和 E1000 交互的方法，随后再介绍两个函数的具体实现方法。

E1000 的交互方法

E1000 使用了 DMA（direct memory access）技术，可以直接把接收到的数据包写入计算机的内存，这在数据量大的时候非常有用，可以当作缓存。

在发送时也可以把描述符（见下文）写入内存的特定位置，这样 E1000 就会自己去找到待发送的数据，然后发送。

不管是接收还是发送，数据包都是以描述符数组描述的。在下面的接收和发送部分，会分别介绍接收描述符和发送描述符的格式。

接收

如果网卡收到了数据，会产生一个中断，然后调用对应的中断处理程序去处理这个新到达的数据。

描述符

接收描述符的格式如下：

在 xv6 中，这个描述符的定义如下：

// [E1000 3.2.3]struct rx_desc{  uint64 addr;       /* Address of the descriptor's data buffer */  uint16 length;     /* Length of data DMAed into data buffer */  uint16 csum;       /* Packet checksum */  uint8 status;      /* Descriptor status */  uint8 errors;      /* Descriptor Errors */  uint16 special;};

我们会在内存中放一个数组的描述符，然后这个数组会被解读成一个环形队列。

如果网卡接收到了一个新的数据包，会检查环形队列 head 位置的描述符。然后把数据写入 head 描述符的缓冲区，也就是 addr 记录的地址。

这里比较重要的还有 status 和 length 属性。网卡在写入的时候就会设置这些属性。

其中，length 表示写入 addr 的数据包长度。status 则可以代表下列状态：

其中，我们需要用到的主要是 DD (Descriptor Done) 这个标志位。其表示网卡已经接收好了这个包。

在编写驱动的过程中，我们需要注意判断这个标志位，如果还没有完全接收好，我们就应该继续等待一段时间。

环形队列

上面我们提到了，如果网卡收到了新的数据，会往环形队列 head 位置描述符的缓冲区写入数据，下面来讨论网卡和驱动程序是如何具体管理这个缓冲区的。

下图展示了接收描述符环形队列的结构：

初始化时，head 为 0，tail 为队列缓冲区减一。

其中，head 到 tail 的这段浅色的区域是空闲的（图好像有点问题，其实 tail 指向的位置也时空闲的）。也就是说，这个区域内的数据包都已经被软件处理好了，那么如果有新的数据包到达，网卡会把数据写入这个区域的开始，也就是 head，把老的数据覆盖掉。网卡把老的数据覆盖掉后会把 head 的值加一。

而软件会按照顺序处理深色的区域。读取环形队列时，读取的是 tail + 1 位置描述符缓冲区的数据（这个位置是所有未处理数据中等待时间最长的），处理完这个缓冲区后会把 tail 增加一。

发送

描述符

发送描述符的格式如下：

在 xv6 中，这个描述符的定义如下：

// [E1000 3.3.3]struct tx_desc{  uint64 addr;  uint16 length;  uint8 cso;       // checksum offset  uint8 cmd;       // command field  uint8 status;    //   uint8 css;       // checksum start field  uint16 special;  // };

其中 addr 和 length 的作用和接收描述符的作用相同，这里不赘述。

除了这两个，我们主要还需要用到 cmd 和 status 这两个属性。

和接收标志位一样，在 status 中我们需要用到 DD 标志位，表示当前标志位指向的数据是否发送完成。

而 cmd 描述了传输这个数据包时的一些设置，或者说对于网卡的命令。

有以下的命令可以选择：

这里需要用到的命令有如下几个：

RPS (Report Packet Sent)：设置之后，网卡会报告数据包发送的状态。比如，在描述符指向的数据发送完成后，网卡会设置描述符的 DD 标志位。
EOP (End of Packet)：表明这个描述符是数据包的结尾。如果要发送的数据包特别大，我们可能会用很多个描述符的缓存空间来储存一个包。那么可以给这个数据包的最后一个描述符设置 EOP 命令。只有这样才能给这个描述符加上一些别的功能，如 IC，即加入和校验。

环形队列

和接收描述符的环形队列略有不同，发送描述符的 head 到 tail 这段区域（途中浅色区域）表示我们希望发送，但是网卡还没发送出去的数据。

其中 head 指向等待时间最长的待发送数据，网卡会从这里开始发送。完成后会把 tail 加一而如果我们要新加入一个描述符，是从 tail 这个方向加入的，也会把 tail 加一。

xv6 对网络数据的描述

为了方便网络数据的处理，xv6 还定义了一个结构体，即 struct mbuf，如下：

struct mbuf {  struct mbuf  *next; // the next mbuf in the chain  char         *head; // the current start position of the buffer  unsigned int len;   // the length of the buffer  char         buf[MBUF_SIZE]; // the backing store};

在 e1000_transmit() 函数中，我们就需要接收一个 mbuf 类型的网络数据，然后写入 DMA 对应的内存地址，进而让网卡发送这个数据。

mbuf 的结构大致是下面这样的：

// The above functions manipulate the size and position of the buffer://            <- push            <- trim//             -> pull            -> put// [-headroom-][------buffer------][-tailroom-]// |----------------MBUF_SIZE-----------------|//// These marcos automatically typecast and determine the size of header structs.// In most situations you should use these instead of the raw ops above.#define mbufpullhdr(mbuf, hdr) (typeof(hdr)*)mbufpull(mbuf, sizeof(hdr))#define mbufpushhdr(mbuf, hdr) (typeof(hdr)*)mbufpush(mbuf, sizeof(hdr))#define mbufputhdr(mbuf, hdr) (typeof(hdr)*)mbufput(mbuf, sizeof(hdr))#define mbuftrimhdr(mbuf, hdr) (typeof(hdr)*)mbuftrim(mbuf, sizeof(hdr))----------------MBUF_SIZE-----------------|

其中的 headroom 可以被 push 进去，用来储存网络协议的包头。在接收网络数据后也可以把中间 buffer 的部分 pull 进去来转换成如下的包头：

// an Ethernet packet header (start of the packet).struct eth {  uint8  dhost[ETHADDR_LEN];  uint8  shost[ETHADDR_LEN];  uint16 type;} __attribute__((packed));

转换的部分可以在 net_rx() 函数找到：

struct eth *ethhdr;uint16 type;ethhdr = mbufpullhdr(m, *ethhdr);

而 buffer 部分是数据正文，剩下的 tailroom 是 char buf[MBUF_SIZE] 这个缓存除去前两部分的剩下部分。

在 struct mbuf 结构体中，len 表示正文的长度，head 表示 headroom 的结束位置。

在 net.c 中有很多和 mbuf 相关的函数，最主要的就是 mbufalloc() 和 mbuffree() 分别对应着 mbuf 的分配和释放。

寄存器操作

我们可以通过特定的内存映射访问到 E1000 的控制寄存器。具体来说，是通过 e1000.c 中的 regs 全局变量加上一些偏移量。在 e1000_dev.h 中定义了额这些偏移量。

代码实现和解释

发送

思路大概是这样的（其实就是 lab 中的提示）。

首先通过内存映射的控制寄存器得到当前环形队列的 tail（第一个没在发送的描述符位置）。然后取得 tail 对应的描述符，如下：

acquire(&e1000_lock); // 可能多个线程同时发送，所以要加锁uint idx = regs[E1000_TDT]; // transmit tail，表明第一个空闲的环形描述符struct tx_desc *desc = &tx_ring[idx];

然后检测当前描述符的状态。如果没有 E1000_TXD_STAT_DD 这个标志位，说明这一整个队列已经没有空闲的位置了（或者说这个 tail 已经碰到了环形队列的浅色区域了，也就是整个队列都储存了待发送的描述符）。在这种情况下，我们需要直接返回。

if(!(desc->status & E1000_TXD_STAT_DD)){ // 是否传输完成，没传完的话说明环形缓冲区没了，是错误  release(&e1000_lock);  return -1;}

接下来需要检测这个描述符对应的 mbuf 的状态。描述符的 addr 属性会指向这个 mbuf，如果这个描述符中的数据（也就是对应的 mbuf）已经发送完了，那就可以把这个 mbuf 释放掉。

if(tx_mbufs[idx] != NULL){ // 这里的 buf 指向要发的数据包  // 因为前面的判断，这里肯定是发送完了  // tx_mbufs 是不需要分配的，直接指向 m 这个参数  mbuffree(tx_mbufs[idx]);  tx_mbufs[idx] = NULL;}

老的释放掉之后就可以让描述符的 addr 指向当前要发送的数据了。并且还需要更新数据长度，如下：

desc->addr = m->head;desc->length = m->len;

这里有个地方我花了很久才搞懂，就是为什么要写 desc->addr = m->head，而不是 desc->addr = m->buf。

我一开始以为 mbuf 的 headroom 就是储存数据包头的。实际上，真正储存包头的部分是 mbuf 中间 buffer 的开头。而 headroom 只是一个“缓冲区”。比如如果我们需要把当前的包头换成另一个占用空间更大的包头，就可以先调用 mbufpullhdr() 再调用 mbufpushhdr()。

我们可以看一个别函数调用 e1000_transmit() 的例子来了解 headroom 的作用。整个 net.c 中只有 net_tx_eth() 一个函数调用了 e1000_transmit()。如下：

// sends an ethernet packetstatic voidnet_tx_eth(struct mbuf *m, uint16 ethtype){  struct eth *ethhdr;  ethhdr = mbufpushhdr(m, *ethhdr); // 注意这里  memmove(ethhdr->shost, local_mac, ETHADDR_LEN);  // In a real networking stack, dhost would be set to the address discovered  // through ARP. Because we don't support enough of the ARP protocol, set it  // to broadcast instead.  memmove(ethhdr->dhost, broadcast_mac, ETHADDR_LEN);  ethhdr->type = htons(ethtype);  if (e1000_transmit(m)) {    mbuffree(m);  }}

这个函数的主要作用就是给以太网的数据包加上包头。ethhdr = mbufpushhdr(m, *ethhdr); 这句话缩小了 headroom 的大小，增加了 buffer 的大小。并且把增加出来的这部分空间赋值到了 ethhdr 上。

然后接下来的 memmove(ethhdr->shost, local_mac, ETHADDR_LEN); 和 memmove(ethhdr->dhost, broadcast_mac, ETHADDR_LEN); 就把数据头复制到了这个新在 headroom 中开辟出来的空间。这样 mbuf 的 buffer 部分就包括了数据头。

如果之后有更大的数据头，还可以缩小 headroom 增加 buffer 来存放。

回到 e1000_transmit() 函数的实现，在更新好描述符的 addr 和 len 后，还需要设置对这个描述符的命令：

desc->cmd = E1000_TXD_CMD_RS | E1000_TXD_CMD_EOP;

这里的两个命令在前面发送描述符的部分已经解释过了，这里不赘述。

e1000_transmit() 的最后一点代码如下：

tx_mbufs[idx] = m; // 方便之后清理regs[E1000_TDT] = (idx + 1) % TX_RING_SIZE; // 更新 tail 的位置release(&e1000_lock);return 0;

这里主要解释 tx_mbufs[idx] = m; 这句话。回想我们在该函数的前面部分检查了描述符的 E1000_TXD_STAT_DD 标志位，其表明网卡是否发送完成了这个描述符的数据。如果没有，我们会直接退出。如果有则清理这个数据缓存。

那么我们设置 tx_mbufs[idx] = m 就是为了方便检测这个标志，由此跟踪数据发送的状态。

e1000_transmit() 的完整代码如下：

inte1000_transmit(struct mbuf *m){  acquire(&e1000_lock);  uint idx = regs[E1000_TDT];  struct tx_desc *desc = &tx_ring[idx];  if(!(desc->status & E1000_TXD_STAT_DD)){    release(&e1000_lock);    return -1;  }  if(tx_mbufs[idx] != NULL){    mbuffree(tx_mbufs[idx]);    tx_mbufs[idx] = NULL;  }  desc->addr = m->head;  desc->length = m->len;  desc->cmd = E1000_TXD_CMD_RS | E1000_TXD_CMD_EOP;    tx_mbufs[idx] = m;   regs[E1000_TDT] = (idx + 1) % TX_RING_SIZE;  release(&e1000_lock);  return 0;}

接收

首先要注意的一点是，在 e1000_recv() 中，我们需要一次性读出所有的待读取数据包。也就是需要加一个循环，然后一直读取 tail 位置的描述符，直到描述符的状态为未完成接收。

对于接收到的数据包，E1000 网卡有很多种不同的中断策略。一般最常用的是 RDTR (Receive Interrupt Delay Timer 接收中断延迟计时？) 。大概就是收到一个包，并且用 DMA 写入宿主的内存后，会开启计时器，在到达设定的事件后发生中断。

这个策略的主要好处是可以减少大量包在短时间内到达时发生的中断次数。但是 xv6 中没有采用这个策略，而是每次写入宿主内存后都产生一次中断，相关的代码如下：

regs[E1000_RDTR] = 0; // interrupt after every received packet (no timer)regs[E1000_RADV] = 0; // interrupt after every packet (no timer)

那如果使用了这样的终端策略，每次中断就只需要读取一个描述符啊，为什么需要循环的读取 tail。

我个人的理解是因为在处理这样外部设备中断的时候，我们会先关闭中断。

假设大量包在短时间内到达，那么产生第一个中断后，我们会去处理这个中断。处理过程中，可能又会产生很多中断，在这样的情况下我们是接收不到这些中断的，因为处理单个描述符的速度赶不上中断的速度。

所以就需要每次处理中断时再检查是否有别的到达的包，如果有就继续读取。

回到这个函数的实现，我们还是需要先读取 tail 的位置，然后取得对应的描述符：

uint idx = (regs[E1000_RDT] + 1) % RX_RING_SIZE; // head 到 tail 是一个空的缓冲区struct rx_desc *desc = &rx_ring[idx];

要注意的是 tail 本身也是一个空的缓冲区，其数据已经在之前被处理过，所以我们需要将 tail 加一。

接下来判断，是否读完了所有待读取的描述符，方法还是使用 DD 标志位：

if(!(desc->status & E1000_RXD_STAT_DD)){  return;}

重新设置 mbuf 的长度：

rx_mbufs[idx]->len = desc->length;

和发送函数不同，这里的 mbuf 和描述符是一一对应的。也就是每个描述符的缓存都是一个之前设置好的 mbuf。这里描述符的 addr 已经被设置过了，具体的代码在初始化函数中（这是第一次的 mbuf，之后会覆盖掉）：

// [E1000 14.4] Receive initializationmemset(rx_ring, 0, sizeof(rx_ring));  for (i = 0; i < RX_RING_SIZE; i++) {  rx_mbufs[i] = mbufalloc(0);  if (!rx_mbufs[i])      panic("e1000");  rx_ring[i].addr = (uint64) rx_mbufs[i]->head;}

随后需要调用 net_rx() 函数把这个 mbuf 转发到相应的网络协议栈进行处理。

net_rx(rx_mbufs[idx]);

因为上层的协议栈还需要使用这个 mbuf，所以我们不能将其覆盖，需要给当前描述符分配一个新的 mbuf：

rx_mbufs[idx] = mbufalloc(0);desc->addr = rx_mbufs[idx]->head;desc->status = 0;

最后一步是更新 tail 指向的位置（注意 tail 本身是已经被软件处理过的描述符）：

regs[E1000_RDT] = idx;

e1000_recv() 的完整代码如下：

static voide1000_recv(void){  while(1){    uint idx = (regs[E1000_RDT] + 1) % RX_RING_SIZE;    struct rx_desc *desc = &rx_ring[idx];    if(!(desc->status & E1000_RXD_STAT_DD)){      return;    }     rx_mbufs[idx]->len = desc->length;    net_rx(rx_mbufs[idx]);    rx_mbufs[idx] = mbufalloc(0);    desc->addr = rx_mbufs[idx]->head;    desc->status = 0;    regs[E1000_RDT] = idx;  }}

搞好了之后就可以顺利 AC 了：

[MIT 6.s081] Xv6 Lab7 Multithreading 实验记录

2022-08-03T16:00:00.000Z

upd@2022/9/14：最近把实验的代码放到 github 上了，如果需要参考可以查看这里：

https://github.com/ttzytt/xv6-riscv

里面不同的分支就是不同的实验。

Lab7: Multithreading

Uthread

实现用户态线程。

因为我们要实现用户态的多线程机制，所以很大程度上可以参考内核态中多线程的实现。

查看 user/uthread.c 后可以发现，基本的框架已经给我们写好了，我们只需要实现一些函数的内容就行了。

那不如先把函数中要实现的内容写出来：

thread_switch()：这个函数和内核中的 swtch() 完全一样，用于切换处理器的上下文。和内核中相同（参考这篇文章），因为执行这个函数的过程是一个正常的函数调用，所以我们不需要保存和交换调用者保存的寄存器。
thread_create() ：这个函数是用于创建新的用户线程的。参考内核态多线程的实现。我们调用 swtch() 后，决定跳转位置的是 ra 寄存器，决定恢复出来的被调用者保存寄存器的是 sp 寄存器。所以，在这个函数中，我们应该合理的设置 ra 寄存器，使得第一次执行用户函数时，是这个函数的第一条语句。
thread_schedule()：参考内核中的实现，这个函数和内核中的 scheduler() 的作用相同。也就是在当前进程调用 yield() 后，找到一个 RUNNABLE 的进程，然后执行这个进程。在 thread_schedule() 中，我们会需要调用 thread_switch() 来切换处理器的上下文。

这样我们就大概的把各个函数的功能和实现思路理清楚了，接下来可以从第一个函数开始实际的实现。

首先我们要注意到，utrhead.c 原本的文件中并没有给 struct thread 加上一个上下文的属性，所以我们给他加上，上下文保存的寄存器和内核态多线程中完全相同：

struct Context{  uint64 ra;  uint64 sp;  // callee-saved  uint64 s0;  uint64 s1;  uint64 s2;  uint64 s3;  uint64 s4;  uint64 s5;  uint64 s6;  uint64 s7;  uint64 s8;  uint64 s9;  uint64 s10;  uint64 s11;};struct thread {  char       stack[STACK_SIZE]; /* the thread's stack */  int        state;             /* FREE, RUNNING, RUNNABLE */  struct Context ctx;};

然后 thread_switch() 差不多就可以直接把 swtch() 中的东西抄过来了：

 .text /*         * save the old thread's registers,         * restore the new thread's registers.         */ .globl thread_switch // a0 是老的上下文，a1 是新的thread_switch: /* YOUR CODE HERE */ sd ra, 0(a0) sd sp, 8(a0) sd s0, 16(a0) sd s1, 24(a0) sd s2, 32(a0) sd s3, 40(a0) sd s4, 48(a0) sd s5, 56(a0) sd s6, 64(a0) sd s7, 72(a0) sd s8, 80(a0) sd s9, 88(a0) sd s10, 96(a0) sd s11, 104(a0) ld ra, 0(a1) ld sp, 8(a1) ld s0, 16(a1) ld s1, 24(a1) ld s2, 32(a1) ld s3, 40(a1) ld s4, 48(a1) ld s5, 56(a1) ld s6, 64(a1) ld s7, 72(a1) ld s8, 80(a1) ld s9, 88(a1) ld s10, 96(a1) ld s11, 104(a1) ret    /* return to ra */

那这个函数我们就写完了。

接下来是 thread_create()。实现这个函数主要需要思考如何设置 ra 和 sp 寄存器。因为用户进程一开始的时候是没有使用寄存器的，所以如何设置上下文中的其他寄存器是无所谓的。

首先，在 thread_create() 之后，如果我们调用了 thread_schedule() ，应该执行的是线程函数的第一个语句。所以我们可以这么设置 ra：

t->ctx.ra = (uint64) func;

对于 sp，我们需要注意的是栈是从高地址到低地址增长的（~~我一开始没想到~~），那么 sp 应该被设置在栈的最高地址：

t->ctx.sp = (uint64) &t->stack + (STACK_SIZE - 1);

那么这个 thread_create() 就写完了：

void thread_create(void (*func)()){  struct thread *t;  for (t = all_thread; t < all_thread + MAX_THREAD; t++) {    if (t->state == FREE) break;  }  t->state = RUNNABLE;  // YOUR CODE HERE  t->ctx.ra = (uint64) func;  t->ctx.sp = (uint64) &t->stack + (STACK_SIZE - 1);}

接下来可以处理 thread_schedule()：

观察原来函数的代码可以看到，最开始的循环找到了第一个为 RUNNABLE 的线程，然后把这个线程赋值到 next_thread()。所以很明显，我们应该交换 current_thread 和 next_thread() 的上下文。

不过这个函数有个比较坑的地方，就是在交换前写了这个东西：

t = current_thread;current_thread = next_thread; // 当前线程变成下一个线程了

那我们就需要交换 t 和 next_thread 了：

thread_switch((uint64) &t->ctx, (uint64) &next_thread->ctx);

完整代码如下：

void thread_schedule(void){ struct thread *t, *next_thread;  /* Find another runnable thread. */  next_thread = 0;  t = current_thread + 1;  for(int i = 0; i < MAX_THREAD; i++){    if(t >= all_thread + MAX_THREAD)      t = all_thread; // 循环    if(t->state == RUNNABLE) {      next_thread = t;      break;    }    t = t + 1;  }  if (next_thread == 0) {    printf("thread_schedule: no runnable threads\n");    exit(-1);  }  if (current_thread != next_thread) {         /* switch threads?  */    next_thread->state = RUNNING;    t = current_thread;    current_thread = next_thread; // 当前线程变成下一个线程了    /* YOUR CODE HERE     * Invoke thread_switch to switch from t to next_thread:     * thread_switch(??, ??);     */    thread_switch((uint64) &t->ctx, (uint64) &next_thread->ctx);  } else    next_thread = 0;}

看了别人的一些博客^[1]后发现，这里实现的用户态多线程其实更接近协程。因为这里的线程是自愿交出处理器资源的，而不是靠定时器中断，同时，使用的核心也只有一个。

或者说，这里的函数可以把自己挂起，然后过一段时间再通过 thread_schedule() 来恢复执行。

以前看了一些协程的东西，基本上只能理解为什么协程被称作“可以被挂起的函数”，而不能理解，为什么协程是“用户态线程”，更搞不懂协程是怎么实现的。

这个感觉还是挺奇怪也挺爽的，就是在学另一个知识的时候，把以前一直都搞不懂的，看似不相关的东西给搞懂了。所以花了很久时间没学懂的时候可以先放一放，说不定以后不知道什么时候就搞懂了。

Using threads

这个 lab 的描述还是挺长的，所以我就不放图片了。大概就是让我们阅读一个散列表（哈希表）的程序，然后做一些更改，使得这个程序在多线程的环境下也可用。

可以尝试运行下提供给我们的程序，如果只使用一个线程，那么一切正常。如果改成两个及以上，就会发现某些在散列表中插入的键值对直接消失不见了。

为了解决这个问题，我们可以先看一遍这个散列表，找一找问题出现的地方。这个程序中，最关键的有三个函数 insert()，put() 和 get()。我们可以一个接一个看：

首先是 insert()：

static void insert(int key, int value, struct entry **p, struct entry *n){  struct entry *e = malloc(sizeof(struct entry));  e->key = key;  e->value = value;  e->next = n;  *p = e; // 把 p table[i] 的起始点改成 e}

我们知道，在散列表中，如果哈希函数把多个不同的键映射到了同一个位置，就会需要把这个当作链表的形式，在查找时遍历这个链表来找到正确的键值对。

这个 insert() 函数做的就是在链表中插入元素的工作。其中，e 是一个新被插入链表 *p 中的元素，我们先利用参数初始化了 e 的各个属性。

特别需要注意的是 e->next = n 这句话，这里的 n 是链表 table[i] 或者说 *p 的第一个元素，那么 e->next = n 就意味着现在把 e 插入在 *p 的前面。

下一个函数是 put()：

static void put(int key, int value){  // is the key already present?  struct entry *e = 0;  for (e = table[i]; e != 0; e = e->next) {    if (e->key == key)      break;  }  if(e){    // update the existing key.    e->value = value;  } else {    // the new is new.    insert(key, value, &table[i], table[i]); // 在 table[i] 的最前面插入一个 key val 对  }}

其实就是尝试在散列表中添加一个键值对。这个函数会先尝试查找散列表中是否存在某个 key 如果存在，就用 value 替代掉原来和 key 对应的值。

如果不存在，就调用 insert() 函数插入该键值对。

最后一个重要的函数是 get()：

static struct entry*get(int key){  int i = key % NBUCKET;  struct entry *e = 0;  for (e = table[i]; e != 0; e = e->next) {    if (e->key == key) break;  }  return e;}

也就是说，遍历散列表中的对应链表，来查找值对应的键。

总的来说，这是一个比较常规的散列表实现，看似没有任何问题，但是在多线程环境下会出现一些 bug。

考虑这样一种情况^[1]：

有两个键 k1 和 k2，他们属于散列表中的同一链表，并且链表中都还不存在这两个键值对。现在有两个线程 t1 和 t2，它们分别尝试在该链表中插入这两个键值。

那么有如下的可能情况：

t1 先检查了链表中不存在 k1，于是准备调用 insert() 在链表前插入键值对。

这个时候，线程调度器切换到了 t2（也可能是在多核环境下，两个线程并行执行，但是 t2 比 t1 快）。

然后 t2 也发现了链表中不存在 k2，所以调用 insert() 插入。插入之后，k2 成了链表的第一个元素。

随后 t1 也真正的插入了 k1。但是，因为 t1 并不知道 t2 已经把 k2 插入到了开头，于是在其认为的链表开头（k2 所处位置）插入了 k1，k2 就被覆盖掉了，于是造成了键值对丢失。

这样的情况下，我们需要通过加锁来解决问题。

观察前面的情况，可以发现，对于每一个散列表，在每一个时刻，只能由一个线程来操作，这里的操作包括了读取和修改。因为如果有多个线程，可能会造成某些线程获到的信息是滞后的（如前面的情况）。

所以我们可以对于散列表中的每个链表都创建一个互斥锁，然后在 put() 和 get() 的开头和结尾加锁和解锁。

那为啥不在 insert() 里加锁呢？因为 insert() 都是 put() 调用的，对于一个互斥锁，这样就会造成死锁。

所以就可以这样修改 put() 和 get()：

pthread_mutex_t bkt_lock[NBUCKET];static void put(int key, int value){  int i = key % NBUCKET;    pthread_mutex_lock(&bkt_lock[i]);  // is the key already present?  struct entry *e = 0;  for (e = table[i]; e != 0; e = e->next) {    if (e->key == key)      break;  }  if(e){    // update the existing key.    e->value = value;  } else {    // the new is new.    insert(key, value, &table[i], table[i]); // 在 table[i] 的最前面插入一个键值对  }  pthread_mutex_unlock(&bkt_lock[i]);}static struct entry*get(int key){  int i = key % NBUCKET;  pthread_mutex_lock(&bkt_lock[i]);    struct entry *e = 0;  for (e = table[i]; e != 0; e = e->next) {    if (e->key == key) break;  }  pthread_mutex_unlock(&bkt_lock[i]);  return e;}

Barrier

实现同步屏障。

先简单解释一下同步屏障是个什么东西。根据维基百科：

同步屏障(Barrier)是并行计算中的一种同步方法。对于一群进程或线程，程序中的一个同步屏障意味着任何线程/进程执行到此后必须等待，直到所有线程/进程都到达此点才可继续执行下文。

那么一个朴素的实现方法就是在一个线程到达屏障时把某个变量 +1，最后如果这个变量等于线程总数量，就可以执行了。

当然，在变量到达总数量前，我们需要让线程阻塞在屏障的位置。同时，当变量符合条件后，阻塞的线程就可以越过屏障了。

我们当然可以使用互斥锁加上轮询的方式来检查变量是否符合条件，但是这样对性能的损失是比较大的。

这样轮询的方法是被动的，也就是每个线程都去询问，那为何不让最后一个到达屏障的线程去通知其他线程呢？

pthread 库函中的条件变量实现的就是这样的功能。

举个例子，如果我们调用了 pthread_cond_wait(&cond, &mutex)，那么在最后一个线程调用 pthread_cond_broadcast(&cond) 之前，程序就会一直阻塞。

更具体的，pthread_cond_wait(&cond, &mutex) 按照顺序干了下面的事情：

pthread_mutex_unlock(&mutex);
把线程放入等待条件的线程列表上
阻塞线程（直到别的线程发送信号）。

注意 1 和 2 是原子的操作。

如果有线程用条件变量发出了信号，那么：

内核会唤醒等待的线程（唤醒的数量取决于用的是 signal 还是 broadcast）
被唤醒的线程中，pthread_cond_wait() 会返回。
mutex 再次被锁住

至于为什么条件变量一定要和一个互斥锁配合，在这里把我自己目前的认识写一下。

条件变量通常是要和一个别的变量配合着使用的，我们这里就叫这个变量 x 吧。

在调用 wait() 之前，我们肯定会先判断以下 x 是否符合一定的条件，如果符合了，那我们也没必要用 wait() 了。

如果不符合，我们会调用 wait()，这样一旦 x 符合了条件，我们就会知道。

但是这里这个普通变量 x 一定是在多线程的环境下被使用的。那么我们在调用 wait() 之前，检查 x 的时候，就要确保我们拿到了一个保护 x 的锁。

然后调用 wait() 后，发现 x 不符合条件，那肯定是要把锁释放出来的，要不然，别的线程也没办法修改 x 使其符合条件。

相同的，如果 x 符合了条件，wait() 会返回，这个时候会拿到保护 x 的锁。因为我们也许会修改 x ，或者使用 x，如果这个时候 x 被改变了，会出问题。

那为啥要把解锁和加入等待队列做成原子操作呢？

假设有这样一个使用条件变量的程序，并且其使用的条件变量没有把解锁和加入等待队列做成原子操作^[2]：

lock(x_lock) // 拿到保护 x 的锁if (x 满足条件){    unlock(x_lock); // 释放保护 x 的锁    pthread_cond_wait(&cond); // 等待信号    lock(x_lock); // dosomething 可能会更改 x    dosomething();}unlock();

那么万一，在 unlock(x_lock) 之后，把当前线程放入 cond 的等待队列之前。有一个线程更改了 x 的值，并且发出了信号，当前线程就因为没被加入到等待队列，错过了这个信号。

所以必须要把放入队列和解锁做成原子操作。

艹，没想到写着写着光条件变量就扯了这么多，同步屏障倒是一点没讲。现在进入正题，来具体实现同步屏障。

我们观察一下 barrier.c 中提供的 barrier 结构体：

struct barrier {  pthread_mutex_t barrier_mutex;  pthread_cond_t barrier_cond;  int nthread;      // Number of threads that have reached this round of the barrier  int round;     // Barrier round} bstate;

可以看到这里的 nthread 就是之前我们提到的 “x”，因为只有不符合 nthread，我们才会调用条件变量的 wait()。

然后，对应的，保护 x 的锁就是 barrier_mutex。这样的话，就可以写出下面的程序了：

static void barrier(){  // YOUR CODE HERE  //  // Block until all threads have called barrier() and  // then increment bstate.round.  //  pthread_mutex_lock(&bstate.barrier_mutex);  bstate.nthread++;  if(bstate.nthread < nthread){    pthread_cond_wait(&bstate.barrier_cond, &bstate.barrier_mutex);    // 如果没有全部到达 barrier 的位置，就等待    // 在收到信号之前，这里是阻塞的  }else{ // 如果这是最后一个线程。    bstate.nthread = 0;    bstate.round++;    pthread_cond_broadcast(&bstate.barrier_cond);  }  pthread_mutex_unlock(&bstate.barrier_mutex);}

这里需要注意一个细节，就是 pthread_cond_broadcast() 和 pthread_cond_signal() 的区别。

如果我们用了 broadcast()，那所有在等待列表中的线程都会被唤醒，反之，signal() 只会唤醒列表中的一个线程。

在我们的情况中，如果最后一个线程执行到了屏障，那所有的线程都可以继续往下执行，所以用了 broadcast()。

然后我们就可以愉快的 AC 了，也祝在做这个 lab 的人尽快 AC：

总结

发现写博客还是挺重要的。有的时候把代码搞出来了不一定代表完全懂了。比如最后一个 lab 的条件变量。写的时候只是懂了他干的事情，感觉没问题。但是写博客时，就发现不知道如何解释，于是只能去查更多的资料。这大概说明了，如果想给别人讲清楚某个知识，需要对这个知识有更深刻的理解。

其次，这个 lab 的代码量是比较小的（说实话到目前为止还没做到过码量特别多的 lab）。如果没有完全理解 xv6 中线程调度和切换的原理，也能做出来。但完全理解后再做这个 lab，就能有更好的理解（特别是 uthread 那个实验，剩下两个还是跟 pthread 库的关系更多点）。

[MIT 6.s081] Xv6 Lab6 COW 实验记录

2022-07-28T16:00:00.000Z

upd@2022/9/14：最近把实验的代码放到 github 上了，如果需要参考可以查看这里：

https://github.com/ttzytt/xv6-riscv

里面不同的分支就是不同的实验。

Lab6: Copy-on-Write Fork for xv6

这个 lab 的描述属实是简洁，其实他主要的描述在前面：

The problem
The fork() system call in xv6 copies all of the parent process’s user-space memory into the child. If the parent is large, copying can take a long time. Worse, the work is often largely wasted; for example, a fork() followed by exec() in the child will cause the child to discard the copied memory, probably without ever using most of it. On the other hand, if both parent and child use a page, and one or both writes it, a copy is truly needed.
The solution
The goal of copy-on-write (COW) fork() is to defer allocating and copying physical memory pages for the child until the copies are actually needed, if ever.
COW fork() creates just a pagetable for the child, with PTEs for user memory pointing to the parent’s physical pages. COW fork() marks all the user PTEs in both parent and child as not writable. When either process tries to write one of these COW pages, the CPU will force a page fault. The kernel page-fault handler detects this case, allocates a page of physical memory for the faulting process, copies the original page into the new page, and modifies the relevant PTE in the faulting process to refer to the new page, this time with the PTE marked writeable. When the page fault handler returns, the user process will be able to write its copy of the page.
COW fork() makes freeing of the physical pages that implement user memory a little trickier. A given physical page may be referred to by multiple processes’ page tables, and should be freed only when the last reference disappears.

大概就是说我们需要实现 UNIX 中的写时复制技术（copy on write）。在没有写时复制的系统中，调用 fork() 时，我们会把父进程的所有的内存都拷贝到子进程的空间，自然，这个耗时是巨大且不可接受的。

并且在实际应用中，fork() 时拷贝的大部分内存都时不会被用到的，比如，在 UNIX 中新建一个进程的通常会先调用 fork()，然后调用 exec()。那么原先复制过来的数据就全部没用了。

在 fork() 时，只有一种情况是需要复制内存的。就是写入数据时，如果父进程或子进程尝试往某个地址写入值，那么为了确保写入的这个值不会影响别的进程，我们需要复制这个页帧。

而写时复制就是这样的一个技术，我们会把父进程和子进程共享页帧的 PTE 标为不可写的。那么有任何一个进程尝试往这个页帧写入时，就会产生缺页错误。在 usertrap() 函数中，我们可以处理这样的情况，也就是把共享页帧复制一份给尝试写入的进程，这个被复制的页帧会被标记为可写的。

实现写时复制后，可能会有多个进程同时共享一个页帧，那么只有所有的进程都不需要这个共享页帧时，我们才能真正的释放这个页帧。

然后就可以根据提示一点一点实现了：

uvmcopy()

Modify uvmcopy() to map the parent’s physical pages into the child, instead of allocating new pages. Clear PTE_W in the PTEs of both child and parent.
修改 uvmcopy()，把父进程的物理内存直接映射到子进程的虚拟内存上，而不是去分配新的内存。清除父进程和子进程 PTE 的 PTE_W。

修改 uvmcopy() 后，子进程和父进程相当于共享内存了，然后我们希望任何一方试图写入共享内存时都会引发缺页错误，所以要清楚 PTE_W：

// Given a parent process's page table, copy// its memory into a child's page table.// Copies both the page table and the// physical memory.// returns 0 on success, -1 on failure.// frees any allocated pages on failure.intuvmcopy(pagetable_t old, pagetable_t new, uint64 sz){  pte_t *pte;  uint64 pa, i;  uint flags;  char *mem;  for(i = 0; i < sz; i += PGSIZE){    if((pte = walk(old, i, 0)) == 0)      panic("uvmcopy: pte should exist");    if((*pte & PTE_V) == 0)      panic("uvmcopy: page not present");    pa = PTE2PA(*pte);    *pte &= (~PTE_W); // 这里清除了 PTE_W    *pte |= PTE_C;    // 添加 PTE_C 代表这是一个 COW 页，之后会讲    flags = PTE_FLAGS(*pte);    // if((mem = kalloc()) == 0)  这里都是实际分配内存的，需要删除    //   goto err;    // memmove(mem, (char*)pa, PGSIZE);    if(mappages(new, i, PGSIZE, (uint64)pa, flags) != 0){       // 这里并没有把虚拟地址 i 映射到新分配的物理地址 mem      // 而是映射到了父进程的物理内存 pa 上      printf("uvmcopy failed\n");      kfree(mem);      goto err;    }    refcnt_inc(pa); // 这个东西之后会讲  }  return 0; err:  uvmunmap(new, 0, i / PGSIZE, 1);  return -1;}

usertrap()

Modify usertrap() to recognize page faults. When a page-fault occurs on a COW page, allocate a new page with kalloc(), copy the old page to the new page, and install the new page in the PTE with PTE_W set.
修改 usertrap() 来处理缺页错误。如果缺页错误发生在 COW 页上，就分配一个新的物理页，拷贝原页帧的数据到新页，并设置新页的 PTE_W。

和页表懒分配那个 lab 类似，我们也需要有一个函数判断某个虚拟地址是否是合法的，未分配的 COW 页。这个提示中说到了只有缺页错误发生在 COW 页上才能分配新的物理页。那么我们如何判断当前页是否是一个合法的 COW 页呢？这就可以利用 riscv PTE 中的保留位了。我们知道每个 PTE 中有 10 个标志位，其中已经定义了的有 8 个，剩下 10 个就是保留位，如下：

其中的 RSW 位，也就是 8 和 9 位就是保留位。

我们可以定义第 8 位为 1 的就说明当前页帧是 COW 页，所以可以在 kernel/riscv.h 中加入如下的宏定义，同时，这也解答了为什么我们之前要在 uvmcopy() 中给子进程的 PTE 设置 PTE_C：

#define PTE_V (1L << 0) // valid#define PTE_R (1L << 1)#define PTE_W (1L << 2)#define PTE_X (1L << 3)#define PTE_U (1L << 4) // 1 -> user can access#define PTE_C (1L << 8) // 这里是新加的

然后判断是否为未分配 COW 页的函数如下，和懒分配页表那个 lab 一样，我放在了 vm.c 这个文件中：

int uncopied_cow(pagetable_t pgtbl, uint64 va){  if(va >= MAXVA)     return 0;  pte_t* pte = walk(pgtbl, va, 0);  if(pte == 0)             // 如果这个页不存在    return 0;  if((*pte & PTE_V) == 0)    return 0;  if((*pte & PTE_U) == 0)    return 0;  return ((*pte) & PTE_C); // 有 PTE_C 的代表还没复制过，并且是 cow 页}

接下来就可以修改 usertrap() 了：

……  syscall();  } else if((which_dev = devintr()) != 0){    // ok  } else if(r_scause() == 15 && uncopied_cow(p->pagetable, r_stval())){     if(cowalloc(p->pagetable, r_stval()) < 0){      p->killed = 1;    }  } else {    printf("usertrap(): unexpected scause %p pid=%d\n", r_scause(), p->pid);    printf("            sepc=%p stval=%p\n", r_sepc(), r_stval());    p->killed = 1;  }……

注意这里有一个和页表懒分配 lab 不一样的点，就是我们只会处理 scause 寄存器为 15 的情况，根据 riscv 的文档：

scause 为 15 代表尝试写入引发的缺页错误。

然后我们发现当前页是合法的 COW 页之后，就需要给这个 COW 页分配物理内存，这里也和上一个 lab 一样，我封装了一个 cowalloc() 函数：

int cowalloc(pagetable_t pgtbl, uint64 va){  pte_t* pte = walk(pgtbl, va, 0);  uint64 perm = PTE_FLAGS(*pte);  if(pte == 0) return -1;  uint64 prev_sta = PTE2PA(*pte); // 这里的 prev_sta 就是这个页帧原来使用的父进程的页表                                  // 这里写 sta 是因为这个地址是和页帧对齐的（page-aligned）                                  // 所以写个 sta 表示一个页帧的开始  uint64 newpage = kalloc();       if(!newpage){    return -1;  }  uint64 va_sta = PGROUNDDOWN(va); // 当前页帧  perm &= (~PTE_C); // 复制之后就不是合法的 COW 页了  perm |= PTE_W;    // 复制之后就可以写了  memmove(newpage, prev_sta, PGSIZE); // 把父进程页帧的数据复制一遍  uvmunmap(pgtbl, va_sta, 1, 1);      // 然后取消对父进程页帧的映射    if(mappages(pgtbl, va_sta, PGSIZE, (uint64)newpage, perm) < 0){    kfree(newpage);    return -1;  }  return 0;}

这里需要注意一点，我们这个 memmove() 必须在 uvmunmap() 的前面（我当时调了好久）因为 uvmunmap() 之后这个父进程的物理页可能就被释放了，这个时候 memmove() 得到的是无效的数据。

看完这段程序之后，你可能会发现一个问题，就是这个父进程的页表可能被不止一个子进程共享，那我们调用 uvmunmap()，并且 do_free 参数还是 1，这个父进程页帧不就可能会被释放吗，然后其他使用这个页帧的进程就会出问题。

这就引出了 lab 的下一个提示：

reference count （引用记数）

Ensure that each physical page is freed when the last PTE reference to it goes away – but not before. A good way to do this is to keep, for each physical page, a “reference count” of the number of user page tables that refer to that page. Set a page’s reference count to one when kalloc() allocates it. Increment a page’s reference count when fork causes a child to share the page, and decrement a page’s count each time any process drops the page from its page table. kfree() should only place a page back on the free list if its reference count is zero. It’s OK to to keep these counts in a fixed-size array of integers. You’ll have to work out a scheme for how to index the array and how to choose its size. For example, you could index the array with the page’s physical address divided by 4096, and give the array a number of elements equal to highest physical address of any page placed on the free list by kinit() in kalloc.c.

也就是说，我们需要使用引用计数来解决这个问题。对于每个页帧，都有一个引用计数，代表有多少个 COW 页正在使用这个页。那如果没有任何 COW 页还在使用这个页帧，我们就可以真正的释放这个页了（有点类似 close() 函数）。在 kalloc() 函数中，我们会把一个页的引用计数设为 1。然后在 kalloc() 函数中，我们需要先减少这个页的引用计数，如果减少后为 0，就可以直接释放这个页。

然后我们可以思考下如何储存这些引用计数，因为每个页帧的起始位置肯定都是能被 4096 整除的，所以我们可以直接把每个页帧的地址除以 4096 作为其编号。

那就可以写出如下的宏：

#define PG2REFIDX(_pa) ((((uint64)_pa) - KERNBASE) / PGSIZE)#define MX_PGIDX PG2REFIDX(PHYSTOP)#define PG_REFCNT(_pa) pg_refcnt[PG2REFIDX((_pa))]int pg_refcnt[MX_PGIDX];

最好照着下面这张图来理解：

里面的 PHYSTOP 和 KERNBASE 代表着内存物理地址的起始和结束，所以我们要把 pa 减去 KERNBASE 后再除以 PGSIZE。

我刚开始还很疑惑，我们在内核中开了这个数组，是存在哪里的。其实可以看下 kinit() 的实现：

voidkinit(){  initlock(&kmem.lock, "kmem");  freerange(end, (void*)PHYSTOP); // 注意这里}

这里的 end 是上图中 Free memory 的开始，定义在 kernle.ld 中，也就是说，对于内核自己的数据和代码（包括这个数组），是存在 kernel text 和 kernel data 中的，而 kalloc() 函数只会去分配 end ~ PHYSTOP 中的内存。

接下来就可以基于引用计数开始修改 kalloc.c 中的各种函数了：

首先是 kalloc()：

void *kalloc(void){  struct run *r;  acquire(&kmem.lock);  r = kmem.freelist;  if(r){    kmem.freelist = r->next;  }  release(&kmem.lock);  if(r){    memset((char*)r, 5, PGSIZE); // fill with junk    PG_REFCNT(r) = 1;                // 注意这里，分配时总共有一个进程使用这个页帧，所以置为 1 。  }  return (void*)r;}

接下来是 kfree()：

voidkfree(void *pa){  struct run *r;  if(((uint64)pa % PGSIZE) != 0 || (char*)pa < end || (uint64)pa >= PHYSTOP)    panic("kfree");  acquire(&refcnt_lock);  if(--PG_REFCNT(pa) <= 0){ // 先减少引用计数，如果小于等于 0 就真的释放    memset(pa, 1, PGSIZE);    // Fill with junk to catch dangling refs.    r = (struct run*)pa;    acquire(&kmem.lock);    r->next = kmem.freelist;    kmem.freelist = r;    release(&kmem.lock);  }  release(&refcnt_lock);}

其中的 refcnt_lock 是一个锁，其初始化在 kinit() 中：

voidkinit(){  initlock(&kmem.lock, "kmem");  initlock(&refcnt_lock, "ref cnt"); // here  freerange(end, (void*)PHYSTOP);}

这里加锁是因为可能有多个引用某个页的进程同时 kfree() 这个页，那么他们同时减少引用计数就会造成错误的结果。

然后在 uvmcopy() 中，我们需要增加父进程页帧的引用计数（多一个进程在共享这个页帧），所以在 mappages() 后面写了 refcnt_inc()，其定义如下：

void refcnt_inc(void* pa){  acquire(&refcnt_lock);  PG_REFCNT(pa)++;  release(&refcnt_lock);}

然后我们就完成了实现了引用计数的部分。

最后，还有一个提示：

copyout()

修改 copyout() 的原因和上一个 lab 很类似，主要是因为有些系统调用也会去往 COW 页上写数据。因为 COW 页的 PTE_W 没有设置，就会引发缺页错误。在 trap.c 中，我们规定了如果异常是从系统调用发生的，就会直接 panic。所以在 copyout() 的时候，如果我们发现了当前页是 COW 页，就直接给他分配一个新的页。

这个 lab 不需要和上一个 lab 一样，修改 copyin 是因为，我们 copyin() 时，实际上读取的是父进程共享给我们的页帧，但是在页表懒分配的 lab 中，copyin() 时的页帧根本就没有分配一个物理地址，当然是无法读入的。

所以可以这样修改 copyout()：

// Copy from kernel to user.// Copy len bytes from src to virtual address dstva in a given page table.// Return 0 on success, -1 on error.intcopyout(pagetable_t pagetable, uint64 dstva, char *src, uint64 len){  uint64 n, va0, pa0;  while(len > 0){    va0 = PGROUNDDOWN(dstva);     if(uncopied_cow(pagetable, va0)){          // 注意这里是新加的      try(cowalloc(pagetable, va0), return -1);    }    pa0 = walkaddr(pagetable, va0);    if(pa0 == 0)      return -1;    n = PGSIZE - (dstva - va0);    if(n > len)      n = len;    memmove((void *)(pa0 + (dstva - va0)), src, n);    len -= n;    src += n;    dstva = va0 + PGSIZE;  }  return 0;}

然后写这个函数的时候一定要注意一个点，就是 cowalloc() 和 walkaddr() 的顺序。我之前就写错了，然后调了好久才找到问题。如果我们在 cowalloc() 之前用 walkaddr() 来查找虚拟地址对应的物理地址，查到的物理地址其实是父进程的共享页帧。

那么到时候就会往这个地址里写东西，造成错误（别的进程也会使用这个页帧）。

而在 cowalloc() 之后查找物理地址，查到的就是新分配的物理地址，写入的也是当前进程独有的页帧，不会影响别的进程。

然后写完这个，lab 就能 AC 了，如下，也祝在做这个 lab 的人尽快 AC：

总结

真不知道为什么一些傻逼错误用 gdb 调了那么久还没发现………… 都开始怀疑编译器出错了。以后写之前还是得先想明白了再写，要不然你写了错的东西，debug 的时候也往错的方向想，那这个 bug 就永远找不出来了。

[MIT 6.s081] Xv6 Lab5 (2020) Lazy Page Allocation 实验记录

2022-07-27T16:00:00.000Z

upd@2022/9/14：最近把实验的代码放到 github 上了，如果需要参考可以查看这里：

https://github.com/ttzytt/xv6-riscv

里面不同的分支就是不同的实验。

Lab5 (2020): lazy page allocation

Eliminate allocation from sbrk()

删除 sbrk() 系统调用里实际分配内存的部分。
这个没啥好说的，直接按照提示信息，删掉对 growproc() 的调用就好了，如下：

uint64sys_sbrk(void){  int addr;  int n;  if(argint(0, &n) < 0)    return -1;  addr = myproc()->sz;//   if(growproc(n) < 0) <- 这里删掉实际申请内存的部分//     return -1;  myproc()->sz += n; // 但是把当前进程占用空间扩大  return addr;}

然后很自然的，当我们去输入 echo hi 的时候，就报 panic 了。

Lazy allocation

实现页表的懒分配，如果发现在陷入过程中产生了缺页错误，就给这个发生错误的地址新分配一页。

查询 riscv 的手册，以及实验提示，可以找到 scause 寄存器中储存 13 和 15 代表缺页错误（试图写入或者试图读出）：

那么我们在 trap.c 这个文件中可以查询 scause 寄存器，如果是 13 或 15 就进行下一步的处理：

……  } else if((which_dev = devintr()) != 0){    // ok  } else if((r_scause() == 13 || r_scause() == 15)){    // do something here  }  else {    printf("usertrap(): unexpected scause %p pid=%d\n", r_scause(), p->pid);    printf("            sepc=%p stval=%p\n", r_sepc(), r_stval());    p->killed = 1;  }……

这里的处理其实就是给用户分配这一页页表，我们可以把它封装成一个函数，叫做 lazy_alloc()：

注意虽然发生缺页错误的是一个地址，但是我们需要把这个地址所在的页帧映射到物理地址上，所以要先用 PGROUNDDOWN 找到这个地址所在的页帧。

int lazy_alloc(uint64 va){  struct proc *p = myproc();  uint64 page_sta = PGROUNDDOWN(va);  uint64* newmem = kalloc();  if(newmem == 0){    return -1;  }  memset(newmem, 0, PGSIZE);  if(mappages(p->pagetable, page_sta, PGSIZE, (uint64)newmem, PTE_W|PTE_R|PTE_X|PTE_U) != 0){    kfree(newmem);    return -1;  }    return 0;}

并且，在调用 mappages() 映射的时候，需要注意这个页表的权限，因为是允许在用户态使用的，所以要把 PTE_U 设置上。

改好这些代码，我们再去执行 echo hi，会发现 uvmunmap() 这个函数会报 panic。

这是因为，我们采取页表懒分配之后，有些页可能一直都没被使用就被 uvmunmap() 了，这个时候，因为想要 unmap 的页根本就没有实际的分配，就会 panic，所以我们需要去修改一下 uvmunmap() 这个函数：

voiduvmunmap(pagetable_t pagetable, uint64 va, uint64 npages, int do_free){  uint64 a;  pte_t *pte;  if((va % PGSIZE) != 0)    panic("uvmunmap: not aligned");  for(a = va; a < va + npages*PGSIZE; a += PGSIZE){    if((pte = walk(pagetable, a, 0)) == 0)      continue; // 从 panic 改成 continue      // panic("uvmunmap: walk");    // 释放进程的时候会用到 uvmunmap，但是有可能释放的时候这个页根本就没实际被分配    if((*pte & PTE_V) == 0)      continue; // 从 panic 改成 continue    //   panic("uvmunmap: not mapped");    if(PTE_FLAGS(*pte) == PTE_V)      panic("uvmunmap: not a leaf");    if(do_free){      uint64 pa = PTE2PA(*pte);      kfree((void*)pa);    }    *pte = 0;  }}

然后这个 lab 就可以顺利完成了。

Lazytests and Usertests (moderate)

让前面写出来的 Lazy allocation 通过 usertests 和 lazytests。

我们刚刚写出来的懒分配实际上是有些 bug 的，这个 lab 就是让我们修复这些 bug，然后通过 lazytests 和 usertests。

可以根据提示一个一个的改，首先需要处理 sbrk() 函数的参数为负数的情况。

对于正数的情况，我们只是改变进程的大小属性，并不会去实际分配空间。但如果是负数（减少当前进程空间），我们需要实际的释放空间，要不然就没法把这些内存分配给别的需要的进程，所以可以这样写：

uint64sys_sbrk(void){  int addr;  int n;  struct proc *p = myproc();  if(argint(0, &n) < 0)    return -1;  addr = p->sz;  if(n < 0){    if(p->sz + n < 0){ // 一个进程不能释放比自己大的空间      return -1;    }    if(growproc(n) < 0){      // 注意这里是实际调用 growproc 去释放空间的。      printf("growproc err\n");      return -1;    }  }else{    myproc()->sz += n;  }  // if(growproc(n) < 0)   //   return -1;  return addr;}

下一个提示是：

Kill a process if it page-faults on a virtual memory address higher than any allocated with sbrk().

大概就是说，如果一个进程出现缺页错误的地址以前并没有被分配过（通过调用 sbrk()）。那么我们就不应该去分配这个页，而是直接把进程 kill 了。

可以写一个函数，用来判某个虚拟地址是否属于合法的懒分配页：

int is_lazy_addr(uint64 va){  struct proc *p = myproc();  if(va < PGROUNDDOWN(p->trapframe->sp)  && va >= PGROUNDDOWN(p->trapframe->sp) - PGSIZE  ){    // 防止 guard page，这个之后会提到    return 0;  }  if(va > MAXVA){    return 0;  }  pte_t* pte = walk(p->pagetable, va, 0);    if(pte && (*pte & PTE_V)){    return 0;  }    if(va >= p->sz){    return 0;  }  return 1;}

首先，很明显的一点是，如果一个页有 PTE_V 的标志，那么一定不是懒分配的，因为已经分配了。

然后，如果 va >= p->sz，就说明这个地址之前没有通过 sbrk() 申请，所以也不是懒分配。

之后再把这个函数加到 trap.c 的判断中，就变成了：

……  } else if((which_dev = devintr()) != 0){    // ok  } else if((r_scause() == 13 || r_scause() == 15) && is_lazy_addr(r_stval())){ // 这里加了一个 is_lazy_addr    // 如果是 page fault，那就直接分配内存    uint64 fault_addr = r_stval();      if(lazy_alloc(fault_addr) < 0){        p->killed = 1;      }  }  else {    printf("usertrap(): unexpected scause %p pid=%d\n", r_scause(), p->pid);    printf("            sepc=%p stval=%p\n", r_sepc(), r_stval());    p->killed = 1;  }……

接下来要解决的是：

Handle the parent-to-child memory copy in fork() correctly.

大概是说需要正确的处理 fork() 中从父进程到子进程的内存拷贝。

阅读 fork() 的代码后可以发现，执行这个内存拷贝的函数是 vm.c 中的 uvmcopy()。其在懒分配中出现问题的原因是，父进程的某些页帧是没有实际分配的，这个时候再试图去拷贝这个页帧，uvmcopy() 函数就会报 panic。和之前处理 uvmunmap() 函数一样，这里我们只需要跳过那些懒分配的页就行了，所以直接把 panic 改成 continue：

intuvmcopy(pagetable_t old, pagetable_t new, uint64 sz){  pte_t *pte;  uint64 pa, i;  uint flags;  char *mem;  for(i = 0; i < sz; i += PGSIZE){    if((pte = walk(old, i, 0)) == 0)      continue;   // 注意这里，panic 改成了 continue。      // panic("uvmcopy: pte should exist");    if((*pte & PTE_V) == 0)      continue;      // panic("uvmcopy: page not present");    pa = PTE2PA(*pte);    flags = PTE_FLAGS(*pte);    if((mem = kalloc()) == 0)      goto err;    memmove(mem, (char*)pa, PGSIZE);    if(mappages(new, i, PGSIZE, (uint64)mem, flags) != 0){      kfree(mem);      goto err;    }  }  return 0; err:  uvmunmap(new, 0, i / PGSIZE, 1);  return -1;}

Handle the case in which a process passes a valid address from sbrk() to a system call such as read or write, but the memory for that address has not yet been allocated.

这个提示说说实话挺难理解的，我当时在网上查了好久才搞懂。这大概就是说，有些系统调用会在用户态的虚拟地址上写值，比如说 write()。那万一这个地址是一个懒分配的地址，就会出问题，会引起缺页错误。当然，如果是用户态引起的缺页错误（像之前的一样）就完全没问题。但是如果我们发现内核态出现了异常，会直接 panic （见 xv6 学习笔记那篇文章）。

如果系统调用想要往用户态的虚拟地址写值（或者读值），是需要调用 copyin() 和 copyout() 的。可以观察一下这两个函数：

// Copy from user to kernel.// Copy len bytes to dst from virtual address srcva in a given page table.// Return 0 on success, -1 on error.intcopyin(pagetable_t pagetable, char *dst, uint64 srcva, uint64 len){  uint64 n, va0, pa0;  while(len > 0){    va0 = PGROUNDDOWN(srcva);    pa0 = walkaddr(pagetable, va0); // 注意这里    if(pa0 == 0)      return -1;    n = PGSIZE - (srcva - va0);    if(n > len)      n = len;    memmove(dst, (void *)(pa0 + (srcva - va0)), n);    len -= n;    dst += n;    srcva = va0 + PGSIZE;  }  return 0;}

能发现，它们都会调用 walkaddr() 来找到用户态虚拟地址对应的物理地址，而 walkaddr() 的实现如下：

// Look up a virtual address, return the physical address,// or 0 if not mapped.// Can only be used to look up user pages.uint64walkaddr(pagetable_t pagetable, uint64 va){  pte_t *pte;  uint64 pa;  if(va >= MAXVA)    return 0;  pte = walk(pagetable, va, 0);    if(pte == 0)    return 0;  if((*pte & PTE_V) == 0)    return 0;  if((*pte & PTE_U) == 0)    return 0;  pa = PTE2PA(*pte);  return pa;}

可以发现 walkaddr() 会调用 walk() ，而如果得到的结果是 0，就会直接返回 0。

我们还可以从 walkaddr() 函数作用的角度去理解。因为这个函数是用于查找虚拟地址对应的物理地址的，那一个懒分配的页帧并没有实际的物理地址，就自然找不到物理地址，所以会返回一个 0 。

也就是，如果 va 属于一个懒分配的页帧，这个 walk() 一定是会返回 0 的，具体可以看下面的代码：

pte_t *walk(pagetable_t pagetable, uint64 va, int alloc){  if(va >= MAXVA)    panic("walk");  for(int level = 2; level > 0; level--) {    pte_t *pte = &pagetable[PX(level, va)];    if(*pte & PTE_V) { // 这里会判断是否为分配过的地址，                       // 如果没分配过并且 alloc 参数还为 0，就会返回 0      pagetable = (pagetable_t)PTE2PA(*pte);    } else {      if(!alloc || (pagetable = (pde_t*)kalloc()) == 0)        return 0;      memset(pagetable, 0, PGSIZE);      *pte = PA2PTE(pagetable) | PTE_V;    }  }  return &pagetable[PX(0, va)];}

那我们可以在 walkaddr() 中判断，当前 va 是否属于懒分配的页帧，如果是的话就先别返回 0，而是先给它分配一个物理页，然后再进行后面的操作。（分配完物理页后就能查询到物理地址了）。

// Look up a virtual address, return the physical address,// or 0 if not mapped.// Can only be used to look up user pages.uint64walkaddr(pagetable_t pagetable, uint64 va){  pte_t *pte;  uint64 pa;  if(va >= MAXVA)    return 0;    if(is_lazy_addr(va)){ // 注意这里，如果是懒分配的会先分配物理地址。    lazy_alloc(va);  }  pte = walk(pagetable, va, 0);    if(pte == 0)    return 0;  if((*pte & PTE_V) == 0)    return 0;  if((*pte & PTE_U) == 0)    return 0;  pa = PTE2PA(*pte);  return pa;}

再看第五个提示：

Handle out-of-memory correctly: if kalloc() fails in the page fault handler, kill the current process.

也就是如果分配物理页的时候，没有足够内存了，应该把当前进程 kill 了。

其实这个东西我们已经完成了，在 trap.c 中，是这样写的：

uint64 fault_addr = r_stval();if(lazy_alloc(fault_addr) < 0){  p->killed = 1;}

如果 lazy_alloc() 不成功（没内存）就会把进程 kill 了。

然后是最后一个提示：

Handle faults on the invalid page below the user stack.

也就是正确处理发生在用户栈下面地址的缺页错误。

这个就需要复习下页表那章的内容了，下图是用户态下的内存布局：

可以看到，栈下面是一个保护页，这个页的 PTE_V 是没有设置的，如果用户访问，就会触发缺页错误。本来这个机制是没啥问题的，但是我们现在搞了懒分配，也就是触发缺页错误的时候不会 kill 掉这个进程，而是给这个地方分配物理地址。

那显然这个保护页是用于防止内存溢出的，不能去再分配物理页。所以需要在 is_lazy_addr() 这个函数中加入这个判断，如果某个地址属于保护页，那就不是一个合法的懒分配的地址，然后就有了下面的代码：

if(va < PGROUNDDOWN(p->trapframe->sp)            // 这里使用了用户栈的栈指针 sp 来判断用户栈的虚拟地址                                                 // 因为用户栈的下面就是保护页，所以把                                                  // PGROUNDDOWN(p->trapframe->sp) 当作保护页的上界&& va >= PGROUNDDOWN(p->trapframe->sp) - PGSIZE){  return 0;}

这样写完之后就可以成功 AC 了，也祝在做这个 lab 的人尽快 AC：

总结

感觉要提升下 debug 的能力，这个 lab 真的调了好久……

[MIT 6.s081] Xv6 Lab4 Traps 实验记录

2022-07-24T16:00:00.000Z

前言：今天是 2022/7/25 先庆祝一下博客运行 100 天了。

upd@2022/9/14：最近把实验的代码放到 github 上了，如果需要参考可以查看这里：

https://github.com/ttzytt/xv6-riscv

里面不同的分支就是不同的实验。

Lab4: traps

RISC-V assembly

~~先鸽了~~

Backtrace

实现一个 backtrace() 的函数，如果某个程序调用了这个函数，该函数应该输出这个程序的 “函数调用顺序”，也就是把当前栈中的函数地址按照先后顺序全部打印出来。

做这个实验最主要的还是需要了解函数调用的过程，具体可以参考我之前写的这篇文章。

这里我把那篇文章中最重要的图和视频放在下面（~~绝对不是水字数~~），如果你之前比较熟悉函数调用的过程，但是现在忘了，看了之后应该比较容易回忆起来。

实验中，我们需要把函数调用的一个 “链条” 打印出来。

比如有下面这个程序：

int third(int x){    backtrace();    return x;}int second(int x){    return third(x); // 假设地址为 114}int first(int x){     return second(x); // 假设地址为 514} int main(){    int test = first(114514); // 假设地址为 1919}

那么调用 backtrace() 后的正确输出应该是

1145141919

其实就是让我们把函数调用者的地址递归的打印下去。

那我们知道，每个栈帧中都储存了当前函数的返回地址。（也就是，这个函数执行好了，应该返回到哪里）。

所以可以直接把每个栈帧中的返回地址打印出来。还应该开一个变量储存当前帧指针的位置，通过这个帧指针加上一些偏移量，获取上一个函数的帧指针，就可以打印上一个函数的返回地址了。

不过要注意的是，在我原来那篇文章中，使用的是 x86 (x64) 架构的处理器，其帧指针的名称为 bp (base pointer) 寄存器，在 riscv 中，fp (frame pointer) 寄存器做了相同的工作。

并且 riscv 中的 fp 指向的位置也和 x86 中的略有不同，具体可以看下面这张图^[1]：

高地址Stack                   .                   .      +->          .      |   +-----------------+   |      |   | return address  |   |      |   |   previous fp ------+      |   | saved registers |      |   | local variables |      |   |       ...       | <-+      |   +-----------------+   |      |   | return address  |   |      +------ previous fp   |   |          | saved registers |   |          | local variables |   |      +-> |       ...       |   |      |   +-----------------+   |      |   | return address  |   |      |   |   previous fp ------+      |   | saved registers |      |   | local variables |      |   |       ...       | <-+      |   +-----------------+   |      |   | return address  |   |      +------ previous fp   |   |          | saved registers |   |          | local variables |   |  $fp --> |       ...       |   | <-- 注意这里!!!          +-----------------+   |          | return address  |   |            |   previous fp ------+ <-- 如果是 x86，那么 bp 指针会指向这里          | saved registers |  $sp --> | local variables |          +-----------------+低地址（增长方向）

可以发现，在 riscv 中，fp 指向的是当前栈帧返回地址前面的一个位置（地址更高）。但是在 x86 中，bp 指向的是前一个栈帧的 bp 寄存器。

这个大概是因为 x86 和 riscv 对于一个栈帧定义的不同。在 riscv 的定义中，返回地址也是属于当前栈帧的的一部分（说实话我觉得这个设计更合理）。

虽然我们总是可以通过 fp 获得函数的返回地址，但是还需要获得到当前的 fp，这就需要用到 c 语言的内嵌汇编了，我们可以把这个函数放到 kernel/riscv.h 里：

static inline uint64r_fp(){  uint64 x;  asm volatile("mv %0, s0" : "=r" (x) );  return x;}

GCC 拓展内联汇编的基本格式是：

asm asm-qualifiers ( AssemblerTemplate                  : OutputOperands                  [ : InputOperands                 [ : Clobbers ] ])

其中，asm 代表着内联汇编的开始，asm-qualifiers 表示这个内联汇编的一些性质，比如我们这里加了 volatile 就表示不希望 GCC 把这个汇编优化掉。

在上面的 ("mv %0, s0" : "=r" (x) ) 中，mv %0, s0 是一个汇编的模板，并不是真正的汇编，有点类似于 C++ 中的模板，在编译的时候会把类型替换掉。GCC 编译的时候也会把 %0 这个东西替换成后面 : "=r" (x) 规定的变量（这里是 x）所在的寄存器。

而这个 "=r" 代表了一种限制条件，里面的 r 表示这个 x 变量可以在任何的通用寄存器中，而等于号表明该变量是被写入的。

除了 r，还有很多种限制条件^[2]，比如 m 代表了该变量可以储存在内存中。如果你还想了解更多的限制条件，可以参考 GCC 的文档。

GCC 的文档中对拓展内联汇编也有非常详细的解释。

所以，总的来说，r_fp() 这个函数读出了 s0 这个寄存器的值，然后储存在 x 中，最后又把 x 返回了。

但是我们要读取的明明是 fp 这个寄存器，为什么这个函数里写的是 s0 呢，具体可以看看下面这个表^[3]：

在 ABI Name 那一列，可以看到 s0 其实就是 fp 的别名。

有了这些知识，就可以写出 backtrace() 这个函数了：

void backtrace(){  printf("in bt\n");  // 帧指针下面的是返回地址  // 再下面一个是上一个栈帧的帧指针  uint64* cur_frame = (uint64 *)r_fp();  uint64* top = PGROUNDUP((uint64)cur_frame);  uint64* bot = PGROUNDDOWN((uint64)cur_frame);  while(cur_frame < top && cur_frame > bot){    printf("%p\n", cur_frame[-1]); // 先打印当前的返回地址    cur_frame = cur_frame[-2]; // 然后把当前栈帧变成上一个栈帧  }}

可以看到这里用了一些很奇怪的写法，好像是负数下标的数字，其实这个 cur_frame[-1] 等价于 *(cur_frame - 1)。并且，因为这里 cur_frame 是六十四位的指针，所以 *(cur_frame - 1) 是读取 cur_frame 前八个字节位置的数据。

这里使用 PGROUNDDOWN 和 PGROUNDUP 是因为，一连串的函数调用最多放在一个页中。那么如果我们在递归打印的时候，超出了这一页的范围，就可以说明已经是最底层的函数，可以停止了。

最后我们按照要求在 sys_sleep() 这个系统调用里添加一下 backtrace()，就完成这个 lab 了。

Alarm

实现一个 sigalarm(interval, handler) 的系统调用。及每过 interval 个时钟周期，就执行一遍 handler 这个函数。此外还要实现一个 sigreturn() 系统调用，如果 handler 调用了这个系统调用，就应该停止执行 handler 这个函数，然后恢复正常的执行顺序。如果说 sigalarm 的两个参数都为 0，就代表停止执行 handler 函数。

其实理解这个 lab 还是挺难的，特别是 sigreturn，具体可以看看 alarmtest.c 这个程序，然后就是，需要对陷入的过程有比较好的理解，如果不熟悉，可以看看我的这篇文章：

voidperiodic(){  count = count + 1;  printf("alarm!\n");  sigreturn();}// tests whether the kernel calls// the alarm handler even a single time.voidtest0(){  int i;  printf("test0 start\n");  count = 0;  sigalarm(2, periodic);  for(i = 0; i < 1000*500000; i++){    if((i % 1000000) == 0)      write(2, ".", 1);    if(count > 0)      break;  }  sigalarm(0, 0);  if(count > 0){    printf("test0 passed\n");  } else {    printf("\ntest0 failed: the kernel never called the alarm handler\n");  }}

这个 sigreturn 的意思就是，我们本来可能在执行这个 for 循环中的代码，然后突然开始执行 periodic() 这个函数（因为时间到了）。如果在 periodic() 函数中调用了 sigreturn()。就应该停止执行 periodic() 里的东西，然后回到 for 循环中执行。（可以看这个 up 主讲的，比较清晰）

这里我们可以依次查看 alarmtest.c 中的几个 test（或者说就是测试点），然后按照这些测试点的要求去实现这个系统调用。

test0: invoke handler

Get started by modifying the kernel to jump to the alarm handler in user space, which will cause test0 to print “alarm!”. Don’t worry yet what happens after the “alarm!” output; it’s OK for now if your program crashes after printing “alarm!”. Here are some hints:

大概就是说，我们可以先尝试去正确的跳转到用户态去执行 handler 函数（为了保持隔离性，不能在内核里直接把这个函数执行了），如果跳转之后报错了也没关系。

首先可以回忆下 xv6 发生陷入的过程，我们是根据 epc 这个寄存器来判断陷入之后返回的地址的。如果直接改变了 epc 的地址，就可以在返回的之后跳转到 handler 的地址。

那如何判断时候到了要跳转的时间呢？

riscv 的硬件（其实我不太确定是哪个硬件）会每过一个时钟周期都产生一个时钟中断，而 trap.c 会处理这个中断。

我们可以依靠这个中断出现的次数去判断是否应该跳转，如果需要，就直接在 trap.c 中把 trapframe 里 epc 的值改了（改成 handler 的）。

因此需要在 struct proc 给每个进程加入如下的属性：

uint64 alarm_tks; 用于记录执行 handler 的间隔，如果为 0 代表不执行
void (*alarm_handler)(); handler 的地址
uint64 alarm_tk_elapsed; 距离上次执行 handler 过去的时间

并且在 sys_sigalarm() 把获取到的这些参数存入这些属性中，对于 sys_sigreturn()，我们先不做任何操作，直接返回一个 0：

uint64 sys_sigalarm(void){  int ticks;  struct proc* p = myproc();  uint64 handler;  try(argint(0, &ticks), return -1);  try(argaddr(1, &handler), return -1);  p->alarm_tks = ticks;  p->alarm_handler = handler;  p->alarm_tk_elapsed = 0;  return 0;}

相应的，我们创建了这些属性，就需要在进程的初始化函数 allocporc() 和释放函数 freeproc() 中做相应的初始化和释放。

首先是 allocporc() 的改动：

……  p->alarm_tk_elapsed = 0;  p->alarm_state = 0;  p->alarm_tks = 0;  return p;}

然后是 freeproc()：

……  p->alarm_handler = 0;  p->alarm_tk_elapsed = 0;  p->alarm_tks = 0;}

接下来就可以在 trap.c 的 usertrap() 中函数实现跳转了：

……  if(which_dev == 2){ // 时钟中断的编号为 2    if(p->alarm_tks > 0){       p->alarm_tk_elapsed++; // 距离上次执行 handler 经过的时间      if(p->alarm_tk_elapsed > p->alarm_tks){ // 如果超过了规定的时间        p->alarm_tk_elapsed = 0;        p->trapframe->epc = p->alarm_handler; // 直接改 epc，这样回用户态的时候就会执行地址为 epc 的指令      }    }    yield();  }

这样我们就能顺利的跳转到 handler，并且通过 test0，当然也毫无悬念的报错了。

报错的主要原因是还没实现 sys_sigreturn()，这样在执行完 handler 函数之后就不知道返回哪里了。

而要通过 test1 和 test2 就必须解决这个问题：

test1/test2(): resume interrupted code

Chances are that alarmtest crashes in test0 or test1 after it prints “alarm!”, or that alarmtest (eventually) prints “test1 failed”, or that alarmtest exits without printing “test1 passed”. To fix this, you must ensure that, when the alarm handler is done, control returns to the instruction at which the user program was originally interrupted by the timer interrupt. You must ensure that the register contents are restored to the values they held at the time of the interrupt, so that the user program can continue undisturbed after the alarm. Finally, you should “re-arm” the alarm counter after each time it goes off, so that the handler is called periodically.

大概的意思是，我们需要在执行完 handler 后返回到正确的位置。

需要注意的是，我们跳转到内核去响应陷入和系统调用时，寄存器的值是会改变的，这样就算通过改变 epc 的值回到了正确的位置，也不能正确的执行（没有把寄存器的环境备份下来）。

因此我们在 struct proc 再加一个 struct trapframe 类的属性，用于备份执行 handler 前的环境：

……struct trapframe *trapframe; // data page for trampoline.Sstruct trapframe *alarmframe; // 新增的备份 trapframe……

当然，在 allocproc() 和 freeproc() 中的初始化和释放也是少不了的：

allocproc()：

……if((p->alarmframe = (struct trapframe *)kalloc()) == 0){  freeproc(p);  release(&p->lock);  return 0;}……

freeproc()：

if(p->alarmframe)  kfree((void*)p->alarmframe);p->alarmframe = 0;

alarmframe 可以在 trap.c 里的 usertrap() 获取，也就是需要执行 handler 的时候，我们先备份一下环境，然后再执行：

if(which_dev == 2){  if(p->alarm_tks > 0){    p->alarm_tk_elapsed++;    if(p->alarm_tk_elapsed > p->alarm_tks){      p->alarm_tk_elapsed = 0;      *p->alarmframe = *p->trapframe; // 注意这里      p->trapframe->epc = p->alarm_handler;    }  }  yield();}

在 sys_sigreturn() 里面，我们应该去按照 alarmframe 恢复 trapframe，这样包括 epc 在内的所有通用寄存器都会被恢复，自然也就会跳出 handler，按照原来的顺序执行程序了：

uint64sys_sigreturn(void){  struct proc* p = myproc();  *p->trapframe = *p->alarmframe;  return 0;}

到这里，我们再去运行 alarmtest，会发现还是不能完全过。

试想这样一个情况，如果 handler 执行的特别慢，自从上次调用 handler 已经过去了规定的时钟周期，但是 handler 还没执行好，这个时候我们又去改一遍 epc，这个 handler 又从头开始执行了，那着不就出大问题了，因为我们每次都会去改 epc，然后就永远执行不完 handler 了。

测试程序里就包括了这个情况：

voidslow_handler(){  count++;  printf("alarm!\n");  if (count > 1) {    printf("test2 failed: alarm handler called more than once\n");    exit(1);  }  for (int i = 0; i < 1000*500000; i++) { // 超慢的 handler    asm volatile("nop"); // avoid compiler optimizing away loop  }  sigalarm(0, 0);  sigreturn();}

所以我们需要在 struct proc 里再加一个属性，就是 alarm_state。如果这个属性为 1，就表示，handler 程序正在执行，这个时候就算又过了 tick 个时钟周期，我们也不能去改 epc 让 handler 重复执行。

因为新添加了一个属性，所以 allocproc 和 freeproc 也需要改，这里就不细讲了。

更重要的还是要更改 usertrap() 函数中的东西：

if(which_dev == 2){  if(p->alarm_tks > 0){    p->alarm_tk_elapsed++;    if(p->alarm_tk_elapsed > p->alarm_tks && !p->alarm_state){ // 注意这里必须是 p->alarm_state 为 0      p->alarm_tk_elapsed = 0;      *p->alarmframe = *p->trapframe;      p->trapframe->epc = p->alarm_handler;      p->alarm_state = 1; // 注意这里：改了 epc 就代表开始执行了    }  }    yield();}

同时，sys_sigreturn() 函数里的东西也要改，因为调用了这个函数就代表 handler 不再执行了：

uint64sys_sigreturn(void){  struct proc* p = myproc();  *p->trapframe = *p->alarmframe;  p->alarm_state = 0; // 更改 alarm_state 的值为 0，代表 handler 停止执行  return 0;}

改完之后就能成功 AC 了，也祝现在做这个实验的人尽快 AC：

总结

比起这里的实验，其实更重要的还是理解 xv6 中陷入的过程，就算没有完全理解陷入过程，也能一步一步的照着实验指导做出这些实验。当然，要理解这里的陷入机制也属实是令人头疼，毕竟有很多以前从来没接触过的 riscv 汇编和底层的知识。虽然难理解，但理解和完成实验后，会让人不由自主的感叹操作系统设计的巧妙。

做完这个实验后，以前很多对操作系统的疑问也解决了，比如像 alarm 实验的原理。同时，也发现自己对汇编的理解还很浅。具体可以看 xv6 笔记那篇文章，一直理解不了为什么 userret 和 uservec 里要交换 sscratch 寄存器，后来问了才知道这个是特权级寄存器，不能用 ld，和 sd 这样的指令操作（实际上现在也没理解这样设计的原因）。

CC (Codechef) STARTERS 48 题解

2022-07-21T01:58:10.625Z

Accurate XOR

思路

题目链接

这个题需要使用到一个异或的性质。我们可以发现，对多个 0 或 1 连续的异或时，只有出现奇数个 1 才能使运算结果为 1。

因为如果出现了偶数个 1，那么对于每一个 1，总是能找到另一个 1 让它们的异或值变为 0 。而 0 的出现不会影响最终的结果，所以如果出现了偶数个 1，最后的结果一定是 0 。

The Xor-value of a node is defined as the bitwise XOR of all the binary values present in the subtree of that node.

题面中的这一句话表明，一个树的异或值被定义为该树下每个节点的异或和。

或者说，设当前树的根节点为 $r$ ， $r$ 有 $x$ 个子节点（包括不直接的，比如其子树的孩子），这些子节点的值是 $c_1 \sim c_x$ 。那么 $r$ 的异或值就是：

$\operatorname{XOR}(r) = c_1 \oplus c_2 \ldots \oplus c_{x - 1} \oplus c_x$

因为每个子节点的值要么是 1 要么是 0 。我们根据上面提到的性质就可以知道，如果当前树的异或值为 1，那么其所有子树中，一定有奇数个的值为 1 ，反之亦然。

也就是说如果树 $r$ 的异或值为 1，那么：

$\sum_{x=1}^{n}c_x \bmod 2 = 1$

题目要求有 $k$ 个子树的异或值为 1。那么我们就可以确定，对于这 $k$ 个子树中的每个子节点，它们的值的和必须是奇数。

我们设 $\text{odcnt}_i$ 为树 $i$ 中有少个值为 1 的子节点，当前树为 $r$ ，并且现在还需要 $kl$ 个树的异或值为 1（也就是说已经有些树的异或值为 1 了）。

那么如果 $kl > 0$ ，并且 $\text{odcnt}_r \bmod 2 = 0$ ，也就是其所有子节点的值为 1 的有偶数个。那么我们应当把这个节点的值设成 1。

这是因为 $kl > 0$ ，我们还需要更多的树的异或值为 1，而当前这个树，因为其子节点的值为 1 的有偶数个，所以其异或值不是 1 。如果我们把这个树本身的值改为 1，其异或值就变为了 1，达到了我们让更多树的异或值为 1 的目标。

反过来讲，如果 $kl = 0$ ，我们不需要更多的树的异或值为 1 了，但是 $\text{odcnt}_r \bmod 2 = 1$ ，也就是其所有子节点的值的和为奇数，那么我们应该把 $r$ 设为 1 。

这是因为我们不想要产生更多异或值为 1 的树了，把 $r$ 设成 1 就可以把其所有节点的值的和变为偶数， $r$ 的异或值也会变为 $0$ 。

有了这两点结论，就可以使用 dfs 来找到答案了。

代码

// tzyt#include using namespace std;#define ll long longconst int MAXN = 2e5 + 10;vector<int> e[MAXN];// k 个奇数大小的子树int od_cnt[MAXN];int n, k;void dfs(int cur, string& ans) {    for (int nex : e[cur]) {        dfs(nex, ans);        od_cnt[cur] += od_cnt[nex];    }    if (k) {        if ((od_cnt[cur] & 1) == 0) {  // 子树里节点为 1 的是偶数个            // 将其变为奇数个            ans[cur] = '1';            od_cnt[cur]++;        }        k--;    } else { // 已经满足条件了，但是可能多一个出来        if(od_cnt[cur] & 1){ // 子节点里为 1 的是奇数个            ans[cur] = '1';            od_cnt[cur]++;        }    }}int main() {    int t;    cin >> t;    while (t--) {                cin >> n >> k;        for_each(e + 1, e + 1 + n, [](vector<int>& a) { a.clear(); });        string ans;        ans.resize(n + 1);        for_each(ans.begin(), ans.end(), [](char &a){a = '0';});        fill(od_cnt + 1, od_cnt + 1 + n, 0); // 重置数据        for (int i = 2; i <= n; i++) {            int tmp;            cin >> tmp;            e[tmp].push_back(i);        }        dfs(1, ans);         for (int i = 1; i <= n; i++) {            cout << ans[i];        }        cout << '\n';    }}

Strict Permutation

思路

题目链接

我原来想的是，把每个限制按照位置排序，如果位置一样，就按照值排序。

然后再遍历每个限制，交错的插入每个限制和没被限制的值（根据它们的值，因为题目要求字典序最小）。这里说的估计不清楚，下面是我之前的代码：

/*Date: 22 - 07-20 20 10PROBLEM_NUM: */#define FDEBUG#if (defined FDEBUG) && (!defined ONLINE_JUDGE)#define DEBUG(fmt, ...) fprintf(stderr, fmt, ##__VA_ARGS__)#define DWHILE(cnd, blk) \    while (cnd) blk#define DFOR(ini, cnd, itr, blk) \    for (ini; cnd; itr) blk#else#define DEBUG(fmt, ...)#define DWHILE(cnd, blk)#define DFOR(ini, cnd, itr, blk)#endif#include using namespace std;#define ll long long#define pause system("pause")#define IINF 0x3f3f3f3f#define rg register// keywords:struct Constrain {    int val, pos;    bool operator<(Constrain b) const {        if (pos != b.pos) return pos < b.pos;        return val < b.val;    }    bool operator>(Constrain b) const { return b < *this; }};int main() {    int t;    cin >> t;    while (t--) {        int n, m;        cin >> n >> m;        priority_queue<Constrain, vector<Constrain>, greater<Constrain>> pq;        vector<int> ans;        ans.reserve(n);        set<int> ncons;        for (int i = 1; i <= n; i++) {            ncons.insert(i);        }        for (int i = 0; i < m; i++) {            Constrain tmp;            cin >> tmp.val >> tmp.pos;            pq.push(tmp);            ncons.erase(tmp.val);        }        while (pq.size()) {            auto tp = pq.top();            pq.pop();            bool used = false;            if (ans.size() >= tp.pos) {                goto FAIL;            }                        while (ans.size() < tp.pos - 1) {                int ist = *ncons.begin();                if (tp.val < ist) {                    ans.push_back(tp.val);                    used = true;                } else {                    ans.push_back(ist);                    ncons.erase(ist);                }            }            if (!used) {                ans.push_back(tp.val);            }        }        while (ncons.size()) {            int ist = *ncons.begin();            ans.push_back(ist);            ncons.erase(ist);        }    SUCC:        for (int cur : ans) {            cout << cur << ' ';        }        cout << '\n';        continue;    FAIL:        cout << "-1\n";    }    pause;}

这么瞎搞会造成一个问题，假设我们把每种限制按照之前说的方法排序，并且设这些限制为 $c_{1 \sim m}$

那么 $c_{i}$ 中的数字只会在 $(c_{i - 1}, c_{i}]$ 这个区间中出现，不符合题目要求。所以才会疯狂 WA。

正确的解法是从后往前的计算。

我们维护一个大根堆 $pq$ ，然后后往前遍历每个位置（就是题目的排列的位置）。

如果有些限制的位置就是当前遍历到的这个，那么我们就把这些限制的值加入 $pq$ 。然后对于每个遍历到的位置，就可以直接从 $pq$ 中取出栈顶的元素，放入答案中。

这样，只有当前的位置小于某个限制的位置，我们才可能从 $pq$ 中拿到这个限制的值，因此每个从 $pq$ 中拿到的元素都是合法的。

同时，在满足合法的同时，这些元素还是最大的，那么因为我们是从后往前遍历的，就确保了最后得到的排列字典序是最小的。

最后还需要考虑什么情况下输出 -1。因为 $pq$ 存的是所有这个位置合法的元素，那么如果 $pq$ 中拿不出任何东西了，就说明不能产生一个合法的排列。

最后，还有一点需要注意，对于那些没有任何限制的数字，我们可以在一开始就直接把他们加入 $pq$ 中，或者说这些数字的限制位置就是 $n$ 。

代码

// tzyt#include using namespace std;// keywords:int main() {    int t;    cin >> t;    while (t--) {        int n, m;        cin >> n >> m;        vector<int> lim(n + 1, n), ans(n + 1);          // 默认就是只要 n 前面就行（没有任何限制）        vector<vector<int>> lislim(n + 1);        // lislim[i] 储存所有限制位置为 i 的值        for (int i = 1; i <= m; i++) {            int val, pos;            cin >> val >> pos;            lim[val] = pos;        }        for (int i = 1; i <= n; i++) {            lislim[lim[i]].push_back(i);        }        priority_queue<int> pq;        for (int i = n; i >= 1; i--) {            for (int cur : lislim[i]) {                // 到了某个限制的点，就会有新的数字可用                pq.push(cur);            }            if (pq.empty()) { // 空的话就是没有合法元素了                goto FAIL;            }            ans[i] = pq.top();            pq.pop();        }    SUCC:        for (int i = 1; i <= n; i++) {            cout << ans[i] << ' ';        }        cout << '\n';        continue;    FAIL:        cout << "-1\n";    }}