自学(3)：数学基础

大二上学期及寒假的自学笔记，由信息论、最优化方法、形式语言与自动机和博弈论组成。

一、信息论

线性码：将 $k$ 位映射到 $n$ 位，$x=sG$，$G$ 为 $k\times n$ 矩阵
校验：$Hy^T\neq 0$ 则有错，$H$ 为 $(n-k)\times n$ 矩阵，$HG^T=0$
对偶码：将 $H$ 作为生成矩阵，$G$ 作为校验矩阵
例：三重重复码、$(7,4)\ \mathrm{Hamming}$ 码 $(p_1=x_1+x_2+x_4,p_2=x_1+x_3+x_4,p_3=x_2+x_3+x_4)$

定义 $P_{X,Y}(x_i,y_j)$：发出 $x_i$ 且接收 $y_j$ 的概率，$P_{Y|X}(y_j|x_i)$：发出 $x_i$ 时接收 $y_j$ 的条件概率
熵：$H(X,Y)=-\sum P_{X,Y}(x_i,y_j)\log P_{X,Y}(x_i,y_j)$，$H(Y|X)=-\sum P_{X,Y}(x_i,y_j)\log P_{Y|X}(y_j|x_i)$
链式法则：$H(X,Y)=H(X)+H(Y|X)$（信道的总熵等于输入的熵加上信道引入的熵）
互信息：$I(x_i;y_j)=\log(\frac{1}{P_{X}(x_i)})-\log(\frac{1}{P_{X|Y}(x_i|y_j)})$（接收到 $y_j$ 后对 $x_i$ 的不确定性减少了多少）
平均互信息：$I(X;Y)=\sum P_{X,Y}(x_i,y_j)I(x_i;y_j)=H(X)-H(X|Y)$
性质：$I(X;Y)=H(X)$ 当且仅当无损；$I(X;Y)=0$ 当且仅当 $X,Y$ 独立（无信息量）
信道容量：$\displaystyle C=\max_{P_X(\cdot)}I(X;Y)$（对所有可能的输入分布求最大平均互信息）
香农第二定理：若 $R<C$，则存在编码使得误码率 $\to 0$，只要码长足够长；若 $R>C$，则任何编码误码率均有下限，其中 $R$ 为信道传输速率（用几个比特传输一个符号）

共轭函数：$\displaystyle f^*(y)=\sup_{x\in \mathrm{dom}f}(y^Tx-f(x))$，二次共轭 $\displaystyle f^{**}(x)=\sup_{y\in \mathrm{dom}f^*}(y^Tx-f^*(y))=f(x)$
拉格朗日函数 $L(x,\lambda)=f(x)+\sum_{i=1}^m \lambda_i g_i(x),\lambda_i \geq 0,g_i(x)\leq 0$ 是原函数的下界
对偶函数 $\displaystyle g(\lambda)=\inf_{x\in \mathrm{dom}f}L(x,\lambda)$ 是原问题的下界，对偶问题即最优下界 $\displaystyle \max_{\lambda} g(\lambda),\lambda \geq 0$
一阶 $\mathrm{KKT}$ 条件：
1. 可行性条件：$g_i(x^*)\leq 0,h_j(x^*)=0$
2. 对偶可行性条件：$\lambda_i^* \geq 0$
3. 驻点条件：$\nabla_x L(x^*,\lambda^*)=0$
4. 互补松弛条件：$\lambda_i^* g_i(x^*)=0$
二阶条件：$d^T\nabla_{xx}^2 L(x^*,\lambda^*)d \geq 0$ 对所有临界锥内的 $d$，即 $\lambda_i^*\nabla g_i(x^*)^Td=0$

牛顿法：$f(x^k+d^k)\approx f(x^k)+\nabla f(x^k)^Td^k+\frac{1}{2}d^{kT}\nabla^2 f(x^k)d^k$，右边驻点 $\nabla f(x^k)+\nabla^2 f(x^k)d^k=0$
拟牛顿法：估计 $\nabla^2 f(x^k)$，秩一更新 $B^{k+1}=B^k+auu^T$，$\mathrm{BFGS}$ 法 $B^{k+1}=B^k+auu^T+bvv^T$
信赖域法：求解子问题 $\min m_k(d)=f(x^k)+\nabla f(x^k)^Td+\frac{1}{2}d^TB^kd,|d|\leq \Delta_k$
最小二乘高斯-牛顿法：$f(x)=\frac{1}{2}\sum_{i=1}^m r_i^2(x)$，$\nabla f(x)=J(x)^T r(x),\nabla^2 f(x)=J(x)^T J(x)+\sum_{i=1}^m r_i(x)\nabla^2 r_i(x)\approx J(x)^T J(x)$，计算 $QR$ 分解求解

罚函数法：外点二次罚函数罚因子递增，内点对数罚函数罚因子递减
增广拉格朗日函数法：$L_\sigma(x,\lambda)=f(x)+\sum\lambda_i c_i(x)+\frac{\sigma}{2}\sum \hat{c_i}^2(x)$，$\lambda_i^{k+1}=\max\{\lambda_i^k+\sigma_k c_i(x^{k+1}),0\}$ 与 $\sigma$ 交替更新

邻近算子法：$\mathrm{prox}_h(x)=\arg\min\{h(u)+\frac{1}{2}|u-x|^2\}$，$\min \psi(x)=f(x)+h(x)$，可微 $f$ 做梯度下降，非光滑 $h$ 用邻近算子
分块坐标下降法：将自变量 $x$ 拆成 $s$ 块，固定其他块交替优化每一块
随机优化：详见机器学习

乔姆斯基范式 $\mathrm{CNF}$：$A\to BC|a$
格雷巴赫范式 $\mathrm{GNF}$：$A\to a\alpha,a\in T,\alpha\in V^*$
自嵌套文法：$\exists A\overset{+}{\Rightarrow} \alpha A\beta,\alpha,\beta\in (V\cup T)^+$
非自嵌套文法 $\Rightarrow$ 正则语言
下推自动机 $\mathrm{PDA}$：基于 $\mathrm{GNF}$，读入读头字符，弹出栈顶符号，压入栈顶符号串并转移状态，右移读头
上下文无关文法 $\Leftrightarrow$ 下推自动机

图灵机 $\mathrm{TM}$：读入读头字符，写入带符号，左/右移读头，转移状态
变形：双向、多带、不确定、多维、多头、离线（只读）
图灵机 $\Leftrightarrow$ 短语结构文法
可判定性：递归语言（图灵机停机），是递归可枚举语言的真子集
$\mathrm{P/NP/NPC/NP-hard}$：多项式可解/多项式可验证/多项式归约到所有 $\mathrm{NP}$ 且属于 $\mathrm{NP}$/多项式归约到所有 $\mathrm{NP}$

笔记

#计算机 #自学

自学(3)：数学基础

https://sqzr2319.github.io/CSDIY/CSDIY-3/

作者

sqzr2319

发布于

2025年9月16日

许可协议