考虑一个可微函数 \(f: \mathbb{R}^{n} \rightarrow \mathbb{R}, \operatorname{dom} f=\mathbb{R}^{n}\)
对某一点 \(\left(x_{0}, f\left(x_{0}\right)\right)\) 作其切线 \(l: y=\nabla f(x_0)\left(x-x_{0}\right)+f\left(x_{0}\right)\)
当 \(x=0\) 时, 得到该切线交轴上的截距 \(D=f\left(x_{0}\right)-\nabla f\left(x_{0}\right) \cdot x_{0}\)
先放到一边, 对比一个函数 \(f^{*}(y)=y^{T} x-f(x)\)
可以发现, 对任意一个给定的点 \(\left(x_{0}, f\left(x_{0}\right)\right), x_0 \in \operatorname{dom} f\), 当 \(y=\nabla f\left(x_{0}\right)\) 时, \(f^{*}(y)\) 的值
为该点在函数 \(f(x)\) 上对应切线的截距的相反数, 即 \(f^{*}(y)=\nabla f\left(x_{0}\right) \cdot x_{0}-f\left(x_{0}\right)=-D\)
现在再来看看共轭函数, \(f(x)\) 的共轭函数 \(f^{*}(y)=\underset{x \in dom f}{\sup }\left(y^{T} x-f(x)\right)\)
首先根据定义, \(y^{T} x-f(x)\) 是关于 \(y\) 的一个凸函数(因为 \(y^{T} x\) 是对 \(y\) 的线性变换), 取凸函
数的逐点上确界是保凸运算, 所以共轭函数一定是凸函数。
对于任意给定的一个自变量值 \(y=y_{0}\), 等式右边的意思是, 作一条梯度为 \(y_{0}\) 且过原点的直线
\(y_{0}^{T} x\), 取遍 \(d o m f\) 中的点 \(x\), 它与 \(f(x)\) 相减的最大值。
不难发现, 若 \(f\) 可微, 当某点 \(\left(x_{0}, f\left(x_{0}\right)\right)\) 使得 \(y_{0}=\nabla f\left(x_{0}\right)\) 时, \(y^{T} x-f(x)\) 的值最大。
例如, 若 \(f\) 是 \(\mathbb{R} \rightarrow \mathbb{R}\) 的一个映射, \(y_{0}^{T} x-f(x)\) 相当于直线 \(y_{0} x\) 与函数的差值。可以发现,
对于某点 \(\left(x_{0}, f\left(x_{0}\right)\right)\), 其切线的斜率恰好等于 \(y_{0}\) 时, 两直线间距离最大, 也就是对于这两条平
行线, 截距之差最大。