计算机视觉及多维视觉定位模型/算法/方程式
|
编号 |
领域 |
模型配方 |
数据结构及各类参数/变量/常量/张量/向量列表 |
模型/算法/方程式逐步思考推理过程的每一步的数学建模 |
应用场景 |
关联知识 |
|---|---|---|---|---|---|---|
|
1 |
边缘检测 |
Canny边缘检测算法 |
输入:灰度图像I(x,y);输出:边缘图E(x,y);参数:高斯核大小σ,高低阈值T_high、T_low;中间变量:梯度幅值G(x,y),梯度方向θ(x,y) |
1. 高斯滤波:I_smooth = G(σ) * I |
自动驾驶车道检测、图像分割预处理、目标轮廓提取 |
图像滤波、梯度计算、阈值处理 |
|
2 |
特征点检测 |
SIFT(尺度不变特征变换) |
输入:图像I;输出:关键点集合K={k_i},每个关键点包含位置(x,y)、尺度σ、方向θ、描述子向量d∈ℝ¹²⁸;参数:高斯金字塔层数,DoG阈值 |
1. 构建尺度空间:L(x,y,σ) = G(x,y,σ) * I(x,y) |
图像拼接、物体识别、增强现实 |
尺度空间理论、高斯差分、梯度直方图 |
|
3 |
特征匹配 |
RANSAC(随机抽样一致) |
输入:匹配点对集合M={(p_i,q_i)};输出:内点集合I,变换模型H;参数:迭代次数N,内点阈值ε,内点比例阈值τ |
1. 随机选择最小样本集(如4对点) |
图像配准、三维重建、异常值剔除 |
概率统计、模型拟合、异常检测 |
|
4 |
光流估计 |
Lucas-Kanade光流法 |
输入:相邻帧图像I_t、I_{t+1};输出:光流场(u,v);参数:窗口大小w,迭代次数;变量:图像梯度I_x、I_y、I_t |
1. 亮度恒定假设:I(x+u, y+v, t+1) = I(x,y,t) |
视频稳定、运动分析、目标跟踪 |
泰勒展开、最小二乘法、图像梯度 |
|
5 |
图像分类 |
卷积神经网络(CNN) |
输入:图像张量X∈ℝ^{H×W×C};输出:类别概率向量y∈ℝ^K;参数:卷积核W,偏置b,激活函数σ,池化函数,全连接层权重 |
1. 卷积层:Z^{(l)} = W^{(l)} * X^{(l-1)} + b^{(l)} |
ImageNet图像分类、人脸识别、医疗图像分析 |
卷积运算、反向传播、梯度下降 |
|
6 |
目标检测 |
YOLO(You Only Look Once) |
输入:图像I;输出:边界框B={b_i},类别C={c_i},置信度S={s_i};参数:网格大小S×S,每个网格预测B个边界框,类别数K |
1. 将图像划分为S×S网格 |
Object)×Pr(Object)×IOU |
实时目标检测、自动驾驶、安防监控 |
|
7 |
图像分割 |
U-Net |
输入:医学图像I;输出:分割掩码M;结构:编码器(下采样)、解码器(上采样)、跳跃连接 |
1. 编码器:通过卷积和最大池化提取特征,逐步减小空间尺寸,增加通道数 |
医学图像分割、细胞分割、卫星图像分析 |
编码器-解码器结构、跳跃连接、转置卷积 |
|
8 |
生成模型 |
GAN(生成对抗网络) |
输入:随机噪声z∼p_z;输出:生成图像G(z);参数:生成器G参数θ_g,判别器D参数θ_d |
1. 生成器:G(z;θ_g)试图生成逼真图像 |
图像生成、风格迁移、数据增强 |
博弈论、JS散度、模式崩溃 |
|
9 |
三维视觉 |
NeRF(神经辐射场) |
输入:相机位姿、视角方向;输出:RGB颜色c,体密度σ;参数:MLP网络权重,位置编码函数γ |
1. 位置编码:γ(p) = (sin(2⁰πp), cos(2⁰πp), ..., sin(2^{L-1}πp), cos(2^{L-1}πp)) |
新颖视角合成、三维重建、虚拟现实 |
体渲染、位置编码、辐射场 |
|
10 |
视觉定位 |
PnP(透视n点)算法 |
输入:3D点{P_i}∈ℝ³,2D投影点{p_i}∈ℝ²;输出:相机位姿(R,t);参数:相机内参矩阵K |
1. 投影方程:λ_i p_i = K[R |
t]P_i | |
|
11 |
点云配准 |
ICP(迭代最近点) |
输入:源点云P={p_i},目标点云Q={q_i};输出:变换矩阵(R,t);参数:最大迭代次数,收敛阈值ε |
1. 初始化:R=I,t=0 |
R·p_i + t - q_i | |
|
12 |
双目视觉 |
三角测量 |
输入:左右图像匹配点(u_l,v_l)、(u_r,v_r),相机基线b,焦距f;输出:三维坐标(X,Y,Z) |
1. 视差计算:d = u_l - u_r |
立体视觉、深度估计、三维测量 |
相机几何、视差、极线几何 |
|
13 |
多目视觉 |
投影线交点法 |
输入:多相机投影矩阵{M_i},图像点{p_i};输出:三维点P=(X,Y,Z);变量:深度因子{z_ci} |
1. 每个相机投影方程:z_ci·p_i = M_i·P |
多相机三维重建、手术导航、工业检测 |
多视图几何、线性方程组、最小二乘 |
|
14 |
视觉定位 |
PixLoc算法 |
输入:稀疏3D模型{P_i},参考图像{I_k},查询图像I_q,初始位姿(R₀,t₀);输出:精确位姿(R,t);变量:特征图F,残差r |
1. 特征提取:CNN提取多尺度特征图F_q^l、F_k^l∈ℝ^{W_l×H_l×D_l} |
r_k^i | |
|
15 |
特征检测 |
Harris角点检测 |
输入:图像I;输出:角点位置;参数:窗口大小,k值(通常0.04-0.06) |
1. 计算梯度:I_x = ∂I/∂x,I_y = ∂I/∂y |
特征点提取、图像匹配、运动估计 |
图像梯度、结构张量、特征值分析 |
|
16 |
目标检测 |
Faster R-CNN |
输入:图像;输出:边界框和类别;结构:特征提取网络,RPN,RoI池化,分类回归头 |
1. 特征提取:CNN提取特征图 |
高精度目标检测、实例识别 |
区域建议网络、锚框机制、RoI池化 |
|
17 |
图像分割 |
Mask R-CNN |
输入:图像;输出:实例分割掩码;结构:Faster R-CNN + 掩码头 |
1. 特征提取和RPN同Faster R-CNN |
实例分割、人像分割、物体分割 |
RoIAlign、并行预测头、实例分割 |
|
18 |
生成模型 |
VAE(变分自编码器) |
输入:数据x;输出:重构数据x̂;变量:隐变量z,均值μ,方差σ |
1. 编码器:q_φ(z |
x) = N(z; μ_φ(x), σ_φ²(x)) |
z) = N(x; μ_θ(z), I)或伯努利分布 |
|
19 |
三维视觉 |
结构光三维重建 |
输入:编码图案序列,相机图像;输出:三维点云;参数:投影仪-相机相对位姿 |
1. 图案编码:投影一系列编码图案(格雷码、相移等) |
工业检测、人脸扫描、文物数字化 |
图案编码、三角测量、系统标定 |
|
20 |
视觉SLAM |
ORB-SLAM |
输入:图像序列;输出:相机轨迹,稀疏地图;模块:跟踪、局部建图、闭环检测 |
1. ORB特征提取和匹配 |
机器人导航、增强现实、自动驾驶 |
特征匹配、BA优化、词袋模型 |
|
21 |
图像增强 |
直方图均衡化 |
输入:灰度图像I;输出:增强图像J;变量:直方图h,累积分布函数CDF |
1. 计算直方图:h(k) = #{I(x,y)=k} |
图像对比度增强、医学图像预处理 |
直方图分析、概率分布、映射函数 |
|
22 |
形态学操作 |
腐蚀和膨胀 |
输入:二值图像B,结构元素S;输出:处理后的图像;参数:结构元素形状和大小 |
1. 腐蚀:E(x,y) = min{(i,j)∈S} B(x+i, y+j) |
图像去噪、形状分析、目标分离 |
集合论、结构元素、形态学运算 |
|
23 |
图像滤波 |
高斯滤波 |
输入:图像I;输出:平滑图像I_smooth;参数:高斯核大小,标准差σ |
1. 生成高斯核:G(x,y) = (1/(2πσ²))exp(-(x²+y²)/(2σ²)) |
图像去噪、尺度空间构建、预处理 |
高斯分布、卷积运算、可分离滤波 |
|
24 |
霍夫变换 |
直线检测 |
输入:边缘图像E;输出:直线参数集合;参数:ρ和θ的分辨率,投票阈值 |
1. 参数化:直线表示为ρ=x·cosθ+y·sinθ |
车道线检测、文档分析、工业检测 |
参数空间、投票机制、峰值检测 |
|
25 |
模板匹配 |
归一化互相关 |
输入:图像I,模板T;输出:匹配位置(x,y);变量:相关系数R |
1. 计算互相关:R(x,y) = ∑{i,j} I(x+i,y+j)·T(i,j) |
目标跟踪、图像配准、质量检测 |
相关性分析、相似性度量、滑动窗口 |
|
26 |
背景减除 |
混合高斯模型 |
输入:视频帧序列;输出:前景掩码;参数:高斯分量数K,学习率α |
1. 每个像素建模为K个高斯分布的混合:p(x_t) = ∑_{i=1}^K w_i·N(x_t; μ_i, Σ_i) |
x_t-μ_i |
<2.5σ_i) |
|
27 |
图像分类 |
ResNet(残差网络) |
输入:图像;输出:类别概率;核心:残差块F(x)+x |
1. 残差学习:H(x) = F(x) + x |
深度网络训练、图像分类、特征提取 |
残差连接、梯度消失、网络深度 |
|
28 |
图像分类 |
MobileNet |
输入:图像;输出:类别概率;核心:深度可分离卷积 |
1. 深度卷积:每个通道单独卷积,D_k×D_k×M |
移动端部署、嵌入式视觉、实时应用 |
深度可分离卷积、计算效率、模型压缩 |
|
29 |
目标检测 |
SSD(单次检测器) |
输入:图像;输出:多尺度检测结果;结构:多尺度特征图,默认框 |
1. 基础网络:VGG等提取特征 |
实时多尺度检测、嵌入式系统 |
多尺度特征、默认框、硬负样本挖掘 |
|
30 |
图像分割 |
FCN(全卷积网络) |
输入:任意大小图像;输出:像素级分类;核心:全卷积,上采样 |
1. 全卷积:将全连接层转换为卷积层,接受任意大小输入 |
语义分割、场景理解 |
全卷积、转置卷积、像素级预测 |
|
31 |
生成模型 |
CycleGAN |
输入:域A图像,域B图像;输出:跨域转换图像;损失:对抗损失+循环一致性损失 |
1. 两个生成器:G:A→B,F:B→A |
F(G(a))-a | |
|
32 |
三维视觉 |
Bundle Adjustment |
输入:多视图图像,初始三维点和相机位姿;输出:优化后的三维结构和相机位姿;变量:重投影误差 |
1. 参数化:所有相机位姿{R_i,t_i}和三维点{P_j} |
t_i]P_j) | |
|
33 |
视觉定位 |
对极几何 |
输入:两视图匹配点;输出:基础矩阵F或本质矩阵E;约束:对极约束 |
1. 对极约束:p₂ᵀ·F·p₁ = 0,其中p₁、p₂为匹配点的齐次坐标 |
t] |
相对位姿估计、三维重建初始化 |
|
34 |
特征描述 |
ORB(Oriented FAST and Rotated BRIEF) |
输入:图像;输出:关键点和描述子;组合:FAST角点+方向+BRIEF描述子 |
1. FAST角点检测:检查圆周上的像素,如果连续N个像素比中心亮或暗阈值T,则为角点 |
实时特征匹配、SLAM、增强现实 |
FAST角点、BRIEF描述子、二进制特征 |
|
35 |
图像分割 |
GrabCut |
输入:图像,初始矩形或涂鸦;输出:分割掩码;模型:高斯混合模型+图割 |
1. 初始化:用户指定前景/背景区域 |
交互式图像分割、前景提取 |
图割算法、高斯混合模型、交互分割 |
|
36 |
目标跟踪 |
KCF(核相关滤波) |
输入:初始目标位置,后续帧;输出:跟踪位置;核心:循环矩阵,核技巧 |
1. 训练样本生成:通过循环移位生成大量训练样本 |
w | |
|
37 |
图像分类 |
Vision Transformer |
输入:图像;输出:类别概率;核心:自注意力机制 |
1. 图像分块:将图像划分为N个16×16 patches |
大规模图像分类、多模态学习 |
自注意力、Transformer、位置编码 |
|
38 |
超分辨率 |
SRCNN |
输入:低分辨率图像;输出:高分辨率图像;结构:三层卷积网络 |
1. 特征提取:第一层卷积提取特征 |
F(Y_i;Θ) - X_i | |
|
39 |
人体姿态估计 |
OpenPose |
输入:图像;输出:人体关键点;方法:部分亲和场+多阶段推理 |
1. 特征提取:VGG网络提取特征 |
人体姿态分析、动作识别、人机交互 |
部分亲和场、多阶段网络、图匹配 |
|
40 |
三维视觉 |
点云处理 |
PointNet |
输入:点云{P_i∈ℝ³};输出:全局特征或逐点特征;核心:对称函数 |
1. 输入变换:通过T-Net学习3×3变换矩阵对齐点云 |
点云分类、分割、三维理解 |
|
41 |
视觉定位 |
视觉惯性里程计 |
VIO算法 |
输入:图像,IMU数据;输出:相机位姿,速度,偏差;模型:预积分,紧耦合 |
1. IMU预积分:在图像帧之间积分IMU测量,避免重复积分 |
无人机导航、AR/VR、机器人 |
|
42 |
图像生成 |
Diffusion模型 |
输入:噪声,条件;输出:生成图像;过程:前向扩散+反向去噪 |
1. 前向过程:q(x_t |
x{t-1}) = N(x_t; √(1-β_t)x{t-1}, β_tI) |
x_t) = N(x{t-1}; μ_θ(x_t,t), Σ_θ(x_t,t)) |
|
43 |
多模态学习 |
CLIP |
输入:图像,文本;输出:相似度分数;训练:对比学习 |
1. 图像编码器:ViT或ResNet提取图像特征 |
零样本分类、多模态检索 |
对比学习、多模态、零样本学习 |
|
44 |
目标检测 |
DETR |
输入:图像;输出:检测结果;核心:Transformer+二分图匹配 |
1. 特征提取:CNN提取特征图 |
端到端目标检测、无需NMS |
Transformer、二分图匹配、集合预测 |
|
45 |
图像分割 |
DeepLab系列 |
输入:图像;输出:分割掩码;技术:空洞卷积,ASPP,CRF |
1. 空洞卷积:扩大感受野而不降低分辨率 |
语义分割、场景解析 |
空洞卷积、多尺度、空间金字塔 |
|
46 |
三维视觉 |
立体匹配 |
SGM(半全局匹配) |
输入:校正后的立体图像对;输出:视差图;方法:路径聚合+平滑约束 |
1. 代价计算:C(p,d) = |
I_left(p) - I_right(p-d) |
|
47 |
视觉定位 |
视觉重定位 |
NetVLAD |
输入:图像;输出:全局描述子;核心:VLAD聚合+可学习聚类中心 |
1. 局部特征:CNN提取局部特征{f_i∈ℝ^D} | |
|
48 |
图像分类 |
EfficientNet |
输入:图像;输出:类别概率;方法:复合缩放 |
1. 基线网络:通过神经架构搜索得到 |
高效图像分类、模型缩放 |
复合缩放、神经架构搜索、模型效率 |
|
49 |
目标跟踪 |
DeepSORT |
输入:视频帧,检测结果;输出:跟踪轨迹;组件:检测+特征提取+关联 |
1. 检测:YOLO等检测器提供边界框 |
多目标跟踪、行人跟踪、交通监控 |
卡尔曼滤波、数据关联、外观特征 |
|
50 |
视觉定位 |
视觉SLAM前端 |
特征点法SLAM |
输入:图像序列;输出:特征点,初始位姿;流程:特征提取,匹配,位姿估计 |
1. 特征提取:ORB/SIFT等提取关键点和描述子 |
SLAM前端、视觉里程计、实时定位 |
|
编号 |
领域 |
模型配方 |
数据结构及各类参数/变量/常量/张量/向量列表 |
模型/算法/方程式逐步思考推理过程的每一步的数学建模 |
应用场景 |
关联知识 |
|---|---|---|---|---|---|---|
|
51 |
图像去噪 |
非局部均值去噪 |
输入:噪声图像I;输出:去噪图像J;参数:搜索窗口大小,相似块大小,滤波参数h |
1. 对于每个像素i,计算其邻域块(相似块)与图像中其他像素j的邻域块的相似性权重:w(i,j) = exp(- |
N_i - N_j | |
|
52 |
图像配准 |
基于互信息的配准 |
输入:参考图像R,浮动图像F;输出:变换参数θ;目标:最大化互信息 |
1. 定义互信息:MI(R, F∘T_θ) = H(R) + H(F∘T_θ) - H(R, F∘T_θ),其中H为熵 |
多模态图像配准(如MRI-CT配准) |
信息论、互信息、优化算法 |
|
53 |
图像分割 |
水平集方法 |
输入:图像I;输出:分割曲线C;变量:水平集函数φ,力函数F |
1. 将曲线C表示为水平集函数φ的零水平集:C = {(x,y) |
φ(x,y)=0} |
∇φ |
|
54 |
特征检测 |
MSER(最大稳定极值区域) |
输入:灰度图像I;输出:区域集合;参数:灰度阈值变化范围Δ |
1. 将图像二值化,阈值从0到255变化 |
Q{i+Δ} - Q{i-Δ} |
/ |
|
55 |
三维视觉 |
泊松表面重建 |
输入:点云及其法向量;输出:隐式表面函数;核心:泊松方程 |
1. 构建指示函数χ,在物体内部为1,外部为0 |
点云表面重建、三维建模 |
泊松方程、隐式表面、等值面提取 |
|
56 |
目标检测 |
RetinaNet |
输入:图像;输出:边界框和类别;核心:Focal Loss解决类别不平衡 |
1. 特征金字塔网络(FPN)提取多尺度特征 |
密集目标检测、类别不平衡场景 |
特征金字塔、Focal Loss、Anchor机制 |
|
57 |
图像生成 |
StyleGAN |
输入:潜在向量z;输出:生成图像;核心:风格迁移,AdaIN |
1. 映射网络:将z映射为中间潜在向量w |
高分辨率人脸生成、风格编辑 |
生成对抗网络、自适应实例归一化、风格控制 |
|
58 |
视频分析 |
光流法 |
输入:相邻帧I_t, I_{t+1};输出:光流场(u,v);假设:亮度恒定,小运动,空间一致 |
1. 亮度恒定:I(x+u, y+v, t+1) = I(x,y,t) |
运动估计、视频压缩、动作识别 |
光流方程、亮度恒定假设、平滑约束 |
|
59 |
图像增强 |
暗通道先验去雾 |
输入:有雾图像I;输出:去雾图像J;先验:户外无雾图像的暗通道接近于0 |
1. 暗通道定义:J_dark(x) = min{y∈Ω(x)} (min{c∈{r,g,b}} J^c(y)),其中Ω(x)为局部窗口 |
图像去雾、户外图像增强 |
暗通道先验、大气散射模型、图像恢复 |
|
60 |
图像分割 |
Mean Shift分割 |
输入:图像I;输出:分割区域;参数:空间带宽h_s,颜色带宽h_r,最小区域大小 |
1. 将图像转换为特征空间:每个像素表示为(x,y,L,a,b)或(x,y,R,G,B) |
图像分割、颜色聚类、目标跟踪 |
均值漂移、核密度估计、模式寻找 |
|
61 |
三维重建 |
运动恢复结构 |
运动恢复结构(SfM) |
输入:多视角图像序列;输出:相机位姿和稀疏三维点云;流程:特征提取、匹配、三角测量、BA优化 |
1. 特征提取与匹配:提取SIFT等特征并匹配 | |
|
62 |
视觉定位 |
直接法视觉里程计 |
直接法VO(如LSD-SLAM) |
输入:图像序列;输出:相机位姿,深度图;方法:最小化光度误差 |
1. 光度误差:E(ξ) = ∑_i[I_ref(p_i) - I(ω(p_i, D_ref(p_i), ξ))]²,其中ξ为相机位姿李代数,ω为映射函数 |
视觉里程计、RGB-D SLAM |
|
63 |
人脸识别 |
人脸关键点检测 |
人脸关键点检测(如SDM) |
输入:人脸图像;输出:关键点坐标;方法:级联回归 |
1. 初始化:平均形状作为初始关键点位置 |
人脸对齐、表情分析、人脸识别预处理 |
|
64 |
图像分类 |
SENet(Squeeze-and-Excitation Networks) |
输入:特征图U∈ℝ^{H×W×C};输出:重标定特征图Ũ;核心:通道注意力 |
1. Squeeze:全局平均池化得到通道统计z_c = 1/(H×W) ∑{i=1}^H ∑{j=1}^W u_c(i,j) |
图像分类、通道注意力、网络架构设计 |
注意力机制、通道重标定、网络设计 |
|
65 |
目标检测 |
FCOS(全卷积单阶段检测器) |
输入:图像;输出:边界框和类别;方法:逐像素预测,无锚框 |
1. 特征金字塔提取多尺度特征 |
无锚框目标检测、密集预测 |
全卷积、中心度、无锚框检测 |
|
66 |
图像分割 |
SegNet |
输入:图像;输出:分割掩码;结构:编码器-解码器,池化索引传递 |
1. 编码器:卷积+批归一化+ReLU+最大池化,记录池化索引 |
语义分割、实时分割 |
编码器-解码器、池化索引、上采样 |
|
67 |
三维视觉 |
三维目标检测 |
基于点云的三维检测(如PointPillars) |
输入:点云;输出:三维边界框;方法:将点云转换为伪图像,使用2D CNN检测 |
1. 点云体素化:将点云划分为柱状体(pillars) |
自动驾驶、三维目标检测 |
|
68 |
视觉定位 |
视觉惯性里程计 |
预积分视觉惯性里程计 |
输入:图像,IMU数据;输出:相机位姿,速度,偏差;方法:IMU预积分,紧耦合优化 |
1. IMU预积分:在相邻图像帧之间积分IMU测量,得到相对运动增量,避免重复积分 | |
|
69 |
图像生成 |
自编码器 |
输入:数据x;输出:重构数据x̂;结构:编码器,解码器 |
1. 编码器:z = f_θ(x) = σ(Wx + b) |
x - x̂ | |
|
70 |
目标跟踪 |
MOSSE(Minimum Output Sum of Squared Error)滤波器 |
输入:初始目标区域,后续帧;输出:目标位置;方法:相关滤波 |
1. 训练:H* = (G ⊙ F) / (F ⊙ F+ λ),其中F为输入图像傅里叶变换,G为期望输出(高斯形状),λ为正则化参数 |
视觉目标跟踪、相关滤波 |
相关滤波、傅里叶变换、在线更新 |
|
71 |
图像增强 |
自动白平衡 |
输入:原始图像I;输出:白平衡后图像I_wb;方法:灰度世界假设 |
1. 灰度世界假设:场景中平均反射光为灰色 |
图像增强、颜色校正 |
白平衡、颜色恒常性、灰度世界 |
|
72 |
三维视觉 |
表面重建 |
移动立方体算法(Marching Cubes) |
输入:体数据(如CT扫描);输出:三角网格;参数:等值面阈值 |
1. 将体数据划分为立方体网格 |
医学图像三维重建、等值面提取 |
|
73 |
特征描述 |
BRIEF(Binary Robust Independent Elementary Features) |
输入:图像块;输出:二进制描述子;方法:强度比较 |
1. 平滑图像块 |
实时特征匹配、SLAM |
二进制描述子、强度比较、汉明距离 |
|
74 |
图像分类 |
DenseNet |
输入:图像;输出:类别概率;结构:密集连接 |
1. 密集块:每层的输入是前面所有层输出的拼接:x_l = H_l([x_0, x_1, ..., x_{l-1}]),其中H_l为复合函数(BN-ReLU-Conv) |
图像分类、特征提取 |
密集连接、特征重用、参数效率 |
|
75 |
目标检测 |
CenterNet |
输入:图像;输出:中心点、尺寸、偏移;方法:基于关键点检测 |
1. 骨干网络提取特征图 |
实时目标检测、无锚框检测 |
关键点检测、热图、中心点预测 |
|
76 |
图像分割 |
条件随机场(CRF) |
输入:图像I,一元势能(如CNN输出);输出:分割标签;能量函数:一元势能+二元势能 |
1. 能量函数:E(x) = ∑i ψ_u(x_i) + ∑{i<j} ψ_p(x_i, x_j) |
I),通常来自CNN输出 |
语义分割后处理、图像标注 |
|
77 |
三维视觉 |
点云配准 |
正态分布变换(NDT) |
输入:源点云P,目标点云Q;输出:变换矩阵(R,t);方法:将目标点云建模为正态分布 |
1. 将目标点云划分为体素网格 |
点云配准、激光雷达SLAM |
|
78 |
视觉定位 |
视觉SLAM后端 |
位姿图优化 |
输入:位姿节点,边约束;输出:优化后的位姿;图模型:节点为位姿,边为相对位姿约束 |
1. 位姿图:节点x_i表示位姿,边z_ij表示测量(相对位姿) |
SLAM后端、闭环检测 |
|
79 |
图像分类 |
Inception网络 |
输入:图像;输出:类别概率;结构:多分支卷积并行 |
1. Inception模块:并行1×1、3×3、5×5卷积和池化,然后拼接 |
图像分类、网络设计 |
多尺度、并行卷积、1×1卷积 |
|
80 |
目标检测 |
可变形卷积 |
输入:特征图;输出:变形特征图;方法:学习采样偏移 |
1. 常规卷积:y(p0) = ∑{pn∈R} w(pn)·x(p0+pn),其中R为常规网格 |
目标检测、语义分割 |
可变形卷积、空间变换、自适应感受野 |
|
81 |
图像分割 |
DeepLabv3+ |
输入:图像;输出:分割掩码;结构:编码器-解码器,ASPP,深度可分离卷积 |
1. 编码器:通过带空洞卷积的ResNet提取特征,使用ASPP捕获多尺度信息 |
语义分割、实时分割 |
空洞空间金字塔、编码器-解码器、深度可分离卷积 |
|
82 |
三维视觉 |
三维点云分割 |
PointNet++ |
输入:点云;输出:点级别标签;方法:层次化点集学习 |
1. 采样层:最远点采样选择中心点 |
点云分割、三维场景理解 |
|
83 |
视觉定位 |
视觉里程计 |
直接稀疏里程计(DSO) |
输入:图像序列;输出:相机位姿,稀疏深度图;方法:直接法,联合优化 |
1. 光度误差:E = ∑_{i∈obs(p)} w_p | |
|
84 |
图像分类 |
Swin Transformer |
输入:图像;输出:类别概率;核心:滑动窗口,分层设计 |
1. 图像分块:将图像划分为4×4 patches,每个patch为4×4×3=48维,线性嵌入为C维 |
图像分类、目标检测、分割 |
滑动窗口、层次化Transformer、相对位置编码 |
|
85 |
目标检测 |
YOLOv4 |
输入:图像;输出:边界框和类别;改进:CSPDarknet53, PANet, SAM |
1. 骨干网络:CSPDarknet53提取特征 |
实时目标检测、多尺度检测 |
CSPNet、PANet、SPP、数据增强 |
|
86 |
图像生成 |
BigGAN |
输入:噪声z,类别标签c;输出:生成图像;核心:大规模训练,条件生成 |
1. 条件生成:将类别信息c通过嵌入层输入生成器和判别器 |
大规模图像生成、条件生成 |
条件GAN、谱归一化、正交正则化 |
|
87 |
视觉定位 |
视觉惯性SLAM |
VINS-Mono |
输入:单目图像,IMU数据;输出:相机轨迹,地图;方法:紧耦合,滑动窗口优化 |
1. 测量预处理:特征跟踪,IMU预积分 |
单目视觉惯性SLAM、移动设备定位 |
|
88 |
图像分割 |
Mask R-CNN |
输入:图像;输出:实例分割掩码;扩展自Faster R-CNN |
1. 骨干网络:ResNet-FPN提取多尺度特征 |
实例分割、目标检测 |
RoIAlign、FPN、并行头 |
|
89 |
三维视觉 |
神经渲染 |
神经辐射场(NeRF) |
输入:相机位姿,视角方向;输出:RGB图像;模型:MLP表示场景 |
1. 位置编码:将空间位置和视角方向编码到高频空间 |
新颖视角合成、三维重建 |
|
90 |
目标检测 |
EfficientDet |
输入:图像;输出:边界框和类别;核心:EfficientNet骨干,BiFPN |
1. 骨干网络:EfficientNet提取多尺度特征 |
高效目标检测、模型缩放 |
EfficientNet、BiFPN、复合缩放 |
|
91 |
图像分类 |
ConvNeXt |
输入:图像;输出:类别概率;设计:现代化卷积网络 |
1. 宏观设计:类似Swin Transformer的分阶段设计,逐步下采样 |
图像分类、现代化CNN |
卷积网络设计、反瓶颈、大卷积核 |
|
92 |
视觉定位 |
基于学习的视觉定位 |
PoseNet |
输入:图像;输出:相机位姿(位置和方向);方法:端到端回归 |
1. 骨干网络:GoogleNet或ResNet提取特征 | |
|
93 |
图像增强 |
对比度受限自适应直方图均衡化(CLAHE) |
输入:图像I;输出:增强图像J;参数:块大小,对比度限制阈值 |
1. 将图像分为多个不重叠的块 |
医学图像增强、低对比度图像 |
自适应直方图均衡化、对比度限制 |
|
94 |
三维视觉 |
深度补全 |
基于CNN的深度补全 |
输入:稀疏深度图,RGB图像;输出:稠密深度图;方法:多模态融合 |
1. 编码器:分别处理RGB图像和稀疏深度图,提取特征 |
深度补全、三维重建 |
|
95 |
目标跟踪 |
SiamFC(全卷积孪生网络) |
输入:模板图像z,搜索区域x;输出:响应图;方法:孪生网络 |
1. 孪生网络:共享权重的卷积网络φ提取特征 |
视觉目标跟踪、孪生网络 |
孪生网络、互相关、响应图 |
|
96 |
图像分割 |
条件随机场as RNN |
输入:CNN输出(一元势能),图像;输出:细化分割;方法:将CRF表示为RNN |
1. 高斯核的CRF能量函数可分解为多个卷积运算 |
语义分割、CRF与CNN结合 |
CRF、RNN、端到端训练 |
|
97 |
三维视觉 |
点云分类 |
PointNet |
输入:点云{pi∈ℝ³};输出:全局特征或逐点特征;核心:对称函数 |
1. 输入变换:通过T-Net学习3×3变换矩阵对齐点云 |
点云分类、分割 |
|
98 |
视觉定位 |
视觉里程计 |
半直接视觉里程计(SVO) |
输入:图像序列;输出:相机位姿,深度图;方法:稀疏直接法 |
1. 特征提取:在关键帧提取FAST角点 |
快速视觉里程计、无人机 |
|
99 |
图像分类 |
数据增强 |
MixUp |
输入:图像x_i, x_j,标签y_i, y_j;输出:增强图像x̂,标签ŷ;方法:线性插值 |
1. 随机选择两个样本(x_i, y_i)和(x_j, y_j) |
正则化、数据增强、图像分类 |
|
100 |
目标检测 |
可变形注意力 |
输入:查询q,参考点p,特征图x;输出:注意力值;方法:可变形注意力模块 |
1. 采样偏移:Δp = W_q q,其中W_q为可学习权重 |
可变形DETR、视觉Transformer |
可变形注意力、参考点、采样偏移 |
计算机视觉及多维视觉定位模型/算法/方程式列表 (1-10, 增强版)
|
编号 |
领域 |
模型配方 |
数据结构及各类参数/变量/常量/张量/向量列表 |
模型/算法/方程式逐步思考推理过程的每一步的数学建模 |
应用场景 |
关联知识 |
详细的参数配置、实现细节和各项功能和性能优化技巧 |
|---|---|---|---|---|---|---|---|
|
1 |
边缘检测 |
Canny边缘检测算法 |
输入: 灰度图像 I(x,y)∈RH×W。 |
1. 噪声抑制 (高斯滤波): |
自动驾驶车道线检测、 工业零件轮廓提取、 图像分割预处理、 文档扫描 |
图像滤波、 梯度算子、 插值、 连通域分析 |
参数配置: |
|
2 |
特征点检测 |
SIFT (尺度不变特征变换) |
输入: 灰度图像 I。 |
1. 构建尺度空间: |
图像配准、 全景拼接、 物体识别、 三维重建、 增强现实 |
尺度空间理论、 高斯差分、 泰勒展开、 曲率计算、 梯度直方图 |
参数配置: |
|
3 |
特征匹配 |
RANSAC (随机抽样一致) |
输入: 匹配点对集合 M={(pi,qi)}, 其中 pi,qi∈R2。 |
1. 确定迭代次数: |
I_{\text{temp}} |
> |
I |
|
4 |
光流估计 |
Lucas-Kanade光流法 |
输入: 时间相邻的两帧灰度图像 It(x,y)和 It+1(x,y)。 |
1. 基本假设: |
视频稳定、 运动分割、 目标跟踪、 视觉里程计 |
泰勒展开、 最小二乘、 图像金字塔、 角点检测 |
参数配置: |
|
5 |
图像分类 |
卷积神经网络 (CNN) |
输入: 图像张量 X∈RH×W×C。 |
1. 卷积层: |
ImageNet图像分类、 人脸识别、 医学影像分析、 自动驾驶场景理解 |
卷积运算、 反向传播、 链式法则、 梯度下降、 正则化 |
参数配置: |
|
6 |
目标检测 |
YOLOv1 (You Only Look Once) |
输入: 图像 I∈R448×448×3。 |
1. 网络预测: |
实时目标检测、 自动驾驶感知、 视频监控、 无人机航拍 |
边界框回归、 交并比 (IoU)、 非极大值抑制 (NMS)、 网格预测 |
参数配置: |
|
7 |
图像分割 |
U-Net |
输入: 图像 I∈RH×W×C(医学图像常为单通道)。 |
1. 编码器 (下采样): |
医学图像分割 (细胞、 器官)、 卫星图像土地分类、 工业缺陷检测 |
编码器-解码器、 跳跃连接、 转置卷积、 语义分割 |
参数配置: |
|
8 |
生成模型 |
生成对抗网络 (GAN) |
输入: 随机噪声向量 z∼pz(如均匀分布或高斯分布)。 |
1. 判别器训练 (固定G): |
图像生成、 图像到图像翻译、 风格迁移、 数据增强、 超分辨率 |
博弈论、 纳什均衡、 JS散度、 模式崩溃、 卷积网络 |
参数配置: |
|
9 |
三维视觉 |
神经辐射场 (NeRF) |
输入: 3D位置 x=(x,y,z)和观察方向 d=(θ,ϕ)。 |
1. 位置编码: |
新颖视角合成、 三维重建、 虚拟现实、 场景编辑 |
体渲染、 位置编码、 逆变换采样、 辐射场 |
参数配置: |
|
10 |
视觉定位 |
PnP (Perspective-n-Point) |
输入: 一组3D点 {Piw}∈R3(世界坐标系) 及其在图像上的2D投影 {pi}∈R2。 |
1. 投影方程: |
t] \begin{bmatrix} X_i \Y_i \Z_i \1 \end{bmatrix})。 |
增强现实、 机器人定位、 相机标定、 视觉SLAM |
相机几何、 旋转矩阵、 奇异值分解、 非线性优化、 鲁棒估计 |
|
编号 |
领域 |
模型配方 |
数据结构及各类参数/变量/常量/张量/向量列表 |
模型/算法/方程式逐步思考推理过程的每一步的数学建模 |
应用场景 |
关联知识 |
详细的参数配置、实现细节和各项功能和性能优化技巧 |
|---|---|---|---|---|---|---|---|
|
11 |
点云配准 |
迭代最近点 (ICP) |
输入:源点云 P={pi}⊂R3,目标点云 Q={qi}⊂R3。 |
1. 初始化:R0=I3, t0=0, k=0。 |
E_k - E_{k-1} |
< \epsilon),则停止。 |
三维重建、点云配准、SLAM后端优化、工业检测 |
|
12 |
双目视觉 |
三角测量 |
输入:左右图像上的匹配点对 (ul,vl)和 (ur,vr),相机内参 Kl,Kr,外参(相对位姿 R,t或已知极线校正)。 |
0]), (P_r = K_r [R |
\mathbf{t}])。 |
1. 极线校正情况: |
立体视觉、三维重建、深度估计 |
|
13 |
多目视觉 |
多视图三角测量 (线性方法) |
输入:多个相机视图的投影矩阵 (P_i = K_i [R_i |
\mathbf{t}_i] \in \mathbb{R}^{3 \times 4})和对应的图像点 xi=(ui,vi)T,共 N个视图。 |
1. 构建线性方程组: |
运动恢复结构(SfM)、多相机三维重建 |
多视图几何、奇异值分解、超定线性方程组 |
|
14 |
视觉定位 |
PixLoc算法 |
输入:稀疏3D模型点 {Pi},参考图像 {Ik}及其相机位姿,查询图像 Iq,初始位姿估计(可选)。 |
1. 特征提取:使用CNN提取查询图像和参考图像的多尺度特征图。设第 l层特征图为 Fql,Fkl∈RWl×Hl×Dl。 |
端到端视觉定位、场景无关定位、图像检索后的位姿细化 |
特征匹配、非线性优化、李代数、卷积神经网络 |
参数配置: |
|
15 |
特征检测 |
Harris角点检测 |
输入:灰度图像 I(x,y)。 |
1. 计算梯度:使用Sobel算子等计算图像在x和y方向的梯度 Ix,Iy。 |
特征点提取、图像匹配、运动估计、相机标定 |
图像梯度、结构张量、特征值分析、非极大值抑制 |
参数配置: |
|
16 |
目标检测 |
Faster R-CNN |
输入:图像 I。 |
1. 特征提取:通过CNN骨干网络提取特征图 F。 |
高精度目标检测、实例识别 |
区域提议网络、锚框机制、RoI池化、多任务学习 |
参数配置: |
|
17 |
图像分割 |
Mask R-CNN |
输入:图像 I。 |
1. 骨干网络:使用FPN等提取多尺度特征。 |
实例分割、人像分割、物体分割 |
RoIAlign、全卷积网络、多任务学习、特征金字塔 |
参数配置: |
|
18 |
生成模型 |
变分自编码器 (VAE) |
输入:数据 x(如图像)。 |
x))参数 ϕ。 |
z))参数 θ。 |
1. 编码器:将输入 x映射到潜在变量的后验分布参数(均值和方差): |
x) = \mathcal{N}(z; \mu\phi(x), \text{diag}(\sigma\phi^2(x))))。 |
|
19 |
三维视觉 |
结构光三维重建 |
输入:一系列编码的结构光图案投影到物体上的图像,以及相机和投影仪的标定参数。 |
1. 系统标定:标定相机和投影仪的内外参数,建立投影仪像平面和相机像平面的对应关系。 |
工业检测、人脸扫描、文物数字化、逆向工程 |
相机标定、投影仪标定、相位测量、三角测量 |
参数配置: |
|
20 |
视觉SLAM |
ORB-SLAM |
输入:图像序列(单目、双目或RGB-D)。 |
1. 跟踪: |
机器人导航、增强现实、自动驾驶、三维重建 |
特征匹配、光束法平差、词袋模型、位姿图优化 |
参数配置: |
|
编号 |
领域 |
模型配方 |
数据结构及各类参数/变量/常量/张量/向量列表 |
模型/算法/方程式逐步思考推理过程的每一步的数学建模 |
应用场景 |
关联知识 |
详细的参数配置、实现细节和各项功能和性能优化技巧 |
|---|---|---|---|---|---|---|---|
|
21 |
图像增强 |
直方图均衡化 |
输入: 灰度图像 I(x,y)∈[0,L−1]H×W, 其中 L是灰度级数(通常256)。 |
1. 计算直方图: |
医学影像增强、 低对比度图像增强、 图像预处理 |
直方图、 概率分布、 累积分布函数、 映射函数 |
参数配置: |
|
22 |
形态学操作 |
腐蚀和膨胀 |
输入: 二值图像 B∈{0,1}H×W。 |
1. 腐蚀: |
图像去噪、 形状分析、 目标分离、 文本识别 |
集合论、 结构元素、 形态学运算 |
参数配置: |
|
23 |
图像滤波 |
高斯滤波 |
输入: 图像 I(x,y)。 |
1. 生成高斯核: |
图像去噪、 尺度空间构建、 预处理 |
高斯分布、 卷积运算、 可分离滤波 |
参数配置: |
|
24 |
霍夫变换 |
直线检测 |
输入: 二值边缘图像 E(x,y)。 |
1. 参数化直线: |
车道线检测、 文档分析、 工业检测 |
参数空间、 投票机制、 峰值检测 |
参数配置: |
|
25 |
模板匹配 |
归一化互相关 |
输入: 图像 I和模板 T(通常比 I小)。 |
1. 计算互相关: |
目标跟踪、 图像配准、 质量检测 |
相关性分析、 相似性度量、 滑动窗口 |
参数配置: |
|
26 |
背景减除 |
混合高斯模型 |
输入: 视频帧序列 It。 |
1. 初始化: |
x_t - \mu_{k,t-1} |
< 2.5 \sigma_{k,t-1}))。 |
视频监控、 运动检测、 交通分析 |
|
27 |
图像分类 |
ResNet(残差网络) |
输入: 图像 x。 |
1. 残差学习: |
图像分类、 目标检测、 语义分割 |
残差连接、 梯度消失、 网络深度、 批量归一化 |
参数配置: |
|
28 |
图像分类 |
MobileNet |
输入: 图像 x。 |
1. 深度可分离卷积: |
移动端部署、 嵌入式视觉、 实时应用 |
深度可分离卷积、 计算效率、 模型压缩 |
参数配置: |
|
29 |
目标检测 |
SSD(单次检测器) |
输入: 图像 I。 |
1. 特征提取: |
实时多尺度检测、 嵌入式系统 |
多尺度特征、 默认框、 硬负样本挖掘 |
参数配置: |
|
30 |
图像分割 |
FCN(全卷积网络) |
输入: 任意大小图像 I。 |
1. 全卷积化: |
语义分割、 场景理解 |
全卷积、 转置卷积、 像素级预测、 跳跃连接 |
参数配置: |
|
31 |
生成模型 |
CycleGAN |
输入: 源域图像 x∈X, 目标域图像 y∈Y。 |
1. 对抗损失: |
风格迁移、 域适应、 图像转换 |
循环一致性、 无配对训练、 域转换 |
参数配置: |
|
32 |
三维视觉 |
光束法平差 |
输入: 多个相机位姿 {Ri,ti}和三维点 {Pj}的初始估计, 以及2D观测 {xij}。 |
1. 代价函数: |
三维重建、 SLAM后端优化、 运动恢复结构 |
非线性优化、 稀疏矩阵、 舒尔补、 李代数 |
参数配置: |
|
33 |
视觉定位 |
对极几何 |
输入: 两幅图像中的匹配点对 {xi↔xi′}。 |
1. 对极约束: |
相对位姿估计、 三维重建初始化 |
对极几何、 基础矩阵、 本质矩阵、 奇异值分解 |
参数配置: |
|
34 |
特征描述 |
ORB |
输入: 图像 I。 |
1. FAST角点检测: |
实时特征匹配、 SLAM、 增强现实 |
FAST角点、 BRIEF描述子、 二进制特征 |
参数配置: |
|
35 |
图像分割 |
GrabCut |
输入: 图像 I, 用户交互(矩形或涂鸦)。 |
1. 初始化: |
交互式图像分割、 前景提取 |
图割算法、 高斯混合模型、 交互分割 |
参数配置: |
|
36 |
目标跟踪 |
KCF(核相关滤波) |
输入: 初始目标位置, 后续视频帧。 |
1. 训练: |
视觉目标跟踪、 视频分析 |
相关滤波、 循环矩阵、 核方法、 傅里叶变换 |
参数配置: |
|
37 |
图像分类 |
Vision Transformer |
输入: 图像 I∈RH×W×C。 |
1. 图像分块: |
大规模图像分类、 多模态学习 |
自注意力、 Transformer、 位置编码 |
参数配置: |
|
38 |
超分辨率 |
SRCNN |
输入: 低分辨率图像 ILR。 |
1. 特征提取: |
图像超分辨率、 视频增强 |
卷积网络、 超分辨率、 图像重建 |
参数配置: |
|
39 |
人体姿态估计 |
OpenPose |
输入: 图像 I。 |
1. 特征提取: |
人体姿态分析、 动作识别、 人机交互 |
部分亲和场、 多阶段网络、 图匹配 |
参数配置: |
|
40 |
三维视觉 |
点云处理 PointNet |
输入: 点云 P={pi}⊂R3。 |
1. 输入变换: |
点云分类、 分割、 三维理解 |
对称函数、 点云处理、 无序集合 |
参数配置: |
计算机视觉及多维视觉定位模型/算法/方程式列表 (41-60)
|
编号 |
领域 |
模型配方 |
数据结构及各类参数/变量/常量/张量/向量列表 |
模型/算法/方程式逐步思考推理过程的每一步的数学建模 |
应用场景 |
关联知识 |
详细的参数配置、实现细节和各项功能和性能优化技巧 |
|---|---|---|---|---|---|---|---|
|
41 |
视觉定位 |
视觉惯性里程计(VIO) |
输入: 图像序列 {Ik}, IMU测量(角速度 ωm, 加速度 am)。 |
1. IMU预积分: |
无人机导航、 AR/VR、 机器人 |
IMU预积分、 紧耦合、 传感器融合、 滑动窗口 |
参数配置: |
|
42 |
图像生成 |
扩散模型 |
输入: 随机噪声 xT∼N(0,I), 条件信息 c(可选)。 |
1. 前向扩散过程: |
\mathbf{x}{t-1}) = \mathcal{N}(\mathbf{x}t; \sqrt{1-\beta_t} \mathbf{x}{t-1}, \beta_t \mathbf{I}) ) |
\mathbf{x}0) = \mathcal{N}(\mathbf{x}t; \sqrt{\bar{\alpha}t} \mathbf{x}0, (1-\bar{\alpha}t)\mathbf{I}) ) |
\mathbf{x}t) = \mathcal{N}(\mathbf{x}{t-1}; \boldsymbol{\mu}\theta(\mathbf{x}t, t), \tilde{\beta}_t \mathbf{I}) ) |
|
43 |
多模态学习 |
CLIP |
输入: 图像 I和文本 T。 |
1. 特征提取: |
零样本分类、 多模态检索、 图像描述 |
对比学习、 多模态、 零样本学习 |
参数配置: |
|
44 |
目标检测 |
DETR |
输入: 图像 I。 |
1. 特征提取: |
端到端目标检测、 无需NMS |
Transformer、 二分图匹配、 集合预测 |
参数配置: |
|
45 |
图像分割 |
DeepLab系列 |
输入: 图像 I。 |
1. 骨干网络: |
语义分割、 场景解析 |
空洞卷积、 多尺度、 空间金字塔 |
参数配置: |
|
46 |
三维视觉 |
立体匹配 |
输入: 校正后的立体图像对 Ileft,Iright。 |
1. 代价计算: |
I{\text{left}}(x+i,y+j) - I{\text{right}}(x+i-d,y+j) |
) |
立体视觉、 深度估计、 三维重建 |
|
47 |
视觉定位 |
视觉重定位 |
输入: 查询图像 Iq, 带有位姿的参考图像数据库 {Ir,Tr}。 |
1. 图像检索: |
图像检索、 地点识别、 视觉定位 |
特征匹配、 PnP、 图像检索 |
参数配置: |
|
48 |
图像分类 |
EfficientNet |
输入: 图像 I。 |
1. 复合缩放: |
高效图像分类、 模型缩放 |
复合缩放、 神经架构搜索、 模型效率 |
参数配置: |
|
49 |
目标跟踪 |
DeepSORT |
输入: 视频帧序列, 每帧的检测结果(边界框)。 |
1. 检测: |
多目标跟踪、 行人跟踪、 交通监控 |
卡尔曼滤波、 数据关联、 外观特征 |
参数配置: |
|
50 |
视觉定位 |
视觉SLAM前端 |
输入: 图像序列 {Ik}。 |
1. 特征提取: |
SLAM前端、 视觉里程计、 实时定位 |
特征匹配、 运动估计、 三角测量 |
参数配置: |
|
编号 |
领域 |
模型配方 |
核心要点 |
|---|---|---|---|
|
51 |
图像去噪 |
非局部均值去噪 |
利用图像中非局部相似块进行加权平均去噪。 参数:搜索窗口大小, 相似块大小, 滤波参数h。 |
|
52 |
图像配准 |
基于互信息的配准 |
最大化两幅图像之间的互信息来对齐图像。 常用于多模态图像配准。 |
|
53 |
图像分割 |
水平集方法 |
将曲线演化表示为水平集函数的演化, 通过偏微分方程驱动曲线逼近目标边界。 |
|
54 |
特征检测 |
MSER |
检测最大稳定极值区域, 对仿射变换和光照变化鲁棒, 常用于文本检测。 |
|
55 |
三维视觉 |
泊松表面重建 |
从点云和法向量重建光滑表面, 通过求解泊松方程得到隐式表面函数。 |
|
56 |
目标检测 |
RetinaNet |
引入Focal Loss解决单阶段检测器中前景-背景类别不平衡问题, 使用特征金字塔网络。 |
|
57 |
图像生成 |
StyleGAN |
通过风格迁移和噪声注入生成高分辨率、高保真人脸图像, 支持风格混合和编辑。 |
|
58 |
视频分析 |
光流法 |
估计像素在相邻帧间的运动矢量, 基于亮度恒定和小运动假设。 |
|
59 |
图像增强 |
暗通道先验去雾 |
基于户外无雾图像暗通道接近0的先验, 从单幅图像去除雾霾。 |
|
60 |
图像分割 |
Mean Shift分割 |
基于特征空间密度估计的无参聚类方法, 用于图像分割和颜色聚类。 |
计算机视觉及多维视觉定位模型/算法/方程式列表 (51-60)
|
编号 |
领域 |
模型配方 |
数据结构及各类参数/变量/常量/张量/向量列表 |
模型/算法/方程式逐步思考推理过程的每一步的数学建模 |
应用场景 |
关联知识 |
详细的参数配置、实现细节和各项功能和性能优化技巧 |
|---|---|---|---|---|---|---|---|
|
51 |
图像去噪 |
非局部均值去噪 (Non-Local Means) |
输入: 含噪图像 I:Ω⊂Z2→R(灰度)。 |
1. 核心思想: |
医学图像去噪、 老照片修复、 高保真度去噪 |
非局部平均、 图像自相似性、 加权平均 |
参数配置: |
|
52 |
图像配准 |
基于互信息的配准 |
输入: 参考图像 R和浮动图像 F。 |
1. 互信息定义: |
多模态医学图像配准 (如MRI-PET, CT-MRI)、 遥感图像融合 |
信息论、 互信息、 熵、 概率密度估计 |
参数配置: |
|
53 |
图像分割 |
水平集方法 |
输入: 图像 I(x,y), 初始轮廓曲线 C0。 |
\phi(x,y,t)=0})。 |
\nabla \phi |
} \right))。 |
1. 水平集表示: |
|
54 |
特征检测 |
最大稳定极值区域 (MSER) |
输入: 灰度图像 I。 |
1. 极值区域: |
R_{i+\Delta} |
- |
R_{i-\Delta} |
|
55 |
三维视觉 |
泊松表面重建 |
输入: 定向点云 {(pi,ni)}, 其中 pi∈R3是点位置, ni∈R3是单位法向量。 |
1. 问题建模: |
从扫描点云重建水密曲面、 三维建模、 点云补全 |
泊松方程、 八叉树、 隐式表面、 移动立方体 |
参数配置: |
|
56 |
目标检测 |
RetinaNet |
输入: 图像 I。 |
1. 特征金字塔网络 (FPN): |
密集目标检测、 类别不平衡场景 (如行人检测) |
特征金字塔、 Focal Loss、 锚点机制 |
参数配置: |
|
57 |
图像生成 |
StyleGAN |
输入: 潜在代码 z∈Z(通常 ∼N(0,I))。 |
1. 映射网络: |
高分辨率人脸生成、 艺术创作、 图像编辑、 风格插值 |
生成对抗网络、 自适应实例归一化、 风格控制 |
参数配置: |
|
58 |
视频分析 |
光流法 |
输入: 时间相邻的两帧灰度图像 I1(x,y),I2(x,y)。 |
1. 数据项: |
\nabla u |
^2 + |
\nabla v |
|
59 |
图像增强 |
暗通道先验去雾 |
输入: 有雾图像 I。 |
1. 暗通道定义: |
单幅图像去雾、 户外图像增强、 水下图像复原 |
大气散射模型、 先验知识、 图像恢复 |
参数配置: |
|
60 |
图像分割 |
均值漂移分割 |
输入: 图像 I, 可视为 d维特征空间中的点集 (如位置+颜色, d=5)。 |
1. 特征空间与核密度估计: |
颜色聚类、 图像分割、 视频跟踪 |
核密度估计、 均值漂移、 模态寻找 |
参数配置: |
计算机视觉及多维视觉定位模型/算法/方程式列表 (61-70)
|
编号 |
领域 |
模型配方 |
数据结构及各类参数/变量/常量/张量/向量列表 |
模型/算法/方程式逐步思考推理过程的每一步的数学建模 |
应用场景 |
关联知识 |
详细的参数配置、实现细节和各项功能和性能优化技巧 |
|---|---|---|---|---|---|---|---|
|
61 |
三维重建 |
运动恢复结构 (SfM) |
输入: 多视角图像序列 {Ii}i=1N。 |
t_i]}_{i=1}^{N} ), 稀疏三维点云 {Xj}j=1M。 |
1. 特征提取与匹配: |
三维重建、 摄影测量、 场景建模 |
对极几何、 PnP、 三角测量、 光束法平差 |
|
62 |
视觉定位 |
直接稀疏里程计 (DSO) |
输入: 图像序列 {Ii}。 |
1. 光度误差模型: |
视觉里程计、 直接法SLAM、 实时定位 |
光度误差、 李代数优化、 滑动窗口、 边缘化 |
参数配置: |
|
63 |
人脸识别 |
人脸关键点检测 (SDM) |
输入: 人脸图像 I, 初始形状 x0(通常为平均形状)。 |
1. 问题形式化: |
人脸对齐、 表情分析、 人脸识别预处理 |
级联回归、 线性回归、 特征提取 |
参数配置: |
|
64 |
图像分类 |
SENet (Squeeze-and-Excitation Networks) |
输入: 特征图 U∈RH×W×C。 |
1. 压缩 (全局信息嵌入): |
图像分类、 目标检测、 通道注意力 |
注意力机制、 通道重标定、 全局平均池化 |
参数配置: |
|
65 |
目标检测 |
FCOS (全卷积单阶段检测器) |
输入: 图像 I。 |
1. 全卷积预测: |
无锚框目标检测、 密集预测 |
全卷积、 中心度、 无锚框检测 |
参数配置: |
|
66 |
图像分割 |
SegNet |
输入: 图像 I∈RH×W×3。 |
1. 编码器: |
语义分割、 实时分割 |
编码器-解码器、 池化索引、 上采样 |
参数配置: |
|
67 |
三维视觉 |
基于点云的三维目标检测 (PointPillars) |
输入: 点云 P∈RN×d, 通常 d=4(x,y,z,反射强度)。 |
1. 体素化 (Pillar化): |
自动驾驶、 三维目标检测 |
点云处理、 体素化、 伪图像、 2D CNN |
参数配置: |
|
68 |
视觉定位 |
视觉惯性里程计 (VINS-Mono) |
输入: 单目图像序列, IMU数据。 |
1. 测量预处理: |
单目视觉惯性SLAM、 移动设备定位 |
紧耦合、 滑动窗口、 IMU预积分、 位姿图优化 |
参数配置: |
|
69 |
图像生成 |
自编码器 (Autoencoder) |
输入: 数据 x∈RD。 |
1. 编码过程: |
数据降维、 特征学习、 去噪、 生成模型 |
编码器-解码器、 重构误差、 潜在空间 |
参数配置: |
|
70 |
目标跟踪 |
MOSSE滤波器 |
输入: 初始帧中的目标区域, 后续视频帧。 |
1. 训练: |
视觉目标跟踪、 相关滤波 |
相关滤波、 傅里叶变换、 在线更新 |
参数配置: |
计算机视觉及多维视觉定位模型/算法/方程式列表 (71-80)
|
编号 |
领域 |
模型配方 |
数据结构及各类参数/变量/常量/张量/向量列表 |
模型/算法/方程式逐步思考推理过程的每一步的数学建模 |
应用场景 |
关联知识 |
详细的参数配置、实现细节和各项功能和性能优化技巧 |
|---|---|---|---|---|---|---|---|
|
71 |
图像增强 |
自动白平衡(灰度世界假设) |
输入: 原始RGB图像 I∈RH×W×3。 |
1. 灰度世界假设: 假设场景中所有反射光的平均值为灰色, 即各颜色通道的平均值应该相等: μR=μG=μB。 |
颜色校正、 图像预处理、 相机流水线 |
颜色恒常性、 灰度世界、 增益调整 |
参数配置: |
|
72 |
三维视觉 |
移动立方体算法 |
输入: 体数据(标量场) F:V⊂R3→R, 等值面阈值 T。 |
1. 体素处理: |
医学图像三维重建(CT, MRI)、 科学可视化、 隐式曲面提取 |
等值面、 三角化、 体数据、 线性插值 |
参数配置: |
|
73 |
特征描述 |
BRIEF描述子 |
输入: 已定位的关键点图像块(通常是平滑后的)。 |
1. 采样模式: |
实时特征匹配、 SLAM、 增强现实 |
二进制描述子、 强度比较、 汉明距离 |
参数配置: |
|
74 |
图像分类 |
DenseNet |
输入: 图像 x0。 |
1. 密集连接: |
图像分类、 特征提取 |
密集连接、 特征重用、 参数效率 |
参数配置: |
|
75 |
目标检测 |
CenterNet |
输入: 图像 I。 |
1. 中心点热图预测: |
实时目标检测、 无锚框检测 |
关键点检测、 热图、 中心点预测 |
参数配置: |
|
76 |
图像分割 |
条件随机场用于语义分割 |
输入: 图像 I, 和/或CNN的粗略分割预测(一元势能)。 |
1. 能量函数: |
语义分割后处理、 图像标注 |
条件随机场、 能量最小化、 均值场近似 |
参数配置: |
|
77 |
三维视觉 |
正态分布变换点云配准 |
输入: 源点云 P={pi}, 目标点云 Q={qi}。 |
1. 目标点云建模: |
\Sigma |
}} \exp\left(-\frac{1}{2} (\mathbf{p}i' - \mathbf{q})^T \Sigma^{-1} (\mathbf{p}i' - \mathbf{q})\right)) |
点云配准、 激光雷达SLAM |
|
78 |
视觉SLAM |
位姿图优化 |
输入: 位姿图 G=(V,E), 其中节点 V={xi}表示位姿, 边 E={eij}表示位姿间的相对运动约束。 |
1. 误差定义: |
SLAM后端、 闭环校正、 轨迹优化 |
图优化、 李群李代数、 非线性最小二乘 |
参数配置: |
|
79 |
图像分类 |
Inception网络 |
输入: 图像 x。 |
1. Inception模块: |
图像分类、 目标检测 |
多尺度卷积、 1×1卷积、 辅助分类器 |
参数配置: |
|
80 |
目标检测 |
可变形卷积 |
输入: 特征图 x∈RH×W×C。 |
1. 常规卷积: |
\mathcal{R} |
), 每个采样点有x和y两个方向的偏移)。 |
目标检测、 语义分割、 实例分割 |
|
编号 |
领域 |
模型配方 |
数据结构及各类参数/变量/常量/张量/向量列表 |
模型/算法/方程式逐步思考推理过程的每一步的数学建模 |
应用场景 |
关联知识 |
|---|---|---|---|---|---|---|
|
101 |
三维视觉定位 |
透视n点问题 (PnP) 的鲁棒求解:EPnP |
输入:一组3D参考点 Piw=[Xiw,Yiw,Ziw]T(世界坐标系),及其对应的2D投影点 pi=[ui,vi]T(像素坐标系)。 |
1. 选择控制点:在世界坐标系中选取4个非共面的3D点作为控制点 {Cjw}j=14。通常选择点云的质心以及PCA主方向。 |
视觉里程计、增强现实、机器人手眼标定 |
绝对定向、奇异值分解、重心坐标、投影几何 |
|
102 |
视觉SLAM后端优化 |
光束法平差 (Bundle Adjustment) 的稀疏求解 |
输入:M个相机位姿参数 ξi∈se(3)(李代数表示),N个3D路标点坐标 pj∈R3,观测到的2D像素坐标 zij。 |
1. 定义代价函数: |
大规模三维重建、SLAM后端全局优化、运动恢复结构 |
非线性最小二乘、稀疏矩阵、舒尔补、李代数、鲁棒估计 |
|
103 |
图像特征匹配 |
基于图神经网络的局部特征匹配 (SuperGlue) |
输入:两幅图像的特征点位置 A={ai}、B={bj}和描述子 DA={diA}、DB={djB}。 |
1. 关键点编码:将每个特征点的位置 (x,y)和描述子 d融合,通过一个MLP得到初始节点特征 fi(0): |
图像匹配、视觉定位、运动恢复结构 |
图神经网络、注意力机制、最优传输、Sinkhorn算法 |
|
104 |
三维点云配准 |
迭代最近点 (ICP) 的鲁棒变体:Point-to-Plane ICP |
输入:源点云 P={pi},目标点云 Q={qi},目标点云的法向量 {ni}。 |
1. 初始化:R=I3, t=0。 |
三维重建、点云配准、LiDAR SLAM |
刚体变换线性化、反对称矩阵、罗德里格斯公式、最小二乘 |
|
105 |
视觉定位 |
基于学习的绝对位姿回归 (PoseNet改进:几何重投影损失) |
输入:单张RGB图像 I。 |
1. 特征提取与位姿初估:图像通过骨干网络得到全局特征向量 f=fθf(I)。通过两个独立的全连接层回归初始位置和方向: |
室内外视觉定位、增强现实、机器人导航 |
可微PnP、场景坐标回归、重投影误差、位姿回归 |
|
106 |
图像分割 |
深度LabCut:基于深度主动轮廓模型的实例分割 |
输入:图像 I:Ω→R3,初始轮廓 C0。 |
1. 轮廓表示:将轮廓 C参数化为 x(s):[0,1]→R2。在离散实现中,轮廓由N个控制点 {xi}i=1N表示。 |
生物医学图像分割、交互式分割、目标轮廓提取 |
主动轮廓模型、蛇模型、能量最小化、可微分编程 |
|
107 |
三维重建 |
多视图立体视觉 (PatchMatch Stereo) |
输入:多张已标定图像 {Ik},对应的相机投影矩阵 ({P_k = K_k [R_k |
t_k]})。 |
1. 随机初始化:对于参考图像的每个像素 p=(u,v),随机初始化一个3D平面假设 f(p)。平面参数化:npTX=−cp,其中 np=(ap,bp,1)T是法向量,cp是常数。深度为 d(p)=−cp/(apu+bpv+1)。 |
多视图三维重建、深度图估计、立体匹配 |
|
108 |
视觉惯性融合 |
基于滤波的视觉惯性里程计 (MSCKF) |
输入:图像特征观测 zk,IMU角速度 ωm和加速度 am测量值。 |
1. 状态增广:当接收到新图像时,将当前IMU状态估计值作为新的相机状态加入到状态向量末尾。协方差矩阵相应扩展。 |
k-1} = \mathbf{\Phi}k \mathbf{P}{k-1 |
k-1} \mathbf{\Phi}k^T + \mathbf{Q}k )。 |
|
109 |
图像生成 |
扩散模型采样:DDPM (Denoising Diffusion Probabilistic Models) |
输入:随机噪声 xT∼N(0,I),时间步长 T。 |
1. 前向过程 (训练时定义):给定真实图像 x0,前向过程逐步添加高斯噪声: |
\mathbf{x}_{t-1 |
|
编号 |
领域 |
模型配方 |
数据结构及各类参数/变量/常量/张量/向量列表 |
模型/算法/方程式逐步思考推理过程的每一步的数学建模 |
应用场景 |
关联知识 |
|---|---|---|---|---|---|---|
|
109 |
图像生成 |
扩散模型采样:DDPM (Denoising Diffusion Probabilistic Models) |
输入:随机噪声 xT∼N(0,I),时间步长 T。 |
1. 前向过程 (训练时定义):给定真实图像 x0,前向过程逐步添加高斯噪声: |
\mathbf{x}{t-1}) = \mathcal{N}(\mathbf{x}t; \sqrt{1-\beta_t} \mathbf{x}{t-1}, \beta_t \mathbf{I}) ),其中 βt是噪声方差调度,随时间增加而增加。前向过程的一个重要性质是,可以直接从 x0采样任意时间步 t的噪声图像: |
\mathbf{x}0) = \mathcal{N}(\mathbf{x}t; \sqrt{\bar{\alpha}t} \mathbf{x}0, (1-\bar{\alpha}t)\mathbf{I}) ),即 xt=αˉtx0+1−αˉtϵ,其中 ϵ∼N(0,I),αˉt=∏s=1t(1−βs)。 |
接下来,我们继续补充其他算法,确保每个算法都有非常详细的步骤。
|
编号 |
领域 |
模型配方 |
数据结构及各类参数/变量/常量/张量/向量列表 |
模型/算法/方程式逐步思考推理过程的每一步的数学建模 |
应用场景 |
关联知识 |
|---|---|---|---|---|---|---|
|
110 |
三维视觉定位 |
广义相机模型下的PnP求解 (UPnP) |
输入:一组3D参考点 Piw=[Xiw,Yiw,Ziw]T(世界坐标系),及其对应的在广义相机中的观测射线(方向向量)vi=[vix,viy,viz]T(已归一化)。 |
1. 问题建模:广义相机模型下,3D点 Piw在相机坐标系下的坐标 Pic=RPiw+t,应位于观测射线方向上,即存在正数 λi使得 Pic=λivi。因此,问题转化为求解 R,t和深度 λi使得: |
广义相机(如鱼眼、全景相机)位姿估计、多相机系统标定 |
广义相机模型、绝对定向、奇异值分解、线性方程组 |
|
111 |
视觉SLAM |
直接稀疏里程计 (DSO) 的光度束平差 |
输入:一组关键帧 {Fi},每个关键帧包含图像 Ii,相机内参 K,曝光时间 ti。每个点 p被若干关键帧观测。 |
1. 光度误差定义:对于一个点 p在主机帧 Ii中的观测,其在目标帧 Ij中的光度误差定义为: |
视觉里程计、直接法SLAM、实时定位 |
光度误差、李代数、稀疏优化、边缘化、滑动窗口 |
|
112 |
图像匹配 |
基于深度局部特征的匹配 (DISK) |
输入:两幅图像 IA,IB。 |
1. 特征提取:使用全卷积网络(如类似U-Net的结构)提取两幅图像的密集特征图 FA,FB,其中每个像素位置的特征向量同时表示关键点检测的得分和描述子。网络输出两个通道:一个通道用于关键点检测得分,其余通道用于描述子。通过非极大值抑制(NMS)在得分图上提取关键点位置,并获取对应位置的描述子。 |
图像匹配、运动恢复结构、视觉定位 |
深度学习、特征匹配、强化学习、非极大值抑制 |
|
113 |
三维重建 |
体素哈希 (Voxel Hashing) 实时表面重建 |
输入:深度相机序列(RGB-D图像),相机位姿 Tk。 |
1. 数据结构:使用哈希表存储体素块(每个块包含8×8×8个体素)。每个体素存储TSDF值、权重和颜色。哈希函数将体素块的世界坐标映射到哈希表索引,解决冲突使用线性探测。 |
实时三维重建、SLAM、增强现实 |
TSDF、哈希表、移动立方体、深度图融合 |
|
114 |
视觉定位 |
基于场景坐标回归的视觉定位 (DSAC) |
输入:查询图像 I。 |
t] )。 |
1. 场景坐标回归:使用全卷积网络(FCN)对查询图像的每个像素预测其对应的3D场景坐标: |
e_{ij} < \tau }),假设得分 (s_i = |
|
115 |
图像分割 |
基于条件随机场的实时语义分割 (CRF-RNN) |
输入:图像 I,CNN输出的粗略分割概率图 P。 |
1. 条件随机场能量定义: |
语义分割、图像标注、实时分割 |
条件随机场、平均场近似、双边滤波、RNN |
|
116 |
目标检测 |
基于关键点的目标检测 (CornerNet) |
输入:图像 I。 |
1. 网络结构:使用Hourglass网络作为骨干,提取特征。然后三个预测头: |
e_k - e_j |
) ), |
|
117 |
三维视觉 |
动态场景中的三维重建 (DynamicFusion) |
输入:RGB-D视频序列,深度图 Dt,彩色图 Ct。 |
1. 规范模型表示:在规范空间(canonical space)中构建一个TSDF体积 Vc,表示场景的静态几何。同时,维护一个权重体积 W用于融合多帧信息。 |
动态场景重建、非刚性SLAM、人体运动捕捉 |
非刚性变形、TSDF、嵌入式变形图、动态场景 |
|
118 |
视觉定位 |
基于学习的视觉重定位 (NetVLAD) |
输入:查询图像 Iq,参考图像数据库 {Ir}。 |
1. 网络结构:使用CNN(如VGG16)提取图像特征图 F∈RH×W×D。然后通过NetVLAD层将局部特征聚合为全局描述子。 |
\mathbf{V} |
} ),再进行L2归一化。 |
|
119 |
图像增强 |
基于深度学习的图像去雨 (RESCAN) |
输入:有雨图像 I。 |
1. 模型假设:有雨图像可以分解为背景层和雨层:I=B+R。雨层具有重复的雨纹模式。 |
图像去雨、恶劣天气图像增强 |
图像分解、注意力机制、递归网络、残差学习 |
|
120 |
视觉SLAM |
基于语义的SLAM (SLAM++) 或语义融合 |
输入:RGB-D图像序列,像素级语义分割结果。 |
1. 语义分割:对每帧RGB图像进行语义分割,得到每个像素的类别标签和实例标签(如果可行)。 |
机器人抓取、增强现实、场景理解 |
物体识别、因子图、语义分割、CAD模型匹配 |
|
121 |
三维视觉 |
神经隐式表面重建 (NeuS) |
输入:多视角图像及其相机位姿。 |
1. 场景表示:使用一个MLP网络将3D位置 x映射到符号距离值 f(x),以及将位置和视角方向 v映射到颜色 c(x,v)。表面定义为SDF的零水平集:({\mathbf{x} |
f(\mathbf{x})=0})。 |
高质量三维重建、新颖视角合成 |
|
122 |
图像分类 |
注意力增强的卷积网络 (CBAM) |
输入:特征图 F∈RH×W×C。 |
1. 通道注意力模块: |
图像分类、目标检测、注意力机制 |
通道注意力、空间注意力、池化、多层感知机 |
|
123 |
目标检测 |
基于Transformer的检测 (DETR) 的改进:Deformable DETR |
输入:图像特征图 F∈RH×W×C。 |
1. 可变形注意力模块: |
目标检测、实例分割 |
Transformer、可变形注意力、二分图匹配、匈牙利算法 |
|
124 |
三维视觉 |
点云补全 (PCN) |
输入:不完整的点云 Pin∈RN×3。 |
1. 编码器:使用PointNet或PointNet++提取输入点云的全局特征向量 g∈RC。 |
S_1 |
} \sum{x \in S_1} \min{y \in S_2} |x - y|_2^2 + \frac{1}{ |
|
125 |
视觉定位 |
基于学习的视觉里程计 (DeepVO) |
输入:图像序列 I1:t。 |
1. 特征提取:使用CNN(如FlowNet或VGG)提取每帧图像的视觉特征。对于单帧,可以使用预训练的光流网络提取两帧之间的光流,或者直接使用图像本身。 |
视觉里程计、机器人导航 |
卷积神经网络、循环神经网络、位姿回归、序列建模 |
|
126 |
图像分割 |
全景分割 (Panoptic-DeepLab) |
输入:图像 I。 |
1. 网络结构:使用编码器-解码器结构(如DeepLabv3+)提取特征。然后三个并行的预测头: |
全景分割、场景理解 |
语义分割、实例分割、中心点检测、偏移回归 |
|
127 |
三维视觉 |
神经辐射场加速 (InstantNGP) |
输入:多视角图像及其相机位姿。 |
1. 多分辨率哈希编码: |
快速神经渲染、三维重建、新颖视角合成 |
哈希编码、神经辐射场、体渲染、实时渲染 |
|
128 |
目标检测 |
基于查询的检测 (Sparse R-CNN) |
输入:图像特征图 F。 |
1. 初始化:随机初始化N个提议框(4维)和N个提议特征(高维向量)。这些参数与检测头权重一起学习。 |
目标检测、实例分割 |
稀疏检测、动态卷积、级联优化、二分图匹配 |
|
129 |
三维视觉 |
点云语义分割 (RandLA-Net) |
输入:大规模点云 P∈RN×d。 |
1. 随机采样:为了处理大规模点云,逐层对点云进行随机下采样,减少点数。随机采样简单高效,且不会引入额外计算。 |
大规模点云语义分割、自动驾驶场景理解 |
点云采样、局部特征聚合、注意力池化、随机采样 |
|
130 |
视觉定位 |
视觉-语言导航 (VLN) 中的跨模态对齐 |
输入:全景图像序列,自然语言指令。 |
1. 视觉编码:对每个全景图像,使用CNN提取多个视角的图像特征,然后通过注意力或平均池化得到全局视觉特征 vt。 |
转载自CSDN-专业IT技术社区
原文链接:https://blog.csdn.net/weixin_49199313/article/details/160096072



