图像信息处理(DIP) | fufu酱のNoteBook

type

status

slug

summary

图像信息处理

🐝

期末复习版本

[DIP] [图像信息处理] 2022-2023秋冬学期回忆卷.md

1.9KB

回忆卷.pdf

94.3KB

人类来说，60%以上的信息是通过视觉获得的，视觉是感知和理解周围环境的基础。

`different forms of imaging` （老师重点提到）成像方式

✅

不同类型的成像方式有：X射线，可见光，红外线，超声波

X-ray X射线

可见光

超声波

红外线

MRI 核磁共振

CT扫描

作业1

如何打开BMP图像的（参照实验报告）

使用c语言的fopen函数，打开待读取的BMP文件

如何读取BMP数据的

读取文件头：BMP 文件的文件头包含了文件类型、文件大小、图像数据偏移等信息。通过读

取文件头，可以确定文件的类型以及图像数据在文件中的位置。

读取信息头：BMP 文件的信息头包含了图像的宽度、高度、位深、压缩方式等信息。这些信

息对于解析图像数据非常重要。

读取颜色表（可选）：如果 BMP 文件使用了颜色表，需要读取颜色表的数据。颜色表包含

了图像中使用的颜色信息。

读取图像数据：根据信息头中的位深和压缩方式，以及可能的颜色表，读取图像的像素数据。

像素数据的格式与位深有关，通常按行存储。

每个单词的含义

✅

BMP文件的结构： - image file header 文件头 - image information header 信息头 - palette 调色板 - image data 像素数据

数据格式

可以表示为矩阵

灰度图像中每个像素由一个字节八位构成

彩色图像中每个像素由三个字节共计24位构成（RGB）

列举图像的格式和分类

编码方式：有损压缩，无损压缩，不压缩

目的：存储图像的信息

图像的特点：以像素为单位的矩形区域

有损压缩代表格式:BMP、JPEG、TIFF、GIF、PNG...…

（JPEG是有损压缩，但是JPG是无损压缩） BMP是无压缩 GIF，PNG是无损压缩

.bmp文件中存储的是倒影

调整一行中的字节数，以适应4的倍数的边界。

您只需添加零字节，直到一行中的字节数达到4的倍数

光圈的大小对图像效果的影响

为什么不让光圈越小越好呢?

光的量太少了。孔径太小会导致衍射。难以控制。

✅

光圈孔径大的时候，会导致模糊，但同时如果孔径太小，可通过的光线就会很少，导致光强太弱，同时当孔径小到一定程度时，会发生衍射现象。 -大：模糊 -小：衍射，光线太小

增加透镜的效果

✅

位于合适的距离的物体点才可以形成清晰像，其他的点则会产生弥散圆 在焦点前后，光线开始聚集和扩散，点的影像变模糊，形成一个扩大的圆。如果弥散圆的直径小于人眼的鉴别能力，在一定范围内实际影像产生的模糊是不能辨认的。不能辨认的直径叫做容许弥散圆。焦点前后各有一个容许弥散圆。

图像景深的影响因素

✅

光圈大的时候，射入光线在焦点相交的角度变大，所以两个弥散圆之间的距离短，因此景深浅：而光圈小的时候，射入光线在焦点相交的角度变小，两个弥散圆之间的距离因此变大，这中间景物的清晰的范围也会变大

光圈大小

焦距

拍摄距离

✅

焦点前后点容许弥散圆点距离叫做景深，景深随镜头的焦距、光圈值、拍摄距离而变化

(1) 镜头光圈：光圈越大，景深越小；光圈越小，景深越大；

(2) 镜头焦距：镜头焦距越长，景深越小；焦距越短，景深越大；

(3) 拍摄距离：距离越远，景深越大；距离越近，景深越小

一束光进入数码相机之后是如何成像的

(1)拍照时，景物的光线经过镜头到达CCD (2)CCD曝光时，光电二极管受刺激释放电荷，产生电信号 (3)CCD控制芯片通过光敏元件中的控制信号电路控制电流。CCD将收集这些电信号并将其输出到放大器。

(4)电信号经过放大滤波后到达ADC。ADC将这些电信号(连续)转换为数字信号(离散)。数字信号的值与电信号的强度和电压成正比。这些值对应于图像的值 (5)但以上数据不能直接作为图像处理。它们将被DSP(数字信号处理)进一步处理。在DSP中进行色彩校正和白平衡，获得合格的图像，并将图像编码为支持的格式和分辨率，可以存储为图像文件 (6)以上步骤完成后，图像文件出现在存储卡上，可以预览。

色彩的意义

代表的光的频率和波长（390-780nm）

✅

色彩可以分为彩色（chromatic color）和消色（achromatic color）两大类。

彩色是指红、黄、蓝等单色以及它们的混合色。彩色物体对光谱各波长的反射具有选择性，所以它们在白光照射下呈现出不同的颜色。

消色，又称非彩色，也就是我们通常所说的灰度，是指白色，黑色以及各种深浅不同的灰色。消色物体对光谱各波长的反射没有选择性，它们是中性色。

感知颜色用了什么器件

就像照相机里的胶片一样，捕捉光线并产生图像。视网膜上有两种视觉细胞:视杆细胞和视锥细胞

✅

视网膜是人眼中最重要的组成部分，就像相机里的感光底片，专门负责感光成像。视网膜上分布着两种视觉细胞，一种为杆状体，另一种为锥状体。杆状体细胞比较多，大约有上亿个，它对光极为灵敏，但没有区分色彩的能力。锥状体细胞则只有六、七百万个，它要在较强的照度下才能激发，它的存在使我们能够辨别各种不同的颜色。人眼可见光线的波长是390nm～780nm，一般可辨出包括紫、蓝、青、绿、黄、橙、红7种主要颜色在内的120～180种不同的颜色。

感知颜色有Perception priority and sensitivity两种不同的概念（特别强调）

感知色彩的变幻

色调
饱和度
光的强度

感知程度：色调>饱和度>光的强度 灵敏度：光的强度变化最为敏感（HDR）

对光的感知灵敏度比较高

✅

感知优先级和灵敏度 优先级:在相同的设置下，人类首先注意到色调(H)的变化，然后是饱和度(S)，然后是亮度值(V)。灵敏度:人眼对亮度变化最敏感，分辨率最好，这是人眼的HDR能力。

与设备有关的颜色空间和与设备无关的颜色空间有哪些

✅

- 与设备有关的颜色空间： RGB, CMY, HSV - 与设备无关的颜色空间： CIE XYZ, CIE YUV, CIE L*a*b

RGB和CMY的区别

CMY空间与RGB空间互补

✅

也就是用白色减去RGB空间中的某一颜色值就等于同样颜色在CMY空间中的值。RGB是光合色，颜色是基于光线进行混合的。黑色是各种颜色的空白状态，没有任何颜色。这时若要产生颜色，就要通过增加各种色彩的光线来产生，当各类色彩都加到最大值后形成了白色。

RGB颜色空间

✅

RGB颜色模型是三维直角坐标颜色系统中的一个单位正方体，在正方体的主对角线上，各原色的量相等，产生由暗到亮的白色，即灰度。（0，0，0）为黑，（1，1，1）为白，正方体的其他6个角点分别为红、黄、绿、青、蓝和品红。RGB颜色模型构成的颜色空间是CIE原色空间的一个真子集。RGB颜色模型通常用于彩色阴极射线管和彩色光栅图形显示器（计算机和电视机采用）

CSV颜色空间

✅

油墨或颜料的3种基色是以红、绿、蓝三色的补色青（Cyan）、品红（Magenta）、黄（Yellow）为基色。用CMY模型产生的颜色称为相减色，是因为它减掉了为视觉系统识别颜色所需要的反射光

HSV是什么意思？

✅

HSV颜色空间是从人的视觉系统出发，用色调（Hue)、色饱和度（Saturation）和亮度（Intensity，或者Value）来表示的。圆锥的顶面对应于V=1，它包含RGB模型中的R=1，G=1，B=1三个面，故所代表的颜色较亮。色度H由绕V轴的旋转角给定。红色对应于角度0，绿色对应于角度120，蓝色对应于角度240。描述颜色。在圆锥的顶点处，V=0，H和S无定义，代表黑色。HSV颜色模型构成的是一个均匀的颜色空间，采用线性的标尺，彩色之间感觉上的距离与HSV颜色模型坐标上点的欧几里德距离成正比。

比较HSV相对于RGB的好处

✅

在图像处理中使用较多的是 HSV 颜色空间，它比 RGB 更接近人们对彩色的感知经验。非常直观地表达颜色的色调、鲜艳程度和明暗程度，方便进行颜色的对比。在 HSV 颜色空间下，比 RGB 更容易跟踪某种颜色的物体，常用于分割指定颜色的物体。

jpeg图像压缩的原理和基本思想

✅

JPEG压缩的基本思想：压缩策略：根据压缩比要求，从高频到低频逐步削减信息

好处：高频信息占用存储空间大，减少高频信息更容易获得高压缩比；低频信息可以保留物体的基本轮廓和色彩分布，最大限度维持图像质量；适合用于互联网的视觉媒体。

因此，去除高频可以获得高压缩比;低频信息保留了物体的原理结构和颜色分布，这是图像的关键因素。适用于基于互联网的视觉媒体。

RLE 行程编码

在二值图像中，跑长编码只记录图像中属于目标的区域;然后将该区域表示为列表的列表。图像的每一行都由子列表描述，子列表的第一个元素是行号。后面的项是坐标对;一对的第一个元素是开始，第二个元素是结束。一行中可以有几个这样的序列。

✅

RLE 行程编码 首先第一个数字记录行数，其次的数字分别表示一个连续序列的起始列和末尾列，如第一行，（1，1）仅一个像素，所以为11，之后的4也仅为1个像素，所以也是44。因此最终结果为（11144），而第二行的从第一个像素到第四个像素均连续，因此只需要一个14即可表示，所以最后第二行的输出结果为（214）。完成行号的书写之后，只需要在考虑纵坐标即可

二值图像

二值图像的优缺点

更少内存，更高效，可以运用到灰度图像，更便宜；应用领域有限，表现力不足，对比度无法控制，不能应用于三维数据

✅

优点和缺点：优点:更少的内存，更高效，有时可以应用于灰度图像，更便宜的缺点:应用领域有限;不能应用于三维数据;表现力不足，无法传达视觉细节;无法控制对比度。

如何得到一个二值图像？

✅

如何获得一个好的阈值：

Step 1: 确定原始图像中像素的最大值和最小值；

Step 2: 最小值加1作为threshold对原始图像进行二值化操作；

Step 3: 根据对应关系确定前景和背景，分别计算当前threshold下的内部协方差和外部协方差；

Step 4: 回到Step 2直到达到像素最大值；

Step 5：找到最大外部和最小内部协方差对应的threshold.

大津算法的思想记忆，步骤

添加一window，步长的问题可以稍微考虑一下如何生成高质量的二值图像（局部二值化+大津算法）

✅

- 局部二值化的选择 局部自适应操作设定一个局部窗口，在整个图像上滑动该窗口；对于每一窗口位置，确定针对该窗口的threshold。

膨胀（二维）

膨胀dilation

✅

膨胀是异或操作

膨胀是将与物体“接触”的所有背景点合并到该物体中，使边界向外部扩张的过程。可以用来填补物体中的空洞（其中“接触”的含义由结构元描述）。

腐蚀erosion

腐蚀的物理意义：腐蚀是一种消除边界点，使边界向内部收缩的过程。可以用来消除小且无意义的物体。

✅

膨胀：

由B对A膨胀所产生的二值图象D是满足以下条件的点(x,y)的集合：如果B的原点平移到点(x,y)，那么它与A的交集非空。

腐蚀：

由B对A腐蚀所产生的二值图象E是满足以下条件的点(x,y)的集合：如果B的原点平移到点(x,y)，那么B将完全包含于A中。

找洞

开关的次序

开是先腐蚀再膨胀

关是先膨胀在腐蚀

✅

开操作：

先腐蚀，后膨胀；用来消除小物体、在纤细点处分离物体、平滑较大物体的边界的同时并不明显改变其面积。

闭操作：

先膨胀，后腐蚀；用来填充物体内细小空洞、连接邻近物体、平滑其边界的同时并不明显改变其面积。

指纹检验的步骤（预处理）

开和关操作

下面是示意图

global thresholding是不可以使用的

韦伯定律在灰度图上的应用

✅

假设连续两个灰度级之间的亮度差异就是韦伯定律中的可视临界值，那么正常人眼所能看到的灰度级约为156 可视化增强：以对数操作为例

为了增强图像的可视信息，对图像中的像素进行基于对数的操作

Ld是显示亮度，Lw是真实世界亮度，Lmax是场景中的最亮值。

这个映射能够确保不管场景的动态范围是怎么样的，其最大值都能映射到1（白），其他的值能够比较平滑地变化。

直方图（重点）

定义

灰度直方图(灰度直方图)是一种统计图，它表示给定图像中不同灰度级别的像素数占总像素数的比例。

✅

连续性：将原图像的非均匀分布的直方图通过变换函数T修正为均匀分布的直方图，然后按均衡直方图修正原图像。图像均衡化处理后，图像的直方图是平直的，即各灰度级具有相同的出现频数。

直方图的均衡化

将原始图像的非均匀分布直方图通过函数T变换为均匀分布直方图，然后根据均衡后的直方图对原始图像进行调整。

在标准直方图均衡化中，均衡化后不同灰度的概率应该是相同的(上)。然而，在实践中并非如此(下图)。为什么?

✅

直方图无法做到真正的均衡化的原因：所得的sk不可能正好等于8级灰度值中的某一级，因此需要就近归入某一个灰度级中。这样，相邻的多个sk就可能落入同一个灰度级，需要将处于同一个灰度级的像素个数累加。因此，离散灰度直方图均衡化操作以后，每个灰度级处的概率密度（或像素个数）并不完全一样。 直方图均衡化实质上是减少图像的灰度级以换取对比度的加大。在均衡过程中，原来的直方图上出现概率较小的灰度级被归入很少几个甚至一个灰度级中，故得不到增强。若这些灰度级所构成的图象细节比较重要，则需采用局部区域直方图均衡化处理。

在步骤2中，Sk并不完全等同于八个灰度级中的一个。因此，它被包含在附近的灰度级中。所以几相邻的sk可能处于相同的灰度级别。离散直方图均衡化后，不同灰度级的概率可能不同。

直方图匹配

改变给定图像的直方图以适应另一个图像的直方图或预定义的分布。目的是提高我们感兴趣的灰度范围，提高图像质量。利用直方图均衡化实现直方图拟合。

提前计算两个表(参考直方图均衡化中的例子);选择一对Uk和Sk，其中Uk = Sk;寻找对应的zk和r在表上;最后，灰度值r;在原始图像中映射到zk，得到期望的图像。

插值

列举简单的几何变换：平移，旋转，缩放，错切，镜像

几何变换后是否需要插值，列举一些插值的例子

行插值：按顺序寻找每一行中的空洞像素，设置其像素值与同一行中前一个像素的像素值相同。

✅

最近邻插值为了计算几何变换后新图像中某一点P’处的像素值，可以首先计算该几何变换的逆变换，计算出P’所对应的原图像中的位置P。通常情况下，P的位置不可能正好处在原图像的某一个像素位置上（即P点的坐标通常都不会正好是整数）。寻找与P点最接近的像素Q，把Q点的像素值作为新图像中P’点的像素值。

计算插值是多少(一定要搞懂）

✅

双线性插值：

（1）定义双线性方程g(x,y)=ax+by+cxy+d。

（2）分别将A、B、C、D四点的位置和灰度代入方程，得到方程组。

（3）解方程组，解出a、b、c、d四个系数。

（4）将P点的位置代入方程，得到P点的灰度。

morph

变形不是扭曲(几何变换) 变形是一种形态变化，它使一个图像逐渐变为另一个图像。Morph处理像素的位置和强度。开始图像和结束图像是两个关键帧。两个关键帧之间的其他帧自动生成。

✅

原理：让图a中每个像素的颜色，逐渐变成图b相同位置像素的颜色。

方法：根据变换的快慢，设置相应的步长，将图a每一点的RGB逐渐变成图b相同位置像素的RGB。可以选择等比或等差的方式，对于灰度图像，可以直接用等比或等差级数定义步长，使颜色从原图变到目标图。对于彩色图像，RGB三色同时从原图变到目标图像。可以分别变化，也可考虑RGB的相对比例关系同时变化。

表情比例图的方法

✅

每一个像素点+最后所得到的比例图变化之后的图像

输入:图像A A' B

Step1:标记特征点

Step2:对于每个特征点v，在B中，

翘曲它:Vb` =Vb +Va`-Va

设B是B的变形像对齐A, A'与B，通过图像扭曲。

Step4:计算比例图

step5:得到B`的值的大小

滤波的原理

概念:过滤器是一个大小为M×N的窗口，其中窗口中的元素对窗口中原始图像的相应像素进行操作。结果以像素的形式保存在新图像中。别名:Filter, mask, kernel, template, window 过滤器中的元素是系数而不是像素值，它表示应用于原始图像中像素的权重。

双边滤波的基本思想

✅

高斯滤波仅考虑了空间域，而双边滤波由于考虑了intensity domain，因此具有保边的作用

双边滤波的基本思想：

图像有两个主要特征空间域S，是图像中可能位置的集合。这与分辨率有关，即图像中的行数和列数。强度域R，它是可能像素值的集合。用来表示像素值的位数可能不同。

常见的像素表示是无符号字节(0到255)和浮点数。

每一个符号代表什么意思

✅

- 归因化因子 - Space weight - Intensity weight

怎么构造出来的

优点

✅

（保边）保持边两边像素灰度级的差异，还保持梯度方向不发生变化（局部不会发生梯度逆转），而双边滤波保留的是difference的绝对值 - 保边 - 梯度方向不发生改变 - 局部不会发生梯度逆转 - 保留difference的绝对值

研究式子（p=1，2的情况）

✅

l=1时候为中值滤波 1=2时候高斯滤波，本质上求最小化

Invariance对光照变化的影响

✅

Harris-corner Detector 对于灰度的变化，位移的变化，旋转的变化具有不变性，但对于尺度敏感，因而提出尺度不变检测如下

加性+乘性的强度变化的偏不变性

harris-laplace定理

这个环形板的特征是如何得到的

第一步取16*16的窗口，第5步将窗口分为了4*4的格子，每一个直方图是八维向量

旋转不变性

✅

SIFT特征的旋转不变性（计算直方图，投票最多的作为dominant orientation）

Rotate patch according to its dominant gradient orientation

This puts the patches into a canonical orientation.

根据其主导梯度方向旋转patch 这将使补丁处于规范的方向。

SIFT的优缺点

✅

优点期望在尺度、旋转、光照等变化时保持不变性。在局部斑块高度独特和描述性，在刚性对象表示中特别有效。缺点提取耗时对于大小为400 * 400的图像，平均约为1秒。对非刚性物体的性能较差。如人脸、动物等。在严重的仿射畸变下可能无法工作。局部贴片是一个圆形，而不是根据仿射畸变调整的椭圆。