Zhuang's Diary

言之有物,持之以恒

比较项目 SIFT CLIP 模型 OpenCV 和 SSIM
特征类型 局部特征点和描述符(关键点、边缘) 高维特征向量(512维),包含物体、场景、语义、颜色、形状等信息 全局结构相似性(亮度、对比度、结构)
算法特点 尺度不变性、旋转不变性、对光照变化鲁棒 多模态(图像和文本联合训练)、高语义理解、跨模态能力 感知驱动、结构相似性评估
计算复杂度 高,适合离线处理 中等到高,依赖 GPU,适合实时处理 低到中,适合实时处理
应用场景 图像拼接、物体识别、精确图像匹配 图像搜索、图像分类、跨模态任务 图像质量评估、图像压缩、变化检测
鲁棒性 对尺度、旋转、光照变化具有鲁棒性 对多种视觉变化具有鲁棒性 对整体结构变化具有鲁棒性
依赖库 OpenCV(包含 SIFT 算法实现) transformers 库(Hugging Face 提供的 CLIP 模型实现) OpenCV(图像处理)和 skimage(SSIM 计算)
输出形式 关键点位置和描述符,匹配的关键点对 高维特征向量,语义相似性得分 SSIM 得分(-1 到 1),结构差异图
易用性 需要一定的图像处理和计算机视觉知识 需要了解深度学习模型和预训练模型的使用方法 易于使用,适合初学者和快速应用
性能评估 精确度高,但计算时间长 精确度高,计算效率高 精确度适中,计算效率高
开发和维护 较成熟,算法稳定,但需要大量计算资源 持续更新,模型性能不断提升,但依赖最新的深度学习框架 成熟稳定,依赖基础图像处理库
示例代码片段 sift = cv2.SIFT_create()
kp, des = sift.detectAndCompute(image, None)
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
features = model.get_image_features(inputs)
score, diff = ssim(image1, image2, full=True)
模型更新频率 由于算法经典,更新频率低 持续更新,引入更多数据集和改进 算法稳定,更新频率低
社区支持 较强,广泛应用于计算机视觉研究和工程实践 强大,特别是在 NLP 和 CV 领域的多模态研究 强大,广泛应用于图像处理和分析
资源需求 高 CPU 和内存需求,处理大图像数据时尤其明显 高 GPU 和内存需求,适合使用高性能计算资源 较低的资源需求,适合各种计算环境

通过这个表格,可以更全面地比较 SIFT 算法、CLIP 模型和 OpenCV 与 SSIM 方法在图像特征提取与比较上的不同特点。这个表格包含了特征类型、算法特点、计算复杂度、应用场景、鲁棒性、依赖库、输出形式、易用性、性能评估、开发和维护、示例代码片段、模型更新频率、社区支持以及资源需求等多个比较项目。

除了 SIFT、CLIP 和 SSIM 之外,还有许多其他算法和方法可以用于图像特征提取。以下是一些常见的算法及其特点:

算法 特征类型 特点 应用场景
SURF (Speeded-Up Robust Features) 局部特征点和描述符 比 SIFT 更快,鲁棒性稍差,但仍对尺度、旋转不变 物体识别、图像拼接
ORB (Oriented FAST and Rotated BRIEF) 局部特征点和描述符 快速高效,对旋转不变,但对尺度不变性较差 实时应用、移动设备
HOG (Histogram of Oriented Gradients) 形状和边缘方向直方图 捕捉局部的梯度方向直方图,适用于检测对象的形状和轮廓 人体检测、物体检测
LBP (Local Binary Patterns) 纹理特征 快速简便,对纹理特征敏感,适合纹理分类和检测 纹理分类、图像分割
Gabor Filters 频域特征 通过多尺度和多方向的滤波器捕捉图像中的纹理和边缘 纹理分析、边缘检测
Deep Learning Features (CNNs) 高维特征向量 通过卷积神经网络提取图像的高维特征,适用于复杂的视觉任务 图像分类、对象检测、图像分割
PCA (Principal Component Analysis) 主成分特征 通过降维技术提取图像的主要特征,减少数据维度 数据降维、特征压缩
LDA (Linear Discriminant Analysis) 判别特征 通过线性判别分析提取最能区分类别的特征 分类任务、特征选择
Wavelet Transform 多尺度分析特征 通过小波变换分析图像的多尺度信息,适用于纹理和边缘检测 纹理分析、图像压缩
Color Histograms 颜色分布特征 统计图像中不同颜色的分布,适用于图像的颜色分析和匹配 图像检索、颜色分析
Edge Detection (Canny, Sobel) 边缘特征 检测图像中的边缘,捕捉物体的轮廓和形状 边缘检测、形状分析
Daisy Descriptors 局部图像描述符 捕捉图像的局部特征,类似 SIFT 和 SURF,但更快 物体识别、图像匹配
BRISK (Binary Robust Invariant Scalable Keypoints) 局部特征点和描述符 快速、鲁棒,对旋转和尺度变化具有不变性 实时应用、移动设备
FREAK (Fast Retina Keypoint) 局部特征点和描述符 快速、有效,模仿人眼视网膜的工作方式 实时应用、移动设备

YOLO(You Only Look Once)是一种用于对象检测的深度学习算法。其基本思想是将对象检测问题转换为回归问题,从而能够在单次前向传播中同时预测多个对象的类别和位置。YOLO通过卷积神经网络(CNN)处理图像,实现高效的实时对象检测。

1. 数学原理

1.1 网格划分
将输入图像划分为 ( S ✖️ S ) 的网格。每个网格单元负责检测图像中其中心落在该单元中的对象。

1.2 预测边界框
每个网格单元预测固定数量的边界框(通常为B个)。每个边界框由以下几个参数表示:
• ( (x, y) ):边界框中心相对于网格单元的位置。
• ( w, h ):边界框的宽度和高度,相对于整张图像的归一化值。
• ( C ):边界框中包含对象的置信度,表示为边界框实际包含对象的概率和预测的边界框与实际边界框的重叠度(IoU)的乘积。
每个边界框预测值可以表示为一个5维向量:( (x, y, w, h, C) )。

1.3 预测类概率
每个网格单元还预测C个类别的条件概率:( P(Class_i | Object) )。这些概率表示在当前网格单元中存在对象的情况下,各个类别的概率。

1.4 综合预测
最终的预测结果结合了类别概率和边界框置信度,计算每个类别的最终置信度分数:
P(Class_i) ✖️ C
这给出了在每个边界框中存在特定类别对象的置信度分数。

2. 计算机算法

YOLO的计算机算法实现包括以下几个主要部分:

2.1 定义输入
输入图像被调整为固定大小(如 ( 448 ✖️ 448 )),并归一化到 [0, 1] 范围。

2.2 归一化输入
将输入图像像素值归一化,使得每个像素值在 [0, 1] 之间。
具体数学步骤:
a) 首先计算矩阵中的平均值(μ); b) 计算所有元素与平均值的绝对差;c) 通过将上一步结果中的所有值平方,累加,除以值的数量,然后计算平方根,来计算标准差;d)通过减去平均值并除以标准差,将输入进行层归一化。

2.3 应用卷积
使用多个卷积层提取图像特征。每个卷积层应用卷积核,计算特征图。

2.4 应用最大池化
在卷积层之间应用最大池化层(Max Pooling),以减少特征图的尺寸并保留重要特征。
在特征图的每个通道上滑动定义的窗口,并在每个位置计算窗口内的最大值。这将生成一个新的下采样特征图,其形状取决于窗口大小和步长。具体步骤如下:
%%
2.4.1 定义窗口和步长
假设我们使用一个 2 ✖️ 2 的窗口,步长为 2。
2.4.2 滑动窗口
在每个通道上,从左上角开始,按照步长滑动窗口。每次滑动窗口时,计算窗口内的最大值。
2.4.3 计算最大值
在每个窗口位置,找到该窗口内的最大值。这些最大值组成了下采样后的特征图。 %%

2.5 非线性激活
在每个卷积层之后应用非线性激活函数(如ReLU)以引入非线性,使模型能够表示更复杂的函数。

2.6 展平
将最终的特征图展平成一个一维向量,为全连接层输入做好准备。
%%
2.6.1 输入特征图
假设输入特征图是一个三维张量,形状为 ( (H, W, D) ),其中 ( H ) 是高度,( W ) 是宽度,( D ) 是深度(通道数)。
2.6.2 计算展平后向量的长度
展平后的向量长度等于输入特征图所有元素的总数,可以通过以下公式计算:
\text{Flattened Length} = H \times W \times D
2.6.3 按顺序排列所有元素
将特征图中的所有元素按行优先(Row-major order)或列优先(Column-major order)的顺序排列成一维向量。通常使用行优先顺序,这意味着先遍历特征图的每一行,再遍历每一列,最后遍历每个通道。

示例:

1
2
3
4
5
6
7
8
[
[
[1, 2, 3], [4, 5, 6]
],
[
[7, 8, 9], [10, 11, 12]
]
]

按行优先顺序排列后,展平的结果为:
[1, 4, 7, 10, 2, 5, 8, 11, 3, 6, 9, 12]

%%

2.7 投影到输出形状
通过全连接层将展平的特征向量投影到输出形状。输出为一个 ( S ✖️ S ✖️ (B ✖️ 5 + C) ) 的张量,其中B是每个网格单元预测的边界框数量,5表示每个边界框的5个参数( x, y, w, h, C ),C是类别数。

2.8 组成最终推理
通过将边界框参数和类别概率结合起来,组成最终的检测结果。应用非极大值抑制(Non-Maximum Suppression, NMS)来消除冗余边界框,仅保留置信度最高的边界框。

YOLO工作流程总结
1. 输入图像:将图像调整为固定大小并归一化。
2. 特征提取:通过多个卷积层和最大池化层提取图像特征。
3. 非线性激活:应用非线性激活函数。
4. 展平和全连接:将特征图展平并通过全连接层进行预测。
5. 输出预测:生成边界框和类别概率的预测值。
6. 后处理:应用非极大值抑制,得到最终检测结果。
通过这些步骤,YOLO实现了快速且高效的对象检测,在多个应用领域中得到了广泛应用。

图片处理中的人工智能的分类有哪些:

  1. 图像识别与分类
    CLIP:https://github.com/openai/CLIP 根据图像预测最相关的文本片段,提取图像的特征信息。
    ViLT (Vision-and-Language Transformer):ViLT 模型主要用于多模态任务,包括视觉问答(Visual Question Answering)、图像文本匹配(Image-Text Matching)、图像字幕生成(Image Captioning)等任务。
    LAVIS:https://github.com/salesforce/LAVIS 是ALBEF,BLIP,CLIP,ALPRO,VGD-GPT等算法模型的集于一身的框架。
    • 目标检测:识别并定位图像中的多个目标物体,如行人检测、车辆识别等。
    • 图像分类:将整幅图像归类到预定义的类别中,如识别猫狗、区分不同种类的花卉等。
    • 面部识别:识别和验证图像中的人脸,用于安全监控和身份验证。

  2. 图像生成与编辑:
    • 生成对抗网络(GANs):用于生成逼真的图像,如DeepFake、图像增强、无中生有的图像生成。
    • 图像修复与上色:修复破损图像,给黑白图像上色,使其恢复到彩色图像。
    • 风格迁移:将一种艺术风格应用到另一张图像上,如把照片变成梵高风格的画作。

  3. 图像分割
    🚀 detectron2:https://github.com/facebookresearch/detectron2 用于物体检测、图像分割和其他视觉识别任务的平台。
    可以配置的算法:

    1. Mask R-CNN:Mask R-CNN 是由 Facebook AI Research (FAIR) 团队提出的,用于目标检测和实例分割的模型。它在 Faster R-CNN 的基础上添加了一个分支,用于预测每个 ROI 的分割掩码。
    2. EfficientDet:EfficientDet 是由 Google 的 AutoML 团队提出的,基于 EfficientNet 的轻量级且高效的目标检测模型。它在多个目标检测基准测试中表现优异。
    3. Faster R-CNN:Faster R-CNN 是基于区域提议网络(RPN)的目标检测模型,能够快速地在图像中检测出目标物体。
    4. RetinaNet:RetinaNet 单阶段目标检测模型,采用 Focal Loss 解决正负样本不平衡问题,能够在精度和速度上取得良好的平衡。
      🚀 YOLOv11 (history v8):https://github.com/ultralytics/ultralytics 一个物体检测和图像分割的算法。Ultralytics 提供了完整的框架,用于训练、评估和部署 YOLOv8 模型。这个框架包括丰富的工具和接口,使用户可以方便地进行数据处理、模型训练和推理。
      DINO:https://github.com/IDEA-Research/DINO This is the official implementation of the paper “DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection“. 一种物体检测和图像分割模型的算法及其实现。
      • 语义分割:将图像划分为多个语义区域,每个区域代表一个类别,如天空、道路、建筑物等。
      实例分割:不仅区分出不同的物体类别,还区分出同一类别的不同实例。
  4. 图像增强:
    • 图像放大:通过增加图像的分辨率,使图像更加清晰,如将低分辨率的监控图像转换为高清图像。
    • 去噪:减少图像中的噪声,使图像更加清晰。
    • 去模糊:减少图像中的模糊效果,提高图像清晰度。
    • 增强对比度:提升图像的对比度,使图像更加鲜明。

  5. 医学影像处理:
    • 医学影像分析:用于分析医学影像,如CT、MRI,帮助医生诊断疾病。
    • 自动分割和标注:自动识别并标注医学影像中的重要器官或病灶区域。

  6. 计算机视觉任务:
    • 自动驾驶:通过图像处理技术识别道路标志、行人、车辆等,辅助或实现自动驾驶。
    • 视觉导航:用于机器人导航,通过处理图像数据识别路径和障碍物。

  7. 增强现实与虚拟现实(AR/VR):
    • 环境识别与跟踪:识别和跟踪用户周围的物体和环境,用于增强现实应用。
    • 虚拟物体嵌入:将虚拟物体嵌入真实场景中,实现虚实结合的效果。

最后请出 the world’s biggest computer vision library — OpenCV https://opencv.org/, https://github.com/opencv/opencv

2023/07/05,汇丰发布:
https://www.hsbc.com/-/files/hsbc/media/media-release/2023/230705-hsbc-qkd-press-release.pdf

汇丰银行与量子密钥分发QKD的实验技术情况

技术细节和实施情况:

汇丰银行(HSBC)积极参与量子密钥分发(QKD)技术的试验,以增强其金融交易的安全性,并保护其免受未来量子计算机带来的网络威胁。以下是其QKD实施的关键方面:

  1. 合作伙伴和协作:
    • 汇丰银行与BT(英国电信)、东芝(Toshiba)和亚马逊网络服务(AWS)等技术提供商合作实施QKD。这些合作旨在为各种金融应用建立安全的量子网络基础设施。
  2. 地铁网络试验:
    • 汇丰银行成为首家加入BT和东芝安全量子“地铁”网络的银行。该网络旨在为机构间提供无条件安全的交易。试验涉及将汇丰银行位于伦敦金丝雀码头的全球总部与位于伯克郡的数据中心通过63公里的光纤链路连接。
  3. 使用案例和应用:
    • 汇丰银行的QKD试验的主要使用案例是确保外汇(FX)交易的安全。一个显著的试验涉及使用QKD保护从欧元到美元的3000万欧元交易场景中的高度敏感的交易数据。
    • 汇丰银行还探索了其他应用,如安全视频通信和边缘计算,利用QKD确保这些场景中的数据完整性和安全性。
  4. 技术优势:
    • QKD利用量子物理的基本特性生成不受窃听或网络攻击的加密密钥。这意味着任何试图截取或篡改数据的行为都可以立即被检测到,为金融交易提供了显著的网络安全飞跃​。
  5. 未来影响:
    • 汇丰银行的试验旨在将QKD整合到其最关键的交易工具和金融系统中,确保它们在量子计算技术进步时仍然安全。这种前瞻性的方法展示了汇丰银行在应对潜在网络威胁和制定未来网络安全措施方面的承诺​。

      总结

      汇丰银行在QKD方面的参与代表了金融网络安全的重大进展,特别是在应对未来量子计算机带来的威胁方面。通过与领先的技术提供商合作并在现实场景中成功进行试验,汇丰银行正在为银行业量子密码学的实施设立标准。
      (注:以上内容来自于ChatGPT)

根据Google Gemini团队的论文 - https://arxiv.org/pdf/2312.11805 (page 8)来看,测评涵盖了:

  1. MMLU (Massive Multitask Language Understanding): 这是一个综合性的基准测试,用于衡量模型在多任务语言理解方面的能力。它包含了多个子任务,涉及不同的领域和语言,旨在全面评估模型的语言处理能力。
  2. GSM8K (Grade-school Math 8K): 这是一个数学问题解答的数据集,包含了小学级别的数学问题。它用于测试模型解决基础数学问题的能力。
  3. MATH: 这个术语可能指的是一个更广泛的数学问题解答数据集,它可能包含了不同难度级别的数学问题,用于评估模型的数学推理和解答能力。
  4. BIG-Bench-Hard: 这是BIG-Bench(Broad Institute General Language Benchmark)的一个子集,包含了更难的任务。BIG-Bench是一个用于评估语言模型在广泛任务上性能的基准测试。
  5. HumanEval: 这是一个用于评估模型在特定任务上性能的基准测试,通常与人类的表现进行比较。它可能包含了多种类型的任务,如编程任务或自然语言生成任务。
  6. Natural2Code: 这是一个评估模型将自然语言转换为代码能力的数据集。它用于测试模型在编程语言理解和代码生成方面的能力。
  7. DROP (Discrete Reasoning Over Paragraphs): 这是一个阅读理解和推理的数据集,要求模型对段落进行推理并解决基于段落内容的问题。
  8. HellaSwag: 这是一个用于评估模型在多步推理和情境理解方面能力的基准测试。它包含了多个情境,模型需要根据给定的故事线索选择合适的结局。
  9. WMT23: 这是Workshop on Machine Translation(机器翻译研讨会)2023年的缩写,它是一个专注于机器翻译领域的国际会议,通常包含最新的研究成果和技术进展。WMT也组织机器翻译系统的评估和竞争,WMT23可能指的是该年会议中使用的机器翻译基准测试。
    改论文中,还有更多的测试数据集。

根据 https://gpt4all.io/index.html 来看,测评涵盖了:

  1. BoolQ: BoolQ(Boolean Questions)是一个数据集,专门用于评估模型理解自然语言中是/否问题的能力。它要求模型不仅要回答问题,还要判断问题是否是布尔类型(即答案为真或假)。
  2. PIQA: PIQA(Paraphrased Image Question Answering)是一个图像问答数据集,它要求模型对图像内容进行理解,并回答有关图像的问题,这些问题是以释义或改写的形式提出的。
  3. HellaSwag: HellaSwag是一个多步推理和常识问答的数据集,它包含了一系列的情境,模型需要根据给定的故事线索选择合适的结局。这个数据集旨在测试模型的推理能力和对常识的掌握。
  4. WinoGrande: WinoGrande是一个大规模的、多样化的、高质量的问答数据集,它包含了大量的问题和答案对,用于评估模型在开放域问答任务上的性能。
  5. ARC-e: ARC-e(AI2 Reasoning Challenge - Elementary)是一个评估模型在一系列考试类型问题上的表现的基准测试。它旨在测试模型的知识和推理能力。
  6. ARC-c: ARC-c(AI2 Reasoning Challenge - Complex)是ARC-e的进阶版本,包含了更复杂的推理挑战,需要模型具备更高级的推理技巧。
  7. OBQA: OBQA(Open-Book Question Answering)是一个问答任务,其中模型在回答问题时可以访问给定的文本或书籍。这个任务测试模型的理解和推理能力,同时考虑到它可以访问额外的信息源。

由此看来,https://www.baichuan-ai.com/home,目前给出的测评结果来看,还需要继续努力。

不仅是分数上,而且在测试的范围上,都有相当大的差距存在。