[Python图像处理] 十九.图像分割之基于K-Means聚类的区域分割

一颗小胡椒2023-07-25 09:24:05

一.K-Means聚类原理

第一部分知识主要参考自己的新书《Python网络数据爬取及分析从入门到精通(分析篇)》和之前的博客 [Python数据挖掘课程] 二.Kmeans聚类数据分析。

K-Means聚类是最常用的聚类算法,最初起源于信号处理,其目标是将数据点划分为K个类簇,找到每个簇的中心并使其度量最小化。该算法的最大优点是简单、便于理解,运算速度较快,缺点是只能应用于连续型数据,并且要在聚类前指定聚集的类簇数。

下面是K-Means聚类算法的分析流程,步骤如下:

  • 第一步,确定K值,即将数据集聚集成K个类簇或小组。
  • 第二步,从数据集中随机选择K个数据点作为质心(Centroid)或数据中心。
  • 第三步,分别计算每个点到每个质心之间的距离,并将每个点划分到离最近质心的小组,跟定了那个质心。
  • 第四步,当每个质心都聚集了一些点后,重新定义算法选出新的质心。
  • 第五步,比较新的质心和老的质心,如果新质心和老质心之间的距离小于某一个阈值,则表示重新计算的质心位置变化不大,收敛稳定,则认为聚类已经达到了期望的结果,算法终止。
  • 第六步,如果新的质心和老的质心变化很大,即距离大于阈值,则继续迭代执行第三步到第五步,直到算法终止。

下图是对身高和体重进行聚类的算法,将数据集的人群聚集成三类。


二.K-Means聚类分割灰度图像

在图像处理中,通过K-Means聚类算法可以实现图像分割、图像聚类、图像识别等操作,本小节主要用来进行图像颜色分割。假设存在一张100×100像素的灰度图像,它由10000个RGB灰度级组成,我们通过K-Means可以将这些像素点聚类成K个簇,然后使用每个簇内的质心点来替换簇内所有的像素点,这样就能实现在不改变分辨率的情况下量化压缩图像颜色,实现图像颜色层级分割。

在OpenCV中,Kmeans()函数原型如下所示:

retval, bestLabels, centers = kmeans(data, K, bestLabels, criteria, attempts, flags[, centers])

  • data表示聚类数据,最好是np.flloat32类型的N维点集
  • K表示聚类类簇数
  • bestLabels表示输出的整数数组,用于存储每个样本的聚类标签索引
  • criteria表示算法终止条件,即最大迭代次数或所需精度。在某些迭代中,一旦每个簇中心的移动小于criteria.epsilon,算法就会停止
  • attempts表示重复试验kmeans算法的次数,算法返回产生最佳紧凑性的标签
  • flags表示初始中心的选择,两种方法是cv2.KMEANS_PP_CENTERS ;和cv2.KMEANS_RANDOM_CENTERS
  • centers表示集群中心的输出矩阵,每个集群中心为一行数据

下面使用该方法对灰度图像颜色进行分割处理,需要注意,在进行K-Means聚类操作之前,需要将RGB像素点转换为一维的数组,再将各形式的颜色聚集在一起,形成最终的颜色分割。


# coding: utf-8import cv2import numpy as npimport matplotlib.pyplot as plt
#读取原始图像灰度颜色img = cv2.imread('scenery.png', 0) print img.shape
#获取图像高度、宽度rows, cols = img.shape[:]
#图像二维像素转换为一维data = img.reshape((rows * cols, 1))data = np.float32(data)
#定义中心 (type,max_iter,epsilon)criteria = (cv2.TERM_CRITERIA_EPS +            cv2.TERM_CRITERIA_MAX_ITER, 10, 1.0)
#设置标签flags = cv2.KMEANS_RANDOM_CENTERS
#K-Means聚类 聚集成4类compactness, labels, centers = cv2.kmeans(data, 4, None, criteria, 10, flags)
#生成最终图像dst = labels.reshape((img.shape[0], img.shape[1]))
#用来正常显示中文标签plt.rcParams['font.sans-serif']=['SimHei']
#显示图像titles = [u'原始图像', u'聚类图像']  images = [img, dst]  for i in xrange(2):     plt.subplot(1,2,i+1), plt.imshow(images[i], 'gray'),    plt.title(titles[i])     plt.xticks([]),plt.yticks([])  plt.show()

输出结果如图所示,左边为灰度图像,右边为K-Means聚类后的图像,它将灰度级聚集成四个层级,相似的颜色或区域聚集在一起。


三.K-Means聚类对比分割彩色图像

下面代码是对彩色图像进行颜色分割处理,它将彩色图像聚集成2类、4类和64类。

# coding: utf-8import cv2import numpy as npimport matplotlib.pyplot as plt
#读取原始图像img = cv2.imread('scenery.png') print img.shape
#图像二维像素转换为一维data = img.reshape((-1,3))data = np.float32(data)
#定义中心 (type,max_iter,epsilon)criteria = (cv2.TERM_CRITERIA_EPS +            cv2.TERM_CRITERIA_MAX_ITER, 10, 1.0)
#设置标签flags = cv2.KMEANS_RANDOM_CENTERS
#K-Means聚类 聚集成2类compactness, labels2, centers2 = cv2.kmeans(data, 2, None, criteria, 10, flags)
#K-Means聚类 聚集成4类compactness, labels4, centers4 = cv2.kmeans(data, 4, None, criteria, 10, flags)
#K-Means聚类 聚集成8类compactness, labels8, centers8 = cv2.kmeans(data, 8, None, criteria, 10, flags)
#K-Means聚类 聚集成16类compactness, labels16, centers16 = cv2.kmeans(data, 16, None, criteria, 10, flags)
#K-Means聚类 聚集成64类compactness, labels64, centers64 = cv2.kmeans(data, 64, None, criteria, 10, flags)
#图像转换回uint8二维类型centers2 = np.uint8(centers2)res = centers2[labels2.flatten()]dst2 = res.reshape((img.shape))
centers4 = np.uint8(centers4)res = centers4[labels4.flatten()]dst4 = res.reshape((img.shape))
centers8 = np.uint8(centers8)res = centers8[labels8.flatten()]dst8 = res.reshape((img.shape))
centers16 = np.uint8(centers16)res = centers16[labels16.flatten()]dst16 = res.reshape((img.shape))
centers64 = np.uint8(centers64)res = centers64[labels64.flatten()]dst64 = res.reshape((img.shape))
#图像转换为RGB显示img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)dst2 = cv2.cvtColor(dst2, cv2.COLOR_BGR2RGB)dst4 = cv2.cvtColor(dst4, cv2.COLOR_BGR2RGB)dst8 = cv2.cvtColor(dst8, cv2.COLOR_BGR2RGB)dst16 = cv2.cvtColor(dst16, cv2.COLOR_BGR2RGB)dst64 = cv2.cvtColor(dst64, cv2.COLOR_BGR2RGB)
#用来正常显示中文标签plt.rcParams['font.sans-serif']=['SimHei']
#显示图像titles = [u'原始图像', u'聚类图像 K=2', u'聚类图像 K=4',          u'聚类图像 K=8', u'聚类图像 K=16',  u'聚类图像 K=64']  images = [img, dst2, dst4, dst8, dst16, dst64]  for i in xrange(6):     plt.subplot(2,3,i+1), plt.imshow(images[i], 'gray'),    plt.title(titles[i])     plt.xticks([]),plt.yticks([])  plt.show()

输出结果如下图所示,当K=2颜色聚集成两种,当K=64颜色聚集成64种。


希望这篇基础性文章对您有所帮助,如果有错误 或不足之处,请海涵!一起加油,2019年四月考博加油,写于贵阳钟书阁。

聚类质心
本作品采用《CC 协议》,转载必须注明作者和本文链接
图像处理第19篇介绍KMeans区域分割,希望您喜欢
由于在握手阶段恶意流量尚未进行加密,所以该方法准确性和稳定性较高。SSL/TLS 可以在虚拟专用网络中使用,该协议提供通信方的认证、消息的保密性和完整性。目前,SSL 已逐渐被 TLS 取代,TLS 目前主要有 4 个版本,分别是 TLS1.0、TLS1.1、TLS1.2和 TLS1.3。握手是 TLS连接中唯一未加密的部分,服务器用 ServerHello消息、证书和密钥的服务器部分进行响应。
AI安全论文第17篇介绍Overview撰写方式及顶会精摘抄
5G作为最新一代的移动通信技术,其核心网采用服务化架构,把原来具有多个功能的整体分拆为多个具有独自功能的个体,使网络更加灵活。新架构和新技术的引入为通信提供便利的同时,也带来了新的安全问题。对5G核心网的网元服务安全风险与其检测方法作了介绍,设计了通过全流量进行5G核心网网元服务异常检测的原型系统,并阐述了原型系统中各个模块的技术路线。
2021年04月12日,Apache Solr官方发布Solr多个高危漏洞更新,漏洞等级为“高危”,腾讯安全专家建议受影响的用户及时升级到最新版本。Solr是Apache Lucene项目的开源企业搜索平台。Solr是高度可扩展的,并提供了分布式搜索和索引复制,Solr是最流行的企业级搜索引擎。CVE-2021-29262:敏感信息泄漏漏洞 攻击者可以访问特定的路径以得到身份验证和授权配置文件。Apache Solr 官方下载地址 注:修复漏洞前请备份资料,并进行充分测试。
以准确、高效地检测工控设备异常为目的,研究基于数据挖掘与关联分析的工控设备异常运行状态自动化检测方法。以采集的某电厂 DCS 网络全流量数据形成的工控设备运行状态日志序列为输入,通过预处理、特征提取等方式获取待监测的工控设备运行状态数据的特征向量,通过凝聚型层次算法特征向量初步区分工控设备正常、异常运行状态数据,再利用基于矩阵的 Apriori 算法,挖掘工控设备正常运行状态构建正常行为模
关联分析目的是找到事务间的关联性,用以指导决策行为。纵向对比:同一对象不同层级比较,如江苏南京2021年各月份茅台销售情况。第三种是月留存,以月度为单位的留存率,指的是每个月相对于第一个周的新增用户中,仍然还有登录的用户数。正常情况下,留存率会随着时间周期的推移而逐渐降低。常见的做法是将产品SKU作为维度,并将对应销售额作为基础度量指标,将这些销售额指标从大到小排列,并计算累计销售额占比。
一、前言 在上次《拨开俄乌网络战迷雾-域名证书测绘篇》里,对俄乌双方网站域名证书的存活情况和颁发机构分布情况变动研究中,发现难以从部分证书解析得到的颁发者名称及机构中,正确识别其证书颁发机构(Certificate Authority, CA)。针对此类问题进行调研,发现一篇发表在USENIX 2021的论文工作[1],如图1所示。其作者提出基于CA对证书的操作行为特征进行的Fides系统,
近日,某互联网公司在使用永安在线API安全管控平台时捕获到一起数据泄露风险事件,攻击者使用大量动态代理秒拨IP对该公司某用户信息查询API进行低频的敏感数据爬取攻击。
一颗小胡椒
暂无描述