Zeroclanzhang(讨论 | 贡献) (创建页面,内容为“图像分割类别的节点能够完成图像前处理中的重要任务,即分割和标记,这个过程也通常被称为画'''遮罩'''的过程。 任何灰度图像都可以被视为地形表面,其中高强度表示峰和丘陵,而低强度表示山谷。您开始用不同颜色的水(标签)填充每个孤立的山谷(局部最小值)。随着水的上升,根据附近的山峰(梯度),来自不同山谷的水,显然具有不同…”) |
Zeroclanzhang(讨论 | 贡献) 无编辑摘要 |
||
(未显示同一用户的1个中间版本) | |||
第1行: | 第1行: | ||
{{Short description|将数字图像分割成多个部分}} | |||
[[File:Model of a segmented femur - journal.pone.0079004.g005.png|thumb|一副分割后的人类左侧[[股骨]]模型。展示了外表面(红色)、致密骨与松质骨之间的表面(绿色)以及骨髓的表面(蓝色)。]] | |||
在[[数字图像处理]]和[[计算机视觉]]中,'''图像分割'''是将一张[[数字图像]]分割成多个'''图像段'''的过程,这些图像段也被称为'''图像区域'''或'''图像对象'''([[集合 (数学)|集合]]中的[[像素]])。分割的目标是简化和/或改变图像的表现形式,使其变得更有意义且更易于分析。<ref name="computervision">[[Linda Shapiro|Linda G. Shapiro]] 和 George C. Stockman (2001): "计算机视觉", 第279-325页, 新泽西, Prentice-Hall, {{ISBN|0-13-030796-3}}</ref><ref>Barghout, Lauren, 和 Lawrence W. Lee. "感知信息处理系统." Paravue Inc. 美国专利申请 10/618,543, 于2003年7月11日提交。</ref> 图像分割通常用于定位图像中的对象和[[边界追踪|边界]](线条、曲线等)。更准确地说,图像分割是将标签分配给图像中的每个像素的过程,使得具有相同标签的像素共享某些特性。 | |||
图像分割的结果是一组覆盖整个图像的分段,或从图像中提取的一组[[等高线|轮廓]](参见[[边缘检测]])。一个区域中的每个像素在某些特性或计算属性方面是相似的,<ref>{{cite conference | last1=Nielsen | first1=Frank | last2=Nock | first2=Richard | |||
| title=2003 IEEE 计算机协会视觉和模式识别会议记录, 2003. | | |||
chapter=关于区域合并:快速排序的统计合理性及其应用 | | |||
publisher=IEEE | year=2003 | volume=2 | doi=10.1109/CVPR.2003.1211447 | pages=II:19–26 | isbn=0-7695-1900-8 }}</ref> 如[[颜色]]、[[亮度强度|亮度]]或[[图像纹理|纹理]]。相邻区域在同一特性方面的颜色有显著差异。<ref name="computervision" /> 当应用于图像堆栈时,典型的例子是[[医学成像]],图像分割后的轮廓可用于借助几何重建算法(如[[行进方块]])创建[[三维重建]]。<ref>Zachow, Stefan, Michael Zilske, 和 Hans-Christian Hege. "[https://opus4.kobv.de/opus4-zib/files/1044/ZR_07_41.pdf 从医学图像数据中的三维重建个体解剖:分割和几何处理]." (2007).</ref> | |||
图像分割类别的节点能够完成图像前处理中的重要任务,即分割和标记,这个过程在手动处理训练图像时也通常被称为画'''遮罩'''。 | |||
通常,任何灰度图像都可以被视为地形表面,其中高强度表示峰和丘陵,而低强度表示山谷。您开始用不同颜色的水(标签)填充每个孤立的山谷(局部最小值)。随着水的上升,根据附近的山峰(梯度),来自不同山谷的水,显然具有不同的颜色,将开始融合。为了避免这种情况,您可以在水汇合的地方建造障碍物。你继续填水和建造障碍物,直到所有山峰都被水淹没。然后,您创建的障碍将为您提供分割结果。这就是分水岭背后的“哲学”。您可以访问分水岭上的 CMM 网页并通过一些动画来理解它。 | |||
但由于图像中的噪声或任何其他不规则性,这种方法会给您带来过度分割的结果。因此,决策链基于Python OpenCV 实现了一种基于标记的分水岭算法,您可以指定哪些谷点要合并,哪些不合并。它是一种交互式图像分割。我们所做的就是为我们所知道的对象赋予不同的标签。用一种颜色(或强度)标记我们确定是前景或对象的区域,用另一种颜色标记我们确定是背景或非对象的区域,最后标记我们不确定的区域,用 0 标记它。这是我们的标记。然后应用分水岭算法。然后我们的标记将使用我们给出的标签进行更新,并且对象的边界的值为-1。 | |||
== 应用 == | |||
[[File:3D CT of thorax.jpg|thumb|[[CT扫描]]的[[胸腔]]3D渲染体积分割:为了可视化胸腔内容,已数字化移除了胸前壁、气道和肺根前的肺血管:<br />– <span style="color:blue;">蓝色</span>:[[肺动脉]] <br />– <span style="color:red;">红色</span>:[[肺静脉]](以及[[腹壁]])<br />– <span style="color:yellow;">黄色</span>:[[纵隔]] <br />– <span style="color:violet;">紫色</span>:[[胸膈|膈肌]] ]] | |||
图像分割的一些实际应用包括: | |||
* [[基于内容的图像检索]]<ref>Belongie, Serge, 等人. "[基于颜色和纹理的图像分割在基于内容的图像检索中的应用]." 第六届国际计算机视觉会议 (IEEE Cat. No. 98CH36271). IEEE, 1998.</ref> | |||
* [[机器视觉]] | |||
* [[医学成像]],<ref>{{cite journal | last1 = Pham | first1 = Dzung L. | last2 = Xu | first2 = Chenyang | last3 = Prince | first3 = Jerry L. | year = 2000 | title = 当前医学图像分割方法 | journal = 生物医学工程年度综述 | volume = 2 | pages = 315–337 | pmid = 11701515 | doi = 10.1146/annurev.bioeng.2.1.315 }}</ref><ref>{{cite journal | last1 = Forghani| first1 = M. | last2 = Forouzanfar | first2 = M.| last3 = Teshnehlab| first3 = M. | year = 2010 | title = 脑部MR图像分割改进模糊c均值聚类算法的参数优化 | journal = 人工智能工程应用 | volume = 23 | issue = 2 | pages = 160–168 | doi = 10.1016/j.engappai.2009.10.002 }}</ref> 以及生物医学研究中的成像研究,包括从[[计算机断层扫描|CT扫描]]、[[磁共振成像]]以及如FIB-SEM等体积电子显微术的体积渲染图像。<ref>{{Cite journal |last1=Reznikov |first1=Natalie |last2=Buss |first2=Dan J. |last3=Provencher |first3=Benjamin |last4=McKee |first4=Marc D. |last5=Piché |first5=Nicolas |date=2020年10月 |title=在生物矿化研究中利用深度学习进行三维成像和图像分析 |url=http://dx.doi.org/10.1016/j.jsb.2020.107598 |journal=结构生物学杂志 |volume=212 |issue=1 |pages=107598 |doi=10.1016/j.jsb.2020.107598 |pmid=32783967 |s2cid=221126896 |issn=1047-8477}}</ref> | |||
** 定位肿瘤和其他病理<ref>{{cite journal | url=https://link.springer.com/article/10.1007/s11548-013-0922-7 | doi=10.1007/s11548-013-0922-7 | title=在CRF(条件随机场)框架下的脑肿瘤检测和分割,具有像素对亲和性和超像素级特征 | year=2014 | last1=Wu | first1=Wei | last2=Chen | first2=Albert Y. C. | last3=Zhao | first3=Liang | last4=Corso | first4=Jason J. | journal=国际计算机辅助放射学与外科杂志 | volume=9 | issue=2 | pages=241–253 | pmid=23860630 | s2cid=13474403 }}</ref><ref>E. B. George 和 M. Karnan (2012): "[http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.411.7411&rep=rep1&type=pdf 利用细菌觅食优化算法进行MR脑部图像分割]", ''国际工程与技术杂志'', 第4卷。</ref> | |||
** 测量组织体积<ref>{{Cite journal |last1=Ye |first1=Run Zhou |last2=Noll |first2=Christophe |last3=Richard |first3=Gabriel |last4=Lepage |first4=Martin |last5=Turcotte |first5=Éric E. |last6=Carpentier |first6=André C. |date=February 2022 |title=DeepImageTranslator: A free, user-friendly graphical interface for image translation using deep-learning and its applications in 3D CT image analysis |journal=SLAS Technology |volume=27 |issue=1 |pages=76–84 |doi=10.1016/j.slast.2021.10.014 |pmid=35058205 |issn=2472-6303|doi-access=free }}</ref><ref>{{Cite journal |last1=Ye |first1=En Zhou |last2=Ye |first2=En Hui |last3=Bouthillier |first3=Maxime |last4=Ye |first4=Run Zhou |date=2022-02-18 |title=DeepImageTranslator V2: analysis of multimodal medical images using semantic segmentation maps generated through deep learning |language=en |biorxiv=10.1101/2021.10.12.464160v2 |doi=10.1101/2021.10.12.464160 |s2cid=239012446}}</ref> | |||
** 诊断,研究解剖结构<ref>{{cite journal|last1=Kamalakannan|first1=Sridharan|last2=Gururajan|first2=Arunkumar|last3=Sari-Sarraf|first3=Hamed|last4=Rodney|first4=Long|last5=Antani|first5=Sameer|title=Double-Edge Detection of Radiographic Lumbar Vertebrae Images Using Pressurized Open DGVF Snakes|journal=IEEE Transactions on Biomedical Engineering|date=17 February 2010|volume=57|issue=6|pages=1325–1334|doi=10.1109/tbme.2010.2040082|pmid=20172792|s2cid=12766600}}</ref> | |||
** 外科手术计划 | |||
** 虚拟外科手术模拟 | |||
** 手术中导航 | |||
** 放疗<ref>{{Cite arXiv |last1=Georgescu |first1=Mariana-Iuliana |last2=Ionescu |first2=Radu Tudor |last3=Miron |first3=Andreea-Iuliana |date=2022-12-21 |title=Diversity-Promoting Ensemble for Medical Image Segmentation |class=eess.IV |eprint=2210.12388 }}</ref> | |||
* [[Object detection]]<ref>J. A. Delmerico, P. David and J. J. Corso (2011): "[ Building façade detection, segmentation and parameter estimation for mobile robot localization and guidance]", International Conference on Intelligent Robots and Systems, pp. 1632–1639.</ref> | |||
** [[Pedestrian detection]] | |||
** [[Face detection]] | |||
** 刹车灯检测 | |||
** 定位卫星图像中的物体(道路、森林、农作物等) | |||
* 识别任务 | |||
** [[Face recognition]] | |||
** [[Fingerprint recognition]] | |||
** [[Iris recognition]] | |||
** 禁止携带物品在[[Airport security]]检查点 | |||
* 交通控制系统 | |||
* [[Video surveillance]] | |||
* [[Object co-segmentation|视频对象共分割和动作定位]]<ref name="Liu Wang Hua Zhang 2018 pp. 5840–5853"/><ref name="Wang Duan Zhang Niu p=1657"/> | |||
已开发了几种通用的[[algorithm]]和技术用于图像分割。为了有效解决领域的分割问题,这些技术通常需要与特定领域的知识相结合。 | |||
== 分割技术的类别 == | |||
分割技术有两大类。 | |||
* 经典计算机视觉方法 | |||
* 基于AI的技术 | |||
== 图像分割的组别 == | |||
* '''语义分割'''是一种为每个像素检测所属类别的方法。<ref>{{Cite journal|last1=Guo|first1=Dazhou|last2=Pei|first2=Yanting|last3=Zheng|first3=Kang|last4=Yu|first4=Hongkai|last5=Lu|first5=Yuhang|last6=Wang|first6=Song|date=2020|title=Degraded Image Semantic Segmentation With Dense-Gram Networks|journal=IEEE Transactions on Image Processing|volume=29|pages=782–795|doi=10.1109/TIP.2019.2936111|pmid=31449020|bibcode=2020ITIP...29..782G|s2cid=201753511|issn=1057-7149|doi-access=free}}</ref> 例如,在一个有很多人的图像中,所有属于人的像素将具有相同的类别id,背景中的像素将被分类为背景。 | |||
* '''实例分割''' 是一种识别图像中每个像素所属的具体对象实例的方法。它检测图像中的每一个不同的感兴趣对象。<ref>{{Cite journal|last1=Yi|first1=Jingru|last2=Wu|first2=Pengxiang|last3=Jiang|first3=Menglin|last4=Huang|first4=Qiaoying|last5=Hoeppner|first5=Daniel J.|last6=Metaxas|first6=Dimitris N.|date=July 2019|title=Attentive neural cell instance segmentation|journal=Medical Image Analysis|language=en|volume=55|pages=228–240|doi=10.1016/j.media.2019.05.004|pmid=31103790|s2cid=159038604|doi-access=free}}</ref> 例如,图像中的每个人都被分割为一个单独的对象。 | |||
* '''泛视分割''' 结合了语义分割和实例分割。如同语义分割,泛视分割是一种识别图像中每个像素所属类别的方法。此外,如同实例分割,泛视分割还区分同一类别的不同实例。<ref name="Panoptic Segmentation">{{cite arXiv|author=Alexander Kirillov |author2=Kaiming He |author3=Ross Girshick |author4=Carsten Rother |author5=Piotr Dollár |title=Panoptic Segmentation|eprint=1801.00868|class=cs.CV|year=2018}}</ref> | |||
== 阈值分割 == | |||
{{Main articles|Thresholding (image processing)}} | |||
图像分割的最简单方法称为[[Thresholding (image processing)|阈值分割]]方法。这种方法基于剪切级别(或阈值)将灰度图像转换为二值图像。 | |||
这种方法的关键是选择阈值(或在选择多级时选择多个值)。工业界使用了几种流行的方法,包括最大熵方法、[[balanced histogram thresholding]]、[[Otsu's method]](最大方差)和[[k-means clustering]]。 | |||
最近,已经开发了用于阈值分割计算机断层扫描(CT)图像的方法。关键思想是,与大津法不同,阈值是从射线图而非(重建的)图像中导出的。<ref>{{cite journal |last1 = Batenburg |first1 = K J. |last2 = Sijbers |first2 = J. |year = 2009|title = Adaptive thresholding of tomograms by projection distance minimization |journal = Pattern Recognition |volume = 42 |issue = 10 |pages = 2297–2305 |doi = 10.1016/j.patcog.2008.11.027 |bibcode = 2009PatRe..42.2297B |citeseerx = 10.1.1.182.8483 }}</ref><ref>{{cite journal |first1 = K J. |last1 = Batenburg |first2 = J. |last2 = Sijbers |title = Optimal Threshold Selection for Tomogram Segmentation by Projection Distance Minimization |journal = IEEE Transactions on Medical Imaging |volume = 28 |issue = 5 |pages = 676–686 |date = June 2009 |url = http://www.visielab.ua.ac.be/publications/optimal-threshold-selection-tomogram-segmentation-projection-distance-minimization |format = PDF |doi = 10.1109/tmi.2008.2010437 |pmid = 19272989 |s2cid = 10994501 |access-date = 2012-07-31 |archive-url = https://web.archive.org/web/20130503171943/http://www.visielab.ua.ac.be/publications/optimal-threshold-selection-tomogram-segmentation-projection-distance-minimization |archive-date = 2013-05-03 }}</ref> | |||
新方法提出了使用多维模糊规则的非线性阈值。在这些研究中,每个像素属于某一段的决定基于从模糊逻辑和基于图像照明环境及应用的进化算法导出的多维规则。<ref>{{cite book |first1 = A. |last1 = Kashanipour |first2 = N |last2 = Milani |first3 = A. |last3 = Kashanipour |first4 = H. |last4 = Eghrary |title = 2008 Congress on Image and Signal Processing |chapter = Robust Color Classification Using Fuzzy Rule-Based Particle Swarm Optimization |publisher = IEEE Congress on Image and Signal Processing |volume = 2 |pages = 110–114 |date = May 2008 |doi = 10.1109/CISP.2008.770 |isbn = 978-0-7695-3119-9 |s2cid = 8422475 }}</ref> | |||
== 聚类方法 == | |||
{{Main|Data clustering}} | |||
{{multiple image | |||
<!-- Essential parameters --> | |||
| align = right | |||
| direction = vertical | |||
| width = 300 | |||
| image1 = Polarlicht 2.jpg | |||
| alt1 = 原始图像 | |||
| caption1 = 源图像。 | |||
| image2 = Polarlicht 2 kmeans 16 large.png | |||
| alt2 = 处理后的图像 | |||
| caption2 = 运行''k''均值聚类后的图像,''k = 16''。注意,提高大图像性能的常用技术是对图像进行降采样,计算聚类,然后如有必要将值重新分配给大图像。 | |||
}} | |||
[[K-means algorithm]]是一种[[iterative]]技术,用于将图像[[Cluster analysis|划分]]为''K''个聚类。<ref>{{cite journal | last1 = Barghout | first1 = Lauren | last2 = Sheynin | first2 = Jacob | year = 2013 | title = Real-world scene perception and perceptual organization: Lessons from Computer Vision | journal = Journal of Vision | volume = 13 | issue = 9| page = 709 | doi=10.1167/13.9.709| doi-access = free }}</ref> 基本[[algorithm]]是: | |||
# 选择''K''个聚类中心,要么[[random]]ly选择,要么基于某种[[heuristic]]方法,例如[[K-means++]] | |||
# 将图像中的每个像素分配给最小化像素与聚类中心[[distance]]的聚类 | |||
# 通过平均聚类中的所有像素重新计算聚类中心 | |||
# 重复步骤2和3,直到达到收敛(即没有像素改变聚类) | |||
在这种情况下,[[distance]]是像素与聚类中心之间的平方或绝对差异。差异通常基于像素的[[Hue|color]]、[[Brightness|intensity]]、[[Texture (computer graphics)|texture]]和位置,或这些因素的加权组合。''K''可以手动选择,[[random]]ly选择,或通过[[heuristic]]选择。该算法保证收敛,但可能不会返回[[Global optimum|最优]]解。解的质量取决于初始聚类集和''K''的值。 | |||
[[Mean shift|均值漂移]]算法是一种用于将图像分割为未知数量[[A priori and a posteriori|先验]]聚类的技术。它的优势在于不需要从某个初始参数猜测开始,这使其成为更多样化案例中更好的通用解决方案。 | |||
== 运动和交互式分割 == | |||
基于运动的分割是一种依赖于图像中的运动来进行分割的技术。 | |||
这个想法很简单:观察一对图像之间的差异。假设感兴趣的对象在移动,差异将完全是那个对象。 | |||
基于这个想法的改进,Kenney等人提出了交互式分割[]。他们使用机器人来戳击物体,以生成运动分割所需的运动信号。 | |||
交互式分割遵循Dov Katz [http://www.dubikatz.com] 和 Oliver Brock [http://www.robotics.tu-berlin.de/menue/team/oliver_brock] 提出的交互感知框架。 | |||
基于运动的另一种技术是[[rigid motion segmentation|刚体运动分割]]。 | |||
== 基于压缩的方法 == | |||
基于压缩的方法认为,最佳分割是在所有可能的分割中,数据编码长度最小的那一个。<ref>{{cite journal |author1=Hossein Mobahi |author2=Shankar Rao |author3=Allen Yang |author4=Shankar Sastry |author5=Yi Ma. |url=http://perception.csl.illinois.edu/coding/papers/MobahiH2011-IJCV.pdf |title=Segmentation of Natural Images by Texture and Boundary Compression |journal=International Journal of Computer Vision |volume=95 |pages=86–98 |year=2011 |doi=10.1007/s11263-011-0444-0 |arxiv=1006.3679 |citeseerx=10.1.1.180.3579 |s2cid=11070572 |access-date=2011-05-08 |archive-url= |archive-date=2017-08-08 }}</ref><ref>Shankar Rao, Hossein Mobahi, Allen Yang, Shankar Sastry and Yi Ma [http://perception.csl.illinois.edu/coding/papers/RaoS2009-ACCV.pdf Natural Image Segmentation with Adaptive Texture and Boundary Encoding] {{Webarchive|url= |date=2016-05-19 }}, Proceedings of the Asian Conference on Computer Vision (ACCV) 2009, H. Zha, R.-i. Taniguchi, and S. Maybank (Eds.), Part I, LNCS 5994, pp. 135–146, Springer.</ref> 这两个概念之间的联系在于,分割尝试在图像中找到模式,图像中的任何规律性都可以用来压缩它。该方法通过其纹理和边界形状描述每个分段。这些组成部分都是由概率分布函数建模的,其编码长度按如下计算: | |||
# 边界编码利用了自然图像中区域往往具有平滑轮廓的事实。这一先验被[[Huffman coding|哈夫曼编码]]用来编码图像中轮廓的[[chain code|链码]]差异。因此,边界越平滑,其编码长度就越短。 | |||
# 纹理通过[[lossy compression|有损压缩]]进行编码,类似于[[minimum description length|最小描述长度]] (MDL) 原理,但这里给定模型的数据长度是通过样本数量乘以模型的[[Entropy (information theory)|熵]]来近似的。每个区域的纹理由[[multivariate normal distribution|多元正态分布]]建模,其熵有一个闭合形式的表达式。这个模型的一个有趣特性是,估计的熵从上界限制了数据的真实熵。这是因为在所有具有给定均值和协方差的分布中,正态分布具有最大的熵。因此,真实的编码长度不可能超过算法试图最小化的值。 | |||
对于图像的任何给定分割,这个方案会产生基于给定分割对该图像编码所需的位数。因此,在图像所有可能的分割中,目标是找到产生最短编码长度的分割。这可以通过一个简单的聚类方法来实现。有损压缩中的失真决定了分割的粗糙度,其最佳值可能因图像而异。这个参数可以从图像中纹理对比度中启发式地估计。例如,当图像中的纹理相似,如伪装图像中,需要更强的敏感度,因此量化值较低。 | |||
== 基于直方图的方法 == | |||
与其他图像分割方法相比,[[Histogram|基于直方图]]的方法非常高效,因为它们通常只需要对[[pixel|像素]]进行一次遍历。在这种技术中,从图像中的所有像素计算出一个直方图,直方图中的峰值和谷值用于定位图像中的[[Cluster analysis|聚类]]。<ref name="computervision" /> 可以使用[[Hue|颜色]]或[[Brightness|亮度]]作为测量标准。 | |||
这项技术的一个改进是将直方图寻找方法[[Recursion (computer science)|递归]]地应用于图像中的聚类,以将它们细分为更小的聚类。这一操作重复进行,直到不再形成更多聚类。<ref name="computervision" /><ref>{{cite journal | last1 = Ohlander | first1 = Ron | last2 = Price | first2 = Keith | last3 = Reddy | first3 = D. Raj | year = 1978 | title = Picture Segmentation Using a Recursive Region Splitting Method | journal = Computer Graphics and Image Processing | volume = 8 | issue = 3| pages = 313–333 | doi = 10.1016/0146-664X(78)90060-6 }}</ref> | |||
直方图寻找方法的一个缺点是,可能难以识别图像中显著的峰值和谷值。 | |||
基于直方图的方法也可以快速适应多帧应用,同时保持其单次遍历的效率。当考虑多帧时,直方图可以以多种方式完成。对单帧采取的同样方法可以应用于多帧,合并结果后,先前难以识别的峰值和谷值更有可能被区分出来。直方图也可以在每像素的基础上应用,其中得到的信息用于确定像素位置的最常见颜色。这种方法基于活动对象和静态环境进行分割,产生一种在[[video tracking]]中有用的不同类型的分割。 | |||
== 边缘检测 == | |||
[[Edge detection]]是图像处理中一个发展成熟的独立领域。区域边界和边缘密切相关,因为在区域边界处通常会有强烈的强度调整。因此,边缘检测技术已被用作另一种分割技术的基础。 | |||
边缘检测识别的边缘通常是不连续的。然而,要从图像中分割出一个对象,需要封闭的区域边界。所需的边缘是此类对象或空间-类别之间的边界。<ref>[[R. Kimmel and A.M. Bruckstein.]] https://www.cs.technion.ac.il/~ron/PAPERS/Paragios_chapter2003.pdf, ''International Journal of Computer Vision'' 2003; 53(3):225–243.</ref><ref>[[R. Kimmel]], https://www.cs.technion.ac.il/~ron/PAPERS/laplacian_ijcv2003.pdf, chapter in Geometric Level Set Methods in Imaging, Vision and Graphics, (S. Osher, N. Paragios, Eds.), Springer Verlag, 2003. {{ISBN|0387954880}}</ref> | |||
空间-类别<ref>Barghout, Lauren. [ Visual Taxometric approach Image Segmentation using Fuzzy-Spatial Taxon Cut Yields Contextually Relevant Regions]. Communications in Computer and Information Science (CCIS). Springer-Verlag. 2014</ref>是信息颗粒,<ref>Witold Pedrycz (Editor), Andrzej Skowron (Co-Editor), Vladik Kreinovich (Co-Editor). Handbook of Granular Computing. Wiley 2008</ref>由清晰的像素区域组成,在层次嵌套的场景架构中的抽象层面上定位。它们类似于[[Gestalt psychology|格式塔]]心理学的图地分离,但扩展到包括前景、对象组、对象和显著对象部分。边缘检测方法可以应用于空间-类别区域,就像应用于轮廓一样。当不连续的边缘是幻觉轮廓的一部分时,这种方法特别有用<ref>Barghout, Lauren (2014). Vision. Global Conceptual Context Changes Local Contrast Processing (Ph.D. Dissertation 2003). Updated to include Computer Vision Techniques. Scholars' Press. {{ISBN|978-3-639-70962-9}}.</ref><ref>Barghout, Lauren, and Lawrence Lee. "Perceptual information processing system." Google Patents</ref> | |||
也可以将分割方法应用于从边缘检测器获得的边缘。Lindeberg和Li<ref>{{cite journal | last1 = Lindeberg | first1 = T. | last2 = Li | first2 = M.-X. | year = 1997 | title = Segmentation and classification of edges using minimum description length approximation and complementary junction cues | url = http://kth.diva-portal.org/smash/record.jsf?pid=diva2%3A473385&dswid=-8029 | journal = Computer Vision and Image Understanding | volume = 67 | issue = 1| pages = 88–98 | doi=10.1006/cviu.1996.0510}}</ref>开发了一种集成方法,该方法将边缘分割成直线和曲线边缘段,用于基于零件的对象识别,该方法基于最小描述长度(M<sub>DL</sub>)准则,并通过一个类似分裂和合并的方法优化,使用从互补结点线索获得的候选断点,以获得更可能考虑将不同段划分为不同段的点。 | |||
== 双重聚类方法 == | |||
这种方法是图像的三个特征的结合:基于直方图分析的图像划分,通过簇(对象)的高紧凑性和边界的高梯度来检查。为此目的,必须引入两个空间:一个空间是亮度的一维直方图''H'' = ''H''(''B'');第二个空间是原始图像本身的双3维空间''B'' = ''B''(''x'', ''y'')。第一个空间允许通过计算最小聚类kmin来衡量图像亮度的紧凑分布。与kmin相对应的阈值亮度T定义了二值(黑白)图像 – 位图''b'' = ''φ''(''x'', ''y''),其中''φ''(''x'', ''y'') = 0,如果''B''(''x'', ''y'') < ''T'',和''φ''(''x'', ''y'') = 1,如果''B''(''x'', ''y'') ≥ ''T''。位图''b''是双重空间中的一个对象。在该位图上必须定义一个反映黑色(或白色)像素分布紧凑程度的量度。因此,目标是找到具有良好边界的对象。对于所有''T'',必须计算量度''M''<sub>DC</sub> = ''G''/(''k'' × ''L'')(其中''k''是对象与背景之间的亮度差,''L''是所有边界的长度,而''G''是边界上的平均梯度)。MDC的最大值定义了分割。<ref>[http://gth.krammerbuch.at/sites/default/files/articles/AHAH%20callback/01_Guberman_KORR.pdf] {{Webarchive|url=https://web.archive.org/web/20171013224758/http://gth.krammerbuch.at/sites/default/files/articles/AHAH%20callback/01_Guberman_KORR.pdf|date=2017-10-13}}[[Guberman Shelia (Shelija)|Shelia Guberman]]<span>, Vadim V. Maximov, Alex Pashintsev Gestalt and Image Understanding. GESTALT THEORY 2012, Vol. 34, No.2, 143–166.</span></ref> | |||
== 区域生长方法 == | |||
[[Region-growing]] 方法主要依赖于这样一个假设:同一区域内的相邻像素具有相似的值。常见的做法是比较一个像素及其邻居。如果满足相似性标准,该像素可以被划归为与一个或多个邻居相同的簇。相似性标准的选择很重要,结果受到所有情况下噪声的影响。 | |||
[[Statistical region merging|统计区域合并]]<ref name="SRM">R. Nock 和 F. Nielsen, [http://www.academia.edu/download/3433683/Statistical_Region_Merging.pdf Statistical Region Merging]{{dead link|date=July 2022|bot=medic}}{{cbignore|bot=medic}}, IEEE Transactions on Pattern Analysis and Machine Intelligence, 第 26 卷, 第 11 期, 页 1452–1458, 2004.</ref>(SRM)方法开始时通过使用四连通性构建像素图,边缘权重由强度差异的绝对值决定。最初,每个像素形成一个单像素区域。然后 SRM 将这些边缘排序在一个优先队列中,并使用统计谓词决定是否合并属于边缘像素的当前区域。 | |||
一种 [[region-growing]] 方法是种子区域生长法。这种方法输入一组种子和图像。种子标记了待分割的每个对象。区域通过与所有未分配的相邻像素的比较而迭代生长。像素强度值与区域平均值之间的差异,[math]\delta[/math],被用作[[Similarity measure|相似度量]]。以这种方式测量差异最小的像素被分配到相应的区域。这个过程持续到所有像素都被分配到一个区域。因为种子区域生长需要种子作为额外输入,分割结果取决于种子的选择,图像中的噪声可能导致种子放置不当。 | |||
另一种 [[region-growing]] 方法是无种子区域生长法。这是一种不需要显式种子的修改算法。它从一个单一区域 [math]A_1[/math] 开始——这里选择的像素对最终分割没有显著影响。在每次迭代中,它以与种子区域生长相同的方式考虑相邻像素。它与种子区域生长的不同之处在于,如果最小 [math]\delta[/math] 小于预定义阈值 [math]T[/math],则将其添加到相应的区域 [math]A_j[/math]。如果不是,那么这个像素被认为与所有当前区域 [math]A_i[/math] 不同,一个新的区域 [math]A_{n+1}[/math] 会以这个像素创建。 | |||
这项技术的一个变体由 [[Haralick]] 和 Shapiro(1985年)提出,<ref name="computervision" />基于像素[[Brightness|intensities]]。区域的[[Arithmetic mean|平均值]]和[[Statistical dispersion|离散度]]以及候选像素的强度被用来计算测试统计量。如果测试统计量足够小,像素被添加到区域中,并重新计算区域的平均值和离散度。否则,像素被拒绝,并用来形成一个新的区域。 | |||
一种特殊的区域生长方法被称为 [math]\lambda[/math]-连接分割法(也见[[lambda-connectedness]])。它基于像素[[Brightness|intensities]]和邻域链接路径。基于由像素形成的路径,计算连通性(connectedness)的程度。对于某个值 [math]\lambda[/math],如果存在连接这两个像素的路径,且该路径的连通性至少为 [math]\lambda[/math],则这两个像素被称为 [math]\lambda[/math]-连接的。[math]\lambda[/math]-连通性是一种等价关系。<ref name="lambda-connectedness">L. Chen, H. D. Cheng, 和 J. Zhang, [https://www.sciencedirect.com/science/article/pii/1069011594900094 Fuzzy subfiber and its application to seismic lithology classification], Information Sciences: Applications, 第 1 卷, 第 2 期, 页 77–95, 1994.</ref> | |||
[[Split and merge segmentation|分割与合并分割]]基于图像的[[quadtree]]划分。有时被称为四叉树分割。 | |||
这种方法从代表整个图像的树的根开始。如果它被发现不均匀(非同质),那么它被分割成四个子方块(分割过程),如此继续。相反,如果四个子方块是同质的,它们被合并为几个连接组件(合并过程)。树中的节点是一个分割节点。这个过程递归地继续,直到不再可能进行进一步的分割或合并。<ref name="split-and-merge1">S.L. Horowitz 和 T. Pavlidis, Picture Segmentation by a Directed Split and Merge Procedure, Proc. ICPR, 1974, Denmark, 页 424–433.</ref><ref name="split-and-merge2">S.L. Horowitz 和 T. Pavlidis, Picture Segmentation by a Tree Traversal Algorithm, Journal of the ACM, 23 (1976), 页 368–388.</ref> 当特殊的数据结构参与算法的实现时,其时间复杂度可以达到 [math]O(n\log n)[/math],这是该方法的最优算法。<ref name="split-and-merge3">L. Chen, [http://www.spclab.com/research/lambda/lambdaConn91.pdf The lambda-connected segmentation and the optimal algorithm for split-and-merge segmentation] {{Webarchive|url= |date=2016-03-10 }}, Chinese J. Computers, 14(1991), 页 321–331</ref> | |||
== 基于偏微分方程的方法 == | |||
采用基于[[偏微分方程]](PDE)的方法,并通过数值方案解决PDE方程,可以实现图像分割。<ref>{{cite journal | last1 = Caselles | first1 = V. | last2 = Kimmel | first2 = R. | last3 = Sapiro | first3 = G. | year = 1997 | title = Geodesic active contours | url = https://www.cs.technion.ac.il/~ron/PAPERS/CasKimSap_IJCV1997.pdf | journal = International Journal of Computer Vision | volume = 22 | issue = 1| pages = 61–79 | doi = 10.1023/A:1007979827043 | s2cid = 406088 }}</ref> 曲线传播是该类别中的一种流行技术,广泛应用于物体提取、物体跟踪、立体重建等领域。其核心思想是使初始曲线向成本函数最低潜能演变,其中成本函数的定义反映了待解决的任务。与大多数[[逆问题]]一样,成本泛函的最小化非常微妙,它对解决方案施加了某些平滑约束,在当前案例中可以表示为演变曲线的几何约束。 | |||
=== 参数化方法 === | |||
[[Lagrangian relaxation|拉格朗日]]技术基于某种采样策略对轮廓进行参数化,然后根据图像和内部项对每个元素进行演变。这些技术快速且高效,但原始的“纯参数化”公式(由Kass、[[Andrew Witkin|Witkin]]和[[Demetri Terzopoulos|Terzopoulos]]于1987年提出,称为“[[Snake (computer vision)|snakes]]”)通常因其在采样策略选择、曲线的内部几何特性、拓扑变化(曲线分裂和合并)、处理高维问题等方面的局限性而受到批评。如今,已经开发出高效的“离散化”公式来解决这些限制,同时保持高效率。在这两种情况下,能量最小化通常采用最陡梯度下降法进行,其中导数的计算使用有限差分等方法。 | |||
=== Level-set方法 === | |||
[[level-set method|水平集方法]]最初由Dervieux和Thomasset<ref>Dervieux, A. and Thomasset, F. 1979. A finite element method for the simulation of Raleigh-Taylor instability. Springer Lect. Notes in Math., 771:145–158.</ref><ref>Dervieux, A. and Thomasset, F. 1981. [https://www.researchgate.net/profile/Alain_Dervieux/publication/226529379_Multifluid_Incompressible_Flows_by_a_Finite_Element_Method/links/57176a3e08ae2679a8c766ac.pdf Multifluid incompressible flows by a finite element method]. Lecture Notes in Physics, 11:158–163.</ref>于1979年和1981年提出,后来于1988年被Osher和Sethian重新发明。<ref name="OsherSethian1988">{{cite journal|last1=Osher|first1=Stanley|last2=Sethian|first2=James A|title=Fronts propagating with curvature-dependent speed: Algorithms based on Hamilton-Jacobi formulations|journal=Journal of Computational Physics|volume=79|issue=1|year=1988|pages=12–49|issn=0021-9991|doi=10.1016/0021-9991(88)90002-2|bibcode=1988JCoPh..79...12O|citeseerx=10.1.1.46.1266}}</ref> 该方法在1990年代末期在各种成像领域中得到了广泛应用。它可以有效地解决曲线/表面等传播的问题。核心思想是使用带符号的函数表示演变的轮廓,其零点对应于实际轮廓。然后,根据轮廓的运动方程,可以轻松推导出隐式曲面的类似流动,当应用于零水平时,将反映轮廓的传播。水平集方法提供了许多优势:它是隐式的,无参数的,提供了一种直接估计演变结构的几何特性的方法,允许拓扑变化,且具有内在性。它可以用于定义优化框架,如Zhao、Merriman和Osher在1996年提出的那样。可以得出结论,这是一个非常方便的框架,用于解决计算机视觉和医学图像分析的众多应用。<ref>S. Osher and N. Paragios. | |||
[http://www.mas.ecp.fr/vision/Personnel/nikos/osher-paragios/ Geometric Level Set Methods in Imaging Vision and Graphics], Springer Verlag, {{ISBN|0-387-95488-0}}, 2003.</ref> 对各种[[level-set data structures|水平集数据结构]]的研究已经导致了这种方法的高效实现。 | |||
=== 快速行进方法 === | |||
[[fast marching method|快速行进方法]]已经应用于图像分割,<ref>{{cite web|url=http://math.berkeley.edu/~sethian/2006/Applications/Medical_Imaging/artery.html|title=Segmentation in Medical Imaging|author=James A. Sethian|access-date=15 January 2012}}</ref> 并且这种模型已在被称为广义快速行进方法的方法中得到改进(允许正负传播速度)。<ref>{{Citation| | |||
journal=Numerical Algorithms| | |||
date=July 2008|volume=48|issue=1–3|pages=189–211| | |||
title=Generalized fast marching method: applications to image segmentation| | |||
first1=Nicolas|last1=Forcadel | first2=Carole | last2=Le Guyader | first3= Christian | last3= Gout| doi=10.1007/s11075-008-9183-x| | |||
s2cid=7467344}}</ref> | |||
== 变分方法 == | |||
变分方法的目标是寻找一个最优的分割,该分割在特定能量泛函下是最优的。这些泛函由数据拟合项和规则化项组成。一个经典代表是为图像[math]f[/math]定义的[[Potts model|波茨模型]],由 | |||
:[math]\operatorname{argmin}_u \gamma \| \nabla u \|_0 + \int (u - f)^2 \, dx.[/math] | |||
表达。极小化器[math]u^*[/math]是一个分段常数图像,在给定图像[math]f[/math]的平方L2距离和其跳跃集的总长度之间具有最优的权衡。[math]u^*[/math]的跳跃集定义了一个分割。能量的相对权重由参数[math]\gamma >0 [/math]调整。波茨模型的二元变体,即如果[math]u[/math]的范围限制为两个值,通常被称为Chan-[[Luminița Vese|Vese]]模型。<ref>{{cite journal | last1 = Chan | first1 = T.F. | last2 = Vese | first2 = L. | author2-link= Luminița Vese | year = 2001 | title = Active contours without edges | journal = IEEE Transactions on Image Processing | volume = 10 | issue = 2| pages = 266–277 | doi=10.1109/83.902291| pmid = 18249617 | bibcode = 2001ITIP...10..266C | s2cid = 7602622 }}</ref> 一个重要的泛化是由[math]\operatorname{argmin}_{u, K} \gamma |K| + \mu \int_{K^C} |\nabla u|^2 \, dx + \int (u - f)^2 \, dx.[/math] | |||
给出的[[Mumford–Shah functional|Mumford-Shah模型]]<ref>[[David Mumford]]和Jayant Shah (1989): [https://dash.harvard.edu/bitstream/handle/1/3637121/Mumford_OptimalApproxPiece.pdf?sequence=1 Optimal approximations by piecewise smooth functions and associated variational problems], ''Communications on Pure and Applied Mathematics'', pp 577–685, Vol. 42, No. 5</ref>。 | |||
功能值是分割曲线[math]K[/math]的总长度、近似的平滑度[math]u[/math]以及其与原始图像[math]f[/math]的距离之和。平滑度惩罚的权重由[math]\mu > 0[/math]调整。Potts模型常被称为分段恒定的Mumford-Shah模型,因为它可以被视为退化情况[math]\mu \to \infty[/math]。优化问题通常被认为是NP难题,但接近最小化策略在实践中表现良好。经典算法包括[[Graduated optimization|逐步非凸优化]]和[[Mumford–Shah functional|Ambrosio-Tortorelli近似]]。 | |||
== 图分割方法 == | |||
[[Graph (data structure)|图]]分割方法是图像分割的有效工具,因为它们模拟了像素邻域对给定像素簇或单个像素的影响,假设图像中的同质性。在这些方法中,图像被建模为加权的[[undirected graph|无向图]]。通常一个像素或一组像素与[[Vertex (graph theory)|节点]]相关联,[[Glossary of graph theory#Basics|边]]权重定义了邻域像素之间的(不)相似性。然后根据旨在模拟“良好”簇的标准对图(图像)进行划分。这些算法输出的节点(像素)的每个分区被视为图像中的一个对象分段;参见[[Segmentation-based object categorization|基于分割的对象分类]]。这一类的一些流行算法包括标准切割,<ref>Jianbo Shi 和 [[Jitendra Malik]] (2000): ["Normalized Cuts and Image Segmentation"], ''IEEE Transactions on Pattern Analysis and Machine Intelligence'', 页 888–905, 第22卷, 第8期</ref> [[random walker (computer vision)|随机行者]],<ref>Leo Grady (2006): ["Random Walks for Image Segmentation"], ''IEEE Transactions on Pattern Analysis and Machine Intelligence'', 页. 1768–1783, 第28卷, 第11期</ref> 最小切割,<ref>Z. Wu 和 R. Leahy (1993): [ftp://sipi.usc.edu/pub/leahy/pdfs/MAP93.pdf "An optimal graph theoretic approach to data clustering: Theory and its application to image segmentation"]{{Dead link|date=January 2020 |bot=InternetArchiveBot |fix-attempted=yes }}, ''IEEE Transactions on Pattern Analysis and Machine Intelligence'', 页. 1101–1113, 第15卷, 第11期</ref> 等周分割,<ref>Leo Grady 和 Eric L. Schwartz (2006): [http://www.cns.bu.edu/~lgrady/grady2006isoperimetric.pdf "Isoperimetric Graph Partitioning for Image Segmentation"] {{Webarchive|url= |date=2011-07-19 }}, ''IEEE Transactions on Pattern Analysis and Machine Intelligence'', 页. 469–475, 第28卷, 第3期</ref> [[minimum spanning tree-based segmentation|基于最小生成树的分割]],<ref>C. T. Zahn (1971): ["Graph-theoretical methods for detecting and describing gestalt clusters"], ''IEEE Transactions on Computers'', 页. 68–86, 第20卷, 第1期</ref> 和[[segmentation-based object categorization|基于分割的对象分类]]。 | |||
=== 马尔可夫随机场 === | |||
1984年初,Geman和Geman建议将[[Markov random field|马尔可夫随机场]](MRF)应用于图像。<ref>S. Geman 和 D. Geman (1984): "Stochastic relaxation, Gibbs Distributions and Bayesian Restoration of Images", IEEE Transactions on Pattern Analysis and Machine Intelligence, 页. 721–741, 第6卷, 第6期.</ref> 它们强大的数学基础和在定义在局部特征上时仍能提供全局最优的能力,成为图像分析、去噪和分割领域新研究的基础。MRF完全由其先验概率分布、边际概率分布、[[Clique (graph theory)|团]]、平滑约束以及更新值的标准来定义。使用MRF进行图像分割的标准被重新陈述为寻找给定一组特征集的最大概率的标记方案。使用MRF的图像分割的广泛类别包括监督和非监督分割。 | |||
==== 使用MRF和MAP的监督图像分割 ==== | |||
就图像分割而言,MRF寻求最大化的函数是在图像中检测到特定特征集时识别标记方案的概率。这是[[maximum a posteriori estimation|最大后验估计]]方法的重述。 | |||
[[File:MRF neighborhood.png|thumb|right|MRF邻域示意图]] | |||
使用MAP进行图像分割的通用算法如下所示: | |||
{{ordered list | |||
| 定义每个特征(在MRF术语中是随机变量)的邻域。 | |||
<br/>通常包括一阶或二阶邻居。 | |||
| 为每个特征设置初始概率{{math|''P''(''f<sub>i</sub>'')}}>为0或|,其中{{math|''f<sub>i</sub>'' ∈ Σ}}是包含提取的特征 | |||
<br/>对于像素{{mvar|i}}并定义一组初始簇。 | |||
| 使用训练数据计算每个标签的均值({{mvar|''μ''<sub>''ℓ''<sub>''i''</sub></sub>}})和方差({{math|σ<sub>''ℓ''<sub>''i''</sub></sub>}})。这被称为类统计。 | |||
| 使用[[贝叶斯定理]]计算给定标签方案的边际分布{{math|''P''(''f<sub>i</sub>'' {{!}} ''ℓ''<sub>''i''</sub>)}},并利用之前计算的类统计。高斯模型用于边际分布。 | |||
:[math]\frac 1 {\sigma(\ell_i) \sqrt{2\pi} } e^{ -(f_i-\mu(\ell_i))^2/(2\sigma(\ell_i)^2) }\, d\ell_i[/math] | |||
| 计算之前定义的邻域中每个类标签的概率。 | |||
<br/>[[团块(图论)|Clique]]势能用于模拟标签中的社会影响。 | |||
| 遍历新的先验概率并重新定义群集,以使这些概率最大化。 | |||
<br/>这是使用下面描述的各种优化算法完成的。 | |||
| 当概率最大化且标签方案不变时停止。 | |||
<br/>这些计算也可以用[[对数似然|对数似然]]术语来实现。 | |||
}} | |||
==== 优化算法 ==== | |||
每种优化算法都是从多个领域的模型中改编而来的,它们通过其独特的成本函数相互区分。成本函数的共同特征是惩罚像素值的变化以及与相邻像素的标签相比较时的像素标签差异。 | |||
===== 迭代条件模式/梯度下降 ===== | |||
[[迭代条件模式]](ICM)算法通过在每次迭代中更改每个像素的值并使用下面给出的成本函数评估新标签方案的能量,试图重构理想的标签方案, | |||
:[math] \alpha(1-\delta(\ell_i-\ell_{\text{initial }i})+ \beta \Sigma_{q \in N(i)}(1 - \delta(\ell_i,\ell_{q(i)})). [/math] | |||
其中{{mvar|α}}是像素标签变化的惩罚,{{mvar|β}}是相邻像素和选定像素之间标签差异的惩罚。这里[math]N(i)[/math]是像素i的邻域,{{mvar|δ}}是克罗内克δ函数。ICM的一个主要问题是,与梯度下降类似,它倾向于停留在局部最大值上,因此无法获得全局最优的标签方案。 | |||
===== 模拟退火(SA) ===== | |||
模拟退火(SA)作为冶金中退火的类比而衍生,使用迭代中的像素标签变化并估计每个新形成的图与初始数据的能量差异。如果新形成的图更有利,即能量成本较低,由以下给出: | |||
: [math]\Delta U = U^\text{new} - U^\text{old}[/math] | |||
:[math]\ell_i = \begin{cases} \ell^\text{new}_i, & \text{if } \Delta U \leq 0 ,\\\ell^\text{new}_i, & \text{if } \Delta U > 0 \text{ and } \delta < e^{-\Delta U / T}, \ell^\text{old}_i \end{cases}[/math] | |||
该算法选择新形成的图。模拟退火需要输入温度时间表,直接影响系统收敛速度,以及最小化发生的能量阈值。 | |||
===== 其他算法 ===== | |||
还有一系列其他方法用于解决简单以及高阶MRF。它们包括后验边际最大化,多尺度MAP估计,<ref>A. Bouman and M. Shapiro (2002): "A multiscale Random field model for Bayesian image segmentation", IEEE Transactions on Image Processing, pp. 162–177, Vol. 3.</ref> 多分辨率分割<ref>J. Liu and Y. H. Yang (1994): "[https://ieeexplore.ieee.org/abstract/document/297949/ Multiresolution color image segmentation]", IEEE Transactions on Pattern Analysis and Machine Intelligence, pp. 689–700, Vol. 16.</ref>等。除了似然估计,还有使用最大流的图切割<ref>S. Vicente, V. Kolmogorov and C. Rother (2008): "[基于图切割的图像分割及连通性先验]", CVPR</ref>和其他高度受限的基于图的方法<ref>Corso, Z. Tu, and A. Yuille (2008): "MRF标签与Graph-Shifts算法", 国际组合图像分析研讨会论文集</ref><ref>B. J. Frey and D. MacKayan (1997): "[在图中循环的信念传播的革命]", 神经信息处理系统(NIPS)会议论文集</ref>用于解决MRF。 | |||
==== 使用MRF和期望最大化的图像分割 ==== | |||
[[期望最大化算法]]用于迭代估计后验概率和标记分布,当没有可用的训练数据且无法形成分割模型估计时。一般方法是使用直方图来表示图像的特征,并按照以下三步算法简要概述进行: | |||
# 使用随机估计的模型参数。 | |||
# E步骤:基于随机分割模型定义估计类统计。使用这些计算基于特征集属于标签的[[条件概率]],使用简单的[[贝叶斯定理]]。 | |||
:[math]P(\lambda \mid f_i) = \frac{P(f_i \mid \lambda) P(\lambda)}{\Sigma_{\lambda \in\Lambda} P(f_i \mid \lambda) P(\lambda)}[/math] | |||
这里[math]\lambda \in \Lambda[/math],所有可能标签的集合。 | |||
# M步骤:现在使用给定特征集对标签方案的确定相关性来计算算法第二部分中给定标签的先验估计。由于实际总标签数量未知(来自训练数据集),因此在计算中使用用户给出的标签数量的隐藏估计。 | |||
:[math]P(\lambda) = \frac{\Sigma_{\lambda \in \Lambda} P(\lambda \mid f_i)}{|\Omega|}[/math] | |||
这里[math]\Omega[/math]是所有可能特征的集合。 | |||
[[File:Sample segmentation HMRF-EM.png|thumb|center|使用HMRF-EM模型的彩色图像分割]] | |||
==== 基于MAP和EM的图像分割的缺点 ==== | |||
# 精确的MAP估计不容易计算。 | |||
# 近似MAP估计计算成本高。 | |||
# 扩展到多类标记会降低性能并增加所需存储。 | |||
# 需要可靠的EM参数估计才能实现全局最优。 | |||
# 根据优化方法,分割可能会聚集到局部最小值。 | |||
== 分水岭变换 == | |||
[[Watershed (algorithm)|分水岭变换]]将图像的梯度大小视为地形表面。具有最高梯度大小强度(GMIs)的像素对应于分水岭线,代表区域边界。放置在被共同分水岭线包围的任何像素上的水会向下流到一个共同的局部强度最小值(LIM)。流向共同最小值的像素形成一个集水盆地,代表一个分割。 | |||
== 基于模型的分割 == | |||
基于模型方法的核心假设是,感兴趣的结构倾向于特定的形状。因此,可以寻求一个表征该形状及其变化的概率模型。在分割图像时,可以使用这个模型作为先验条件施加限制。<ref name="StaibDuncan1992">{{cite journal|last1=Staib|first1=L.H.|last2=Duncan|first2=J.S.|title=Boundary finding with parametrically deformable models|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=14|issue=11|year=1992|pages=1061–1075|issn=0162-8828|doi=10.1109/34.166621}}</ref> 这样的任务可能涉及:(i)将训练样本注册到一个共同姿势,(ii)概率地表征已注册样本的变化,以及(iii)模型与图像之间的统计推断。文献中其他重要的基于模型的分割方法包括[[active shape model]]和[[active appearance model]]。 | |||
== 多尺度分割 == | |||
图像分割在[[scale space]]的多个尺度上计算,有时从粗糙尺度向细致尺度传播;参见[[scale-space segmentation]]。 | |||
分割标准可以是任意复杂的,并且可以考虑全局以及局部标准。一个常见的要求是,每个区域在某种意义上必须是相连的。 | |||
=== 一维分层信号分割 === | |||
Witkin在尺度空间的开创性工作<ref>Witkin, A. P. "Scale-space filtering", Proc. 8th Int. Joint Conf. Art. Intell., Karlsruhe, Germany,1019–1022, 1983.</ref><ref>A. Witkin, "[https://ieeexplore.ieee.org/abstract/document/1172729/ Scale-space filtering: A new approach to multi-scale description]," in Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing ([[ICASSP]]), vol. 9, San Diego, CA, March 1984, pp. 150–153.</ref>包括了这样一个概念,即一维信号可以在一个尺度参数控制的情况下无歧义地分割成区域。 | |||
一个关键的观察是,多尺度平滑版本信号的二阶导数的零交叉点(第一导数或斜率的最小值和最大值)形成了一个嵌套树,定义了不同尺度的分段之间的层次关系。具体来说,粗糙尺度的斜率极值可以追溯到细致尺度的相应特征。当一个斜率最大值和一个斜率最小值在更大的尺度上相互消除时,它们分隔的三个段合并为一个段,从而定义了段的层次结构。 | |||
=== 图像分割和原始素描 === | |||
在这一领域有许多研究工作,其中一些现在已经达到了可以通过交互式人工干预(通常应用于医学成像)或完全自动化应用的状态。以下是一些当前方法基于的主要研究思想的简要概述。 | |||
Witkin描述的嵌套结构特定于一维信号,并不容易直接转移到高维图像。然而,这个一般想法激发了其他一些作者调查图像分割的粗细方案。Koenderink<ref>Koenderink, Jan "The structure of images", Biological Cybernetics, 50:363–370, 1984</ref>提出研究等强度轮廓如何在尺度上演化,这种方法被Lifshitz和Pizer<ref>[http://portal.acm.org/citation.cfm?id=80964&dl=GUIDE&coll=GUIDE Lifshitz, L. and Pizer, S.: A multiresolution hierarchical approach to image segmentation based on intensity extrema, IEEE Transactions on Pattern Analysis and Machine Intelligence, 12:6, 529–540, 1990.]</ref>进一步详细调查。遗憾的是,图像特征的强度在不同尺度上会发生变化,这意味着难以使用等强度信息将粗糙尺度的图像特征追溯到细致尺度。 | |||
Lindeberg<ref>[http://kth.diva-portal.org/smash/record.jsf?pid=diva2%3A472969&dswid=2693 Lindeberg, T.: Detecting salient blob-like image structures and their scales with a scale-space primal sketch: A method for focus-of-attention, International Journal of Computer Vision, 11(3), 283–318, 1993.]</ref><ref name=lin94>[ Lindeberg, Tony, Scale-Space Theory in Computer Vision, Kluwer Academic Publishers, 1994], {{ISBN|0-7923-9418-6}}</ref>研究了在尺度上连接局部极值和鞍点的问题,并提出了一种称为尺度空间原始素描的图像表示方法,这种方法明确地表达了不同尺度上结构之间的关系,并明确了哪些图像特征在大范围的尺度上稳定,包括对它们来说适当的局部尺度。Bergholm提出在尺度空间的粗糙尺度上检测边缘,然后手动选择粗糙检测尺度和细致定位尺度,将它们追溯到细致尺度。 | |||
Gauch和Pizer<ref>[http://portal.acm.org/citation.cfm?coll=GUIDE&dl=GUIDE&id=628490 Gauch, J. 和 Pizer, S.: Multiresolution analysis of ridges and valleys in grey-scale images, IEEE Transactions on Pattern Analysis and Machine Intelligence, 15:6 (June 1993), 页码: 635–646, 1993.]</ref> 研究了多尺度下山脊和山谷的互补问题,并开发了一种基于多尺度流域的交互式图像分割工具。Olsen和Nielsen<ref>Olsen, O. 和 Nielsen, M.: [ Multi-scale gradient magnitude watershed segmentation], Proc. of ICIAP 97, Florence, Italy, Lecture Notes in Computer Science, 页码 6–13. Springer Verlag, 1997年9月.</ref> 也对基于梯度图的多尺度流域的使用进行了研究,并由Dam<ref>Dam, E., Johansen, P., Olsen, O. Thomsen,, A. Darvann, T., Dobrzenieck, A., Hermann, N., Kitai, N., Kreiborg, S., Larsen, P., Nielsen, M.: "Interactive multi-scale segmentation in clinical use" in European Congress of Radiology 2000.</ref> 应用于临床。Vincken等人<ref>{{Cite journal |doi=10.1109/34.574787 |title=Probabilistic multiscale image segmentation |year=1997 |last1=Vincken |first1=K.L. |last2=Koster |first2=A.S.E. |last3=Viergever |first3=M.A. |journal=IEEE Transactions on Pattern Analysis and Machine Intelligence |volume=19 |issue=2 |pages=109–120 }}</ref> 提出了一种超级堆栈,用于定义不同尺度图像结构之间的概率关系。Ahuja<ref>[http://vision.ai.uiuc.edu/~msingh/segmen/seg/MSS.html M. Tabb and N. Ahuja, Unsupervised multiscale image segmentation by integrated edge and region detection, IEEE Transactions on Image Processing, Vol. 6, No. 5, 页码 642–655, 1997.] {{webarchive |url= |date=July 20, 2011 }}</ref><ref>{{cite book | chapter-url=https://doi.org/10.1007%2F978-3-642-12307-8_12 | doi=10.1007/978-3-642-12307-8_12 | chapter=From Ramp Discontinuities to Segmentation Tree | title=Computer Vision – ACCV 2009 | series=Lecture Notes in Computer Science | year=2010 | last1=Akbas | first1=Emre | last2=Ahuja | first2=Narendra | volume=5994 | pages=123–134 | isbn=978-3-642-12306-1 }}</ref> 及其同事将其发展为一个全自动系统。Undeman和Lindeberg<ref>[http://kth.diva-portal.org/smash/record.jsf?pid=diva2%3A451266&dswid=-4540 C. Undeman and T. Lindeberg (2003) "Fully Automatic Segmentation of MRI Brain Images using Probabilistic Anisotropic Diffusion and Multi-Scale Watersheds", Proc. Scale-Space'03, Isle of Skye, Scotland, Springer Lecture Notes in Computer Science, volume 2695, 页码 641–656.]</ref> 提出了一个基于密切相关的多尺度流域理念的全自动脑部分割算法,并在脑数据库中进行了广泛测试。 | |||
这些通过链接不同尺度的图像结构来实现多尺度图像分割的理念也被Florack和Kuijper采用。<ref>Florack, L. 和 Kuijper, A.: The topological structure of scale-space images, Journal of Mathematical Imaging and Vision, 12:1, 页码 65–79, 2000.</ref> Bijaoui和Rué<ref>{{cite journal | last1 = Bijaoui | first1 = A. | last2 = Rué | first2 = F. | year = 1995 | title = A Multiscale Vision Model | journal = Signal Processing | volume = 46 | issue = 3| page = 345 | doi=10.1016/0165-1684(95)00093-4}}</ref> 将在尺度空间中检测到的结构与最小噪声阈值以上的对象树关联起来,这些对象树跨越多个尺度,对应于原始信号中的某种特征。提取的特征通过迭代共轭梯度矩阵方法准确重建。 | |||
== 半自动分割 == | |||
在一种分割方法中,用户使用鼠标点击勾勒出感兴趣的区域,然后应用算法以显示最适合图像边缘的路径。 | |||
在这种分割中使用的技术包括 [[Simple Interactive Object Extraction|SIOX]]、[[Livewire Segmentation Technique|Livewire]]、智能剪刀或IT-SNAPS。在另一种半自动分割方法中,算法返回由用户选择或通过先验概率指定的空间分类单元(即前景、对象组、对象或对象部分)。<ref>Barghout, Lauren. Visual Taxometric Approach to Image Segmentation using Fuzzy-Spatial Taxon Cut Yields Contextually Relevant Regions. IPMU 2014, Part II. A. Laurent et al (Eds.) CCIS 443, 页码 163–173. Springer International Publishing Switzerland</ref><ref>{{cite book|last1=Barghout|first1=Lauren|title=Vision: How Global Perceptual Context Changes Local Contrast Processing (Ph.D. Dissertation 2003). Updated to include Computer Vision Techniques|date=2014|publisher=Scholars Press|isbn=978-3-639-70962-9|url=https://www.morebooks.de/store/gb/book/vision/isbn/978-3-639-70962-9}}</ref> | |||
== 可训练的分割 == | |||
上述提到的大多数分割方法仅基于图像像素的颜色信息。在执行图像分割时,人类使用更多的知识,但实现这些知识将耗费大量的人力工程和计算时间,并且需要一个目前尚不存在的庞大的[[domain knowledge]]数据库。可训练的分割方法,例如[[neural network]]分割,通过从标记像素的数据集中建模领域知识来克服这些问题。 | |||
一个图像分割[[neural network]]可以处理图像的小区域以提取简单特征,如边缘。<ref name="Transactions on Engineering, Computing and Technology">[[Mahinda Pathegama]] & Ö Göl (2004): "Edge-end pixel extraction for edge-based image segmentation", ''Transactions on Engineering, Computing and Technology,'' vol. 2, 页码 213–216, ISSN 1305-5313</ref> 另一个神经网络或任何决策机制可以将这些特征结合起来,相应地标记图像的区域。这样设计的网络类型是[[Kohonen map]]。 | |||
[[Pulse-coupled networks|脉冲耦合神经网络(PCNNs)]]是一种仿照猫的视觉皮层模型提出并用于高性能[[biomimetic]] [[image processing|生物模拟图像处理]]的神经模型。1989年,Reinhard Eckhorn介绍了一种模仿猫视觉皮层机制的神经模型。Eckhorn模型为研究小型哺乳动物的视觉皮层提供了一个简单而有效的工具,并很快被认识到在图像处理中具有重大应用潜力。1994年,John L. Johnson将Eckhorn模型改编为图像处理算法,并将此算法命名为脉冲耦合神经网络。<ref>{{cite journal|last1=Johnson|first1=John L.|date=September 1994|title=Pulse-coupled neural nets: translation, rotation, scale, distortion, and intensity signal invariance for images|doi=10.1364/AO.33.006239|pmid=20936043|publisher=OSA|volume=33|journal=Applied Optics|number=26|pages=6239–6253|bibcode=1994ApOpt..33.6239J}}</ref> 在过去的十年中,PCNNs已被用于多种图像处理应用,包括:图像分割、特征生成、人脸提取、运动检测、区域增长、降噪等。PCNN是一个二维神经网络。网络中的每个神经元对应输入图像中的一个像素,接收对应像素的颜色信息(例如强度)作为外部刺激。每个神经元还与邻近神经元相连,接收来自它们的局部刺激。外部和局部刺激在内部激活系统中结合,积累刺激直到超过动态阈值,产生脉冲输出。通过迭代计算,PCNN神经元产生脉冲输出的时间序列。这些脉冲输出的时间序列包含输入图像的信息,可用于各种图像处理应用,如图像分割和特征生成。与传统图像处理手段相比,PCNNs具有多个显著优点,包括对噪声的鲁棒性、对输入模式中几何变化的独立性、连接输入模式中轻微强度变化的能力等。 | |||
[[U-Net]]是一种[[convolutional neural network|卷积神经网络]],输入图像并为每个像素输出标签。<ref>{{cite arXiv|last1=Ronneberger|first1=Olaf|last2=Fischer|first2=Philipp|last3=Brox|first3=Thomas|title=U-Net: Convolutional Networks for Biomedical Image Segmentation|eprint=1505.04597|date=2015|class=cs.CV}}</ref> U-Net最初是为了检测生物医学图像中的细胞边界而开发的。U-Net遵循经典的[[autoencoder|自动编码器]]架构,因此包含两个子结构。编码器结构遵循传统的卷积和最大池化层堆叠,以增加随着层的深入而增加的感受野。它用于捕捉图像中的上下文。解码器结构利用转置卷积层进行上采样,以便最终尺寸接近输入图像的尺寸。在相同形状的卷积层和转置卷积层之间放置跳跃连接,以保留原本可能丢失的细节。 | |||
除了将给定类别分配给每个像素的像素级语义分割任务外,现代分割应用还包括实例级语义分割任务,其中必须唯一识别给定类别中的每个个体,以及全景分割任务,这些任务结合了这两个任务以提供更完整的场景分割。<ref name="Panoptic Segmentation"/> | |||
== 相关图像和视频的分割 == | |||
{{main|Object co-segmentation}} | |||
像相册或视频帧序列这样的相关图像通常包含语义上相似的对象和场景,因此利用这种相关性通常是有益的。<ref name="Vicente Rother Kolmogorov 2011 p. ">{{cite conference | last1=Vicente | first1=Sara | last2=Rother | first2=Carsten | last3=Kolmogorov | first3=Vladimir | title=CVPR 2011 | chapter=Object cosegmentation | publisher=IEEE | year=2011 | pages=2217–2224 | isbn=978-1-4577-0394-2 | doi=10.1109/cvpr.2011.5995530 }}</ref> 同时对相关图像或视频帧中的场景进行分割的任务被称为[[Object co-segmentation|共分割]],<ref name="Liu Wang Hua Zhang 2018 pp. 5840–5853"/>通常用于[[Activity recognition|人类行为定位]]。与传统的基于[[Minimum bounding box|最小边界框]]的[[object detection|物体检测]]不同,人类行为定位方法提供更细致的结果,通常是每幅图像的分割蒙版,勾画出感兴趣的人类对象及其行为类别(例如,''Segment-Tube''<ref name="Wang Duan Zhang Niu p=1657"/>)。技术如动态[[Markov random field|马尔可夫网络]]、[[Convolutional neural network|卷积神经网络]]和[[Long short-term memory|长短期记忆网络]]经常被用来利用帧间的相关性。 | |||
== 其他方法 == | |||
还有许多其他的分割方法,如基于[[Diffusion MRI#Diffusion tensor imaging|DTI图像]]的[[multispectral segmentation|多光谱分割]]或连接性分割。<ref>Saygin, ZM, Osher, DE, Augustinack, J, Fischl, B, and Gabrieli, JDE.: {{doi-inline|10.1016/j.neuroimage.2011.03.006|基于概率追踪的人类杏仁核分割}}, Neuroimage, 56:3, pp. 1353–61, 2011.</ref><ref>Menke, RA, Jbabdi, S, Miller, KL, Matthews, PM and Zarei, M.: {{doi-inline|10.1016/j.neuroimage.2010.05.086|人类黑质的连接性分割及其在帕金森病中的意义}}, Neuroimage, 52:4, pp. 1175–80, 2010.]</ref> | |||
== 另行参见 == | |||
* [[Object co-segmentation]] | |||
* [[Computer vision]] | |||
* [[Image-based meshing]] | |||
* [[Range image segmentation]] | |||
* [[Vector quantization]] | |||
* [[Image quantization]] | |||
* [[Color quantization]] | |||
* [[Object-based image analysis]] | |||
* [[List of manual image annotation tools]] | |||
* [[Rigid motion segmentation]] | |||
== 笔记 == | |||
<!-- {{reflist|2}} --> | |||
{{reflist|refs= | |||
<ref name="Wang Duan Zhang Niu p=1657">{{cite journal | last1=Wang | first1=Le | last2=Duan | first2=Xuhuan | last3=Zhang | first3=Qilin | last4=Niu | first4=Zhenxing | last5=Hua | first5=Gang | last6=Zheng | first6=Nanning | title=Segment-Tube: Spatio-Temporal Action Localization in Untrimmed Videos with Per-Frame Segmentation | journal=Sensors | volume=18 | issue=5 | date=2018-05-22 | issn=1424-8220 | doi=10.3390/s18051657 | pmid=29789447 | pmc=5982167 | page=1657 | bibcode=2018Senso..18.1657W | url=https://qilin-zhang.github.io/_pages/pdfs/Segment-Tube_Spatio-Temporal_Action_Localization_in_Untrimmed_Videos_with_Per-Frame_Segmentation.pdf| doi-access=free }}</ref> | |||
<ref name="Liu Wang Hua Zhang 2018 pp. 5840–5853">{{cite journal | last1=Liu | first1=Ziyi | last2=Wang | first2=Le | last3=Hua | first3=Gang | last4=Zhang | first4=Qilin | last5=Niu | first5=Zhenxing | last6=Wu | first6=Ying | last7=Zheng | first7=Nanning | title=Joint Video Object Discovery and Segmentation by Coupled Dynamic Markov Networks | journal=IEEE Transactions on Image Processing | volume=27 | issue=12 | year=2018 | issn=1057-7149 | doi=10.1109/tip.2018.2859622 | pmid=30059300 | bibcode=2018ITIP...27.5840L | pages=5840–5853 | s2cid=51867241 | url=https://qilin-zhang.github.io/_pages/pdfs/Joint_Video_Object_Discovery_and_Segmentation_by_Coupled_Dynamic_Markov_Networks.pdf| doi-access=free }}</ref> | |||
}} | |||
== 引用 == | |||
{{refbegin}} | |||
* [https://web.archive.org/web/20080314011622/http://instrumentation.hit.bg/Papers/2008-02-02%203D%20Multistage%20Entropy.htm 3D Entropy Based Image Segmentation] | |||
* {{cite journal|last=Frucci| first=Maria|author2=Sanniti di Baja, Gabriella| year=2008|title=From Segmentation to Binarization of Gray-level Images|journal=[[Journal of Pattern Recognition Research]]|volume=3|issue=1|pages=1–13|doi=10.13176/11.54}} | |||
{{refend}} | |||
== 外部链接 == | |||
* [https://web.archive.org/web/20100518124644/http://csc.fsksm.utm.my/syed/projects/image-processing.html Some sample code that performs basic segmentation], by Syed Zainudeen. University Technology of Malaysia. | |||
* [https://rd.springer.com/article/10.1007/s11075-008-9183-x Generalized Fast Marching method] by Forcadel et al. [2008] for applications in image segmentation. | |||
* [http://www.iprg.co.in Image Processing Research Group] {{Webarchive|url=https://web.archive.org/web/20201228051352/http://www.iprg.co.in/ |date=2020-12-28 }} An Online Open Image Processing Research Community. | |||
* [https://www.mathworks.com/discovery/image-segmentation.html Segmentation methods in image processing and analysis] and [https://blogs.mathworks.com/pick/2017/12/07/minimizing-energy-to-segment-images-or-cluster-data/ Minimizing energy to segment images] by Mathworks | |||
* [http://disp.ee.ntu.edu.tw/meeting/%E6%98%B1%E7%BF%94/Segmentation%20tutorial.pdf More image segmentation methods with detailed algorithms] by Yu-Hsiang Wang (王昱翔), National Taiwan University, Taipei, Taiwan, ROC | |||
* [https://ipolcore.ipol.im/demo/clientApp/demo.html?id=295 Online demonstration of piecewise linear image segmentation] by IPOL Journal | |||
{{DEFAULTSORT:Segmentation (Image Processing)}} | |||
[[Category:Image segmentation| ]] | |||
[[Category:Digital imaging]] |
2024年1月28日 (日) 00:18的最新版本
在数字图像处理和计算机视觉中,图像分割是将一张数字图像分割成多个图像段的过程,这些图像段也被称为图像区域或图像对象(集合中的像素)。分割的目标是简化和/或改变图像的表现形式,使其变得更有意义且更易于分析。[1][2] 图像分割通常用于定位图像中的对象和边界(线条、曲线等)。更准确地说,图像分割是将标签分配给图像中的每个像素的过程,使得具有相同标签的像素共享某些特性。
图像分割的结果是一组覆盖整个图像的分段,或从图像中提取的一组轮廓(参见边缘检测)。一个区域中的每个像素在某些特性或计算属性方面是相似的,[3] 如颜色、亮度或纹理。相邻区域在同一特性方面的颜色有显著差异。[1] 当应用于图像堆栈时,典型的例子是医学成像,图像分割后的轮廓可用于借助几何重建算法(如行进方块)创建三维重建。[4]
图像分割类别的节点能够完成图像前处理中的重要任务,即分割和标记,这个过程在手动处理训练图像时也通常被称为画遮罩。
通常,任何灰度图像都可以被视为地形表面,其中高强度表示峰和丘陵,而低强度表示山谷。您开始用不同颜色的水(标签)填充每个孤立的山谷(局部最小值)。随着水的上升,根据附近的山峰(梯度),来自不同山谷的水,显然具有不同的颜色,将开始融合。为了避免这种情况,您可以在水汇合的地方建造障碍物。你继续填水和建造障碍物,直到所有山峰都被水淹没。然后,您创建的障碍将为您提供分割结果。这就是分水岭背后的“哲学”。您可以访问分水岭上的 CMM 网页并通过一些动画来理解它。
但由于图像中的噪声或任何其他不规则性,这种方法会给您带来过度分割的结果。因此,决策链基于Python OpenCV 实现了一种基于标记的分水岭算法,您可以指定哪些谷点要合并,哪些不合并。它是一种交互式图像分割。我们所做的就是为我们所知道的对象赋予不同的标签。用一种颜色(或强度)标记我们确定是前景或对象的区域,用另一种颜色标记我们确定是背景或非对象的区域,最后标记我们不确定的区域,用 0 标记它。这是我们的标记。然后应用分水岭算法。然后我们的标记将使用我们给出的标签进行更新,并且对象的边界的值为-1。
应用
图像分割的一些实际应用包括:
- 基于内容的图像检索[5]
- 机器视觉
- 医学成像,[6][7] 以及生物医学研究中的成像研究,包括从CT扫描、磁共振成像以及如FIB-SEM等体积电子显微术的体积渲染图像。[8]
- Object detection[15]
- Pedestrian detection
- Face detection
- 刹车灯检测
- 定位卫星图像中的物体(道路、森林、农作物等)
- 识别任务
- 交通控制系统
- Video surveillance
- 视频对象共分割和动作定位[16][17]
已开发了几种通用的algorithm和技术用于图像分割。为了有效解决领域的分割问题,这些技术通常需要与特定领域的知识相结合。
分割技术的类别
分割技术有两大类。
- 经典计算机视觉方法
- 基于AI的技术
图像分割的组别
阈值分割
图像分割的最简单方法称为阈值分割方法。这种方法基于剪切级别(或阈值)将灰度图像转换为二值图像。
这种方法的关键是选择阈值(或在选择多级时选择多个值)。工业界使用了几种流行的方法,包括最大熵方法、balanced histogram thresholding、Otsu's method(最大方差)和k-means clustering。
最近,已经开发了用于阈值分割计算机断层扫描(CT)图像的方法。关键思想是,与大津法不同,阈值是从射线图而非(重建的)图像中导出的。[21][22]
新方法提出了使用多维模糊规则的非线性阈值。在这些研究中,每个像素属于某一段的决定基于从模糊逻辑和基于图像照明环境及应用的进化算法导出的多维规则。[23]
聚类方法
K-means algorithm是一种iterative技术,用于将图像划分为K个聚类。[24] 基本algorithm是:
- 选择K个聚类中心,要么randomly选择,要么基于某种heuristic方法,例如K-means++
- 将图像中的每个像素分配给最小化像素与聚类中心distance的聚类
- 通过平均聚类中的所有像素重新计算聚类中心
- 重复步骤2和3,直到达到收敛(即没有像素改变聚类)
在这种情况下,distance是像素与聚类中心之间的平方或绝对差异。差异通常基于像素的color、intensity、texture和位置,或这些因素的加权组合。K可以手动选择,randomly选择,或通过heuristic选择。该算法保证收敛,但可能不会返回最优解。解的质量取决于初始聚类集和K的值。 均值漂移算法是一种用于将图像分割为未知数量先验聚类的技术。它的优势在于不需要从某个初始参数猜测开始,这使其成为更多样化案例中更好的通用解决方案。
运动和交互式分割
基于运动的分割是一种依赖于图像中的运动来进行分割的技术。
这个想法很简单:观察一对图像之间的差异。假设感兴趣的对象在移动,差异将完全是那个对象。
基于这个想法的改进,Kenney等人提出了交互式分割[]。他们使用机器人来戳击物体,以生成运动分割所需的运动信号。
交互式分割遵循Dov Katz [2] 和 Oliver Brock [3] 提出的交互感知框架。
基于运动的另一种技术是刚体运动分割。
基于压缩的方法
基于压缩的方法认为,最佳分割是在所有可能的分割中,数据编码长度最小的那一个。[25][26] 这两个概念之间的联系在于,分割尝试在图像中找到模式,图像中的任何规律性都可以用来压缩它。该方法通过其纹理和边界形状描述每个分段。这些组成部分都是由概率分布函数建模的,其编码长度按如下计算:
- 边界编码利用了自然图像中区域往往具有平滑轮廓的事实。这一先验被哈夫曼编码用来编码图像中轮廓的链码差异。因此,边界越平滑,其编码长度就越短。
- 纹理通过有损压缩进行编码,类似于最小描述长度 (MDL) 原理,但这里给定模型的数据长度是通过样本数量乘以模型的熵来近似的。每个区域的纹理由多元正态分布建模,其熵有一个闭合形式的表达式。这个模型的一个有趣特性是,估计的熵从上界限制了数据的真实熵。这是因为在所有具有给定均值和协方差的分布中,正态分布具有最大的熵。因此,真实的编码长度不可能超过算法试图最小化的值。
对于图像的任何给定分割,这个方案会产生基于给定分割对该图像编码所需的位数。因此,在图像所有可能的分割中,目标是找到产生最短编码长度的分割。这可以通过一个简单的聚类方法来实现。有损压缩中的失真决定了分割的粗糙度,其最佳值可能因图像而异。这个参数可以从图像中纹理对比度中启发式地估计。例如,当图像中的纹理相似,如伪装图像中,需要更强的敏感度,因此量化值较低。
基于直方图的方法
与其他图像分割方法相比,基于直方图的方法非常高效,因为它们通常只需要对像素进行一次遍历。在这种技术中,从图像中的所有像素计算出一个直方图,直方图中的峰值和谷值用于定位图像中的聚类。[1] 可以使用颜色或亮度作为测量标准。
这项技术的一个改进是将直方图寻找方法递归地应用于图像中的聚类,以将它们细分为更小的聚类。这一操作重复进行,直到不再形成更多聚类。[1][27]
直方图寻找方法的一个缺点是,可能难以识别图像中显著的峰值和谷值。
基于直方图的方法也可以快速适应多帧应用,同时保持其单次遍历的效率。当考虑多帧时,直方图可以以多种方式完成。对单帧采取的同样方法可以应用于多帧,合并结果后,先前难以识别的峰值和谷值更有可能被区分出来。直方图也可以在每像素的基础上应用,其中得到的信息用于确定像素位置的最常见颜色。这种方法基于活动对象和静态环境进行分割,产生一种在video tracking中有用的不同类型的分割。
边缘检测
Edge detection是图像处理中一个发展成熟的独立领域。区域边界和边缘密切相关,因为在区域边界处通常会有强烈的强度调整。因此,边缘检测技术已被用作另一种分割技术的基础。
边缘检测识别的边缘通常是不连续的。然而,要从图像中分割出一个对象,需要封闭的区域边界。所需的边缘是此类对象或空间-类别之间的边界。[28][29]
空间-类别[30]是信息颗粒,[31]由清晰的像素区域组成,在层次嵌套的场景架构中的抽象层面上定位。它们类似于格式塔心理学的图地分离,但扩展到包括前景、对象组、对象和显著对象部分。边缘检测方法可以应用于空间-类别区域,就像应用于轮廓一样。当不连续的边缘是幻觉轮廓的一部分时,这种方法特别有用[32][33]
也可以将分割方法应用于从边缘检测器获得的边缘。Lindeberg和Li[34]开发了一种集成方法,该方法将边缘分割成直线和曲线边缘段,用于基于零件的对象识别,该方法基于最小描述长度(MDL)准则,并通过一个类似分裂和合并的方法优化,使用从互补结点线索获得的候选断点,以获得更可能考虑将不同段划分为不同段的点。
双重聚类方法
这种方法是图像的三个特征的结合:基于直方图分析的图像划分,通过簇(对象)的高紧凑性和边界的高梯度来检查。为此目的,必须引入两个空间:一个空间是亮度的一维直方图H = H(B);第二个空间是原始图像本身的双3维空间B = B(x, y)。第一个空间允许通过计算最小聚类kmin来衡量图像亮度的紧凑分布。与kmin相对应的阈值亮度T定义了二值(黑白)图像 – 位图b = φ(x, y),其中φ(x, y) = 0,如果B(x, y) < T,和φ(x, y) = 1,如果B(x, y) ≥ T。位图b是双重空间中的一个对象。在该位图上必须定义一个反映黑色(或白色)像素分布紧凑程度的量度。因此,目标是找到具有良好边界的对象。对于所有T,必须计算量度MDC = G/(k × L)(其中k是对象与背景之间的亮度差,L是所有边界的长度,而G是边界上的平均梯度)。MDC的最大值定义了分割。[35]
区域生长方法
Region-growing 方法主要依赖于这样一个假设:同一区域内的相邻像素具有相似的值。常见的做法是比较一个像素及其邻居。如果满足相似性标准,该像素可以被划归为与一个或多个邻居相同的簇。相似性标准的选择很重要,结果受到所有情况下噪声的影响。
统计区域合并[36](SRM)方法开始时通过使用四连通性构建像素图,边缘权重由强度差异的绝对值决定。最初,每个像素形成一个单像素区域。然后 SRM 将这些边缘排序在一个优先队列中,并使用统计谓词决定是否合并属于边缘像素的当前区域。
一种 region-growing 方法是种子区域生长法。这种方法输入一组种子和图像。种子标记了待分割的每个对象。区域通过与所有未分配的相邻像素的比较而迭代生长。像素强度值与区域平均值之间的差异,[math]\delta[/math],被用作相似度量。以这种方式测量差异最小的像素被分配到相应的区域。这个过程持续到所有像素都被分配到一个区域。因为种子区域生长需要种子作为额外输入,分割结果取决于种子的选择,图像中的噪声可能导致种子放置不当。
另一种 region-growing 方法是无种子区域生长法。这是一种不需要显式种子的修改算法。它从一个单一区域 [math]A_1[/math] 开始——这里选择的像素对最终分割没有显著影响。在每次迭代中,它以与种子区域生长相同的方式考虑相邻像素。它与种子区域生长的不同之处在于,如果最小 [math]\delta[/math] 小于预定义阈值 [math]T[/math],则将其添加到相应的区域 [math]A_j[/math]。如果不是,那么这个像素被认为与所有当前区域 [math]A_i[/math] 不同,一个新的区域 [math]A_{n+1}[/math] 会以这个像素创建。
这项技术的一个变体由 Haralick 和 Shapiro(1985年)提出,[1]基于像素intensities。区域的平均值和离散度以及候选像素的强度被用来计算测试统计量。如果测试统计量足够小,像素被添加到区域中,并重新计算区域的平均值和离散度。否则,像素被拒绝,并用来形成一个新的区域。
一种特殊的区域生长方法被称为 [math]\lambda[/math]-连接分割法(也见lambda-connectedness)。它基于像素intensities和邻域链接路径。基于由像素形成的路径,计算连通性(connectedness)的程度。对于某个值 [math]\lambda[/math],如果存在连接这两个像素的路径,且该路径的连通性至少为 [math]\lambda[/math],则这两个像素被称为 [math]\lambda[/math]-连接的。[math]\lambda[/math]-连通性是一种等价关系。[37]
分割与合并分割基于图像的quadtree划分。有时被称为四叉树分割。
这种方法从代表整个图像的树的根开始。如果它被发现不均匀(非同质),那么它被分割成四个子方块(分割过程),如此继续。相反,如果四个子方块是同质的,它们被合并为几个连接组件(合并过程)。树中的节点是一个分割节点。这个过程递归地继续,直到不再可能进行进一步的分割或合并。[38][39] 当特殊的数据结构参与算法的实现时,其时间复杂度可以达到 [math]O(n\log n)[/math],这是该方法的最优算法。[40]
基于偏微分方程的方法
采用基于偏微分方程(PDE)的方法,并通过数值方案解决PDE方程,可以实现图像分割。[41] 曲线传播是该类别中的一种流行技术,广泛应用于物体提取、物体跟踪、立体重建等领域。其核心思想是使初始曲线向成本函数最低潜能演变,其中成本函数的定义反映了待解决的任务。与大多数逆问题一样,成本泛函的最小化非常微妙,它对解决方案施加了某些平滑约束,在当前案例中可以表示为演变曲线的几何约束。
参数化方法
拉格朗日技术基于某种采样策略对轮廓进行参数化,然后根据图像和内部项对每个元素进行演变。这些技术快速且高效,但原始的“纯参数化”公式(由Kass、Witkin和Terzopoulos于1987年提出,称为“snakes”)通常因其在采样策略选择、曲线的内部几何特性、拓扑变化(曲线分裂和合并)、处理高维问题等方面的局限性而受到批评。如今,已经开发出高效的“离散化”公式来解决这些限制,同时保持高效率。在这两种情况下,能量最小化通常采用最陡梯度下降法进行,其中导数的计算使用有限差分等方法。
Level-set方法
水平集方法最初由Dervieux和Thomasset[42][43]于1979年和1981年提出,后来于1988年被Osher和Sethian重新发明。[44] 该方法在1990年代末期在各种成像领域中得到了广泛应用。它可以有效地解决曲线/表面等传播的问题。核心思想是使用带符号的函数表示演变的轮廓,其零点对应于实际轮廓。然后,根据轮廓的运动方程,可以轻松推导出隐式曲面的类似流动,当应用于零水平时,将反映轮廓的传播。水平集方法提供了许多优势:它是隐式的,无参数的,提供了一种直接估计演变结构的几何特性的方法,允许拓扑变化,且具有内在性。它可以用于定义优化框架,如Zhao、Merriman和Osher在1996年提出的那样。可以得出结论,这是一个非常方便的框架,用于解决计算机视觉和医学图像分析的众多应用。[45] 对各种水平集数据结构的研究已经导致了这种方法的高效实现。
快速行进方法
快速行进方法已经应用于图像分割,[46] 并且这种模型已在被称为广义快速行进方法的方法中得到改进(允许正负传播速度)。[47]
变分方法
变分方法的目标是寻找一个最优的分割,该分割在特定能量泛函下是最优的。这些泛函由数据拟合项和规则化项组成。一个经典代表是为图像[math]f[/math]定义的波茨模型,由
- [math]\operatorname{argmin}_u \gamma \| \nabla u \|_0 + \int (u - f)^2 \, dx.[/math]
表达。极小化器[math]u^*[/math]是一个分段常数图像,在给定图像[math]f[/math]的平方L2距离和其跳跃集的总长度之间具有最优的权衡。[math]u^*[/math]的跳跃集定义了一个分割。能量的相对权重由参数[math]\gamma >0 [/math]调整。波茨模型的二元变体,即如果[math]u[/math]的范围限制为两个值,通常被称为Chan-Vese模型。[48] 一个重要的泛化是由[math]\operatorname{argmin}_{u, K} \gamma |K| + \mu \int_{K^C} |\nabla u|^2 \, dx + \int (u - f)^2 \, dx.[/math] 给出的Mumford-Shah模型[49]。
功能值是分割曲线[math]K[/math]的总长度、近似的平滑度[math]u[/math]以及其与原始图像[math]f[/math]的距离之和。平滑度惩罚的权重由[math]\mu > 0[/math]调整。Potts模型常被称为分段恒定的Mumford-Shah模型,因为它可以被视为退化情况[math]\mu \to \infty[/math]。优化问题通常被认为是NP难题,但接近最小化策略在实践中表现良好。经典算法包括逐步非凸优化和Ambrosio-Tortorelli近似。
图分割方法
图分割方法是图像分割的有效工具,因为它们模拟了像素邻域对给定像素簇或单个像素的影响,假设图像中的同质性。在这些方法中,图像被建模为加权的无向图。通常一个像素或一组像素与节点相关联,边权重定义了邻域像素之间的(不)相似性。然后根据旨在模拟“良好”簇的标准对图(图像)进行划分。这些算法输出的节点(像素)的每个分区被视为图像中的一个对象分段;参见基于分割的对象分类。这一类的一些流行算法包括标准切割,[50] 随机行者,[51] 最小切割,[52] 等周分割,[53] 基于最小生成树的分割,[54] 和基于分割的对象分类。
马尔可夫随机场
1984年初,Geman和Geman建议将马尔可夫随机场(MRF)应用于图像。[55] 它们强大的数学基础和在定义在局部特征上时仍能提供全局最优的能力,成为图像分析、去噪和分割领域新研究的基础。MRF完全由其先验概率分布、边际概率分布、团、平滑约束以及更新值的标准来定义。使用MRF进行图像分割的标准被重新陈述为寻找给定一组特征集的最大概率的标记方案。使用MRF的图像分割的广泛类别包括监督和非监督分割。
使用MRF和MAP的监督图像分割
就图像分割而言,MRF寻求最大化的函数是在图像中检测到特定特征集时识别标记方案的概率。这是最大后验估计方法的重述。
使用MAP进行图像分割的通用算法如下所示:
- 定义每个特征(在MRF术语中是随机变量)的邻域。
通常包括一阶或二阶邻居。 - 为每个特征设置初始概率P(fi)>为0或
- ,其中fi ∈ Σ是包含提取的特征
对于像素i并定义一组初始簇。 - 使用训练数据计算每个标签的均值(μℓi)和方差(σℓi)。这被称为类统计。
- 使用贝叶斯定理计算给定标签方案的边际分布P(fi | ℓi),并利用之前计算的类统计。高斯模型用于边际分布。
- [math]\frac 1 {\sigma(\ell_i) \sqrt{2\pi} } e^{ -(f_i-\mu(\ell_i))^2/(2\sigma(\ell_i)^2) }\, d\ell_i[/math]
- 计算之前定义的邻域中每个类标签的概率。
Clique势能用于模拟标签中的社会影响。 - 遍历新的先验概率并重新定义群集,以使这些概率最大化。
这是使用下面描述的各种优化算法完成的。 - 当概率最大化且标签方案不变时停止。
这些计算也可以用对数似然术语来实现。
优化算法
每种优化算法都是从多个领域的模型中改编而来的,它们通过其独特的成本函数相互区分。成本函数的共同特征是惩罚像素值的变化以及与相邻像素的标签相比较时的像素标签差异。
迭代条件模式/梯度下降
迭代条件模式(ICM)算法通过在每次迭代中更改每个像素的值并使用下面给出的成本函数评估新标签方案的能量,试图重构理想的标签方案,
- [math] \alpha(1-\delta(\ell_i-\ell_{\text{initial }i})+ \beta \Sigma_{q \in N(i)}(1 - \delta(\ell_i,\ell_{q(i)})). [/math]
其中α是像素标签变化的惩罚,β是相邻像素和选定像素之间标签差异的惩罚。这里[math]N(i)[/math]是像素i的邻域,δ是克罗内克δ函数。ICM的一个主要问题是,与梯度下降类似,它倾向于停留在局部最大值上,因此无法获得全局最优的标签方案。
模拟退火(SA)
模拟退火(SA)作为冶金中退火的类比而衍生,使用迭代中的像素标签变化并估计每个新形成的图与初始数据的能量差异。如果新形成的图更有利,即能量成本较低,由以下给出:
- [math]\Delta U = U^\text{new} - U^\text{old}[/math]
- [math]\ell_i = \begin{cases} \ell^\text{new}_i, & \text{if } \Delta U \leq 0 ,\\\ell^\text{new}_i, & \text{if } \Delta U > 0 \text{ and } \delta < e^{-\Delta U / T}, \ell^\text{old}_i \end{cases}[/math]
该算法选择新形成的图。模拟退火需要输入温度时间表,直接影响系统收敛速度,以及最小化发生的能量阈值。
其他算法
还有一系列其他方法用于解决简单以及高阶MRF。它们包括后验边际最大化,多尺度MAP估计,[56] 多分辨率分割[57]等。除了似然估计,还有使用最大流的图切割[58]和其他高度受限的基于图的方法[59][60]用于解决MRF。
使用MRF和期望最大化的图像分割
期望最大化算法用于迭代估计后验概率和标记分布,当没有可用的训练数据且无法形成分割模型估计时。一般方法是使用直方图来表示图像的特征,并按照以下三步算法简要概述进行:
- 使用随机估计的模型参数。
- [math]P(\lambda \mid f_i) = \frac{P(f_i \mid \lambda) P(\lambda)}{\Sigma_{\lambda \in\Lambda} P(f_i \mid \lambda) P(\lambda)}[/math]
这里[math]\lambda \in \Lambda[/math],所有可能标签的集合。
- M步骤:现在使用给定特征集对标签方案的确定相关性来计算算法第二部分中给定标签的先验估计。由于实际总标签数量未知(来自训练数据集),因此在计算中使用用户给出的标签数量的隐藏估计。
- [math]P(\lambda) = \frac{\Sigma_{\lambda \in \Lambda} P(\lambda \mid f_i)}{|\Omega|}[/math]
这里[math]\Omega[/math]是所有可能特征的集合。
基于MAP和EM的图像分割的缺点
- 精确的MAP估计不容易计算。
- 近似MAP估计计算成本高。
- 扩展到多类标记会降低性能并增加所需存储。
- 需要可靠的EM参数估计才能实现全局最优。
- 根据优化方法,分割可能会聚集到局部最小值。
分水岭变换
分水岭变换将图像的梯度大小视为地形表面。具有最高梯度大小强度(GMIs)的像素对应于分水岭线,代表区域边界。放置在被共同分水岭线包围的任何像素上的水会向下流到一个共同的局部强度最小值(LIM)。流向共同最小值的像素形成一个集水盆地,代表一个分割。
基于模型的分割
基于模型方法的核心假设是,感兴趣的结构倾向于特定的形状。因此,可以寻求一个表征该形状及其变化的概率模型。在分割图像时,可以使用这个模型作为先验条件施加限制。[61] 这样的任务可能涉及:(i)将训练样本注册到一个共同姿势,(ii)概率地表征已注册样本的变化,以及(iii)模型与图像之间的统计推断。文献中其他重要的基于模型的分割方法包括active shape model和active appearance model。
多尺度分割
图像分割在scale space的多个尺度上计算,有时从粗糙尺度向细致尺度传播;参见scale-space segmentation。
分割标准可以是任意复杂的,并且可以考虑全局以及局部标准。一个常见的要求是,每个区域在某种意义上必须是相连的。
一维分层信号分割
Witkin在尺度空间的开创性工作[62][63]包括了这样一个概念,即一维信号可以在一个尺度参数控制的情况下无歧义地分割成区域。
一个关键的观察是,多尺度平滑版本信号的二阶导数的零交叉点(第一导数或斜率的最小值和最大值)形成了一个嵌套树,定义了不同尺度的分段之间的层次关系。具体来说,粗糙尺度的斜率极值可以追溯到细致尺度的相应特征。当一个斜率最大值和一个斜率最小值在更大的尺度上相互消除时,它们分隔的三个段合并为一个段,从而定义了段的层次结构。
图像分割和原始素描
在这一领域有许多研究工作,其中一些现在已经达到了可以通过交互式人工干预(通常应用于医学成像)或完全自动化应用的状态。以下是一些当前方法基于的主要研究思想的简要概述。
Witkin描述的嵌套结构特定于一维信号,并不容易直接转移到高维图像。然而,这个一般想法激发了其他一些作者调查图像分割的粗细方案。Koenderink[64]提出研究等强度轮廓如何在尺度上演化,这种方法被Lifshitz和Pizer[65]进一步详细调查。遗憾的是,图像特征的强度在不同尺度上会发生变化,这意味着难以使用等强度信息将粗糙尺度的图像特征追溯到细致尺度。
Lindeberg[66][67]研究了在尺度上连接局部极值和鞍点的问题,并提出了一种称为尺度空间原始素描的图像表示方法,这种方法明确地表达了不同尺度上结构之间的关系,并明确了哪些图像特征在大范围的尺度上稳定,包括对它们来说适当的局部尺度。Bergholm提出在尺度空间的粗糙尺度上检测边缘,然后手动选择粗糙检测尺度和细致定位尺度,将它们追溯到细致尺度。
Gauch和Pizer[68] 研究了多尺度下山脊和山谷的互补问题,并开发了一种基于多尺度流域的交互式图像分割工具。Olsen和Nielsen[69] 也对基于梯度图的多尺度流域的使用进行了研究,并由Dam[70] 应用于临床。Vincken等人[71] 提出了一种超级堆栈,用于定义不同尺度图像结构之间的概率关系。Ahuja[72][73] 及其同事将其发展为一个全自动系统。Undeman和Lindeberg[74] 提出了一个基于密切相关的多尺度流域理念的全自动脑部分割算法,并在脑数据库中进行了广泛测试。
这些通过链接不同尺度的图像结构来实现多尺度图像分割的理念也被Florack和Kuijper采用。[75] Bijaoui和Rué[76] 将在尺度空间中检测到的结构与最小噪声阈值以上的对象树关联起来,这些对象树跨越多个尺度,对应于原始信号中的某种特征。提取的特征通过迭代共轭梯度矩阵方法准确重建。
半自动分割
在一种分割方法中,用户使用鼠标点击勾勒出感兴趣的区域,然后应用算法以显示最适合图像边缘的路径。
在这种分割中使用的技术包括 SIOX、Livewire、智能剪刀或IT-SNAPS。在另一种半自动分割方法中,算法返回由用户选择或通过先验概率指定的空间分类单元(即前景、对象组、对象或对象部分)。[77][78]
可训练的分割
上述提到的大多数分割方法仅基于图像像素的颜色信息。在执行图像分割时,人类使用更多的知识,但实现这些知识将耗费大量的人力工程和计算时间,并且需要一个目前尚不存在的庞大的domain knowledge数据库。可训练的分割方法,例如neural network分割,通过从标记像素的数据集中建模领域知识来克服这些问题。
一个图像分割neural network可以处理图像的小区域以提取简单特征,如边缘。[79] 另一个神经网络或任何决策机制可以将这些特征结合起来,相应地标记图像的区域。这样设计的网络类型是Kohonen map。
脉冲耦合神经网络(PCNNs)是一种仿照猫的视觉皮层模型提出并用于高性能biomimetic 生物模拟图像处理的神经模型。1989年,Reinhard Eckhorn介绍了一种模仿猫视觉皮层机制的神经模型。Eckhorn模型为研究小型哺乳动物的视觉皮层提供了一个简单而有效的工具,并很快被认识到在图像处理中具有重大应用潜力。1994年,John L. Johnson将Eckhorn模型改编为图像处理算法,并将此算法命名为脉冲耦合神经网络。[80] 在过去的十年中,PCNNs已被用于多种图像处理应用,包括:图像分割、特征生成、人脸提取、运动检测、区域增长、降噪等。PCNN是一个二维神经网络。网络中的每个神经元对应输入图像中的一个像素,接收对应像素的颜色信息(例如强度)作为外部刺激。每个神经元还与邻近神经元相连,接收来自它们的局部刺激。外部和局部刺激在内部激活系统中结合,积累刺激直到超过动态阈值,产生脉冲输出。通过迭代计算,PCNN神经元产生脉冲输出的时间序列。这些脉冲输出的时间序列包含输入图像的信息,可用于各种图像处理应用,如图像分割和特征生成。与传统图像处理手段相比,PCNNs具有多个显著优点,包括对噪声的鲁棒性、对输入模式中几何变化的独立性、连接输入模式中轻微强度变化的能力等。
U-Net是一种卷积神经网络,输入图像并为每个像素输出标签。[81] U-Net最初是为了检测生物医学图像中的细胞边界而开发的。U-Net遵循经典的自动编码器架构,因此包含两个子结构。编码器结构遵循传统的卷积和最大池化层堆叠,以增加随着层的深入而增加的感受野。它用于捕捉图像中的上下文。解码器结构利用转置卷积层进行上采样,以便最终尺寸接近输入图像的尺寸。在相同形状的卷积层和转置卷积层之间放置跳跃连接,以保留原本可能丢失的细节。
除了将给定类别分配给每个像素的像素级语义分割任务外,现代分割应用还包括实例级语义分割任务,其中必须唯一识别给定类别中的每个个体,以及全景分割任务,这些任务结合了这两个任务以提供更完整的场景分割。[20]
相关图像和视频的分割
像相册或视频帧序列这样的相关图像通常包含语义上相似的对象和场景,因此利用这种相关性通常是有益的。[82] 同时对相关图像或视频帧中的场景进行分割的任务被称为共分割,[16]通常用于人类行为定位。与传统的基于最小边界框的物体检测不同,人类行为定位方法提供更细致的结果,通常是每幅图像的分割蒙版,勾画出感兴趣的人类对象及其行为类别(例如,Segment-Tube[17])。技术如动态马尔可夫网络、卷积神经网络和长短期记忆网络经常被用来利用帧间的相关性。
其他方法
另行参见
笔记
- ↑ 1.0 1.1 1.2 1.3 1.4 Linda G. Shapiro 和 George C. Stockman (2001): "计算机视觉", 第279-325页, 新泽西, Prentice-Hall, ISBN 0-13-030796-3
- ↑ Barghout, Lauren, 和 Lawrence W. Lee. "感知信息处理系统." Paravue Inc. 美国专利申请 10/618,543, 于2003年7月11日提交。
- ↑ Nielsen, Frank; Nock, Richard (2003). "关于区域合并:快速排序的统计合理性及其应用". 2003 IEEE 计算机协会视觉和模式识别会议记录, 2003. Vol. 2. IEEE. pp. II:19–26. doi:10.1109/CVPR.2003.1211447. ISBN 0-7695-1900-8.
- ↑ Zachow, Stefan, Michael Zilske, 和 Hans-Christian Hege. "从医学图像数据中的三维重建个体解剖:分割和几何处理." (2007).
- ↑ Belongie, Serge, 等人. "[基于颜色和纹理的图像分割在基于内容的图像检索中的应用]." 第六届国际计算机视觉会议 (IEEE Cat. No. 98CH36271). IEEE, 1998.
- ↑ Pham, Dzung L.; Xu, Chenyang; Prince, Jerry L. (2000). "当前医学图像分割方法". 生物医学工程年度综述. 2: 315–337. doi:10.1146/annurev.bioeng.2.1.315. PMID 11701515.
- ↑ Forghani, M.; Forouzanfar, M.; Teshnehlab, M. (2010). "脑部MR图像分割改进模糊c均值聚类算法的参数优化". 人工智能工程应用. 23 (2): 160–168. doi:10.1016/j.engappai.2009.10.002.
- ↑ Reznikov, Natalie; Buss, Dan J.; Provencher, Benjamin; McKee, Marc D.; Piché, Nicolas (2020年10月). "在生物矿化研究中利用深度学习进行三维成像和图像分析". 结构生物学杂志. 212 (1): 107598. doi:10.1016/j.jsb.2020.107598. ISSN 1047-8477. PMID 32783967. S2CID 221126896.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ Wu, Wei; Chen, Albert Y. C.; Zhao, Liang; Corso, Jason J. (2014). "在CRF(条件随机场)框架下的脑肿瘤检测和分割,具有像素对亲和性和超像素级特征". 国际计算机辅助放射学与外科杂志. 9 (2): 241–253. doi:10.1007/s11548-013-0922-7. PMID 23860630. S2CID 13474403.
- ↑ E. B. George 和 M. Karnan (2012): "利用细菌觅食优化算法进行MR脑部图像分割", 国际工程与技术杂志, 第4卷。
- ↑ Ye, Run Zhou; Noll, Christophe; Richard, Gabriel; Lepage, Martin; Turcotte, Éric E.; Carpentier, André C. (February 2022). "DeepImageTranslator: A free, user-friendly graphical interface for image translation using deep-learning and its applications in 3D CT image analysis". SLAS Technology. 27 (1): 76–84. doi:10.1016/j.slast.2021.10.014. ISSN 2472-6303. PMID 35058205.
- ↑ Ye, En Zhou; Ye, En Hui; Bouthillier, Maxime; Ye, Run Zhou (2022-02-18). "DeepImageTranslator V2: analysis of multimodal medical images using semantic segmentation maps generated through deep learning" (in English). bioRxiv 10.1101/2021.10.12.464160v2. doi:10.1101/2021.10.12.464160. S2CID 239012446.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Kamalakannan, Sridharan; Gururajan, Arunkumar; Sari-Sarraf, Hamed; Rodney, Long; Antani, Sameer (17 February 2010). "Double-Edge Detection of Radiographic Lumbar Vertebrae Images Using Pressurized Open DGVF Snakes". IEEE Transactions on Biomedical Engineering. 57 (6): 1325–1334. doi:10.1109/tbme.2010.2040082. PMID 20172792. S2CID 12766600.
- ↑ Georgescu, Mariana-Iuliana; Ionescu, Radu Tudor; Miron, Andreea-Iuliana (2022-12-21). "Diversity-Promoting Ensemble for Medical Image Segmentation". arXiv:2210.12388 [eess.IV].
- ↑ J. A. Delmerico, P. David and J. J. Corso (2011): "[ Building façade detection, segmentation and parameter estimation for mobile robot localization and guidance]", International Conference on Intelligent Robots and Systems, pp. 1632–1639.
- ↑ 16.0 16.1 Liu, Ziyi; Wang, Le; Hua, Gang; Zhang, Qilin; Niu, Zhenxing; Wu, Ying; Zheng, Nanning (2018). "Joint Video Object Discovery and Segmentation by Coupled Dynamic Markov Networks" (PDF). IEEE Transactions on Image Processing. 27 (12): 5840–5853. Bibcode:2018ITIP...27.5840L. doi:10.1109/tip.2018.2859622. ISSN 1057-7149. PMID 30059300. S2CID 51867241.
- ↑ 17.0 17.1 Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (2018-05-22). "Segment-Tube: Spatio-Temporal Action Localization in Untrimmed Videos with Per-Frame Segmentation" (PDF). Sensors. 18 (5): 1657. Bibcode:2018Senso..18.1657W. doi:10.3390/s18051657. ISSN 1424-8220. PMC 5982167. PMID 29789447.
- ↑ Guo, Dazhou; Pei, Yanting; Zheng, Kang; Yu, Hongkai; Lu, Yuhang; Wang, Song (2020). "Degraded Image Semantic Segmentation With Dense-Gram Networks". IEEE Transactions on Image Processing. 29: 782–795. Bibcode:2020ITIP...29..782G. doi:10.1109/TIP.2019.2936111. ISSN 1057-7149. PMID 31449020. S2CID 201753511.
- ↑ Yi, Jingru; Wu, Pengxiang; Jiang, Menglin; Huang, Qiaoying; Hoeppner, Daniel J.; Metaxas, Dimitris N. (July 2019). "Attentive neural cell instance segmentation". Medical Image Analysis (in English). 55: 228–240. doi:10.1016/j.media.2019.05.004. PMID 31103790. S2CID 159038604.
- ↑ 20.0 20.1 Alexander Kirillov; Kaiming He; Ross Girshick; Carsten Rother; Piotr Dollár (2018). "Panoptic Segmentation". arXiv:1801.00868 [cs.CV].
- ↑ Batenburg, K J.; Sijbers, J. (2009). "Adaptive thresholding of tomograms by projection distance minimization". Pattern Recognition. 42 (10): 2297–2305. Bibcode:2009PatRe..42.2297B. CiteSeerX 10.1.1.182.8483. doi:10.1016/j.patcog.2008.11.027.
- ↑ Batenburg, K J.; Sijbers, J. (June 2009). "Optimal Threshold Selection for Tomogram Segmentation by Projection Distance Minimization". IEEE Transactions on Medical Imaging. 28 (5): 676–686. doi:10.1109/tmi.2008.2010437. PMID 19272989. S2CID 10994501. Archived from the original (PDF) on 2013-05-03. Retrieved 2012-07-31.
- ↑ Kashanipour, A.; Milani, N; Kashanipour, A.; Eghrary, H. (May 2008). "Robust Color Classification Using Fuzzy Rule-Based Particle Swarm Optimization". 2008 Congress on Image and Signal Processing. Vol. 2. IEEE Congress on Image and Signal Processing. pp. 110–114. doi:10.1109/CISP.2008.770. ISBN 978-0-7695-3119-9. S2CID 8422475.
- ↑ Barghout, Lauren; Sheynin, Jacob (2013). "Real-world scene perception and perceptual organization: Lessons from Computer Vision". Journal of Vision. 13 (9): 709. doi:10.1167/13.9.709.
- ↑ Hossein Mobahi; Shankar Rao; Allen Yang; Shankar Sastry; Yi Ma. (2011). "Segmentation of Natural Images by Texture and Boundary Compression" (PDF). International Journal of Computer Vision. 95: 86–98. arXiv:1006.3679. CiteSeerX 10.1.1.180.3579. doi:10.1007/s11263-011-0444-0. S2CID 11070572. Retrieved 2011-05-08.
{{cite journal}}
:|archive-date=
requires|archive-url=
(help) - ↑ Shankar Rao, Hossein Mobahi, Allen Yang, Shankar Sastry and Yi Ma Natural Image Segmentation with Adaptive Texture and Boundary Encoding Error in Webarchive template: Empty url., Proceedings of the Asian Conference on Computer Vision (ACCV) 2009, H. Zha, R.-i. Taniguchi, and S. Maybank (Eds.), Part I, LNCS 5994, pp. 135–146, Springer.
- ↑ Ohlander, Ron; Price, Keith; Reddy, D. Raj (1978). "Picture Segmentation Using a Recursive Region Splitting Method". Computer Graphics and Image Processing. 8 (3): 313–333. doi:10.1016/0146-664X(78)90060-6.
- ↑ R. Kimmel and A.M. Bruckstein. https://www.cs.technion.ac.il/~ron/PAPERS/Paragios_chapter2003.pdf, International Journal of Computer Vision 2003; 53(3):225–243.
- ↑ R. Kimmel, https://www.cs.technion.ac.il/~ron/PAPERS/laplacian_ijcv2003.pdf, chapter in Geometric Level Set Methods in Imaging, Vision and Graphics, (S. Osher, N. Paragios, Eds.), Springer Verlag, 2003. ISBN 0387954880
- ↑ Barghout, Lauren. [ Visual Taxometric approach Image Segmentation using Fuzzy-Spatial Taxon Cut Yields Contextually Relevant Regions]. Communications in Computer and Information Science (CCIS). Springer-Verlag. 2014
- ↑ Witold Pedrycz (Editor), Andrzej Skowron (Co-Editor), Vladik Kreinovich (Co-Editor). Handbook of Granular Computing. Wiley 2008
- ↑ Barghout, Lauren (2014). Vision. Global Conceptual Context Changes Local Contrast Processing (Ph.D. Dissertation 2003). Updated to include Computer Vision Techniques. Scholars' Press. ISBN 978-3-639-70962-9.
- ↑ Barghout, Lauren, and Lawrence Lee. "Perceptual information processing system." Google Patents
- ↑ Lindeberg, T.; Li, M.-X. (1997). "Segmentation and classification of edges using minimum description length approximation and complementary junction cues". Computer Vision and Image Understanding. 67 (1): 88–98. doi:10.1006/cviu.1996.0510.
- ↑ [1] Archived 2017-10-13 at the Wayback MachineShelia Guberman, Vadim V. Maximov, Alex Pashintsev Gestalt and Image Understanding. GESTALT THEORY 2012, Vol. 34, No.2, 143–166.
- ↑ R. Nock 和 F. Nielsen, Statistical Region Merging, July 2022
{{citation}}
: Cite has empty unknown parameters:|cat2=
,|cat-date2=
,|cat3=
, and|cat-date3=
(help); Missing or empty|title=
(help); Unknown parameter|cat-date=
ignored (help); Unknown parameter|cat=
ignored (help)[dead link], IEEE Transactions on Pattern Analysis and Machine Intelligence, 第 26 卷, 第 11 期, 页 1452–1458, 2004. - ↑ L. Chen, H. D. Cheng, 和 J. Zhang, Fuzzy subfiber and its application to seismic lithology classification, Information Sciences: Applications, 第 1 卷, 第 2 期, 页 77–95, 1994.
- ↑ S.L. Horowitz 和 T. Pavlidis, Picture Segmentation by a Directed Split and Merge Procedure, Proc. ICPR, 1974, Denmark, 页 424–433.
- ↑ S.L. Horowitz 和 T. Pavlidis, Picture Segmentation by a Tree Traversal Algorithm, Journal of the ACM, 23 (1976), 页 368–388.
- ↑ L. Chen, The lambda-connected segmentation and the optimal algorithm for split-and-merge segmentation Error in Webarchive template: Empty url., Chinese J. Computers, 14(1991), 页 321–331
- ↑ Caselles, V.; Kimmel, R.; Sapiro, G. (1997). "Geodesic active contours" (PDF). International Journal of Computer Vision. 22 (1): 61–79. doi:10.1023/A:1007979827043. S2CID 406088.
- ↑ Dervieux, A. and Thomasset, F. 1979. A finite element method for the simulation of Raleigh-Taylor instability. Springer Lect. Notes in Math., 771:145–158.
- ↑ Dervieux, A. and Thomasset, F. 1981. Multifluid incompressible flows by a finite element method. Lecture Notes in Physics, 11:158–163.
- ↑ Osher, Stanley; Sethian, James A (1988). "Fronts propagating with curvature-dependent speed: Algorithms based on Hamilton-Jacobi formulations". Journal of Computational Physics. 79 (1): 12–49. Bibcode:1988JCoPh..79...12O. CiteSeerX 10.1.1.46.1266. doi:10.1016/0021-9991(88)90002-2. ISSN 0021-9991.
- ↑ S. Osher and N. Paragios. Geometric Level Set Methods in Imaging Vision and Graphics, Springer Verlag, ISBN 0-387-95488-0, 2003.
- ↑ James A. Sethian. "Segmentation in Medical Imaging". Retrieved 15 January 2012.
- ↑ Forcadel, Nicolas; Le Guyader, Carole; Gout, Christian (July 2008), "Generalized fast marching method: applications to image segmentation", Numerical Algorithms, 48 (1–3): 189–211, doi:10.1007/s11075-008-9183-x, S2CID 7467344
- ↑ Chan, T.F.; Vese, L. (2001). "Active contours without edges". IEEE Transactions on Image Processing. 10 (2): 266–277. Bibcode:2001ITIP...10..266C. doi:10.1109/83.902291. PMID 18249617. S2CID 7602622.
- ↑ David Mumford和Jayant Shah (1989): Optimal approximations by piecewise smooth functions and associated variational problems, Communications on Pure and Applied Mathematics, pp 577–685, Vol. 42, No. 5
- ↑ Jianbo Shi 和 Jitendra Malik (2000): ["Normalized Cuts and Image Segmentation"], IEEE Transactions on Pattern Analysis and Machine Intelligence, 页 888–905, 第22卷, 第8期
- ↑ Leo Grady (2006): ["Random Walks for Image Segmentation"], IEEE Transactions on Pattern Analysis and Machine Intelligence, 页. 1768–1783, 第28卷, 第11期
- ↑ Z. Wu 和 R. Leahy (1993): "An optimal graph theoretic approach to data clustering: Theory and its application to image segmentation", January 2020
{{citation}}
: Cite has empty unknown parameters:|cat-date2=
,|cat3=
, and|cat-date3=
(help); Missing or empty|title=
(help); Unknown parameter|cat-date=
ignored (help); Unknown parameter|cat2=
ignored (help); Unknown parameter|cat=
ignored (help)[permanent dead link], IEEE Transactions on Pattern Analysis and Machine Intelligence, 页. 1101–1113, 第15卷, 第11期 - ↑ Leo Grady 和 Eric L. Schwartz (2006): "Isoperimetric Graph Partitioning for Image Segmentation" Error in Webarchive template: Empty url., IEEE Transactions on Pattern Analysis and Machine Intelligence, 页. 469–475, 第28卷, 第3期
- ↑ C. T. Zahn (1971): ["Graph-theoretical methods for detecting and describing gestalt clusters"], IEEE Transactions on Computers, 页. 68–86, 第20卷, 第1期
- ↑ S. Geman 和 D. Geman (1984): "Stochastic relaxation, Gibbs Distributions and Bayesian Restoration of Images", IEEE Transactions on Pattern Analysis and Machine Intelligence, 页. 721–741, 第6卷, 第6期.
- ↑ A. Bouman and M. Shapiro (2002): "A multiscale Random field model for Bayesian image segmentation", IEEE Transactions on Image Processing, pp. 162–177, Vol. 3.
- ↑ J. Liu and Y. H. Yang (1994): "Multiresolution color image segmentation", IEEE Transactions on Pattern Analysis and Machine Intelligence, pp. 689–700, Vol. 16.
- ↑ S. Vicente, V. Kolmogorov and C. Rother (2008): "[基于图切割的图像分割及连通性先验]", CVPR
- ↑ Corso, Z. Tu, and A. Yuille (2008): "MRF标签与Graph-Shifts算法", 国际组合图像分析研讨会论文集
- ↑ B. J. Frey and D. MacKayan (1997): "[在图中循环的信念传播的革命]", 神经信息处理系统(NIPS)会议论文集
- ↑ Staib, L.H.; Duncan, J.S. (1992). "Boundary finding with parametrically deformable models". IEEE Transactions on Pattern Analysis and Machine Intelligence. 14 (11): 1061–1075. doi:10.1109/34.166621. ISSN 0162-8828.
- ↑ Witkin, A. P. "Scale-space filtering", Proc. 8th Int. Joint Conf. Art. Intell., Karlsruhe, Germany,1019–1022, 1983.
- ↑ A. Witkin, "Scale-space filtering: A new approach to multi-scale description," in Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing (ICASSP), vol. 9, San Diego, CA, March 1984, pp. 150–153.
- ↑ Koenderink, Jan "The structure of images", Biological Cybernetics, 50:363–370, 1984
- ↑ Lifshitz, L. and Pizer, S.: A multiresolution hierarchical approach to image segmentation based on intensity extrema, IEEE Transactions on Pattern Analysis and Machine Intelligence, 12:6, 529–540, 1990.
- ↑ Lindeberg, T.: Detecting salient blob-like image structures and their scales with a scale-space primal sketch: A method for focus-of-attention, International Journal of Computer Vision, 11(3), 283–318, 1993.
- ↑ [ Lindeberg, Tony, Scale-Space Theory in Computer Vision, Kluwer Academic Publishers, 1994], ISBN 0-7923-9418-6
- ↑ Gauch, J. 和 Pizer, S.: Multiresolution analysis of ridges and valleys in grey-scale images, IEEE Transactions on Pattern Analysis and Machine Intelligence, 15:6 (June 1993), 页码: 635–646, 1993.
- ↑ Olsen, O. 和 Nielsen, M.: [ Multi-scale gradient magnitude watershed segmentation], Proc. of ICIAP 97, Florence, Italy, Lecture Notes in Computer Science, 页码 6–13. Springer Verlag, 1997年9月.
- ↑ Dam, E., Johansen, P., Olsen, O. Thomsen,, A. Darvann, T., Dobrzenieck, A., Hermann, N., Kitai, N., Kreiborg, S., Larsen, P., Nielsen, M.: "Interactive multi-scale segmentation in clinical use" in European Congress of Radiology 2000.
- ↑ Vincken, K.L.; Koster, A.S.E.; Viergever, M.A. (1997). "Probabilistic multiscale image segmentation". IEEE Transactions on Pattern Analysis and Machine Intelligence. 19 (2): 109–120. doi:10.1109/34.574787.
- ↑ M. Tabb and N. Ahuja, Unsupervised multiscale image segmentation by integrated edge and region detection, IEEE Transactions on Image Processing, Vol. 6, No. 5, 页码 642–655, 1997. Error in Webarchive template: Empty url.
- ↑ Akbas, Emre; Ahuja, Narendra (2010). "From Ramp Discontinuities to Segmentation Tree". Computer Vision – ACCV 2009. Lecture Notes in Computer Science. Vol. 5994. pp. 123–134. doi:10.1007/978-3-642-12307-8_12. ISBN 978-3-642-12306-1.
- ↑ C. Undeman and T. Lindeberg (2003) "Fully Automatic Segmentation of MRI Brain Images using Probabilistic Anisotropic Diffusion and Multi-Scale Watersheds", Proc. Scale-Space'03, Isle of Skye, Scotland, Springer Lecture Notes in Computer Science, volume 2695, 页码 641–656.
- ↑ Florack, L. 和 Kuijper, A.: The topological structure of scale-space images, Journal of Mathematical Imaging and Vision, 12:1, 页码 65–79, 2000.
- ↑ Bijaoui, A.; Rué, F. (1995). "A Multiscale Vision Model". Signal Processing. 46 (3): 345. doi:10.1016/0165-1684(95)00093-4.
- ↑ Barghout, Lauren. Visual Taxometric Approach to Image Segmentation using Fuzzy-Spatial Taxon Cut Yields Contextually Relevant Regions. IPMU 2014, Part II. A. Laurent et al (Eds.) CCIS 443, 页码 163–173. Springer International Publishing Switzerland
- ↑ Barghout, Lauren (2014). Vision: How Global Perceptual Context Changes Local Contrast Processing (Ph.D. Dissertation 2003). Updated to include Computer Vision Techniques. Scholars Press. ISBN 978-3-639-70962-9.
- ↑ Mahinda Pathegama & Ö Göl (2004): "Edge-end pixel extraction for edge-based image segmentation", Transactions on Engineering, Computing and Technology, vol. 2, 页码 213–216, ISSN 1305-5313
- ↑ Johnson, John L. (September 1994). "Pulse-coupled neural nets: translation, rotation, scale, distortion, and intensity signal invariance for images". Applied Optics. OSA. 33 (26): 6239–6253. Bibcode:1994ApOpt..33.6239J. doi:10.1364/AO.33.006239. PMID 20936043.
- ↑ Ronneberger, Olaf; Fischer, Philipp; Brox, Thomas (2015). "U-Net: Convolutional Networks for Biomedical Image Segmentation". arXiv:1505.04597 [cs.CV].
- ↑ Vicente, Sara; Rother, Carsten; Kolmogorov, Vladimir (2011). "Object cosegmentation". CVPR 2011. IEEE. pp. 2217–2224. doi:10.1109/cvpr.2011.5995530. ISBN 978-1-4577-0394-2.
- ↑ Saygin, ZM, Osher, DE, Augustinack, J, Fischl, B, and Gabrieli, JDE.: 基于概率追踪的人类杏仁核分割, Neuroimage, 56:3, pp. 1353–61, 2011.
- ↑ Menke, RA, Jbabdi, S, Miller, KL, Matthews, PM and Zarei, M.: 人类黑质的连接性分割及其在帕金森病中的意义, Neuroimage, 52:4, pp. 1175–80, 2010.]
引用
- 3D Entropy Based Image Segmentation
- Frucci, Maria; Sanniti di Baja, Gabriella (2008). "From Segmentation to Binarization of Gray-level Images". Journal of Pattern Recognition Research. 3 (1): 1–13. doi:10.13176/11.54.
外部链接
- Some sample code that performs basic segmentation, by Syed Zainudeen. University Technology of Malaysia.
- Generalized Fast Marching method by Forcadel et al. [2008] for applications in image segmentation.
- Image Processing Research Group Archived 2020-12-28 at the Wayback Machine An Online Open Image Processing Research Community.
- Segmentation methods in image processing and analysis and Minimizing energy to segment images by Mathworks
- More image segmentation methods with detailed algorithms by Yu-Hsiang Wang (王昱翔), National Taiwan University, Taipei, Taiwan, ROC
- Online demonstration of piecewise linear image segmentation by IPOL Journal