人工智能分析图片补丁的相似性无监督自然图像补丁学习

人工智能分析图片补丁的相似性无监督自然图像补丁学习(特约点评:人工智能分析图片补丁的相似性无监督自然图像补丁学习对于图片补丁的相似性提供了新的思路,这个创新点趣说人工智能必须推荐。来自网友小星的推荐!同时由于某度审核人员的sb能力,大部分公式和算法都被省略。有意见大家一起bs某度连标点符号错误都要扣分,真笑死朕了。)

人工智能分析图片补丁的相似性无监督自然图像补丁学习摘要 - 学习自然图像块的度量是分析图像的重要工具。一种有效的方法是训练深度网络以将图像块映射到向量空间,其中欧几里德距离反映了块的相似性。先前的尝试以受监督的方式学习了这种嵌入,需要许多带注释的图像的可用性。在本文中,我们提出了一种无监督的自然图像补丁嵌入,避免了对带注释图像的需求。关键思想是两个斑块的相似性可以从它们在自然图像中的空间接近度的普遍性中学习。很明显,依靠这个简单的原理,许多空间上邻近的对是异常值,然而,正如我们所示,异常值不会损害度量学习的收敛性。我们证明了我们的无监督嵌入方法比使用深度补丁表示的监督方法或方法更有效。此外,我们表明它自然地将自身引导到包含共同前景对象的目标域上的有效自监督域自适应技术。

人工智能分析图片补丁的相似性无监督自然图像补丁学习简介:人类可以很容易地理解他们在图像中不同区域看到的内容,或者判断两个区域是否相似。然而,尽管最近取得了进展,但这种形式的图像理解仍然极具挑战性。解决图像理解的一种方法从人类观察者理解图像内容的能力中获得灵感,即使在通过小观察窗口观看时也是如此。图像理解可以形式化为将小图像块的内容编码成表示向量的能力。为了使这些编码保持通用,它们不是由某些类预先确定的,而是旨在将图像块投影到嵌入空间中,其中欧几里德距离与图像块之间的一般相似性相关。由于自然斑块在斑块[1],[2]的空间中形成低维度的图像,这种图像斑块的嵌入允许各种图像理解和分割任务。例如,语义分割被简化为基于l2距离的简单聚类技术。

我们工作的关键见解是,这种图像块的嵌入可以通过神经网络以无人监督的方式进行训练。使用语义注释允许直接采样可以使用三元组损失嵌入的正负片对[3]。但是,数据标签费力且昂贵。因此,在线可用的图像中只有一小部分可以被监督技术利用,必然将学习限制在有限的范围内。无监督嵌入也可以基于由网络间接学习的深度补丁表示,例如[4],然而,正如我们所示,明确地训练网络以进行嵌入可以实现显着更高的性能。

在这项工作中,我们引入了一种无监督的贴片嵌入方法,该方法分析自然图像块以定义从贴片到矢量的映射,使得两个矢量之间的欧洲距离反映它们的感知相似性。我们观察到自然图像中两个斑块的相似性与它们的空间距离相关。换句话说,相干或语义片段的片段倾向于在空间上接近,因此在片片相似性和空间距离之间形成令人惊讶的简单但强烈的相关性。显然,并非所有相邻的补丁都相似(见图2)。然而,正如我们将要展示的那样,这些不同的近距离补丁非常罕见且不相关,导致对学习系统的微不足道的噪声,这并不妨碍学习。

人工智能分析图片补丁的相似性无监督自然图像补丁学习贡献:我们的嵌入产生深度图像,因为每个补丁被深层网络映射到128d的向量。请参阅第二个和第四个中深度图像的可视化图1的行是通过将128d矢量投影到它们的三个主要方向上而获得的,产生伪rgb图像,其中相似的颜色对应于相似的嵌入点。使用我们的嵌入技术,我们进一步提出了一种域专业化方法。给定一个包含共同前景对象的新域,使用自我监督,我们优化特定域的初始嵌入结果,以产生更准确的嵌入。

我们使用卷积神经网络(cnn)来学习128维嵌入空间。我们使用具有三重损失目标函数的2.5m自然补丁训练网络。第3节详细解释了我们的嵌入框架。第4节描述了我们对包含公共前景对象的目标域的域自适应技术。在第5节中,我们展示了使用我们的方法学习的补丁嵌入空间比嵌入通过监督学习的空间或基于手工制作的特征或深度补丁表示的空间更有效。我们进一步表明,通过使用自我监督将网络微调到特定域,我们可以进一步提高性能。

相关工作:我们的工作与降维和嵌入技术,图像块表示,转移学习和基于神经网络的优化密切相关。在下文中,我们直接强调相关研究。图像块可以被视为具有不同纹理的部分对象的集合。 julesz引入了textons [5]作为通过小补丁的二阶统计表示纹理的方法。各种滤波器组可用于纹理表示[6],例如gabor滤波器[7]。此外,分层滤波器响应被用于纹理合成[8],[9]。所有这些过滤器都是固定的,不会从数据中学习。相比之下,我们通过分析所有自然斑块的分布来学习嵌入,从而避免了手工制作的特征的偏见。

通过像素值表示补丁的想法(不试图降低维数)在各种应用中取得了成功[10],参见barnes和zhang [11]的调查。在第5节中,我们将我们的方法与原始像素描述符进行比较。z bontar和lecun [12]训练cnn做立体声匹配图像补丁。 simo-serra等。 [13]使用siamese网络学习类似sift的描述符。两者的这些方法侧重于视点变化的不变性,而我们的目标是学习类似物体的斑块外观波动的不变性。

patchnet [14]引入了图像区域的紧凑和分层表示。它使用原始l * a * b *像素值来表示补丁,我们将在第5节中进行比较.patchtable [15]提出了一种有效的近似最近邻(ann)实现。 ann是补丁表示的正交和补充任务。

最近,深度网络用于图像区域表示和分割。 cimpoi等。 [16]使用卷积神经网络(cnn)的最后一个卷积层作为图像区域描述符。它不适用于补丁表示,因为它将为每个补丁生成65k维向量。完全卷积网络(fcn)[17]证明对例如图像分割有效。我们将与第5节中的fcn进行比较。我们的工作基于patch2vec [3],它也使用深度网络来训练有意义的补丁表示。然而,与我们的方法相反,patch2vec是一种受监督的方法,需要带注释的分割数据集进行训练。

在过去已经利用在图像空间中使用空间接近度和视频的时间接近度的想法用于自我监督学习。 isola等。 [18]利用空间和时间共现来学习补丁,帧和照片的亲和力。 wang和gupta [19]跟踪视频中的对象,以生成自我监督学习方案的数据。更接近我们的方法,doersch等。 (uvrl)[4]训练网络预测补丁对之间的空间关系,并使用补丁表示对类似的视觉概念进行分组。 pathak等人。 [20]训练网络根据其空间环境预测缺失的内容。这些方法在为不同任务训练网络时学习补丁表示,并且隐式提供嵌入。在我们的工作中,网络直接接受了补丁嵌入培训。我们在第5节中将我们的方法与uvrl进行比较。

给定源域中的标记集和目标域中未标记的样本集,域适应旨在将在源域上学习的分类器推广到目标域[21],[22]。通常的做法是在大型标记图像数据库(如imagenet [23])上预先训练分类器,并将参数传递到目标域[24],[25]。见patel等人。 [26]对最近的视觉技术进行调查。在我们的工作中,我们将嵌入从自然图像源域优化到包含公共对象的目标域。与最近的无监督域自适应技术[27],[28]不同,在我们的例子中,两个域都不包含标记数据。

人工智能分析图片补丁的相似性无监督自然图像补丁学习总结,限制和未来工作:我们提出了一种无监督的补丁嵌入技术,其中网络学习将自然图像补丁映射到128d代码,使得l2度量反映它们的相似性。我们发现,我们用于明确地嵌入网络的三重态丢失优于其他嵌入,这些嵌入是通过为其他任务学习的深层表示推断的,或者专门用于学习补丁之间的相似性。一般来说,学习嵌入网络有其局限性,因为它应用于补丁级别。网络中的馈送转发补丁是计算密集型任务,并且将图像分析为一系列补丁是耗时的。对多个补丁(可能是重叠补丁)的并行分析可以显着加快该过程。

为了优化性能并将学习转移到新域中,我们利用受过训练的网络获得的嵌入作为自我监督。通过一些朴素的方法对嵌入的图像进行分割,以产生粗略的分割。如所示,这些段虽然不完美,但可以成功监督给定新域的网络细化。但是,我们相信通过使用更先进的分割方法可以进一步改善这一点。在未来,我们还想考虑保守分段,其中分段可能不一定覆盖整个图像,排除低置信区域。

此外,在未来,我们希望利用我们的嵌入技术来推进分割和前景提取方法。特别是,我们希望分析大量嵌入图像,旨在共同分割弱监督集的共同前景。我们相信共同的前景对象可以作为自我监督来进一步提高嵌入性能。

VR手套

虚拟制作

虚拟动作捕捉

VR手套

上一篇: 人工智能军备竞赛为什么说搜狗已占据先手优势
下一篇: 人工智能创业公司阿博茨科技b轮融资3000万美元
相关推荐

猜你喜欢