您现在的位置:智能制造网>工业软件频道 >行业资讯

AI和工业4.0之间,还有多远的差距?

2019年01月30日 15:41:06来源:雷锋网作者:雷锋网关键词:工业4.0
  如今,人工智能在工业范畴有着繁荣发展趋势,因为主动化以及优化仍是数字革新的首要焦点。在本文中,咱们将回忆近几年在AI社区中那些令人兴奋的最先进的计算机视觉技能,这些技能被认为是工业安排妥当的,而且对工业用例产生重大而又实践的影响。其间一些技能对功能的进步达到了令人难以置信的程度,逾越了人类能达到的功能水平,然后超出了大多数行业所期望的精度和可靠性规范。在基本的计算机视觉使命(例如图画分类)中取得的惊人进步,使得可靠地结合多种技能来创立新的复合技能然后完结之前从未在工业环境中探索过的全新用例成为或许。话虽如此,这些新技能现已证明其成果可与那些只能经过十分密布的硬件专用体系才干取得的精度和可靠性成果相媲美。虽然在完结这些专用体系和安装与之相关的硬件方面存在实践的困难和限制,但相机是很容易买到的,然后极大地扩大了用例规模。AI赋能的计算机视觉体系使得有或许跨入到一个新的范畴,加快了工业4.0,真正数字化和物理实际增强的进程。

在咱们深入了解计算机视觉范畴的最新进展之前,让咱们先介绍一些基本概念以及深度学习和计算机视觉这方面的前史事情。

计算机视觉简介

计算机视觉是一门科学,旨在使计算机能够了解并从图形和视频中观察信息。计算机视觉,即主动履行视觉使命的能力,例如从图形或视频中提取和剖析有用的信息。

机器学习和深度学习简介

机器学习是算法和计算模型的科学研究,它依赖于数据驱动的方法来做决议计划而不是根据规矩的方法。给定很多高质量数据并经过改善算法,机器学习体系能够逐步进步其在特定使命上的功能。深度学习是机器学习的子类,彻底侧重于一组可描绘为网络的数学算法。它们起先受到人脑中发现的生物神经网络的启示,同样,人工神经网络具有数百万个人工突触,数学上由数百万个简单的线性代数方程表明。

深度学习驱动计算机视觉

自2012年深度学习神经网络一直是计算机视觉的首要关注点是有理由的。由深度学习驱动的计算机视觉体系的优点是它们具有更高准确性,更灵活,且对很多的光线条件改变,角度,标准,方向,与布景融合,类内差异,变形以及视觉遮挡等情况具有更高容忍度。但最重要的是,它们启示了新的用例。

前期的计算机视觉模型依赖于原始像素数据作为机器学习模型的输入。然而,独自的原始像素数据不足以包含图画中方针的千变万化。

深度学习驱动的计算机视觉根据深度神经网络可在练习阶段主动提取和创立特定使命的特征,然后将其用于履行计算机视觉使命。

下图突出了深度学习和计算机视觉近6年前史中最重要的一些事情。

2012年引入深度神经网络所带来的突破使得图画分类差错减少了约10%(从2011年的25.8%降至2012年的16.4%)。

2015年最先进的算法在图画分类方面的表现超过了人类水平(5.1%,Russakovsky et al.),准确率为3.57%。

总体而言,深度神经网络的引入导致图画分类差错减少10倍(从2011年的25.8%将至2017年的2.3%)。

值得注意的是,上述成果是在ImageNet数据集上完结的,其间20,000个类别具有典型类别,例如“气球”或“草莓”,由数百个低分辨率469x387像素图画组成。计算机视觉体系应用于具有较少类别,较少改变和较多数量的较高分辨率图画的特定使命时,其准确度能够高达99.9%。这使得彻底独立自傲地运转一个体系成为或许。

现在咱们现已介绍了基础知识,咱们能够更具体地了解这些技能了。

图画分类

在本节中,咱们将介绍图画分类,这是将一组固定类别中的一个标签分配给图画的使命。这是计算机视觉中的核心问题之一,尽管其简单,但其具有各种各样的实践应用。许多其它看似不同的计算机视觉使命(例如图画 字幕,方针检测,要害点检测和切割)能够简化为图画分类,其它使命使用全新的神经网络架构。以下视频片段说明晰一个十分简单的分类事例。

Simple Image Classification using Convolutional Neural Network (Venkatesh Tata Dec 2017)

图画要害字和字幕

该技能处于计算机视觉和自然语言处理(NLP)这两AI中最风趣范畴的交点。要害字是用于描绘相片或图画元素的单词。要害字是对相片增加描绘性术语的过程。

图画字幕是指根据图画中的方针和动作从图画或视频生成文本描绘的过程。

Image Captioning based on Deep Reinforcement Learning (Shi et al. Aug 2018)

方针检测

方针检测是一种计算机视觉技能,用于辨认和定位图画或视频中的方针。这通常经过带边框符号的框包围方针来完结。方针检测是主动驾驶轿车背面的要害技能,使它们能够辨认其他轿车或区分行人与灯柱。它还能够用于各种应用,例如工业检测和机器人视觉。由于ImageNet竞赛,仅2010年至2014年间,定位差错(从42.5%降至25.3%)就减少了1.7倍。下面的视频片段显现了该技能的实时实施成果,用于检测城市中发现的与一辆主动驾驶视觉体系相关的车,人以及其他常见物体。

YOLO v3: An Incremental Improvement (Redmon et al. Apr 2018)

要害点检测和姿势估量

要害点被视为图画风趣或重要部分的特征。它们是图画中的空间方位或点,界说图画中风趣的内容或突出的内容。要害点之所以特别,是因为它使得跟踪修改后的图画中的相同要害点成为或许,其间图画或图画中的方针会发作旋转、收缩/胀大或变形。

姿势估量是计算机视觉中的一个普遍问题,其目的是检测物体的方位和方向。这通常意味着检测方针的要害点方位。这种技能能够用来创立一个十分准确的二维/三维模型,描绘方针要害点的方位,然后能够用来创立一个数字孪生兄弟。

例如,在姿势估量问题中,能够检测到常见的方形家居方针的角点,然后能够深入了解方针在环境中的三维方位。

Deep Object Pose Estimation for Semantic Robotic Grasping of Household Objects (Trembley et al. Sep 2018)

同样的方法也能够用于检测人体姿势,人体上的要害点如肩膀、肘部、手、膝盖和脚都会被检测到。

OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields (Cao et al. 18 Dec 2018)

语义切割

下一种技能称为语义切割(也称为方针掩蔽),它解决了计算机视觉范畴的一个要害问题:直观地别离图画中的物体。从大的图画上看,语义切割为彻底了解场景铺平了路途。这是十分有用的,因为它使计算机能够准确地辨认不同物体的鸿沟。场景了解作为一个计算机视觉的核心问题,其重要性在于从语义切割中所取得的知识使得越来越多的应用程序的健壮性得以进步。在下面所示的主动驾驶轿车示例中,它协助轿车辨认路途和其他物体的准确方位。

深度学习之语义切割(乔治·塞夫2018年9月)

下面提到的技能属于图画到图画转化的范畴。对于下面的技能,网络经过进步质量而不是提取见地或得出结论来增强图画和视频。

超分辨率:

此使命的方针是在一起进步细节级别的一起进步图画的分辨率。一个十分深的神经网络最近在图画超分辨率方面取得了巨大的成功。扩大倍数适用于2倍扩大,如下图所示。

超分辨率图画残留的密布网络(Zhang等人,2018日三月)

夜视

在弱光下成像是一项应战。短曝光图画会产生噪声,长曝光时间会导致动态模糊。后者通常也不切实践,尤其是对于手持拍摄。人们现已提出了各种去噪、去模糊和增强技能,但它们的效果在极点条件下是有限的,例如夜间高速拍摄。为了进步目前的规范,研究人员引入了一种根据深度网络端到端练习的低光图画处理技能。该网络直接使用原始传感器数据,替代了许多传统的图画处理技能。这能够在下面的图画中清楚地看到,暗噪声图画得到了明显的增强。

  • 凡本网注明"来源:智能制造网的所有作品,版权均属于智能制造网,转载请必须注明智能制造网,https://www.gkzhan.com。违反者本网将追究相关法律责任。
  • 本网转载并注明自其它来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
  • 如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

热门频道