新闻资讯

腾讯“云+峰会”盛大召开 贾佳亚教授阐述计算机视觉奥秘

时间:2017年07月07日 来源:http://www.donews.com/news/detail/4/2957996.html 点击:

6月21日,由腾讯云主办、为期两天的2017“云+未来”峰会在深圳顺利开幕。在AI大数据专场会议中,腾讯优图杰出科学家贾佳亚发表了主题为“计算机视觉前沿与应用”的演讲,探讨和分享了计算机视觉领域的发展前景。这是继他在本次主峰会分享“视觉AI技术以及社会价值”后,又一次与众多行业大咖深度交流。


腾讯“云+峰会”盛大召开 贾佳亚教授阐述计算机视觉奥秘

腾讯优图实验室杰出科学家 贾佳亚


贾佳亚认为,新的视觉体验、识别和视觉内容计算是当下研究不可分割的三大方向。优图实验室在专注最前沿技术研发的同时,也将把技术的能力扩展到各个领域,让行业和客户接触和共享更有趣的技术应用。

以下为贾佳亚教授演讲的主要内容:  


腾讯“云+峰会”盛大召开 贾佳亚教授阐述计算机视觉奥秘

什么是计算机视觉?计算机视觉的研究目标是使计算机程序能够解读和理解图片,不仅是理解图片的颜色,而且是更高层地理解图片的语义及特征。人类大脑有约50%的视觉皮层,大脑分配给视觉处理的部分超过其他任何功能。计算机视觉是(AI领域中)最重要的研究方向之一,代表着信息的多样性和能够获到的可用信息。但正所谓知易行难,计算机视觉看上去很容易,但实现起来却非常困难。  

腾讯“云+峰会”盛大召开 贾佳亚教授阐述计算机视觉奥秘

计算机视觉主要包括三个打开方式,分别为:语义理解、识别、检测;不受想象力约束的神奇效果(即新视觉体验);固有需求的图像视频计算。


我们如何理解计算机视觉?在本届峰会上,贾佳亚结合实际案例介绍了计算机视觉的三个打开方式。    


腾讯“云+峰会”盛大召开 贾佳亚教授阐述计算机视觉奥秘

第一个打开方式:语义理解、识别、检测


国际图像识别领域里最出名的比赛由斯坦福大学教授发起,名叫IMAGENET。它彻底推翻原来的竞赛规则,整个数据库里包含超过14000万张图像,同时有超过2万多种类别。比赛中计算机通过100多万张图像训练来理解每张图像属于1000个类别中的某一个,这是一个庞大的匹配过程和检测过程。目前,通过深度学习不断提高识别的准确率,可以实现96%以上的图像识别正确率,远远高过人眼识别率。

(图像)检测已经逐渐成为计算机视觉研究领域的核心内容和重要应用方向。譬如,大家想象智能家居中的冰箱。当打开冰箱时,计算机可以通过算法对它进行检测,然后告知人们冰箱里的物品种类有多少库存。甚至如果库存不够,还会提醒人们去电商平台购买回来。这些有趣的应用,日后将通过检测可以实现。

而在最新研究方向上,通过分析到更加细颗粒度的图像识别,AI可以来推动智能驾驶、辅助驾驶、大规模城市建设的发展。尤其是在智能驾驶或者辅助驾驶环境中,颗粒度越精细越好,计算机视觉日后将在自动驾驶等新兴产业中得到应用。  

腾讯“云+峰会”盛大召开 贾佳亚教授阐述计算机视觉奥秘

第二个打开方式:新视觉效果

如今的AI技术已可自动产生非常有趣的效果,比如能够将自然场景变成铅笔画、水彩画、油画,甚至是各种抽象画法,且已可控。以往,企业可能需要让设计师、艺术家花较长的时间设计类似的场景。但现在只要接入这项技术的API或SDK,一秒钟就能得到同样,甚至更好的设计效果。

另一个例子,在工作中,当遇到需要画饼状图的场景时,会发现原本在PPT里呈现得很好看的图片,打印出来后却缺失了部分颜色细节。但是,通过算法可在29毫秒内实现图片效果的优化,以黑白的方式还原不同色彩的细节呈现。而这正是计算机视觉有趣的地方——永远可以产生大众想象不到的新效果。 

腾讯“云+峰会”盛大召开 贾佳亚教授阐述计算机视觉奥秘

第三个打开方式:固有需求的图像视频计算

当你跟领导站在台上拍了一张照片,或者你领奖时和朋友照了一张合影,结果照片较为模糊。这时候处境变得十分尴尬,因为你不可能再回到原来的场地再拍摄。此时,通过一个高级计算过程后便可将该图做去模糊处理,让重要的信息可以重构出来。

另外,关于强迫透视,可以让拍摄的图像或背景虚化,或前景凸显,甚至进行模糊区域的切换,把聚焦点放在别的地方。目前,一些厂商已使用这项技术来实现图片后期单反效果的增强。

随着计算机视觉的不断发展,新的内容会不断出现,计算机视觉应用也会成为生活的基本元素。所以在未来,需要人们担心的并不是视觉AI无法实现什么,而是计算机视觉将变得无所不能。