心怀感恩、勤勉敬业;
朝乾夕惕、不负重托!
新财富恳请支持安信计算机团队第一名!
1.解密深度学习
1.1.人工智能的发展一直随同人工神经网络研究的进展而起伏
整个人工智能发展历史,几乎一直随同人工神经网络研究的进展而起起伏伏。近期引发人工智能新一轮热潮的深度学习,其名称中的“深度”某种意义上就是指人工神经网络的层数,深度学习本质上是基于多层人工神经网络的机器学习算法。
1.2.什么是人工神经网络
人类大脑神经的信息活动与目前的计算机相比有三个不同的特性:
第一,巨量并行和容错特性。人脑约有亿个神经元,神经元之间约有上万亿的突触连接,形成了迷宫般的网络连接,大量的神经元信息活动是同时进行的,而非目前计算机按照指令一条条执行。此外人脑的这种巨量并行特性也使得其具有极好的容错特性,坏掉一个晶体管就能毁掉一块微处理器,但是大脑的神经元每时每刻都在死亡。
第二,信息处理和存储单元结合在一起。目前计算机普遍采用冯洛伊曼架构,存储器和处理器分离,通过总线传递数据。随着处理的数据量海量地增长,总线有限的数据传输速率被称为“冯·诺依曼瓶颈”,严重影响计算机的计算效率和功耗,人脑信息处理和存储单元结合在一起,拥有极低的功耗(约20W左右)。
第三,自组织自学习功能。大脑在与外界互动的同时也会进行学习和改变,而不是像现在计算机遵循预设算法的固定路径和分支运行。
基于以上几点不同,人们一直尝试模仿人类大脑神经元的信息活动机制来设计算法:信号通过突触进入神经元细胞,神经细胞利用一种方式把所有从树突上突触进来的信号进行相加,如果全部信号的总和超过某个阀值,就会激发神经元细胞进入兴奋状态,这时就会有一个电信号通过轴突发送出去给其他神经细胞。如果信号总和没有达到阀值,神经细胞就不会兴奋起来,不会传递信号。
简单的人工神经元数学模型就是让每一个输入到神经元的信号加权求和,相加后如果超过设定的阈值,就输出“1”,没有就输出“0”。这样若干个最简单的神经元输入输出相连接,就构成了复杂的人工神经网络。
通过训练,人工神经网络能实现基本分类功能。比如输入一张狗的图片信号,假定输出1表明计算机判断这是一只狗。我们首先用标记过的狗的图片输入人工神经网络进行训练,如果输出的结果是0,就调节每个输入信号的权重等参数,使得输出为1,这样大量标记过的狗的图片训练后,人工神经网络就自己掌握了判断狗的特征,并且具备了泛化能力:我们输入一张它从未见过的狗的图片,它也能识别出来这是一只狗,输出1。
通过人工神经网络的原理探究我们可以总结以下结论:
1、人工神经网络算法能够从输入的大量数据中自发的总结出规律。人工神经网络算法与传统计算机软件不同,并不要人为的提取所需解决问题的特征或者总结规律。它能够从输入的大量数据中自发的总结出规律,自适应调整自身结构从而举一反三,泛化至从未见过的案例中;
2、人工神经网络最基本的单元功能是分类,所以在分类识别是最直接的应用。以百度为例,其深度学习应用包括搜索、用户画像、语音、图像四大方向,本质上都是实现的分类识别的功能。
3、人工神经网络从最基本的单元上模拟了人类大脑的结构和运行机制(虽然目前还是低级的模仿),理论上讲人脑能够实现的智能它应该也都能实现。数学上也证明了用3层以上人工神经网络模型,理论上可逼近任意函数。
1.3.深度学习迅猛发展的历史背景
深度学习名称的由来。人工神经网络算法在60年代曾经遭遇低谷,著名人工智能专家明斯基当时提出了人工神经网络的两个局限性:
1、单层的人工神经网络甚至连最简单的异或运算都无法实现;
2、多层更复杂的人工神经网络当时的计算能力却无法支撑。
20世纪90年代开始,随着处理器计算能力突飞猛进和云计算技术使得大量计算机并行计算成为可能后,限制大规模人工神经网络的计算能力瓶颈开始逐步消除。即便如此,主流机器学习界对于人工神经网络仍然兴趣寡然,一直坚持人工神经网络研究的加拿大多伦多大学教授、机器学习领域的泰斗GeoffreyHinton后来为了改变大众对于人工神经网络的长期的消极态度,干脆将其改名为深度学习(deeplearning),而其多层抽象的数据学习过程一定程度上借鉴了人类的视觉机制。
一篇论文引发新的浪潮。年,GeoffreyHinton和他的学生RuslanSalakhutdinov在国际顶级期刊《科学》上发表了一篇文章,被认为是深度学习取得突破的重要节点。这篇文章实质上一是讲明了深度学习在描述数据本质上广泛的应用前景,二是给出了多层深度神经网络的很好的训练方法,让大众充分认识到深度学习大规模应用的时代开始来临,开启了深度学习在学术界和工业界的浪潮。而GeoffreyHinton连同他的实验室DNNresearch很快被谷歌收购。
深度学习在谷歌各项业务中迅速应用效果惊人。在谷歌内部,深度学习从少数的产品组应用起步,一开始就取得了非常大的突破(首次应用到语音识别错误率就降低了30%),更多的团队开始采纳深度学习算法,目前谷歌内部使用深度学习的产品有:安卓、Apps、药品发现、Gmail、图片理解、地图、自然语言、图片、机器人、语音翻译等。全球著名的谷歌大脑其实质上就是一个大规模的人工神经网络,它实现了对谷歌各项业务的智力支撑。
优异的深度学习算法和人才、丰富的数据资源、强大的计算能力被认为是在深度学习领域取得突出成绩的三个条件,谷歌三者兼具,所以在引入深度学习后,谷歌率先取得全球瞩目的成就,更激发了整个产业界对于深度学习的追逐,从而开启了这一轮人工智能热潮。
1.4.深度学习技术为何引领这一轮人工智能的浪潮?
第一,深度学习首先直接应用于多个通用基础功能模块:语音,文字,搜索词,图片,视频,标签,实体,短语,音频特性等,能够在多个领域具备通用性。
第二,深度学习区别于传统机器学习算法,不需要人为提取数据特征的环节,具备非常简单的“端到端”训练特性,能够快速迁移到各个领域,因而具备极为广泛的应用空间;
第三,深度学习作为一种数据驱动的机器学习算法,其训练效果能够随着数据量的增长显著提升,在大数据时代将发挥更大的作用。
实质上人类很多智能或者技能都是先通过学习经验积累(即可抽象为大量数据训练的过程),再举一反三应用到其他领域(泛化至其他输入数据),这一点跟深度学习的基本功能非常类似,所以随着深度学习的进一步完善,人类诸多需依靠经验积累的能力都可以逐步依靠深度学习来实现。
2.深度学习的直接应用
2.1.语音识别
谷歌内部第一个部署深度神经网络的小组首先将深度学习引入语音识别领域,一开始的版本就把语音识别错误率降低了30%,国内的科大讯飞将深度学习引入,语音识别错误率近几年明显降低。
2.2.图像识别
2.2.1.深度学习推动计算机图像识别率大幅提升
ImageNet图片库有多万张图片,是计算机视觉领域最大的图片库,包含种不同分类,每一类有张图片。在深度神经网络使用之前,最好的识别错误率记录是26%,年Google错误率降低到6.66%取得冠*,到年错误率下降到3.46%,甚至低于人类的错误率(人类花了24小时训练后错误率是5.1%)。
2.2.2.计算机视觉已经成为最吸引投资的人工智能技术方向
根据艾瑞咨询统计,目前在人工智能领域,超过一半的技术类企业投资是在计算机视觉方面。
2.2.3.深度学习推动多个领域图像识别广泛应用
1、人脸识别领域:深度学习技术推动下,人脸识别可以实现任意脸部遮挡及视角下的实时检测,一次性克服了人脸检测中的几项难题:侧脸、半遮挡、模糊人脸,极大提升了各种现实情况中的人脸检出效果。同时可以识别性别、年龄、表情及多种脸部生理特征,不仅可以准确识别照片中人物的性别和年龄,也提供表情、颜值(美貌指数)、戴眼镜、化浓妆、涂口红、戴帽子、头发颜色、胡须样式等超过40种属性,平均准确率超过90%,年龄预测平均误差小于3岁。
2、视频监控领域:基于深度学习的行人检测算法能够在各类遮挡的情况下精确找出行人位置,并能够进一步分析行人姿态和动作,可应用于交通监控、辅助驾驶、无人驾驶等。可以在行车场景、交通监控场景、卡口场景中检测多种不同角度的车辆,并同时给出车牌号码、汽车品牌、型号、颜色等物理特征。
3、图像搜索、场景识别:可以实现语义驱动的互联网规模图像搜索及排序、拥有千类物体的集合上达到世界最高准确率的物体检测算法、可在上百类的室内外场景图像中识别显著场景元素,检测和识别在任何地点的任意文字。
4、图像及视频编辑:通过深度学习可以实现实时超分辨率重构、实时降低图像压缩噪声、基于内容的图像质量评价方法得到最美观的图片等功能。
5、移动互联网领域:利用深度学习技术,Faceu、微博相机、小米MIUI的人脸识别分类相册等移动互联网产品开始涌现。
2.3.搜索引擎
百度在世界上首次将深度学习引入搜索引擎之中,显著提升了搜素引擎的满意度,这也是迄今为止深度学习作用于自然语言最成功的例子。同时百度凤巢系统也首次将深度学习引入广告系统,显著提升了点击转化率。
谷歌在年10月份正式公开RankBrain这一引入了深度学习的人工智能搜索引擎算法,RainBrain已经成为搜索排序时第三大重要的指标,在搜索排序时其指标优先级超过了其他数百项指标。RankBrain是基于深度学习的人工智能算法,它在为用户挑选所需要的搜索答案时甚至拥有了近乎“直觉”式的准确。Google内部曾让做算法的工程师人工去猜测搜索算法会选择哪个页面作为排名第一的结果,其准确率为70%,然后RankBrain去做了同样的事情,准确率达到了80%。
2.4.邮件自动回复
Gmail组开发了一个系统能够去预测邮件回复的深度学习应用。第一步就是训练小量模型去预测如果消息是某一类的,怎么做简短回复。如果是一个更复杂的问题,则将消息作为一个序列,尝试预测序列的响应语。这样经过大量数据训练的人工神经网络就学会了自动回复消息。
2.5.机器翻译
近年来,随着深度学习的进展,机器翻译技术的到了进一步的发展,翻译质量得到快速提升,在口语等领域的翻译更加地道流畅。深度学习的技术核心是一个拥有海量结点(神经元)的深度神经网络,可以自动的从语料库中学习翻译知识。一种语言的句子被向量化之后,在网络中层层传递,转化为计算机可以“理解”的表示形式,再经过多层复杂的传导运算,生成另一种语言的译文。实现了“理解语言,生成译文”的翻译方式。广泛应用于机器翻译的是长短时记忆循环神经网络,很好地解决了自然语言句子向量化的难题,使得计算机对语言的处理不再停留在简单的字面匹配层面,而是进一步深入到语义理解的层面。
基于深度学习方法的翻译发展经历三个过程:
1)“编码-解码新框架”(NalKalchbrenner,PhilBlunsom,)
对源语言句子使用编码器(卷积神经网络)将其映射为一个连续、稠密的向量,然后再使用解码器(递归神经网络)将该向量转化为目标语言句子;其优势在于使用递归神经网络能够捕获全部历史信息和处理变长字符串,然而因为在训练递归神经网络时面临着“梯度消失”和“梯度爆炸”问题,所以长距离的依赖关系依旧难以得到真正处理。
2)引入长短期记忆(IlyaStuskever等,)
该架构中,无论是编码器还是解码器都使用了递归神经网络。同时,在生成目标语言词时,解码器不但考虑整个源语言句子的信息,还考虑已经生成的部分译文。该方法通过设置门开关解决了训练递归神经网络的问题,能够较好地捕获长距离依赖。此外,引入长短期记忆大大提高了端到端机器翻译的性能,取得了与传统统计机器翻译相当甚至更好的准确率。
3)基于注意力的端到端神经网络翻译(YoshuaBengio研究组,)
当解码器在生成单个目标语言词时,仅有小部分的源语言词是相关的,绝大多数源语言词都是无关的。因此为每个目标语言词动态生成源语言端的上下文向量,而不是采用表示整个源语言句子的定长向量能很好地提升翻译效率,这便是基于内容的注意力计算方法。
谷歌运用深度学习开发出一款自动翻译应用,能够将手机拍摄的图像中的文字自动翻译并且直接覆盖在原有图像之上。
2.6.杀*软件
百度近期推出了4.0杀*系统:慧眼引擎。这是百度杀*和百度深度学习研究院(IDL)共同研制的深度学习智能引擎。百度宣布这是全球首次将深度学习技术应用在客户端,独创了深度神经网络查杀技术。通过神经网络提供的大量已知在案的恶意软件训练,杀*就和识别人脸一样,逐渐学会自己识别病*。根据百度公布的第三方测试数据,慧眼在不依赖其他引擎辅助的情况下,误报率0.1‰,而在一个月不升级模型库的情况下,检出率也不会下降,检出能力半衰期长达7个月。
3.深度学习在视频行业的应用
视频因具有运动的图像、文本、音频、用户观看日志等复杂的时空信息,容易带动观者的情绪,是内容最丰富的媒体,在未来将成为信息表达和传播的主流。然而目前大部分视频都存在一些问题:第一、随着视频形成的规模增加,视频处理的任务也更加艰巨,信息传播的速度跟不上产生的速度。以爱奇艺为例,每天都有十几万的视频上传,如果通过人工的方法为这些视频进行审核、标注,那将花费巨大的人力,并且效率低下。另一方面,视频中的内容无法得到有效利用。视频网站虽累积了海量用户,但*金流量却难以规模变现。而大数据及深度学习的应用,可以分析视频序列中的信息,以达到理解视频内容的目的,为解决上述问题提供了新的视角。
3.1.视频的智能化处理
通过大数据和深度学习挖掘解析视频画面内容,从而实现视频的智能化处理,是提高视频生产效率的法宝。传统电视台对于节目的编辑、卡段以及审核全部是人工的,花费时间长,效率也低。而深度学习的应用会让整个过程迅速加快:对整个情节自动卡段,对所有的语义识别、字母的自动提取,对整个视频的审核变成全自动。每一个视频吸引用户的点击靠的是描述和截图。如何在每天巨量的视频里面自动选出最适合的截图,它是视频领域需要解决的问题。以前使用的是能量算法,选择变化最大或者说保真度最大的图片作为截图,而今融入视频识别和人脸识别,表达这个视频的截图将更加贴切。
视频的上传需要经历严格的*、暴检测,人工智能可以节省大量的人力。年3月全国“扫*打非”行动中,对百度云盘、微盘、云盘等云储存平台上的大量视频图像数据进行审核是一项重要且艰巨的任务,人工审核*色、暴力等信息会非常消耗时间和人力。通过基于深度学习的视频大数据技术,可以精准识别出这些平台的色情、暴恐、小广告等违规图片或视频,能帮助开发者团队降低运营风险和法律风险,节省大量审核人力。例如图普科技就是基于深度学习图像识别技术,推出图像识别云服务,为企业提供各种图片和视频审核、增值、搜索服务。
迅雷通过接入图普科技的图像识别云平台,超过98%的色情视频被机器过滤,复审量低于总量2%,节省了超过98%的人力成本。Viscovery创意引晴公司能够监测色情、暴力、反恐等违禁内容,适用网络直播、盗版内容监测等领域,能节省95%人力,进行高效分析。
3.2.深度学习开创新的商业模式:视频电商与新型广告植入
深度学习在视频大数据中可以实现广告与客户需求更加精准的匹配。目前庞大的视频大数据资源已经吸引了包括BAT在内的国内外顶尖视频网站。阿里与优酷土豆的边看边买,百度和爱奇艺的随视购,以及腾讯视频、搜狐视频,芒果TV都陆续开始在视频画面中植入广告。通过大数据挖掘自动分析视频中的画面内容,并自动在视频中产生信息、标签、商品等内容,一方面能够增加商品的点击率和销售,另一方面也可以实现更精确的广告精准匹配,增加广告投放,,最终实现将流量转换成营收的目标。同时还可以进行广告效果的监测,获得视频里面品牌曝光的次数、时长等。
优酷土豆斥资千万“衣+”:边看边买。优酷土豆斥资千万投资“衣+”,旨在大数据融合的背景下,打造个性化电商消费体验,致力从内容消费,到商品发现,到收藏购买完整消费链条的创建,最大程度提高消费转化率,实现“边看边买”的业务模式。基于海量数据的深度学习,能够检测视频或图像中的商品,并通过商品特征分析,准确判断商品类目。通过标注、打点、广告自动投放、搜索同款等方式完成广告精准投放和电商闭环。在传统的营销过程中,从消费意向培育到最终完成消费,中间要经历漫长的环节,并且伴随着风险,因为购买意愿很可能因为某些原因打消了。而在“边看边买”模式下,当消费者的购买意愿产生时,就能立即将其转化为购买决策,把“内容消费”和“购买决策”这两大原本具有先后顺序的环节,几乎同时完成,大大提高了转化率。
百度和爱奇艺:随视购。由百度和爱奇艺推出的广告产品—随视购,是基于深度学习的Videoout技术的全面使用,能够帮助识别用户观看的场景,从而针对性推送强关联的同款产品或相关定制化活动。让用户在对品牌有最旺盛需求的时候,直接实现品牌的深度曝光。基于深度学习的同类和同款物品检测,精准对接海量的商品标签,可以提高同类商品的展现机会和转化率。Videoout技术的执行逻辑就是:用深度学习去自动识别视频里的物体,自动把它和商品库里的商品对比,当匹配相似度高的时候,就自动给它打上标签,甚至在播放框右侧广告位弹出官方购买链接,帮助用户解决他的购物需求。
对视频的理解变成对视频内容的理解后,通过深度学习可以精确识别视频中出现的商品和人。识别出商品后,通过海量链接可以连接到相应的购买地点,让用户在看视频的时候直接购买。而识别出视频中的人,尤其是明星的情况下,甚至可以连接到相应的SNS,从而直接跟这个明星进行互动。
以浙江卫视《跑男4》为例,爱奇艺作为唯一一家连播四季《跑男》的视频平台,通过人工智能技术实现的“随视购”,在极短时间内便为携程旅行网、海飞丝带来超千万的展示量,大幅提升了购买转换率和广告主的品牌形象。这种无痕式的营销方式实现内容价值的裂变效应,将用户体验与商业价值充分融合,真正实现了平台、内容与商业价值间的多方共赢。
“Videoin”广告植入。以爱奇艺的Videoin为例,该技术可以在内容制作完毕后再将广告植入到视频中,类似于平面时代的Photoshop图片处理。“Videoin”为在拍摄完成的视频中进行内容二次合成,提供了一种技术解决方案,即能够将广告实体在后期处理中,自然植入到原有视频场景中。这意味着植入式广告将不再受影视拍摄周期限制,“Videoin”技术将使得植入广告售卖周期和内容生命周期等长。爱奇艺在自制剧《废柴兄弟2》中就利用Videoin技术增加了广告植入。剧中人正在讨论挂满整面墙的摄影作品,而原本挂在墙上的照片被替换成了加多宝的广告。
以往广告植入遇到的一个最大的问题是,在播出之前,很难知道这个节目或者电影、电视剧会不会火,广告商也拿不准,可一旦开始拍摄了,植入广告的商机就结束了。但Videoin这个技术能让谈赞助这件事放到后期去做,拍摄之前无需和广告商商谈广告投资,只要事先确定好哪些地方准备植入广告,把地方空出来,后期流量上去了,广告商感兴趣了,用技术做植入。
4.深度学习在医疗行业的应用
4.1.医疗行业数据处理要求远远超出人类个体信息处理能力
在医疗保健行业,数据量多样性和复杂性都在快速增长。一个癌症患者的基因组就相当于半个TB数据,这样的数据处理能力是任何一个医生都没有办法完成的。基于基因测序带来的大数据和日新月异的临床试验、疗法产生的数据洪流,远远超出了人类的个体信息处理能力。人工智能的自我调适和学习能力,处理人类自然语言的能力,以及提出并评估解决方案的能力,是医疗卫生领域的必然需求。
从IBM围绕沃森的并购来看,整合数据资源是实现人工智能在医疗行业应用的关键。IBM在年以来的并购案中,围绕医疗数据进行布局是其重中之重。
收购TruvenHealthAnalytics获得全面患者和临床医疗数据。年2月19日,IBM斥资26亿美元收购TruvenHealthAnalytics。TruvenHealthAnalytics是一家医疗保健数据与分析服务提供商,在临床数据处理方面有超过40年的经验。拥有家客户,其中包括美国联邦*府和州*府机构、雇主、医保、医院等,以及3亿病人数据。Truven的患者支付记录,包括有疾病类型、诊断、处方和治疗结果等各种细节。据悉,收购TruvenHealthAnalytics将使得IBM获得4PB医疗数据。目前在美国基于疗效的产品定价成为新的趋势,Truven发布的医疗和药物的疗效证明数据指标变得越加重要。
医疗影像是行业最大数据集,是深度学习最重要的训练“原料”。年8月7日,IBM以10亿美元收购医学图像软件公司MergeHealthcare,给沃森和分析部门带来医疗保健领域最大的数据集—图像。据IBM研究人员估计,CAT扫描图、X光照片和乳房X线照片这样的图像在当下所有的医疗数据中的占比高达90%左右。MergeHealthcare专门研究存储、查看和共享医学图像的软件,Merge基于云的解决方案让医生能够在任何地方、任何时间访问系统中的任何图像。有了大量的医疗影像图片数据训练系统,将不断提升沃森智能诊断医疗影像中包含的病症信息。此后,年3月,IBM收购了初创公司AlchemyAPI。AlchemyAPI能够利用深度学习人工智能,搜集企业、网站、广告主发行的图片、文字等信息,并做出相应的文本、数据分析,无疑将有利于沃森在医疗影像诊断识别的能力。
4.2.从IBM沃森系统在医疗行业的应用来看,深度学习主要体现在互动、发现和决策三个方面
1、互动能力
IBM沃森认知系统能够与人类进行对话,可根据病史来了解病患并将具体情境和基于证据的推理带到互动中。病患可借助认知系统进行对话,医生可轻松从系统获得病患信息,以便开展相应治疗。所有这些互动均可以自然语言进行,从而可简化流程。这部分的应用典型代表是虚拟护士。
Ssense.ly:虚拟护士
Sense.ly是一家提供医疗保健服务的初创企业,其为用户提供了一位私人助理,她的名字叫做Molly。这是一位专职的虚拟私人护士,可以充当医疗服务提供商与病人的接触点。用户可以通过她向背后的医疗服务机构提供信息,然后获得相关建议。Sense.ly的平台集成了医疗传感、远程医疗、语音识别、增强现实等技术。患者用户可以在PC、平板或智能手机上通过问答会话与Molly进行沟通来获得服务。用户所提供的信息会被Molly转交给IBM的Watson人工智能系统。如果Watson认为病人提供的信息不足以进行诊断,Sense.ly就会为病人安排与医生的远程视频会议。此外,平台还可以连接用于四肢的传感器,以便医生了解用户的运动等指标情况。据公司透露,在一项试点计划中,该平台把病人的来电率降低了28%,而医生的生产率则提升了20%。目前Sense.ly医院签约使用其服务,其大型付费客户数已达10家。
2、发现能力
医疗研究领域存在大量信息,IBM沃森通过加工大量医疗和病患信息可以允许医师将更多时间花在病患身上。认知解决方案能够通过快速分析所有相关临床研究的历史病患数据来更有效和及时地将病患与临床研究相匹配,这部分的行业应用包括医疗影像识别、药物研发等。
医疗影像识别是目前深度学习在医疗领域应用最广泛的领域。据统计,临床诊断的70%依靠医学影像。医学影像产业整体市场有着相当客观的需求规模。而在整个医疗检查费用中,影像检查的费用超过一半。一个影像医师大概每日需要检查的病人约个,而每个病人的扫描影像大概有-张。医生需要从每个人的众多影像滚动中找出最需要的,并对其中的病理因素进行观察诊断,按一个医生平均每日工作8小时来计算,每个病人的扫描影像处理时间仅为4.8分钟。在这样的速度下,要保持持续的极为细致的观察较为困难。而另一面,即使在高精度的医学影像中,早期的病理结构往往十分细微,很难以被发现。
高速的阅览、图像的巨量和细微的结构造成即使是医学影像专家,在诊断早期病理结构时,精确程度也往往不能令人满意。计算机辅助诊断CAD(