人工智能的深度学习革命已经到来

《我看见的世界》作者：李飞飞

上一节，我们讲了李飞飞博士毕业后到大学任教，依旧在视觉研究领域孜孜以求。她与研究生邓嘉合作，在2009年创建了图像网(ImageNet)，团队收集了1500万张图片，涵盖了2.2万个不同类别，成为当时人工智能史上最大的人工编辑数据集。

然而，尽管凝聚万千心血，图像网问世后，并未像预期的那样受到关注，直到三年后，在第三次计算机视觉大赛中，它助力一种神经网络算法拔得头筹，才让业界见识到图像网的巨大力量。

开启深度学习革命

赶往大赛现场的那一夜，李飞飞百感交集，思绪翻滚不停，这次的获胜算法是一种神经网络算法，通过大型数据集的支持，它的识别准确率高达85%，比上一届比赛的算法冠军高出10个百分点，这种算法的识别率已经非常接近人类的水平，创造了计算机视觉领域的记录。

消息在业内迅速传播开来，图像网海量数据支持，使神经网络算法比过去更加复杂且强大，仅仅通过一次尝试，就达到了和人类能力相当的程度，这使得机器学习的热度与日俱增。

李飞飞和同事们开始受到越来越多的媒体采访，渐渐地，很多科研人员被科技产业吸引，一些人就此离开了学术界，前往硅谷发展。未来似乎提前几十年来到了，这个时代为这些优秀的科研工作者们提供了远远超越过去的待遇，有史以来第一次，计算机视觉专业的学生，不再把目标锁定在进入高校争夺少数几个教职的名额，而是加入了初创公司或者科技巨头，从学术领域转向了商界。

李飞飞说，那是他们的选择，他们的道路，自己的北极星仍在远方，自己的科学研究还远远没有结束。尽管花了数年的努力做成了图像网这个项目，但她明白，这仅仅是触及皮毛而已，只是向真正的视觉智能迈出了一小步，项目的成功远不是终点，而是新的起点。

这天，李飞飞开车去和一位朋友吃饭，她打开谷歌地图，找到这家店，又用街景模式看了几张店面照片，这样从车上就能认出它。一路上，李飞飞无时无刻不在观察着各种视觉细节，看着身边一辆辆车经过，她尝试通过车的品牌、外观，不断琢磨着车主的职业和可能的信息。

李飞飞想，从个人到社区，其实汽车可以反映出人群的很多信息。历来的社会普查也都想收集汽车保有量这一类的信息，但是聘请专业人员去绘制整个城市的汽车地图，不仅成本非常高，在中等规模以上的地区也很难实际操作。

那该怎么解决这些问题呢？有没有可能收集更大规模的地区汽车保有量资料呢？再进一步，能不能做到不只是分析汽车，而是能分析更多的事物呢？或者想得再远一点，如果能够获得并深入分析这些和日常生活相关的数据，是不是能勾画出更大的，与社会、文化甚至政治领域相关的信息呢？

李飞飞灵感乍现，如果利用谷歌街景，设计汽车识别算法，再进行更加细致的分类，是不是就可以实现这些想法呢？

谷歌的街景地图虽然主要目的是帮助导航，但毫无疑问，它展现出了关于世界的种种细节，树木、街灯、邮筒，当然还有各种汽车和型号。谷歌街景地图绝不仅仅是机器版的人眼，如果能把视觉敏锐度和百科全书式的信息深度结合，或许能从新的角度揭示这个世界。

李飞飞团队又忙碌了起来，他们开始了从“数据挖掘”到“数据应用”的尝试。先是精心挑选散布在互联网上的资料，不断扩充汽车模型的图片库。团队仔细搜索了一些知名的汽车交易市场网站，生成了包含2657种车型的训练图像集，几乎涵盖了2014年路上跑的所有车型，然后把图像导入构建好的最大、最精准的分类器中。他们计划以汽车为切入点，把汽车和车主的收入、教育、职业等方面的信息关联起来，从而探索更大的社会经济问题。

同时，团队利用大量的谷歌街景图像，在服务器里填充描绘整个美国纵横交错的街道、拐角、死胡同、十字路口和林荫大道的图片。大家的想法是，通过街景图像，追踪所有能追踪到的汽车型号，看看有什么发现。

当时，美国人口调查局每年都会在全国范围内开展社区调查，追踪全国各地的大量社会学信息。人口普查是数据宝库，但收集这些数据需要花费海量的时间和精力，团队希望，把人口普查的数据和这个项目采集到的事物关联起来，看看会产生怎样的结果。

李飞飞团队的谷歌街景汽车项目如期完成，收集到的数据深度也超过了大家的想象。团队的分类器处理了来自美国200多个城市的5000多万张图片，覆盖了近4万个选区。算法总共识别了2200多万辆汽车，几乎占了全美汽车总量的10%，发现了许多有意思的研究结果：

比如，通过城市轿车和皮卡所占的比例发现：当轿车比例较高时，这个城市88%的人可能投票给民主党。当皮卡车比例较高时，有82%的人可能投票给共和党。

再比如，研究显示，车主的种族和他们喜欢的汽车品牌之间具有极强的相关性，而这一结果几乎和美国社区调查得出的数据完全一致。

还有，根据汽车数据，可以对某个地区的平均教育水平和收入水平做出准确的预测，换句话说，仅仅通过观察街道上的汽车，计算机模型就能追踪社会经济和政治指标的波动，且这些预测的数据，和人口调查局用传统方法收集的数据惊人地相似。

当然，更重要的是，李飞飞团队这个谷歌街景汽车项目，采用的流程有很大潜力发展成一种速度快、可扩展、成本较低的调查方法，去替代传统的费时费力且成本高昂的人工调查方法。要知道，在美国，每年的人工调查费用超过2.5亿美元。

最终，团队关于这个项目的论文发表在了《美国国家科学院院刊》上，李飞飞很高兴，从技术层面来讲，她为这项工作感到骄傲，但更重要的是，这项工作揭示了一件很有意义的事：人工智能可以用全新的方式向我们展示世界。

人工智能还能做什么

2013年，李飞飞的母亲又一次病倒住院。这些年来，因为母亲的身体状况，李飞飞一家已经经历了太多次的深夜惊魂和死里逃生，在急诊室、重症监护室和手术室外面，度过了太多个不眠之夜。尽管心脏问题就像多米诺骨牌一样，引发了一系列病症，但母亲独特的坚韧从未改变，这次发烧虽然症状严重，但幸好没有危及生命。

李飞飞陪护在病床前，一边打开电脑埋头处理工作。不知什么时候，母亲醒了，她和女儿聊了几句，然后问了一个简单的问题：“飞飞，人工智能还能做哪些事来帮助别人呢？”

母亲这看似无心的一问，启发了李飞飞对智能医疗服务方面的研究。她和斯坦福大学医学院教授、医疗领域的传奇人物阿尼·米尔斯坦合作，共同探索如何把人工智能应用于病人护理。

项目启动前，阿尼·米尔斯坦教授邀请李飞飞一起参加了一个闭门演示活动，了解飞利浦公司正在开发的远程医院监控技术。

在医疗护理中，难免会有失误，比如感染、药物混淆、手术工具放错位置、老年患者摔倒，等等，这些失误会给病人造成持续的威胁甚至严重的后果。飞利浦公司研究统计，这些失误每年造成美国约10万起死亡事故，而其中大部分是完全可以避免的，所以，飞利浦开发了重症监护病房的远程监控解决方案，当时正处于概念验证阶段，在一些医院进行试点。

阿尼·米尔斯坦教授告诉李飞飞，医护人员已经尽最大努力关注每一位需要照顾的病人了，但即使他们夜以继日地工作，病人的大部分时间都是无人监控的。

经过讨论，两人决定开展一个小型研究项目，也就是从监控医护人员正确且及时洗手开始。洗手问题听起来很不起眼，却是医疗服务一直以来面对的严峻挑战。据美国疾病预防与控制中心估计，护理人员在每天的巡查过程中要洗上百次手，每换一个病人、换一项任务，就需要洗手，但随着轮班时间越来越久，压力和疲劳加重，一旦洗手不到位，就会导致病人感染的风险大大增加。斯坦福医院的管理层已经对洗手问题研究了一段时间，很多人都在期待一个好的解决方案。

阿尼·米尔斯坦教授和李飞飞的目标，是开发一种自动化技术，确保护理人员能够在医院里按照要求彻底洗手。这个解决方案有很多棘手的问题，需要计算机算法能识别洗手过程中的每一个步骤，比如，靠近洗手池，打开水龙头，使用肥皂，两只手在水龙头下揉搓，长时间冲洗双手等等，这些特定类型的动作，需要算法完成非常复杂的感知任务，这给李飞飞带来了又一次新的挑战。

花了近两年时间的研究，李飞飞终于组建了一支包括计算机科学、电子工程的研究生博士生，以及一批年轻医生的多元化团队，之后又加入了生物伦理专家、法学院博士以及传感器专家、网络安全专家等等，在大家的通力合作下，项目终于落地了。

这次成功让李飞飞认识到，如果只把人工智能当做一门独立的学科，就会错失它最大的潜力。如果让人工智能和其他领域相结合，并借助更多专业知识来推动，比如这次项目中涉及的医学、法学和伦理学等，人工智能就会释放出无限可能。

那么，在人工智能扑面而来的全新时代中，它的未来将会去向何处，人们对于它的蓬勃发展又进行了哪些思考与讨论呢？让我们下节继续。