《我看见的世界》作者:李飞飞
上一节,我们讲了李飞飞博士毕业后到大学任教,依旧在视觉研究领域孜孜以求。她与研究生邓嘉合作,在2009年创建了图像网(ImageNet),团队收集了1500万张图片,涵盖了2.2万个不同类别,成为当时人工智能史上最大的人工编辑数据集。
然而,尽管凝聚万千心血,图像网问世后,并未像预期的那样受到关注,直到三年后,在第三次计算机视觉大赛中,它助力一种神经网络算法拔得头筹,才让业界见识到图像网的巨大力量。
开启深度学习革命
赶往大赛现场的那一夜,李飞飞百感交集,思绪翻滚不停,这次的获胜算法是一种神经网络算法,通过大型数据集的支持,它的识别准确率高达85%,比上一届比赛的算法冠军高出10个百分点,这种算法的识别率已经非常接近人类的水平,创造了计算机视觉领域的记录。
消息在业内迅速传播开来,图像网海量数据支持,使神经网络算法比过去更加复杂且强大,仅仅通过一次尝试,就达到了和人类能力相当的程度,这使得机器学习的热度与日俱增。
李飞飞和同事们开始受到越来越多的媒体采访,渐渐地,很多科研人员被科技产业吸引,一些人就此离开了学术界,前往硅谷发展。未来似乎提前几十年来到了,这个时代为这些优秀的科研工作者们提供了远远超越过去的待遇,有史以来第一次,计算机视觉专业的学生,不再把目标锁定在进入高校争夺少数几个教职的名额,而是加入了初创公司或者科技巨头,从学术领域转向了商界。
李飞飞说,那是他们的选择,他们的道路,自己的北极星仍在远方,自己的科学研究还远远没有结束。尽管花了数年的努力做成了图像网这个项目,但她明白,这仅仅是触及皮毛而已,只是向真正的视觉智能迈出了一小步,项目的成功远不是终点,而是新的起点。
这天,李飞飞开车去和一位朋友吃饭,她打开谷歌地图,找到这家店,又用街景模式看了几张店面照片,这样从车上就能认出它。一路上,李飞飞无时无刻不在观察着各种视觉细节,看着身边一辆辆车经过,她尝试通过车的品牌、外观,不断琢磨着车主的职业和可能的信息。
李飞飞想,从个人到社区,其实汽车可以反映出人群的很多信息。历来的社会普查也都想收集汽车保有量这一类的信息,但是聘请专业人员去绘制整个城市的汽车地图,不仅成本非常高,在中等规模以上的地区也很难实际操作。
那该怎么解决这些问题呢?有没有可能收集更大规模的地区汽车保有量资料呢?再进一步,能不能做到不只是分析汽车,而是能分析更多的事物呢?或者想得再远一点,如果能够获得并深入分析这些和日常生活相关的数据,是不是能勾画出更大的,与社会、文化甚至政治领域相关的信息呢?
李飞飞灵感乍现,如果利用谷歌街景,设计汽车识别算法,再进行更加细致的分类,是不是就可以实现这些想法呢?
谷歌的街景地图虽然主要目的是帮助导航,但毫无疑问,它展现出了关于世界的种种细节,树木、街灯、邮筒,当然还有各种汽车和型号。谷歌街景地图绝不仅仅是机器版的人眼,如果能把视觉敏锐度和百科全书式的信息深度结合,或许能从新的角度揭示这个世界。
李飞飞团队又忙碌了起来,他们开始了从“数据挖掘”到“数据应用”的尝试。先是精心挑选散布在互联网上的资料,不断扩充汽车模型的图片库。团队仔细搜索了一些知名的汽车交易市场网站,生成了包含2657种车型的训练图像集,几乎涵盖了2014年路上跑的所有车型,然后把图像导入构建好的最大、最精准的分类器中。他们计划以汽车为切入点,把汽车和车主的收入、教育、职业等方面的信息关联起来,从而探索更大的社会经济问题。
同时,团队利用大量的谷歌街景图像,在服务器里填充描绘整个美国纵横交错的街道、拐角、死胡同、十字路口和林荫大道的图片。大家的想法是,通过街景图像,追踪所有能追踪到的汽车型号,看看有什么发现。
当时,美国人口调查局每年都会在全国范围内开展社区调查,追踪全国各地的大量社会学信息。人口普查是数据宝库,但收集这些数据需要花费海量的时间和精力,团队希望,把人口普查的数据和这个项目采集到的事物关联起来,看看会产生怎样的结果。
李飞飞团队的谷歌街景汽车项目如期完成,收集到的数据深度也超过了大家的想象。团队的分类器处理了来自美国200多个城市的5000多万张图片,覆盖了近4万个选区。算法总共识别了2200多万辆汽车,几乎占了全美汽车总量的10%,发现了许多有意思的研究结果:
比如,通过城市轿车和皮卡所占的比例发现:当轿车比例较高时,这个城市88%的人可能投票给民主党。当皮卡车比例较高时,有82%的人可能投票给共和党。
再比如,研究显示,车主的种族和他们喜欢的汽车品牌之间具有极强的相关性,而这一结果几乎和美国社区调查得出的数据完全一致。
还有,根据汽车数据,可以对某个地区的平均教育水平和收入水平做出准确的预测,换句话说,仅仅通过观察街道上的汽车,计算机模型就能追踪社会经济和政治指标的波动,且这些预测的数据,和人口调查局用传统方法收集的数据惊人地相似。
当然,更重要的是,李飞飞团队这个谷歌街景汽车项目,采用的流程有很大潜力发展成一种速度快、可扩展、成本较低的调查方法,去替代传统的费时费力且成本高昂的人工调查方法。要知道,在美国,每年的人工调查费用超过2.5亿美元。
最终,团队关于这个项目的论文发表在了《美国国家科学院院刊》上,李飞飞很高兴,从技术层面来讲,她为这项工作感到骄傲,但更重要的是,这项工作揭示了一件很有意义的事:人工智能可以用全新的方式向我们展示世界。
人工智能还能做什么
2013年,李飞飞的母亲又一次病倒住院。这些年来,因为母亲的身体状况,李飞飞一家已经经历了太多次的深夜惊魂和死里逃生,在急诊室、重症监护室和手术室外面,度过了太多个不眠之夜。尽管心脏问题就像多米诺骨牌一样,引发了一系列病症,但母亲独特的坚韧从未改变,这次发烧虽然症状严重,但幸好没有危及生命。
李飞飞陪护在病床前,一边打开电脑埋头处理工作。不知什么时候,母亲醒了,她和女儿聊了几句,然后问了一个简单的问题:“飞飞,人工智能还能做哪些事来帮助别人呢?”
母亲这看似无心的一问,启发了李飞飞对智能医疗服务方面的研究。她和斯坦福大学医学院教授、医疗领域的传奇人物阿尼·米尔斯坦合作,共同探索如何把人工智能应用于病人护理。
项目启动前,阿尼·米尔斯坦教授邀请李飞飞一起参加了一个闭门演示活动,了解飞利浦公司正在开发的远程医院监控技术。
在医疗护理中,难免会有失误,比如感染、药物混淆、手术工具放错位置、老年患者摔倒,等等,这些失误会给病人造成持续的威胁甚至严重的后果。飞利浦公司研究统计,这些失误每年造成美国约10万起死亡事故,而其中大部分是完全可以避免的,所以,飞利浦开发了重症监护病房的远程监控解决方案,当时正处于概念验证阶段,在一些医院进行试点。
阿尼·米尔斯坦教授告诉李飞飞,医护人员已经尽最大努力关注每一位需要照顾的病人了,但即使他们夜以继日地工作,病人的大部分时间都是无人监控的。
经过讨论,两人决定开展一个小型研究项目,也就是从监控医护人员正确且及时洗手开始。洗手问题听起来很不起眼,却是医疗服务一直以来面对的严峻挑战。据美国疾病预防与控制中心估计,护理人员在每天的巡查过程中要洗上百次手,每换一个病人、换一项任务,就需要洗手,但随着轮班时间越来越久,压力和疲劳加重,一旦洗手不到位,就会导致病人感染的风险大大增加。斯坦福医院的管理层已经对洗手问题研究了一段时间,很多人都在期待一个好的解决方案。
阿尼·米尔斯坦教授和李飞飞的目标,是开发一种自动化技术,确保护理人员能够在医院里按照要求彻底洗手。这个解决方案有很多棘手的问题,需要计算机算法能识别洗手过程中的每一个步骤,比如,靠近洗手池,打开水龙头,使用肥皂,两只手在水龙头下揉搓,长时间冲洗双手等等,这些特定类型的动作,需要算法完成非常复杂的感知任务,这给李飞飞带来了又一次新的挑战。
花了近两年时间的研究,李飞飞终于组建了一支包括计算机科学、电子工程的研究生博士生,以及一批年轻医生的多元化团队,之后又加入了生物伦理专家、法学院博士以及传感器专家、网络安全专家等等,在大家的通力合作下,项目终于落地了。
这次成功让李飞飞认识到,如果只把人工智能当做一门独立的学科,就会错失它最大的潜力。如果让人工智能和其他领域相结合,并借助更多专业知识来推动,比如这次项目中涉及的医学、法学和伦理学等,人工智能就会释放出无限可能。
那么,在人工智能扑面而来的全新时代中,它的未来将会去向何处,人们对于它的蓬勃发展又进行了哪些思考与讨论呢?让我们下节继续。