初识苏炜杰,他与许多青年学者一样,外表温文尔雅、略带腼腆,但一谈起学术和AI的未来发展,就充满激情。
看他的简历,成长经历一帆风顺:本科就读于富有盛誉的北京大学数学科学学院,接着在美国斯坦福大学攻读博士,师从美国国家科学院院士、麦克阿瑟天才奖得主EmmanuelCandès和美国国家科学院和工程院双院院士CynthiaDwork。紧接着跳过博士后阶段,执教于培养了埃隆·马斯克和沃伦·巴菲特的沃顿商学院,并联合指导常青藤名校宾夕法尼亚大学在机器学习领域的发展。
他的团队在机器学习优化算法、可信AI和高维数据分析等领域做出了许多原创甚至突破性的工作,部分成果已经应用于业界。但苏炜杰谦虚地说,和同一阶段的其他AI学者相比,他的论文数量算是少的。而事实是,他「相对较少」的工作已经让他赢得了NSFCareerAward、斯隆研究奖和SIAM数据科学青年奖等众多荣誉。能获得其中一个奖项已经堪称领域小牛,而苏炜杰获奖时的工作年限比平均还早两三年。显然,苏炜杰是以「质量取胜」。
他指导过的学生已经或即将执教于北京大学、罗切斯特大学和曼彻斯特大学等名校的计算机系,以及供职于Google和Facebook等硅谷大厂的研究部门。尽管离博士毕业只有5年多时间,但苏炜杰已经向「桃李满天下」的梦想迈进了一大步。
在这些成绩的背后,苏炜杰的研究经历是否一帆风顺?又有哪些故事值得有志于AI的学生借鉴?
1、田园的成长经历
尽管没有相关统计数据,但在农村长大的知名AI青年学者比例想必是极少的。而苏炜杰就是其中一员。
他谈起农村成长经历的话语中充满着快乐。苏炜杰从小就帮父母干农活,在夏天和秋天播种和收割水稻期间学校会放「农忙假」,这时候摸田螺和抓黄鳝是他的最爱。平时放学回家路上,苏炜杰要路过家里的两亩地,打开水渠给水稻灌溉。小学期间他家没有房子住,全家就暂住在村里废弃了的供销社老房子里。令他感到欣喜的是,这个老房子中间有块空地,他每天回家都能花很多时间种些花花草草。
在农村长大,几乎没有课业压力,苏炜杰有更多与自然亲近的机会。但这无法掩盖物质上匮乏的事实。相比于城区学校,苏炜杰就读的农村小学和初中教学资源要少很多,基础设施比较差。比如,他的初中操场没有米跑道,体育课练跳远时全校连个皮尺都没有,更没有机会接触计算机,甚至初一开始学英语时都是用汉字注音。因此周围的同学对读书改变命运普遍信心不足、学习兴趣也不大,经济条件较好的同学经常中途转学到城区学校。
现在,苏炜杰曾就读的这两所学校因为农村适龄人口减少等原因,都已经关闭。
还有机会上的匮乏。他没有读过幼儿园,本应该开始读小学时,因为教学资源不足,农村孩子必须晚一年上学,因此后来在高中和大学他一般都比同学年龄大一些。苏炜杰笑着提到还出现过有人以为他是复读生的误会。
在匮乏中的成长经历,让苏炜杰从小认识到生活的艰辛,特别珍视机会,感恩他人的帮助。
苏炜杰所在的农村隶属于宁波地区的余姚市,这是中国经济最发达的县级市之一,有着浓厚的经商创业氛围。特别是在农村,大家觉得得早点做生意赚钱更好,读书是一种性价比很低的人生选择。这也是江浙籍中科院院士自建国初比例持续下降的原因之一。
这些经历,大概率会让苏炜杰走一条不一样的道路。
2、在追求知识中走向「丰富」
改变苏炜杰人生走向的第一个节点是在小学五年级。那一年,他的母亲从村里培养出大专生的邻居那借了两本教科书,一本关于微积分,另一本关于线性代数。在强烈的好奇心趋势下,经过一年时间,他在没有人帮助的情况下读懂了这两本书。之后,初一时父亲带着他去宁波和杭州买了不少高等数学和热力学、量子力学、狭义相对论等物理书。浸润在远超他年龄的知识海洋中,苏炜杰当时真正看懂的不多,但对知识的渴求已经在他心中深深扎根。
诚然,书籍是治愈匮乏最好的疗法。苏炜杰开始经常骑很久的自行车去市图书馆,借阅数学物理天文地理等各种书籍。通过阅读《古今数学思想》和《为了人类心智的荣耀》等数学家传记,苏炜杰为高斯、欧拉、黎曼、庞加莱的事迹而激动,为拉马努金和爱多士等近代数学家的故事而倾倒。有一次,他想买价格多元的《中国大百科全书》精粹版,等了半年才向父母提出来。那次他把厚厚的一本书放在自行车后座,从新华书店回家,是他印象中最快乐的一次骑行。
知识的丰富,很快带来回报。从未接受过竞赛训练的苏炜杰,初二那年参加初三组数学竞赛获奖,收到城区一所初中的邀请转学。之后高中就读于家乡最好的余姚中学。从此虽然老家一直在农村,但苏炜杰的求学生涯永远告别了田园时光。
更大的回报很快接踵而至。高一第一学期,苏炜杰参加高三数学竞赛,「剑一出鞘」,就获得了省第六名,代表浙江省参加中国数学奥林匹克,这让这个质朴的农村男生兴奋得都不敢相信是真的。之后,苏炜杰去了杭州、福州等地参加培训,这也是他第一次真正意义上走出家乡余姚。跟来自全国各地的优秀同学交流过程中,他感受到了差距,特别是在见识和谈吐方面的不及,让当时的他对自己失去信心。
但最后苏炜杰在决赛中发挥出色,获得银牌,名列浙江省第二名,保送清华大学数理基科班。这是他家乡百万人口县级市第一次有高一学生保送清北,他还因此获得了「宁波市十佳学子」的称号,在家乡引起了轰动。苏炜杰至今在家乡仍有很高的知名度。
高三那年,苏炜杰再次代表浙江省参加中国数学奥林匹克,获得全国第二名,保送北京大学数学科学学院,并进入国家集训队。大多数集训队队员所在高中之前就有学长学姐进过国家队,而苏炜杰是其高中进入数学国家集训队的第一人,至今也是唯一一个。
因此,母校老师对他寄予厚望,希望他能成功进入IMO国家队,为余姚中学带来第一块学科竞赛国际金牌。但在集训队的最后两次选拔赛中,苏炜杰发挥不理想,一步之遥与国家队失之交臂。十多年过去了,他还对此略感遗憾,但不是因为个人荣誉的得失,而是因为辜负了高中母校的期望。
参加数学竞赛让这个农村男生获得了不敢想象的丰富机会,尽管也有不少失利,但这更让他珍视机会的来之不易。苏炜杰感到自己很幸运,因为这一路他并没有做任何规划,只是单纯地追随他内心对数学之美的热烈追求。
3、从数学梦到与AI结缘
在北大数院就读的四年时光里,匮乏随之远去,取而代之的是丰富的数学知识海洋。苏炜杰尽情地投入这场盛宴,不敢有一丝懈怠。他基本不玩游戏,每天就是跟在燕园第一周就在一起的女朋友、现在的妻子在图书馆自习中度过。
生活方面,北大给苏炜杰提供了助学金,加上他每年获得的最高奖学金,就可以完全承担学费和生活费。这份恩情他一直记在心里。
身处北大数院,就是与全国最优秀的同龄人共处一个集体。这种感觉是美妙的,有什么问题,跟同学一交流,马上就会豁然开朗,甚至意识到之前没有注意到的问题,而且还会有一点压力,这又会让你更加努力。
北大对苏炜杰的改变是多方面的,对他的思维方式打下深深的烙印。数学的思维是向深处探索的,直面真正有难度的问题,力求揭开事物的本质。苏炜杰日后的科研风格也正是如此,长期专注于若干重要且基本的问题,很少做推广别人的工作。
实现儿时数学梦近在咫尺,但随着大四出国申请季的到来,苏炜杰对未来产生了犹豫和陷入了抉择的困难。数学无与伦比的纯粹、简洁和普适性深深地吸引着他,而申请纯数学博士是成为一名数学家的必要条件,也是实现他数学梦的必经之路。同时,苏炜杰在北大数院的方向也正是基础数学,核心专业课平均分97分,名列年级第一,再加上他在丘成桐大学生数学竞赛的出色成绩,可以让他申请到最好的基础数学博士项目。
但此时的苏炜杰,随着年龄和阅历的增加,有了不一样的思考。
北大是综合性大学,他有机会选修机器学习、计算数学和统计等课程和参加相关讲座,还在林毅夫教授创办的国家发展研究院获得了经济学双学位。这些另一个维度的经历让苏炜杰了解到数学在其他领域的作用,可以帮助解决重要的实际问题。
另一个因素是苏炜杰在大三那年(年)暑假得到了在微软亚洲研究院实习的机会,此时机器学习方兴未艾,在微软亚研,苏炜杰了解到机器学习的前沿方向和应用,产生了浓厚的兴趣。当时大家还不怎么使用AI这个词,但回想起来,他对AI的初印象确是来自于这段实习经历。这段经历还让苏炜杰结交了很多计算机专业的同龄人,体会到了不同学科之间思考方式的差异。
图注:年夏天,苏炜杰(最左)在微软亚洲研究院实习
但让苏炜杰决心走一条不一样的路的最终决定因素是他的成长经历。农村的成长经历,让苏炜杰希望未来事业能跟业界更紧密些,有机会能改善父母的生活。经过一番思想斗争,最后放弃了纯数学作为个人事业。
苏炜杰后来选择了斯坦福大学统计系继续他的学术梦,就不再是狭义上的数学家。但他未来的学术风格、思考问题的方式以及学术情怀,从来没有离开过数学。
4、成熟于硅谷的AI学术风格
怀揣着对未来的憧憬,年苏炜杰飞跃大洋来到硅谷,在斯坦福最高博士生奖学金(StanfordGraduateFellowship)的支持下开启攻读博士之旅。苏炜杰所在的统计系有二十位不到的教授,但却有近十位是美国国家科学院院士,因此「院士只是平均水平」。系里的老师普遍在电子工程系、医学院、计算机系、数学系有正式职位,是名副其实的数据科学。
此时的斯坦福和附近的谷歌等公司还处在AI即将快速发展的前夜。这种多元和动态完美结合的环境让苏炜杰能深入接触机器学习和数据科学的前沿。
在斯坦福众多顶级学者中,他选择了EmmanuelCandès教授作为他的博士导师。Emmanuel是真正的天才,他曾获得麦克阿瑟天才奖等大奖,研究的内容横跨计算数学、机器学习、统计、信息论、信号处理和优化等众多领域,在很年轻的时候就当选为美国国家科学院院士。年,他还与陶哲轩一起获得了当年的「IEEEJackS.KilbySignalProcessingMedal」(信号处理领域最高荣誉)。
年,苏炜杰在微软研究院硅谷分部实习,导师是美国国家科学院和工程院双院院士CynthiaDwork。她是一位初见就觉得是「我的朋友」的老太太,早年在密码学和分布式计算做出了奠基性的工作,开启了工作量证明这个研究方向,为后来的区块链奠定了部分理论基础。近几年Cynthia领导了可信AI(特别是隐私数据保护和算法公平性)这个朝气蓬勃的领域,苏炜杰也在她的指导下进入了这个领域。从此,她一直给予苏炜杰学术上的指导和支持,是他实际意义上的导师。同时,Cynthia还是早期的一代女性计算机科学家,早年作为女性学习计算机需要克服诸多困难,苏炜杰联系到自身从农村走来也多有坎坷,因此很有共鸣。
图注:CynthiaDwork
这两位教授领域不同,但有相似的学术观点,共同塑造了苏炜杰今天的学术风格。这并不是说苏炜杰从Emmanuel和Cynthia处学到很多具体知识点,坦率地讲,作为北大数院的顶尖毕业生,他的知识储备在本科基本已经完成。但学术远远不止于知识的积累,更重要的是学术风格的建立,理解什么是好的学术。
首先,以解决问题为导向,而不因学科限制自己。Emmanuel当年与陶哲轩一起发明压缩感知(CompressedSensing)的时候,就是为了加速磁共振成像这个实际问题。这个工作兼具数学之美与实际之美,是非常罕见的。而在研究的过程中,他用到了信号处理、信息论、优化和统计等多个学科的思想和方法。Cynthia早年的领域是理论计算机,但近些年在开启隐私数据保护和算法公平性这些领域的时候深入引进了统计技术和社会学思想。
另一个很重要的一点是持久地做自己认为重要的课题。Emmanuel告诉苏炜杰,他基本不看arXiv上最新的论文,而是做自己认为重要的问题,且不轻易因为外界的声音改变。如果过于紧跟潮流,总是在模仿,很容易迷失在浩如烟海的论文海洋之中,研究的内容很难有自己的特色,且无法产生深远的影响力。Cynthia十多年前刚开启隐私数据保护这个领域时,领域内对此有不同声音,但经过十多年的持续耕耘,现在已经在业界广泛应用。
此外,要重质量而不是数量。苏炜杰回忆,Emmanuel好几次跟他说自己不应该写某些论文,希望从简历里删掉。当时苏炜杰还挺惊讶,因为这些论文的引用量也有数百。独立工作后他才明白,现在学术圈的问题是论文太多,但真正高质量的论文比例却不高。Emmanuel告诫他,一篇论文好不好,要看5年甚至10年以后是否还有参考价值。
这些言传身教让苏炜杰受益匪浅,体现在他做科研也不局限于某个具体学科,经常横跨机器学习、优化和统计等多个领域,以及习惯于持续地研究问题,注重「种树」而非「摘果」。「种树」的成功率固然不高,但这类工作一旦成功,往往能给本领域提供新的问题和机会。
因为带学生有压力,他也有一些纯粹只是为了发表而发表的论文,但他每年要求自己至少写一篇「5年以后还有人读」的论文。现在苏炜杰有40余篇论文,但他坦然说只有3、4篇是他真正喜欢的,具有长期价值。也正是这少量的几篇高质量论文,让苏炜杰赢得了众多荣誉,其成果已经在包括宾大、MIT、UCBerkeley、斯坦福、普林斯顿、耶鲁、北大、UCSD、UIUC等众多大学的数据科学和机器学习课程中讲授。有朋友跟他说:「未来可以写进教科书。」
除了学术,两位导师在生活上对苏炜杰也很关心。Emmanuel有着法国学者常见的高冷气质,但内心却很关心学生,每学期都会邀请学生去他家参加派对,有一次得知苏炜杰遇到经济困难后曾提出经济上的帮助。Cynthia则经常问苏炜杰工作开不开心,年她入职哈佛大学后,曾提到如果苏炜杰想来「波士顿的那两个学校」,随时跟她说。
5、丰收篇
年,苏炜杰博士毕业,论文获得了首届「斯坦福TheodoreAnderson奖」。在Emmanuel和Cynthia两位导师的推荐下,入职常青藤名校宾夕法尼亚大学,开始了在东海岸的独立工作。
图注:苏炜杰和他妻子与EmmanuelCandes的合影
怀揣着对AI的热情,以及深厚的数学情怀,苏炜杰开始迎来学术上的丰收。
苏炜杰的一个主要课题是揭开深度学习背后的机制,理解为什么深度神经网络有时候效果好、有时候不好。或许是因为数学背景出身,他除了重视提升效果,也强调「知其然,也要知其所以然」。
他对AI科技评论谈道:
有人说深度学习是「炼金术」。这对于人脸识别、下围棋甚至蛋白质折叠等也许没有特别大的影响,但对于高风险的AI应用却是至关重要的。最近DeepMind将深度强化学习应用到核聚变,结果令人兴奋,但在没有完全理解深度学习的机制之前,即使成功率达到99.99%,我们能承受最后变成一颗小型氢弹的0.01%的可能性吗?
这是一个重要且非常活跃的科研领域,但还没有一个理论获得学界广泛认可。经过多年思考,苏炜杰和他团队提出了一个深度神经网络的「局域弹性」(localelasticity)理论,给神经网络泛化、优化等性质提供了一个简单的唯象理论。
这个理论可以用一个很简单的例子来介绍:神经网络看到一张波斯猫的图片后更新了其参数,然后我们观察神经网络更新后在另一张图片上预测的改变。实验发现,改变的大小取决于新图片跟波斯猫的相似度:变化在暹罗猫上最大,在老虎上其次,在汽车上最小。形象地说,深度神经网络像橡皮泥一样有局部的弹性。
直觉上,苏炜杰相信这个唯象理论是通向最终理论的必经之路,但现在还不完善,还需要大量后续工作来深入研究。
相关论文:
TheLocalElasticityofNeuralNetworks
Neurashed:APhenomenologicalModelforImitatingDeepLearningTraining
苏炜杰认为数学理论还可以指导实际的AI问题。「ThereisNothingMorePracticalThanAGoodTheory」,一个好的理论价值的最直接体现在于能不能指导实际,节约人力物力。流体力学和空气动力学就是一个很好的例子,现在可以用仿真来替代真实的风洞试验。但AI领域很多方向还需要耗费巨大的人力物力来收集数据和训练模型,比如最近很热门的预训练大模型;另一个例子是自动驾驶,现在离实际的落地应用还有很长一段距离,需要逐个解决无数个"黑天鹅问题"。
学界在这个方向上的工作都还很初步,但苏炜杰团队最近的一个工作算是迈了一小步。这个工作发表在《美国国家科学院院刊》(PNAS),对深度神经网络进行了极大的简化,着重分析了特征与后继层参数在网络训练中的相互作用。
论文