培养数位AI科学家,NLP国际最高奖项得主的科研之路

因佛科技 2024-06-08 15:55:23

作者 | 秦海龙

6 月 14 - 15 日 ArchSummit 全球架构师峰会·深圳,深度探索大模型时代软件架构最佳设计。

写在最前

李生,中国最早从事机器翻译研究的自然语言处理科学家之一。哈尔滨工业大学教授,博士生导师,中文信息学会会士,中国中文信息学会名誉理事长。曾任哈尔滨工业大学党委书记、中国中文信息学会第七届理事会理事长。多年来在自然语言处理领域培养了四十余名博士研究生,百余名硕士研究生。

李生教授是国际计算语言学会终身成就奖五十余年来的首位华人获得者,中国计算机学会自然语言处理专业委员会“杰出成就学者”奖获得者,中国中文信息学会终身成就奖获得者。他还是党的十六大代表、全国五一劳动奖章获得者。

上世纪六十年代,李生教授毕业于哈尔滨工业大学,师从中国计算机科学与工程奠基人之一陈光熙教授,他是中国人工智能领域的第一位博士候选人。

我母校哈尔滨工业大学的自然语言处理研究团队曾被誉为“世界上规模最大、人数最多的自然语言处理实验室”。同时哈工大也是中国最早从事人工智能、自然语言处理方向研究的高校之一。从上世纪五十年代最开始涉足机器翻译研究开始,学校一直在从事自然语言处理和语音处理中各个方向的研究。为中国人工智能中的自然语言处理领域培养了大量科学家和工程师。

李生教授是哈工大近 70 年来人工智能和自然语言处理发展的见证者。倍感荣幸的是,李生教授也是当年我博士论文答辩委员会的主席。虽然当初在学校的很多会议和活动上都接受过李老师的言传身教,但是这么多年都没有跟他单独交流的机会。

2024 年 4 月,我在北京拜访了李生教授,他向我讲述了学校以及他自己在人工智能研究领域的很多经历。他的讲述仿佛把我身临其境地带入了母校老一辈计算机科学家早年的科研场景。

就读大学心怀报国志向的数学学霸

1943 年,李生出生在黑龙江省兰西县一个农村家庭。1949 年新中国成立,也是这一年,李生就读初小,开始了他的学生生涯。1954 年,李生考入兰西县初级中学就读初中。三年后,他考入肇东市第一中学开始就读高中。

上世纪五十年代,国家大力推动“两弹一星”的研发。1960 年,李生参加高考,怀着报效国家的梦想,李生报考了哈尔滨工业大学核物理专业,并以优异的成绩顺利考取。其实他当时他也不太明白核物理究竟要学些什么,只是知道这是当时国家建设最需要的专业。

由于李生高考时数学成绩特别好,入学报到的时候,学校决定根据实际需要把他调剂到计算机专业。

李生老师回忆说,当时他根本不了解什么是计算机,作为农村出来的孩子,他用过算盘,见过计算器,可是计算机真的连见都没有见过。不过对于那个年代的年轻人,学习工作的志向就是到国家最需要的地方去。所以他接受了调剂,成为了计算机专业的本科生。

当时的哈工大跟清华大学、北京大学一样,本科都是五年学制。经过五年的学习,1965 年李生本科毕业,并留校任教。

早期科研参与大型电子计算机的研制

刚留校的时候,李生承担了系里的大量教学任务,其中包括讲课、批改作业、给学生答疑等。他讲授过包括计算机原理、Basic 语言、Fortran 语言在内的很多专业基础课和专业课。

从上世纪五十年代开始,中国的很多科研机构和工厂都在大批量研发和生产大型数字电子计算机。

1968 年,李生带领计算机专业 64 级学生参与 441C 计算机的调试工作,这是当时哈尔滨军事工程学院研制的晶体管计算机。

1970 年 -1974 年国家三线建设期间,李生随学校南迁到重庆市。在重庆,他曾在学校为部队办的计算机学习班授课,也曾与重庆钟表厂合作研制线切割机床(一种电加工机床,主要用于通过电火花放电来切割金属)。

1974 年,李生随学校重返哈尔滨,在学校搬迁办公室参与哈尔滨工业大学的重建。

1976 年,李生参与 DJS—11 型计算机的研制工作,由北京大学提供计算机研发的图纸和技术资料,哈尔滨电子仪器厂为主机总装厂,产品的交付标准参照北京大学电子仪器厂生产的 150 机。

1978 年,李生开始进行“区域性西文期刊机读联合目录”项目的研制。机读目录是一种可以利用计算机读取和处理的书目信息,这些信息可以被计算机自动识别并编辑,机读目录很大程度上方便了书目信息的查询和共享。

这个项目于 1986 年通过黑龙江省科技成果鉴定,这是李生第一个通过成果鉴定的科研项目,项目也获得了航天部科技进步三等奖。

1979 年,李生被评为黑龙江省优秀教师。

1983 年,李生开始跟随陈光熙教授攻读博士学位,他也成了中国和哈尔滨工业大学人工智能领域的第一个博士候选人。之后因为一些原因终止了博士学位的攻读。

李生教授与陈光熙教授

陈光熙教授是中国计算机工程学科奠基人,也是哈工大计算机学科的创始人。当时他们的研究方向是信息检索,那时候的信息检索也称为情报检索,就是在国外早期的数据存储磁带中查询数据,获取国外最新的科研工作进展,以确定专业接下来的研究方向。

其间,李生参与了陈光熙教授主持的“TDM 数据库机”的项目研制,数据库计算机是一种实现数据库存储、管理和控制的专用计算机。这个项目获得了航天部科技进步二等奖。

文献标引机器翻译的研究契机

哈尔滨工业大学和中国人民大学是苏联援建中国的两所高校。上世纪五十年代,有一批苏联专家到哈工大从事教学工作,带来了很多俄文资料。把俄文资料翻译成中文成了急需完成的工作。当时俄语系的王畛老师和计算机系的王开铸老师就开始了俄汉机器翻译的研究,这是哈工大最早期的机器翻译工作。

改革开放初期,中国的科学研究全面复苏,由于之前中国的大多技术和经验都是向苏联学习。这时全国很多高校都派出老师去欧美高校访问学习,哈工大计算机专业当时也派出了老师到美国学习,以便开展新的科研方向。

比如,王开铸老师去美国访问回来后开始从事俄汉题录翻译、自动文摘等方向的研究。题录是一种描述文献外部特征的条目,主要包括文献的题名、著者、出处等信息。俄汉题录翻译就是通过计算机自动把这些条目从俄文自动翻译成中文。自动文摘是通过计算机在一篇文章中自动提取出文章的摘要。这两个方向都是自然语言处理中的重要研究方向。

再比如,舒文豪老师在美国访问时师从国际模式识别创始人傅京孙教授,回国后开始了手写汉字识别的研究。

在同一时期,李生教授开始从事汉英机器翻译研究,正式开启了自然语言处理的学术生涯。

1984 年,李生晋升为副教授。

1985 年,李生教授的硕士研究生周明入学。李生教授为周明最初确定的研究方向为中文文献的主题词自动标引。自动标引,就是利用计算机从情报和文献中自动抽取检索标志。主题词自动标引,就是自动抽取可以代表情报和文献内容的关键词。这一年,李生 42 岁。

在北京,周明认识了中国科学院科学考察委员会的吴蔚天研究员(后来吴老师加入了中国软件技术公司语言工程部)。吴蔚天老师是理工科背景出身,特别喜欢自然语言处理。那时候吴老师也在做中文文献自动标引的工作。

吴蔚天老师提议周明考虑汉英机器翻译方向,他觉得英文的相关数据和工具都比中文多,要是有办法把中文翻译成英文,则英文中的自动标引、自动文摘等技术都可以直接应用,于是他提出了跟李生教授团队一起合作,通过汉英机器翻译进行自动标引的研究。

结果初步协商后,李生教授和周明再次来到北京,与吴蔚天老师签订了科研合作协议。双方也讨论了自动标引研究的初步研究思路:先将中文语句分词,然后依次判断每个词是否跟文献的主题有关联,有关联就保留下来,没有关联就弃用。这种思路被称为“有联系则取,无联系则断。”

相比中文,除了数据和工具比较多,英文自动标引工作还有其他优势。因为中文语句的词语之间没有明确的间隔符,而英文语句的词语之间是通过空格分隔的,分词容易很多。

李生、吴蔚天和周明进一步讨论决定,先把中文句子翻译成英文,然后选取英文句子中的主题词,再把主题词翻译回英文。

这样项目就确定了汉英翻译,接着确定主题词,最后再做英汉翻译的流程。

哈工大人的科研精神态度是务实和谨慎。李生教授意识到这个项目的工作量非常大,别说一个硕士生,就是一个博士生也很难完成,想要完成这个工作,需要一个科研团队。

为了逐步完成这个项目,周明的课题确定为汉英翻译,也就是整个中文文献标引的第一个环节。

1987 年起,李生任哈工大计算机系系主任。

1988 年,CEMT-I 汉英翻译系统开发完成,CEMT-I 系统利用了词法、语法、语义等语言学特征实现汉英翻译需求,实现了 300 多个汉语句子和题录的机器翻译。

同年,周明硕士毕业,开始攻读博士学位,由于李生教授当时还不是博士生导师,周明的博士导师为陈光熙教授,李生教授是他的实际指导教师,博士期间,周明继续汉英机器翻译的研究。

1989 年,CEMT-I 成为中国第一个通过技术鉴定的汉英机器翻译系统。

CEMT-I 汉英翻译系统鉴定会

继 CEMT-I 的成功开发之后,CEMT-II 和 CEMT-III 系统也陆续诞生。CEMT-II 解决了航天部 103 所军贸产品技术说明书的英汉翻译需求。CEMT-III 则实现了科技文章的英汉翻译,这个系统由李生教授团队与中国运载火箭技术研究院计算机应用研究所共同研制。1993 年,这个系统通过了国家鉴定,鉴定委员会主任为时任中国中文信息学会理事长陈力为院士。

1990 年,李生被评为计算机专业教授。

1991 年,周明博士毕业。在周明的博士论文答辩会上,李生教授邀请了清华大学的张钹教授和黄昌宁教授,以及国防科技大学的胡守仁教授。

现在来看,这场博士论文答辩会的专家阵容可谓相当豪华。张钹教授于 1995 年被评为中国科学院院士,黄昌宁教授也是中国最早从事自然语言处理的科学家之一,胡守仁教授曾经领导了中国第一台军用专用电子管计算机 901(331) 机的研制。

周明博士是李生教授指导的第一位博士,也是李生教授培养的第一位中国自然语言处理科学家。周明博士毕业后到清华大学从事博士后研究工作,后任清华大学副研究员。1999 年,他加入微软亚洲(中国)研究院,负责自然语言处理研究组,他在微软工作二十多年,直至微软亚洲研究院副院长。大模型时代,周明博士离开微软,创立了知名人工智能公司澜舟科技。

1992 年,李生教授被评为计算机专业博士研究生导师。

1993 年,李生教授获“国务院政府特殊津贴”。

同年,李生教授团队与清华大学、原航天工业总公司共同开发达雅翻译工作站。当时周明博士已经加入清华大学,并代表清华大学一方负责这个项目的工作。

达雅翻译工作站可以用于汉英和英汉的辅助机器翻译和辅助写作。这个项目成功的实现了翻译软件的商品化。项目连续三年在北京计算机产品交易会上展出。1997 年,该项目获得部级二等奖。

1994 年起,在国家 863 高技术研究发展计划的支持下,李生教授的团队开展了汉英 - 英汉双向机器翻译研究。先后开发了 BT863-I 和 BT863-II 双向机器翻译系统,实现了基于规则和基于统计的翻译方法混合的机器翻译策略。

基于规则的翻译方法,核心思想是根据语言的句法、语义等特征,写出翻译过程中的相关规则。基于统计的翻译方法,核心思想是利用统计和数学方法,计算出翻译过程中的相关策略和选择。

与微软合作中国互联网”黄埔军校“的缘起

1996 年,李生教授省获“黑龙江优秀中青年专家”称号。

1998 年,李生任哈尔滨工业大学党委书记。

这一年年末,微软在北京成立微软中国研究院。这是微软公司在美国境外开设的第二家基础科研机构,也是微软在美国境外规模最大的研究机构。

研究院刚成立的时候,在国内还没有那么高的认可度。虽然北京的高校很多,但是研究院并没有开展很多校企合作。

这个时候,周明博士已经在微软中国研究院工作。研究院希望在哈工大成立学生俱乐部,负责高校合作的马歆找到周明,希望他跟李生教授沟通,讨论研究院跟哈工大的合作事宜。

周明随即联系了导师李生教授,时任学校党委书记的李生同意与微软中国研究院开展合作。李生教授协调了学校的团委、学生会等相关部门进行对接。1999 年,微软中国研究院到哈工大举办宣讲活动,微软 - 哈工大学生俱乐部成立。与此同时,微软中国研究院与中国高校的合作也拉开帷幕。

2000 年,微软 - 哈工大机器翻译联合实验室成立,李生教授任实验室主任。研究院也先后委派黄昌宁教授、周明博士和马维英博士担任实验室微软方面的联合主任。

2001 年,微软中国研究院更名为微软亚洲研究院。

之后,微软亚洲研究院与中国很多其他顶尖高校也展开了学生培养和科学研究方面的合作,为中国互联网和人工智能行业培养了大量的优秀人才,被誉为中国互联网的“黄埔军校”。这些都开始于李生教授当初对待校企合作开放、包容的态度。

回到一线科研岗位获得计算语言学领域国际最高荣誉

2002 年,李生教授荣获“全国五一劳动奖章”。

2004 年,李生教授卸任学校党委书记,回到计算机学院继续从事教学科研工作。

同年开始,连续两届担任国家自然科学基金信息科学部专家评审组成员。

也是在这一年,微软 - 哈工大机器翻译联合实验室升级为“哈工大语言语音教育部 - 微软重点实验室”,李生教授继续担任重点实验室主任。

2008 年,李生主持国家自然科学基金重点项目“下一代信息检索”。

2011 年,李生担任中国文信息学会理事长。

2012 年,李生教授参加了由百度公司牵头的国家 863 重大项目“互联网语言翻译系统研制”。这个项目在 2015 年获得国家科技进步二等奖。

2015 年,李生教授获国际计算语言学学会(Association for Computational Linguistics,ACL)终身成就奖。这个奖项是国际计算语言学领域的最高荣誉。他也是这个奖项开设以来的首位华人获得者。曾经的获奖者包括 IDF(逆文档频率) 的提出者 Karen Spärck Jones 等学界泰斗。

Manning 教授为李生教授颁发国际计算语言学会终身成就奖

同一年,李生教授获中国中文信息学会终身成就奖。

2016 年起,李生教授担任中国中文信息学会名誉理事长。

2023 年,李生教授获中国计算机学会自然语言处理专业委员会"杰出成就学者"奖。

桃李天下为业界培养多位科学家的科学家

2015 年年末,哈尔滨工业大学机器智能与翻译研究室和社会计算与信息检索研究中心共同为李生教授举办执教 50 周年纪念活动。活动发布了一本纪念册,名为《春华秋实,桃李天下》。

五十多年来,李生教授培养了近 50 名博士生,百余名硕士生。

光是早年开发 CEMT 三个机器翻译系统的过程中就培养了中国自然语言处理领域的数位科学家。

其中包括澜舟科技的周明博士、哈尔滨工业大学的赵铁军教授和张民教授、百度 CTO 王海峰博士等。哈尔滨工业大学的刘挺教授也自从博士毕业后就开始加入李生教授团队从事研究工作。

其中周明和王海峰曾担任国际计算语言学会主席,他们二位也都曾当选国际计算语言学会会士(ACL Fellow)。

在学术界,李生教授还培养了北京语言大学的荀恩东教授、哈尔滨工业大学的杨沐昀教授、秦兵教授和车万翔教授等多位知名学者。

在工业界,他的弟子包括联想控股副总裁于浩博士、百度公司副总裁赵世奇博士等。

后记

在北京见到李生教授时,他对我说:“中国的人工智能是从机器翻译开始的,虽然早期的时候机器翻译还没有提升到人工智能的高度,不过这也是自然语言处理学者的一个骄傲。”

从学生的培养,到微软亚洲研究院在国内的首次合作,听李老师讲述几十年来的往事。其中的很多细节和李老师务实的精神让我特别感动。

一个多小时的交谈过程中,我能感受到李生老师早年科研过程中条件的艰苦,以及面对方向选择时的谨慎。五十多年来,从零开始到若干机器翻译系统的研制成功,李老师与他的学生们为中国的机器翻译研究做出了开拓性的贡献。

ACL 终身成就奖的获得,不仅是国际学术界对李生教授长期贡献的认可,也是对中国自然语言处理学术研究的认可。

个人电脑时代、互联网时代、大模型时代……时间滚滚向前,新的时代接踵而至,人工智能在人们生活中的比重越来越大,自然语言处理方向的研究价值也越来越高。

中国的自然语言处理研究正是源于几十年前李生教授这一批脚踏实地的学者。他们的工作为中国的自然语言处理事业打下坚实的基础。他们培养的学生是中国这一领域雄厚的人才资本。这些夯实的积累和持续传承的精神足以让我们对未来中国相关领域的发展充满信心。

作者简介:

秦海龙,香港科技大学社会科学部博士后研究员,中国中文信息学会社会媒体处理专业委会委员。主要研究方向为中国人工智能发展史、中国人工智能科学家口述史、计算社会学。博士毕业于哈尔滨工业大学社会计算与信息检索研究中心,前自然语言处理研发工程师,曾就职于小米科技和三角兽科技。

原文链接:

0 阅读:1

因佛科技

简介:感谢大家的关注