致联系报考我免试研究生的同学们
山世光
2012年8月23日(修订)
各位同学好: 首先,很高兴与你相识。每年具有免试推荐研究生资格的同学都很多,你联系了我,无论出于何种原因,都说明我们有了一份成为师生缘分的可能。但无奈的是,我通常每年都只能招收2名研究生(或直博生),而联系我的同学每年都超过40人(当然并非这些同学最终都会报我),所以,“选择”就成为我和你不得已的“共同选择”,之所以说“共同选择”,是因为这个过程本身就不是“我选择你”这么简单,而更多的也包括了“你对我的选择”。为了更好地让你了解我,并做出你“真实的选择”,我写下了这个文档。文档有点长,但我还是建议你认认真真的阅读此文, 相信会对你不无裨益的。 本文档内链接: 所在研究团队如果你最终成为我的研究生,那不仅仅意味着我们成为师生关系,也意味着你将要成为我所在的研究组的一员,所以,建议你首先仔细了解一下我隶属的研究组。 从行政关系隶属的角度,我是中国科学院计算技术研究所的研究员、博士生导师,并具体隶属于中国科学院智能信息处理重点实验室(IIP Lab)的视觉信息处理与学习研究组(VIPL)。IIP Lab这个重点实验室挂靠于中科院计算所,是计算所的两个院级重点实验室之一,而我多年来的密切合作者陈熙霖研究员目前是该重点实验室的主任,我目前为该实验室的副主任。而VIPL研究组目前除陈老师和我之外,还有三位副研究员(常虹、苗军、蒋树强)以及四位助理研究员(柴秀娟、王瑞平、王骐、秦磊)和多名博士后等。另外,高文院士仍然是VIPL研究组的客座研究员。VIPL的研究方向主要是数字媒体信息处理与理解,特别是智能人机交互界面技术、视音频编解码、视觉计算与识别、多媒体理解与检索等。 此外,我们这个研究组在逻辑上还隶属于我的博士生导师高文院士所创立的先进人机通信技术联合实验室(简称联合实验室、JDL),JDL是专门从事多媒体技术和智能人机交互技术等研究的机构,研发目标主要锁定在宽带网络多媒体系统中核心技术的研究,以及关键应用系统的开发。其主要研究人员分别来自中科院计算所数字媒体研究中心、中科院研究生院信息学院、北京大学数字媒体研究所、哈尔滨工业大学计算机学院、北京工业大学计算机学院、以及来自国内外其他高等院校和产业界的客座研究人员。 联合实验室的研究领域主要包括数字音视频编解码技术、基于内容的海量多媒体信息检索、人体生物特征检测与识别、智能人机交互技术、应用算法学等五个方向。联合实验室目前承担着国家“973”计划、国家自然科学基金、国家“863”计划、国家十一五科技支撑计划等多项研究课题以及多项国际合作项目。联合实验室经过几年的努力,取得了多项创新研究成果,已获得国家科技进步二等奖4项、国家技术发明二等奖1项,省部级奖励十余项。在国内外学术期刊、国际会议上发表了800余篇学术论文,获得发明专利授权40余项。联合实验室目前在人脸检测与识别、数字音视频编解码技术、基于内容的多媒体数据检索、多功能感知技术等方向上有较强的研究实力,特别在数字音视频编解码技术、人脸检测与识别技术、中国手语识别与合成等领域做出过多项原创性工作。 我的研究方向和发展历史在VIPL研究组和联合实验室的研究大框架下,我多年来的研究方向主要锁定于计算机视觉(CV)、模式识别(PR)、机器学习(ML)与智能人机交互界面(HCI)上。从计算机发展史的角度,“计算机人”追求的有“三高”即:高性能、高可靠性和高可用性。而我的研究更多的关注“高可用性”,即希望能够让计算机更smart,更好用。更好用的计算机当然最好可以象人一样能听、会看,甚至和知己一样善解人意,急人之所急。 上述是一个远大的研究目标,具体到我个人,我更多的希望能够赋予计算机象人一样的“视觉”能力,即:让计算机不仅仅有眼睛(摄像头),还有像人大脑中的视觉皮层区一样的视觉处理能力:能够判断“看到的”图像中各个空间位置到眼睛的距离、图像中有什么人或物体、在一个什么样的场景中、正在发生什么事情。这些功能对人来说轻而易举,对计算机来说“难于上青天”——至少现在看起来如此。 所以,上述研究目标其实也是一个极有挑战性而且十分有趣的科学理想。过去十多年来,我也只能实践其中的几个研究方向。具体的说,我从1997年本科毕业设计开始,就开始了坚持至今的一个研究方向:人脸识别。所谓人脸识别,即是:判断输入的数字图像或视频中是否有人脸,如果有,在哪里,有几个,分别是谁的脸。这个问题看起来简单,做起来难。国际科学界从上个世纪60年代就已经开始有人研究了,70年代就有了专门研究这个问题的博士论文,但到现在也没有得到很好的解决。到现在我已经对这个问题进行了15年的研究,取得了一些进展,例如我们提出的算法的性能在多个公开人脸库上都报告了发表时最好的性能,并分别与2004年和2006年获得了一个国内、一个国际人脸识别评测的第一名。但,还是有很多悬而未决的挑战性问题困扰着我们,使得人脸识别还不能全面的商业化。 看到这里,有些同学可能会觉得奇怪了:山老师做人脸识别这么多年,难道就不会做点别的吗?这个问题很深刻。 首先,人脸识别其实不是一个单独的研究课题,而是一个研究课题群,包括:1)人脸检测,即:判断图像或者视频中是不是有人脸,如果有,有几个,分别在哪里;2)面部特征提取,即:定位人脸上的主要器官的位置和形状;3)视频中的人脸跟踪,即在检测的基础上,逐帧快速定位其中的人脸;4)人脸识别,即:判断是谁的脸;5)人脸确认,即:判断捕捉到的人脸是否是用户宣称的那个人;6)人脸属性分析,即判断输入人脸的年龄、性别、种族等属性;7)人脸表情识别,即:识别出输入人脸的面部表情,从而推断其情绪状态;8)人脸的非真实感绘制,即:将输入的人脸图像自动的转化为卡通化、夸张的漫画,或者修改为像画家绘制出的素描或者油画一样的效果;9)人脸动画,即:直接驱动输入的人脸图像“活”起来,能说话,能做表情。或者也可以让其卡通化形象生动的“活”起来。细心的同学不难想到这些研究方向所具有的广泛而有趣的应用领域。 其次,我们的研究方向已经从人脸识别逐渐扩展到了行人的检测与跟踪、车辆检测与跟踪,并正在将扩展到面向下一代智能视频监控的动作识别、行为分析和异常事件识别上去。这一研究方向在视频监控中具有重要的研究价值。不难想象,如果计算机能够自动的判断监控视频中是否有异常行为或者事件会有多么巨大的应用价值! 再次,人脸识别于我而言,是一个研究课题,更多也是一个研究计算机视觉、模式识别与机器学习这几个学科中的基础性问题的“应用案例”,就好象大家通过做模拟题来掌握基本原理一样,在我和我的合作者做人脸识别的过程中,我们其实更多的通过将人脸识别中的问题“一般化”,以探讨这些学科领域的基础性前沿课题,例如:视觉建模的理论与方法、视觉特征的设计、判别特征的提取、数据降维、非线性数据分析、分类器设计等等。事实上,我们过去几年的很多研究论文都不是人脸识别相关的,而是基础性的方法。 最后,我想强调的是科研需要积累,不可能一蹴而就。冰冻三尺,非一日之寒。做研究也是一样,没有长期的积累,就不可能造就一个优秀的研究者,更不可能造就一个优秀的研究型团队。对人脸识别这样一个极有挑战性的研究课题,没有长期的积累是很难做出有真正创新性的工作的,相信这一点大家以后会有体会。即使是在研究了十余年之后,我们对其中的很多问题的理解甚至仍然存在一些偏差乃至错误——而据我所知,这种现象对很多研究者都是如此,即使他是这个领域的所谓“大牛”。 我们的科研理念与追求我和我们的团队矢志做国际一流的(应用)基础研究!这句话听起来很普通,但却是我个人实实在在的科研理想和追求。借这个机会跟大家聊聊我所理解的“国际一流”是什么样的水平。 首先,国际一流意味着要时刻牢记做真正的“破墙者”。“墙”指的是认识论中所谓的“已知世界”和“未知世界”之间的boundary,我认为,真正的科学研究应该是打破这个boundary,或者把这个boundary从已知世界不断推进到未知世界的过程。设想这样一个场景:全世界的人都还在墙的这一边,只有你一个人已经破墙而入,进入了之前的人们未知的领域,那将是多么美妙的景象、多么令人激动的时刻啊!做研究的最高乐趣也就在这里了。当然,我们要破的墙和牛顿、爱因斯坦这样的大师级科学家们破过的墙肯定是很不同的。我们矢志要破的墙主要是计算机视觉和模式识别相关领域的一些基础性问题:如何赋予计算机与人类视觉系统一样强大的视觉信息处理能力? 实际上,要做“真正的”破墙者并不像想起来那么容易。实际上,很多研究人员破的是“假墙”。究其原因,是因为其没有真正深刻的理解其所在领域的state of the art——这个词汇大家以后应该会经常遇到,其含义根据英文不难理解,就是指一个领域的“当前状态”或者说“最高水平”,也就是所谓的“墙”。很多研究者会由于调研不足或者其他的原因,没有搞清楚本领域的state of the art,结果就会做了很多自以为是的“破墙”行为:以为自己解决了一个什么问题、提出了什么新方法或者取得了最好的性能。殊不知,这些问题、方法或者结果对领域同行来说可能已经是众所周知的“已知世界”,或者已经被一些领域同行抢先一步打破了这堵墙。 所以,简单地说,真正的国际一流就像百米赛场一样,需要不断打破已有的世界纪录(the state of the art),创造属于我们的新纪录! 其次,国际一流的外在表现是在领域顶级国际期刊和顶级国际会议上持续发表高水平的学术论文。破墙而入的你并不会自动被别的同行所认可,道理很简单,别人并不知道你已经在里面欣赏风景了!所以,必须要在合适的场合、以合适的方式将你破墙而入的经过和所看到的风景汇报给国际同行。最主要的场合和方式就是要发表论文,特别是在领域顶级国际期刊和顶级国际会议上发表论文。为什么要强调是“顶级”和“国际”?打个比方:一个企业开发了一个新产品,觉得特别好,要投放产品广告,选择在某省某县的一个地方电视台做广告和选择在中央电视台做广告,其影响力是否相同?显然会有天壤之别!科学共同体为了维持科学的进步,经过数百年的摸索,逐渐建立和完善了一整套学术交流体系。最重要的那就是以单盲乃至双盲的同行评议审稿体系支持的学术会议和期刊论文发表制度。为了给研究人员发表论文的机会,一些专业学术出版机构承办了诸多学术会议和期刊,其影响力和参与程度也有很大差别,甚至可以说良莠不齐。所以,就出现了所谓“顶级”的说法,一般来说,我们只关注本领域最好的3~5个国际会议和本领域最好的5~10个国际期刊,通俗地说就是牛会和牛期刊,其原因很简单,这些会议和期刊论文是最值得关注的,也是会被最多的人所阅读和关注的。 具体到我们所涉及的CV/PR领域,我们认为最牛的会是ICCV, CVPR, NIPS和ECCV,而最牛的国际期刊则包括IEEE Trans. on Pattern Analysis and Machine Intelligence (简称T PAMI)、International Journal of Computer Vision (IJCV), IEEE Trans. on Image Processing (T IP), Pattern Recognition (PR)等。这些会议和部分期刊大概在5-10年前,我们中国大陆的学者(不包括外企研究院)每年发表的文章数差不多都是个位数。最近几年来才逐渐多起来,其中我们课题组已经成为一只重要力量, 2005年至今开始,我们课题组已经在这些会议和期刊上总共发表了30余篇文章,从而在国际上树立了良好的形象。这样良好的文章发表记录应该也是我们组毕业的博士都能找到不错的职位的重要原因,所谓一个成功的团队没有失败的个人! 最后,也是最重要的,国际一流意味着必须追求科研工作的实质影响力(impact)。上面提到的“顶级会议和期刊”论文的数量固然重要,但数量并非本质因素。对我们来说,“顶级会议和期刊”论文,从无到有,从少到多,的确是一个很大的进步,但我们更多追求的是“实质影响力”。实质影响力最重要的衡量指标则是论文被国际同行正面引用的次数,可以说,这一数目在很大程度上反应了论文在同行眼中的分量。试想,你发表的一篇论文10年后被国际同行引用了数千次,那是多么令人骄傲的一件事情啊!而且,一般来说,一篇有高引用率的论文通常会在数年后成为经典教科书中的内容,那就更值得庆贺了,因为这意味着你的论文已经真正成为“人类知识宝库”中的一个知识点而被更多的人所熟知甚至采纳和使用。 当然,论文被引用需要时间的积累,不是在发表的时刻就可以判断的,但是按照一般规律,在领域顶级会议和期刊上的论文会有更多的人关注,通常会有更高的引用率,这一点不难理解。而大量发表在三流会议和期刊上的论文被引用的次数通常都非常少,甚至有很大比例从来不会被引用,这样的文章即是所谓的“垃圾论文”。垃圾文章对一个真正严肃的研究者和其研究团队来说是百害无一利的事,会大大影响其学术声望。 如果说论文引用率代表了科研工作的学术价值和理论意义,实用性则是研究成果的另一个重要的评价要素。这一点对于计算机科学与技术领域尤其重要,因为计算机本质上还是属于工学,必须强调其应用价值,看其是否真的具有实际的或者潜在的应用需求。至少我们这个团队不欣赏在计算机应用技术领域做纯粹的数学或者文字游戏。所以,在过去数年来,我们与近十家国际企业(包括NEC,松下,诺基亚,三星,高通,微软以及国内的华为,百度和银晨科技等公司)建立了合作,把我们的多项技术成功输出到了企业进行应用。 总之,做国际一流的应用基础研究是我们这个团队始终不渝的追求,为此我们尽了最大努力创造能够支持这样的崇高追求的学术氛围,在研究生的日常管理中,我们时刻宣扬着这样的崇高理念。 什么样的人不适合加入本研究团队我想请联系报考我的研究生们严肃的思考这样一个问题:“我是否适合加入中科院计算所视觉信息处理与学习研究组?”。为了帮助你思考这个问题,我首先告诉大家什么样的同学不适合加入我们这个团队: (1) 对科研没有兴趣、对计算机视觉和模式识别领域没有热情的同学。 (2) 纯粹为了文凭和学位的同学。 (3) 博士毕业以后不想继续从事科学研究工作的同学请慎重报考本课题组。 (4) 对数学很怵的同学。 (5) 对自己的英文阅读和中英文写作能力没有信心的同学。 (6) 思想不够成熟的同学。
总之,我想请你们考虑清楚一个问题:我是否真的对做研究有兴趣?是否真的想做研究?
我之所以强调“真的”,是因为根据我的了解,由于你们目前心理上尚未完全成熟,大多数同学都没有想清楚什么叫真的有兴趣,也没有想清楚做研究意味着什么。请你想一想,在你读博士的这6年左右的时间里会发生什么。你的本科甚至硕士研究生同学毕业几年后,可能已经有了不错的物质生活,开始穿名牌衣服,用名牌产品,甚至开始买车买房结婚生子。而你自己却还在“苦读”,来自家庭、朋友的现实压力逐渐增多。那么在这种情况下,你是否还愿意坚持自己的兴趣?坚持做研究?这才是关键。所谓“有所得必有所失”,为了研究,为了兴趣,就意味着我们必须舍弃一些东西,或者至少是暂时舍弃一些东西。你愿意暂时舍弃吗?如果不愿意,那恐怕就不是真的感兴趣、不是真的想做研究。如果是这样,那请你务必尽早选择其他老师——否则即使你被录取了,也意味着你可能在人生最美好的岁月里,度过了“很不快乐的5年”,太不值得了!! 加入本研究团队你会收获什么我希望招收的研究生可以成为我“志同道合的双赢合作者”。所谓“志同道合”,就是至少要在未来的5~6年内坚定不移地欣赏并愿意实践我前面所说的科研理念和追求,愿意在我的指导下,一起去做国际一流的研究。为了解释所谓的“双赢”,我在这里列举一下如果你用心做科研会有什么样的收获。 (1) 你会逐渐成长为CV/PR领域成熟的研究者。 (2) 你将学到做人做事做学问之“道”。 (3) 你会得到相应的“资助”完成你的学业。 (4) 你会得到维持自己基本生活的研究生津贴。 (5) 你将获得参加国际会议或出国交流的机会。 (6) 你最终会获得梦寐以求的、货真价实的博士学位。 (7) 你将获得不错的推荐工作的机会。 关于面试和竞争情况很多同学在和我联系的时候,都会问:老师您觉得我的情况是否有希望被您录取?这个问题的答案受到如下几个因素的影响。 第一,关于竞争程度。就过去几年的经验来看,每年联系报考我的同学都比较多。以2009年为例,我大体统计了一下,跟我联系过的同学已超过50人,当然,这并不意味着所有这些同学最后都会在网络报名系统上报我,但差不多都会有20人左右填报我。所以,总体来说,竞争还比较激烈。好消息是:第一,我们课题组的几位老师每年都会统一安排招生(统一面试和打分,最后按照总排名录取),所以,如果报其他老师的同学比较少,我们会在课题组内几个导师之间进行调剂,这样总体的录取率会更高一点;第二,不少同学会因为 “毕业时间较长、不能认同我的理念或者害怕竞争和挑战”而自己选择退出。 第二,关于我最看重什么素质。我最看重是候选人是否真的在理念上认同我的观点,特别是你是否真的对研究、对视觉模式分析与识别感兴趣,是否真的愿意发挥你十二倍的热忱去研究它并不计较其他的暂时得失。当然,数学(特别是高等数学、线性代数、概率论与统计)、中英文表达和编程熟练程度则是我最关注的基础能力。 第三,关于排名。你没有必要一定是在前1%以内,但10%以内是必要条件,最好是5%以内。 第四,关于竞赛和项目经历。对我个人,有无均可,不是必要条件。但如果有,我会很感兴趣了解你在其中做了什么。 第五,关于面试。多年来,我们课题组都是实行集体面试制度,即由5位左右的老师集体进行面试打分,并结合笔试和机考成绩,做最后的总排名。面试的通常流程是首先由候选人做5分钟自我介绍,请大家提前准备PPT发给我们的招生秘书王晓彪老师([email protected]),提醒大家在PPT中重点介绍自己的亮点,而且请一定不要超时。否则后面留给你的面谈时间(一般15分钟左右)就会被压缩掉。 第六,关于笔试。笔试通常2-3个小时,主要考察数学基础,内容涵盖高数、概率、统计、线性代数等数学课程,还有中英文表达(如写作或改错)。 第七,关于机考。机考时间1小时,通常有5-10道题目,需要在Visual C++环境下编写并调试通过,并能够对测试样例输出正确的结果。 第八,关于预筛选。由于报名人数较多,我们一般会根据大家提供的材料的情况,对报名的同学进行预筛选,通过预筛选的同学方可参加面试。我们会通过发邮件等方式通知大家是否通过了预筛选。 最后,预祝大家成功! 山世光 初稿成于2009年9月,2012年8月23日修订。 |
from: http://www.jdl.ac.cn/user/sgshan/tostudents.htm