近日加拿大皇家科學(xué)院公布了新當(dāng)選的一批院士名單,其中 CCF-GAIR 2018 的講者、加拿大 Simon Fraser 大學(xué)計(jì)算科學(xué)學(xué)院教授裴健入選,是本次當(dāng)選的四位計(jì)算機(jī)學(xué)科院士之一。
借此,左林右貍頻道八一八新科院士裴健以及在數(shù)據(jù)挖掘領(lǐng)域的諸多華人之光。這也是《中國人工智能簡(jiǎn)史》的系列劇透之一,是的,大叔在沸騰新十年的同時(shí)也在與岑峰共同創(chuàng)作《中國人工智能簡(jiǎn)史》,創(chuàng)作完結(jié)時(shí)間節(jié)點(diǎn)大約在冬季,出版時(shí)間應(yīng)該在明年春天。
左林大叔與裴健的結(jié)緣始于 2017 年,從 2016 年起,雷鋒網(wǎng)積極參與了十余個(gè)國際頂級(jí) AI 學(xué)術(shù)會(huì)議的報(bào)道,其中包括在加拿大哈利法克斯召開的 SIGKDD 2017。就在 SIGKDD 大會(huì)前,裴健履新成為 SIGKDD 的主席,我們對(duì)裴健也進(jìn)行了專訪,也就是在這屆大會(huì)上,雷鋒網(wǎng)向裴健介紹了我們與 CCF 聯(lián)合舉辦的 CCF-GAIR 大會(huì)并邀請(qǐng)他來做演講,裴健欣然應(yīng)允。
在 2018 年的 CCF-GAIR 大會(huì)上,履新京東副總裁的裴健結(jié)合在企業(yè)界的實(shí)踐做了題為《智慧供應(yīng)鏈》的演講,分享了智慧供應(yīng)鏈帶動(dòng)制造和流通行業(yè)降本增效的心得,是大會(huì)最受歡迎的演講者之一。
2017 年 KDD 大會(huì)上,裴健正式就任 SIGKDD 主席,右為前任主席劉兵
裴健當(dāng)選加拿大皇家科學(xué)院院士可謂華人數(shù)據(jù)挖掘領(lǐng)域的一件大事。數(shù)據(jù)挖掘的概念最初在 1995 年提出,相對(duì)于計(jì)算機(jī)科學(xué)的其它學(xué)科,數(shù)據(jù)挖掘?qū)儆诮陙聿诺靡匝杆侔l(fā)展的一個(gè)方向,此前在 2004 年,吳建福教授作為第一位統(tǒng)計(jì)學(xué)者當(dāng)選美國國家工程院院士,也是華人統(tǒng)計(jì)學(xué)者當(dāng)選主流國家院士第一人。
而此后真正因?yàn)閿?shù)據(jù)挖掘成就當(dāng)選院士的研究者屈指可數(shù),在左林大叔的印象中,在華人中只有清華校友、英國帝國理工學(xué)院數(shù)據(jù)研究所所長郭毅可 2018 年當(dāng)選英國皇家工程院院士,不過工程院院士更多反映的是在工程項(xiàng)目上的能力,而科學(xué)院院士的評(píng)選更為注重學(xué)術(shù)研究能力,以裴健在數(shù)據(jù)科學(xué)的影響力來看可謂實(shí)至名歸。
多說一句,雷鋒網(wǎng)的另一位老朋友也是 CCF-GAIR 2019 的講者鄧力是加拿大工程院的院士(加拿大工程院與皇家科學(xué)院的異同大抵與中國工程院和科學(xué)院的異同差不離),鄧力在深圳期間也給我們講述了當(dāng)年他與陸奇、余凱的交往故事,以及微軟百度谷歌三家爭(zhēng)奪 Hinton 團(tuán)隊(duì)的江湖軼事,十分精彩,我們也會(huì)在《中國人工智能簡(jiǎn)史》里一一呈現(xiàn)。
加拿大工程院院士鄧力在CCF-GAIR 2019大會(huì)上
加拿大工程院院士鄧力在CCF-GAIR 2019大會(huì)上
回來八裴健,在左林大叔看來,裴健成為數(shù)據(jù)挖掘領(lǐng)域當(dāng)之無愧的領(lǐng)軍人物的原因在于他的全面性:學(xué)術(shù)方面,他發(fā)表了 200 余篇論文,被引用 8 萬多次,并因在 Frequent Patterns 的相關(guān)研究獲得了 SIGKDD 2017 的創(chuàng)新獎(jiǎng)(Innovation Award),是第三位獲得該獎(jiǎng)項(xiàng)的華人,在他之前獲得過該獎(jiǎng)項(xiàng)的兩人分別是韓家煒(2004)和俞士綸(Philips S. Yu,2016)。
他還是第三位獲得 KDD 卓越服務(wù)獎(jiǎng)的華人,在2015年他獲獎(jiǎng)之前,獲得該獎(jiǎng)項(xiàng)的華人包括清華的吳信東(2005)、Ying Li(2012);他是第二個(gè)擔(dān)任 SIGKDD 主席的華人,此前擔(dān)任過該職位的華人是伊利諾伊大學(xué)的劉兵(記得裴健在 2017 年的專訪也提到劉兵對(duì)其的耳濡目染);而此次當(dāng)選加拿大皇家科學(xué)院院士,則是華人在數(shù)據(jù)挖掘領(lǐng)域的又一個(gè)里程碑。
裴健分別于 1991 年和 1993 年在上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系獲得學(xué)士與碩士學(xué)位。前兩年曾為中央領(lǐng)導(dǎo)講解大數(shù)據(jù)概念的梅宏院士,博士也是在上海交大,和裴健系出同門,兩人在交大時(shí)就相熟,有著二十多年的交情。梅宏博士畢業(yè)后到北京大學(xué)做楊芙清的博士后,裴健也到北京大學(xué)繼續(xù)攻讀數(shù)據(jù)庫方面的博士。
1998 年,由 IBM 資助,復(fù)旦大學(xué)召開過一次數(shù)據(jù)挖掘的討論班,這也是中國最早的數(shù)據(jù)挖掘交流活動(dòng),當(dāng)時(shí)請(qǐng)來的主講老師是陸宏鈞和韓家煒,這一討論班為參會(huì)的師生推開了數(shù)據(jù)挖掘的大門,從這一點(diǎn)講,韓家煒無愧于中國數(shù)據(jù)挖掘的引路人。當(dāng)時(shí)裴健還在北大讀博士,在討論班中他提出的問題頗有深度,給韓家煒留下了深刻的印象。一年后裴健來到加拿大,到韓家煒麾下攻讀 PhD。
2000 年,裴健與韓家煒發(fā)表了《Mining frequent patterns without candidate generation》一文,這篇文章被引用 8000 多次,也正是這一研究使得裴健成為國際數(shù)據(jù)挖掘界的學(xué)術(shù)之星;當(dāng)然,讓裴健影響力達(dá)到頂峰的是他在 2011 年與韓家煒編寫的經(jīng)典教材《Data Mining: Concepts and Techniques》,這也是全世界學(xué)習(xí)數(shù)據(jù)挖掘的學(xué)生的首選教材。
韓家煒在數(shù)據(jù)挖掘、數(shù)據(jù)庫和信息網(wǎng)絡(luò)領(lǐng)域發(fā)表論文數(shù)百篇,在 Google Scholar 上的被引用量接近 17 萬次,h-index 高達(dá) 169,被譽(yù)為“數(shù)據(jù)挖掘第一人”。韓家煒父親上海交大畢業(yè),是鄭州紡織機(jī)械廠任財(cái)務(wù)科長兼總會(huì)計(jì)師。韓家煒是家里四個(gè)孩子中的老二,不僅提早讀書,后來還跳了一級(jí),1966 年文化大革命開始的時(shí)候,韓家煒剛剛從鄭州七中讀完高中,文革期間就地就讀鄭州大學(xué)并以工農(nóng)兵學(xué)員畢業(yè),如果不是文革,韓家煒像他哥哥和父親一樣考個(gè)交大應(yīng)該是沒有問題的。
韓家煒在 CCAI 2018 中國人工智能大會(huì)上
1978 年恢復(fù)高考后,韓家煒便報(bào)考了中科院的研究生,因?yàn)楫?dāng)時(shí)中科院掛著中國科技大學(xué)研究生院的牌子,因而也有不少人錯(cuò)認(rèn)為韓家煒是中科大的畢業(yè)生。實(shí)際上韓家煒在中科院的研究生只讀了一年,第二年他就考取美國公費(fèi)留學(xué)的名額。在威斯康星麥迪遜大學(xué)讀博士期間,他最初先是做計(jì)算機(jī)數(shù)據(jù)庫的專家系統(tǒng),后來專家系統(tǒng)遭遇困境,考慮到研究方向的發(fā)展前景問題,隨后又選擇了關(guān)聯(lián)數(shù)據(jù)庫作研究方向。
韓家煒的這一選擇也恰好趕上了知識(shí)發(fā)現(xiàn)的風(fēng)口。隨著數(shù)據(jù)庫技術(shù)的發(fā)展應(yīng)用,數(shù)據(jù)的積累不斷膨脹,導(dǎo)致簡(jiǎn)單的查詢和統(tǒng)計(jì)已經(jīng)無法滿足企業(yè)的商業(yè)需求,而人工智能在專家系統(tǒng)上遇到困境,也急需一個(gè)新的場(chǎng)景落地。于是數(shù)據(jù)庫與人工智能兩者的結(jié)合促生了一門新的學(xué)科,即數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)。
1989 年 8 月召開的第 11 屆國際人工智能聯(lián)合會(huì)議的專題討論會(huì)上,首次提出了知識(shí)發(fā)現(xiàn)(KDD)這個(gè)術(shù)語,并在 1995 年召開了第一次 SIGKDD 大會(huì),韓家煒正是 KDD 早期的組織者和參與者。在 SIGKDD 大會(huì)上,韓家煒組也是發(fā)表論文最多的研究團(tuán)隊(duì)之一。
韓家煒是被 KDD 社區(qū)認(rèn)可的第一位華人,他于 2004 年在 SIGKDD 大會(huì)上獲得創(chuàng)新獎(jiǎng)。第二位被授予重要獎(jiǎng)項(xiàng)的華人是吳信東,他獲得的是 2005 年 SIGKDD 的卓越服務(wù)獎(jiǎng)。
吳信東的故事頗有戲劇性,他本、碩均畢業(yè)于合肥工業(yè)大學(xué)并留校,1991 年到英國愛丁堡大學(xué)攻讀博士學(xué)位,之后一直從事數(shù)據(jù)挖掘與知識(shí)處理方面的研究。吳信東在還沒有到英國讀博士之前,就有給知識(shí)與數(shù)據(jù)挖掘領(lǐng)域最好的期刊TKDE(IEEE Transactions on Knowledge and Data Engineering)投稿,但一直屢投不中,屢敗屢戰(zhàn),直到博士畢業(yè)后的 1998 年才終于投中了第一篇 TKDE。
到了 2005 年,吳信東成為了 TKDE 的主編,實(shí)現(xiàn)了“從奴隸到將軍”(吳信東自稱)的轉(zhuǎn)變?;蛟S是對(duì)投論文的艱難歷程深有體會(huì),他創(chuàng)辦了數(shù)據(jù)挖掘領(lǐng)域的頂級(jí)會(huì)議 IEEE ICDM,這一學(xué)術(shù)會(huì)議后來成為不少華人學(xué)者的發(fā)聲平臺(tái),在幫助提升華人學(xué)者在知識(shí)工程和數(shù)據(jù)挖掘領(lǐng)域的影響力方面起到了積極作用。
明略數(shù)據(jù)首席科學(xué)家和副總裁 吳信東
2001 年,韓家煒從 Simon Fraser 大學(xué)轉(zhuǎn)至 UIUC 任教。UIUC 也是眾多留學(xué)生偏愛的學(xué)校,其特點(diǎn)一是相對(duì)于藤校和斯坦福伯克利這一等級(jí)的熱門學(xué)校要相對(duì)好申請(qǐng)一些,二是出門的上限高,如果你足夠勤奮和努力,這里的名師絕對(duì)不會(huì)讓你失望。華人計(jì)算機(jī)視覺的燈塔黃煦濤,就是在 1980 年從普渡大學(xué)來到 UIUC(在《中國人工智能簡(jiǎn)史》一書視覺一章里,黃老先生的故事支撐了整個(gè)華人計(jì)算機(jī)視覺研究起承轉(zhuǎn)合的起)。
韓家煒的到來,讓 UIUC 也成為了數(shù)據(jù)研究的重要基地。韓家煒在 UIUC 期間,每年都從國內(nèi)招收學(xué)生,每年報(bào)考人數(shù)數(shù)百名,最終成為他學(xué)生的可以用“百里挑一”形容。韓是那種自己學(xué)術(shù)做得極好,還能把學(xué)生培養(yǎng)好的極為少見的老師,除了早期的裴健等學(xué)生,后來在UIUC培養(yǎng)的學(xué)生還包括嚴(yán)錫峰(UCSB)、蔡登(浙江大學(xué))、朱飛達(dá)(新加坡管理大學(xué))、顧全全(UCLA)、孫怡舟(UCLA)、任翔(USC)等學(xué)術(shù)新星和柳超(天眼查)等創(chuàng)業(yè)者。不過傳言 2019 秋季將是韓家煒最后一次招博士生,之后再拜入韓門,只能從第二代弟子做起了。
韓家煒后期帶的學(xué)生時(shí)常將裴健這位“大師兄”作為學(xué)習(xí)的榜樣和趕超的目標(biāo),當(dāng)中也發(fā)生了一些有趣的故事。例如在 2010 年的 ECML-PKDD 上,韓家煒做了一個(gè)題為《結(jié)構(gòu)就是信息:挖掘結(jié)構(gòu)信息網(wǎng)絡(luò)》的主題演講,在提問環(huán)節(jié),另一位大牛 Christos Faloutsos 舉手問道:“你做的這個(gè)網(wǎng)絡(luò)很厲害,但是你能否預(yù)測(cè)到我明年寫什么文章?”韓回答道:“我連自己的都預(yù)測(cè)不到,更別提你的啦。”回去后韓家煒將這個(gè)笑話講給當(dāng)時(shí)還在他手下讀博士的孫怡舟聽,孫怡舟很嚴(yán)肅地認(rèn)為這不是一個(gè)簡(jiǎn)單的笑話。經(jīng)過分析和討論后,韓家煒和孫怡舟定了一個(gè)新課題,預(yù)測(cè) Christos 今后幾年會(huì)和哪些新的作者合作。
伊利諾伊大學(xué)厄巴納-香檳分校(UIUC)
2011年在ASONAM 上,孫怡舟發(fā)表了一篇影響力巨大的文章《Co-author Relationship Prediction in Heterogeneous Bibliographic Networks》,在文章中,孫怡舟根據(jù) 1996-2002 年的數(shù)據(jù),預(yù)測(cè)大師兄裴健在 2003-2009 年間會(huì)有哪些合作者,排名前五的預(yù)測(cè)中只有一個(gè)沒有出現(xiàn)。而實(shí)際上裴健也和這位作者有合作,只不過他們合作的論文要晚兩年,在 2011 年才發(fā)表,沒有被統(tǒng)計(jì)進(jìn)測(cè)試集中而已。數(shù)據(jù)挖掘大牛的世界還真心遵循數(shù)據(jù)挖掘的規(guī)律啊。
另一位從Simon Fraser大學(xué)走出、受韓家煒影響的大牛是楊強(qiáng),哪個(gè)楊強(qiáng),就是最國際化的華人 AI 大牛,IJCAI 2019 的理事會(huì)主席楊強(qiáng)。楊強(qiáng)父親是北大天文學(xué)家楊海壽,因此楊強(qiáng)最初也子承父業(yè),1982 年考取了李政道的中國與美國聯(lián)合培養(yǎng)物理類研究生計(jì)劃(CUSPEA)來到美國馬里蘭大學(xué)學(xué)習(xí)天體物理。
楊強(qiáng)是一個(gè)對(duì)新鮮事物特別感興趣的人,早在 1980 年代初還在北京大學(xué)寫論文的時(shí)候,他就被當(dāng)時(shí)的小型機(jī)所吸引,通宵達(dá)旦地研究計(jì)算機(jī),并在計(jì)算機(jī)上編寫了一個(gè)游戲程序,后來在美國做太陽耀斑活動(dòng)(對(duì),就是《流浪地球》里導(dǎo)致地球流浪的原因)研究的時(shí)候,還用計(jì)算機(jī)做了一個(gè) 3D 模型。
但真正將楊強(qiáng)引上計(jì)算機(jī)道路的是當(dāng)時(shí)也在馬里蘭大學(xué)學(xué)習(xí)的彭云,彭云是烈士江姐的兒子,也是文革后留學(xué)美國的學(xué)生中,最早研究人工智能和在美國取得計(jì)算機(jī)教職的人。受彭云影響,楊強(qiáng)不僅在拿到天文學(xué)的碩士后又拿了一個(gè)計(jì)算機(jī)碩士,之后在攻讀博士時(shí),也改行選擇了做人工智能與邏輯推理的方向。
楊強(qiáng)當(dāng)選新任 IJCAI 理事會(huì)主席,現(xiàn)場(chǎng)評(píng)選結(jié)果圖
楊強(qiáng)在馬里蘭大學(xué)拿到博士學(xué)位后,先后在滑鐵盧大學(xué)和 Simon Fraser 任教,也正是在 Simon Fraser 與韓家煒共事期間,楊強(qiáng)接觸到了很多關(guān)于數(shù)據(jù)挖掘的東西。當(dāng)時(shí)楊強(qiáng)剛剛拿到終身教職,他希望去做一些可以解決實(shí)際問題的研究而不光是寫論文,于是選擇了基于實(shí)例的推理(Case Base Reasoning)方向;而數(shù)據(jù)挖掘正好能與他所做的這方面研究結(jié)合起來。所以楊強(qiáng)今日所做的遷移學(xué)習(xí)、聯(lián)邦學(xué)習(xí)以及大數(shù)據(jù)方面的研究,其實(shí)可以從 Simon Fraser 時(shí)期算起。
楊強(qiáng)與裴健也關(guān)聯(lián)頗多,當(dāng)裴健來到 Simon Fraser 攻讀韓家煒的博士生時(shí),楊強(qiáng)恰好是計(jì)算機(jī)系研究生院的Chair,因此裴健來到 Simon Fraser 時(shí)最終是楊強(qiáng)簽的字,在之后的學(xué)術(shù)研究中楊強(qiáng)也對(duì)裴健給予了諸多支持和鼓勵(lì),后來兩人也有諸多交集。這兩個(gè)人的關(guān)系像極了機(jī)器人領(lǐng)域的兩位超級(jí)大牛 Vijay Kumar 和徐楊生,他們?cè)诳{基梅隆大學(xué)相遇時(shí)也是一個(gè)剛剛博士畢業(yè)的青年教師,一個(gè)是博士生,這種明師實(shí)友的交往成為他們一輩子最珍惜的青春財(cái)富。
Vijay Kumar是 CCF-GAIR 2016-2017 兩年的明星講者,而徐楊生是 CCF-GAIR 最重要的發(fā)起人之一,大叔作為 CCF-GAIR 的發(fā)起人之一曾經(jīng)與徐楊生校長共同接待并陪伴Vijay Kumar前后多日,目睹了Vijay Kumar與徐楊生之間跨越時(shí)空的友誼。
回來八楊強(qiáng),1998 年,李開復(fù)籌建微軟中國研究院時(shí)力邀楊強(qiáng)“回中國來看一看”,恰逢楊強(qiáng)次年有一段學(xué)術(shù)休假期,于是便利用這一機(jī)會(huì)來到了微軟中國研究院。楊強(qiáng)幫助微軟做了中國最早的一個(gè)搜索引擎,他在微軟亞研做項(xiàng)目到 2000年(大叔的師兄王海峰也在此期間參與該項(xiàng)目,算起來,王海峰也是中國最早做搜索的幾個(gè)人之一,王海峰今天升任百度 CTO,也是名至實(shí)歸),直到微軟決定把搜索引擎的研究拿到總部去做為止。
在微軟亞研的經(jīng)歷讓楊強(qiáng)感覺到了中國正在崛起,開始動(dòng)了回來的念頭,但考慮到國內(nèi)研究的基礎(chǔ)環(huán)境,最終與家人商量后選擇了一個(gè)折中方案,去了香港科技大學(xué),與國內(nèi)和國際學(xué)術(shù)界、產(chǎn)業(yè)界均保持緊密的合作。2004 年和 2005 年,楊強(qiáng)團(tuán)隊(duì)連續(xù)兩年在 KDD Cup 上獲得冠軍,楊強(qiáng)本人也在 2010 年擔(dān)任 SIGKDD 的程序主席及 2012 年北京 SIGKDD 的大會(huì)主席(這一年 SIGKDD 的程序主席正是裴健)。
2005 年楊強(qiáng)(右二)KDD Cup 奪冠照片,右一為沈抖
2005 年楊強(qiáng)(右二)KDD Cup 奪冠照片,右一為沈抖
也正是在 2012 年,在任正非的推動(dòng)下,華為開始關(guān)注大數(shù)據(jù)并在香港成立了諾亞方舟實(shí)驗(yàn)室,楊強(qiáng)任首任主任,后任者還有今天去了頭條的李航。
楊強(qiáng)曾經(jīng)告訴左林大叔,諾亞方舟的最初目標(biāo)雖然是大數(shù)據(jù),但他認(rèn)為當(dāng)時(shí) Hadoop、Spark 這些工具已經(jīng)比較成熟,因此提議將一大部分資源放到人工智能與機(jī)器學(xué)習(xí)的研究上。當(dāng)時(shí)人工智能正處于低谷,諾亞方舟作為第一批做人工智能的工業(yè)實(shí)驗(yàn)室,對(duì)于希望去工業(yè)界的博士來說還是很有吸引力的。
當(dāng)時(shí) Yann Lecun 還向楊強(qiáng)推薦了幾個(gè)博士后,條件都談得差不多了,最后這幾個(gè)博士后還是被一家在英國的初創(chuàng)公司“截胡”了。又過了幾年,楊強(qiáng)在新聞上再一次看到了這家初創(chuàng)公司的名字:DeepMind。如果這幾個(gè)博士后選擇的是諾亞方舟,不知先做出 AlphaGo 的會(huì)不會(huì)是華為呢?
就在 AlphaGo 火了的 2016 年,楊強(qiáng)發(fā)起成立了 ACM 數(shù)據(jù)挖掘中國分會(huì)(KDD China)并擔(dān)任主席。僅在 2016 年,KDD China 就已經(jīng)組織了十項(xiàng)活動(dòng),大力促進(jìn)了 SIGKDD 在中國的發(fā)展,為中國工業(yè)和學(xué)術(shù)界之間架起了橋梁。正因?yàn)槎嗄陙碓跀?shù)據(jù)挖掘領(lǐng)域的非凡服務(wù)和貢獻(xiàn),楊強(qiáng)在 2017 年的 SIGKDD 上獲得了卓越服務(wù)獎(jiǎng)。
和楊強(qiáng)一樣橫跨機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘兩大領(lǐng)域的還有南京大學(xué)的周志華。周志華本碩博均在南京大學(xué),是人工智能界佼佼者中少有的本土博士。周志華的導(dǎo)師是陳世福,陳世福教研組主要的科研項(xiàng)目方向是專家系統(tǒng),周志華自己進(jìn)入當(dāng)時(shí)尚屬冷門的機(jī)器學(xué)習(xí)領(lǐng)域,一直堅(jiān)持了下來。由于當(dāng)時(shí)“數(shù)據(jù)挖掘”比“機(jī)器學(xué)習(xí)”更容易被應(yīng)用單位理解,他也開展了作為機(jī)器學(xué)習(xí)應(yīng)用的數(shù)據(jù)挖掘研究工作。2007 年的 PAKDD 在南京大學(xué)召開,楊強(qiáng)和周志華正是大會(huì)的兩大 Program Chair。
周志華
順便說一句,PAKDD 現(xiàn)在在 CCF 的國際頂會(huì)名單上雖然只是 C 類會(huì)議,實(shí)際上卻是數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)領(lǐng)域歷史最悠久、領(lǐng)先的國際會(huì)議之一(像吳信東創(chuàng)辦的 ICDM 屬于后起之秀),在國外口碑很好。第一屆 PAKDD 于 1997 年在新加坡召開,第一屆委員會(huì)中的華人包括劉兵和劉歡,當(dāng)時(shí)兩人均在新加坡國立大學(xué)任教,屬于近水樓臺(tái)先得月。
劉兵后來去往伊利諾伊芝加哥分校,不僅積極參與KDD社區(qū)組織工作,在1998年發(fā)表的《Integrating Classification and Association Rule Mining》及2004 年發(fā)表的《Mining and Summarizing Customer Reviews》分別在 KDD 2014 及 KDD 2015 年連續(xù)兩屆獲得時(shí)間檢驗(yàn)獎(jiǎng),他本人也在 2013 年被當(dāng)選為 SIGKDD 第一位華人主席。
劉歡則是前往亞利桑那大學(xué),他本人也是橫跨信息檢索與數(shù)據(jù)挖掘領(lǐng)域的高被引學(xué)者,在他的帶領(lǐng)下,他的兩個(gè)學(xué)生胡俠、湯繼良也積極參與 KDD 社區(qū)活動(dòng),擔(dān)任了近幾屆 SIGKDD 大會(huì)的分領(lǐng)域 Chair,胡俠還是 CCF-GAIR 2018 和 CCF-GAIR 2019 兩屆的明星講者。
周志華在2004年在南京大學(xué)創(chuàng)建了機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘研究所(LAMDA),經(jīng)過十余年的發(fā)展,LAMDA 已成為國內(nèi)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘最具影響力的機(jī)構(gòu)。楊強(qiáng)發(fā)起成立 KDD China,周志華出任 KDD China 副主席,另一位副主席、百度高級(jí)副總裁沈抖是楊強(qiáng)的博士生。楊強(qiáng)團(tuán)隊(duì)在 2005 年 KDD Cup 奪冠,沈抖就是其中一員,也是公認(rèn)的一號(hào)位。
這一年奪冠隊(duì)伍里,有一位我們的老熟人,也是 CCF-GAIR 2017 的講者,IPin的聯(lián)合創(chuàng)始人潘嶸,當(dāng)時(shí)潘嶸在給楊強(qiáng)做博士后。還有一位楊強(qiáng)的博士后,后來去微軟的孫劍濤,其他的則都是楊強(qiáng)教授的博士:潘軍鋒(FB) ,吳康恒(香港某科技公司),寅潔(澳洲)。楊強(qiáng)教授的學(xué)生里還有一位不是博士生勝似博士生的超級(jí)大牛戴文淵,戴文淵今天是數(shù)據(jù)挖掘和深度學(xué)習(xí)明星公司第四范式的創(chuàng)始人,也是交大 ACM 班的明星學(xué)生之一,戴文淵和交大ACM班的故事也是我們《中國人工智能簡(jiǎn)史》的重要章節(jié)。
第一屆 KDD Cup 于 1997 年舉行。作為目前數(shù)據(jù)挖掘領(lǐng)域最有影響力、最高水平的國際頂級(jí)賽事,KDD Cup 每年都會(huì)吸引世界數(shù)據(jù)挖掘界的頂尖專家、學(xué)者、工程師、學(xué)生等前來參賽。它被譽(yù)為大數(shù)據(jù)領(lǐng)域的“奧運(yùn)會(huì)”。
KDD Cup 1997預(yù)測(cè)出最可能的善款捐贈(zèng)人
KDD Cup 1997預(yù)測(cè)出最可能的善款捐贈(zèng)人
KDD Cup 的題目大都強(qiáng)調(diào)實(shí)用性,歷年的競(jìng)賽所用數(shù)據(jù)往往被數(shù)據(jù)挖掘從業(yè)者用作研究和開發(fā)的良好訓(xùn)練數(shù)據(jù)。KDD Cup 前期多為大學(xué)來承辦,近 10 年來多為企業(yè)承辦,也反映出有價(jià)值的大規(guī)模數(shù)據(jù)逐步從研究機(jī)構(gòu)轉(zhuǎn)向由業(yè)界公司掌握的趨勢(shì)。
早在 2004、2005 年,香港科技大學(xué)教授、IEEE Fellow 楊強(qiáng)就作為領(lǐng)隊(duì)引導(dǎo)其團(tuán)隊(duì)連續(xù)兩年拿下 KDD Cup 比賽冠軍。略有不同的,2005 年楊強(qiáng)是親自帶學(xué)生,2004 年 KDD Cup 是楊強(qiáng)與中科院高文團(tuán)隊(duì)合作,當(dāng)年的試題之一是蛋白質(zhì)同源性預(yù)測(cè),生物信息檢索正好是高文老師研究的方向之一,2002 年,高文課題組成功申請(qǐng)到國家 973 項(xiàng)目下的“基于信息技術(shù)的蛋白質(zhì)組研究”課題,這或許正是中國隊(duì)伍在這一年的 KDD Cup 取得突破的原因。
高文在CCF-GAIR 2018上
高文在CCF-GAIR 2018上
言歸正傳,KDD 2004 的賽題要求參賽者運(yùn)用各種數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)手段從訓(xùn)練數(shù)據(jù)中找出規(guī)律,將康奈爾大學(xué)開發(fā)的蛋白質(zhì)折疊識(shí)別程序LOOPP 生成的 74 個(gè)蛋白質(zhì)同源性度量指標(biāo)合并成一個(gè)同源性打分函數(shù),對(duì)數(shù)據(jù)庫中的蛋白質(zhì)與查詢蛋白質(zhì)之間的同源性進(jìn)行預(yù)測(cè)。這一題目有三個(gè)難點(diǎn):一是數(shù)據(jù)具有塊結(jié)構(gòu)形式;二是訓(xùn)練樣本數(shù)量巨大;三是訓(xùn)練數(shù)據(jù)的類別分布極端不平衡。
對(duì)于這一問題,當(dāng)時(shí)的主流方法是利用SVM和最大熵等判別模型來構(gòu)造排位函數(shù),高文則是在此基礎(chǔ)上,使用了一個(gè)線性判別模型合并從隱馬科夫模型導(dǎo)出的多個(gè)特征,最終這一方法有效地提高了檢索函數(shù)學(xué)習(xí)的準(zhǔn)確性,從而在 KDD CUP-2004 蛋白質(zhì)同源性預(yù)測(cè)問題上得到了非常成功的應(yīng)用。
最終的預(yù)測(cè)結(jié)果取得了 APR 和 RMS 指標(biāo)第一名,TOP1 指標(biāo)第二名,RKL 指標(biāo)第十四名,綜合成績并列第一名的成績。這是中國研究人員首次在 ACM KDDCUP 數(shù)據(jù)挖掘競(jìng)賽取得優(yōu)勝。這也是中國的學(xué)術(shù)研究人員在國際頂會(huì)的競(jìng)賽項(xiàng)目取得冠軍的最早突破之一,之所以說是之一,是幾乎是同期,丁曉青團(tuán)隊(duì)在 ICPR 上取得 FAT 2004 人臉比賽的第一名。
按照大叔的大學(xué)同學(xué),也是 KDD Cup 2004 年的冠軍成員之一的山世光的描述,這次奪冠的第一主力是付巖,付巖后來從計(jì)算機(jī)去了數(shù)學(xué)所,當(dāng)時(shí)是計(jì)算所兩位教授高文和賀思敏共同的博士生,賀思敏是這次比賽奪冠的 leader,另一位主力孫瑞祥也是當(dāng)時(shí)賀思敏團(tuán)隊(duì)成員。
山世光
哦,忘了恭喜山世光名列 2019 騰訊首屆科學(xué)探索獎(jiǎng)的 50 名青年科學(xué)家行列。
說來也巧,周志華作為香港科技大學(xué)計(jì)算機(jī)系聘請(qǐng)的不多幾位內(nèi)地榮譽(yù)兼職教授,第一次到香港科大訪問時(shí),去接站的就是當(dāng)時(shí)在讀博士生,KDD Cup 2005 的第一主力沈抖。沈抖畢業(yè)后進(jìn)入工業(yè)界,在加入百度前是微軟西雅圖 AdCenter 實(shí)驗(yàn)室的研究員。
KDD China主持具體工作的負(fù)責(zé)人秘書長鄭宇,現(xiàn)任京東副總裁,之前是微軟亞洲研究院的明星研究員,同樣是 CCF-GAIR 多屆明星講者,2016 年第一屆 CCF-GAIR,鄭宇就是程序主席,為 CCF-GAIR 大會(huì)做了不少工作。
鄭宇也還是 KDD 社區(qū)的活躍組織者。他從 2011 年開始參加 SIGKDD,之后每年的 SIGKDD 大會(huì)都會(huì)參加。鄭宇很早就在 SIGKDD 上舉辦城市計(jì)算的 Workshop,到今年(2019年)已經(jīng)是第八屆。從 2016 年起,KDD China 在 SIGKDD 上開始舉辦"Data Science in China "論壇主題活動(dòng),活動(dòng)的主要組織者也是鄭宇,這一活動(dòng)的舉辦也有力展示了中國在數(shù)據(jù)挖掘領(lǐng)域的實(shí)力。
京東集團(tuán)副總裁鄭宇在 IJCAI 2019 大會(huì)上
如果說 2016 年是華人在數(shù)據(jù)挖掘領(lǐng)域全面發(fā)力的拐點(diǎn),那么接下來的時(shí)間則是華人數(shù)據(jù)挖掘的高光時(shí)刻。在 SIGKDD 2017 上,不僅裴健接任劉兵當(dāng)選 SIGKDD 主席,在三大獎(jiǎng)項(xiàng)中,楊強(qiáng)獲得杰出服務(wù)獎(jiǎng)、裴健獲得創(chuàng)新獎(jiǎng),華人得其二,此外,本屆大會(huì)的最佳應(yīng)用論文被西弗吉尼亞大學(xué)葉艷芳團(tuán)隊(duì)獲得,同時(shí)中國隊(duì)伍包攬了這屆 KDD Cup 的所有獎(jiǎng)項(xiàng)。
在接下來的 SIGKDD 2018 上,不僅劉兵、唐杰再度包攬創(chuàng)新獎(jiǎng)及杰出服務(wù)獎(jiǎng)兩項(xiàng)大獎(jiǎng),郭毅可、唐杰、熊輝、林智仁、楊強(qiáng)等人擔(dān)任了大會(huì)主席、副主席、程序主席、評(píng)獎(jiǎng)委員會(huì)主席等重要角色,在評(píng)獎(jiǎng)委員會(huì)的八人名單中,華人更是占到五人(楊強(qiáng)、韓家煒、裴健、王薇、俞士綸),“中國力量”儼然成為這幾年 KDD 的主基調(diào)。
在左林大叔看來,在諸多人工智能相關(guān)的領(lǐng)域中,數(shù)據(jù)挖掘是華人參與度最高、也是最有望實(shí)現(xiàn)超越的領(lǐng)域。這不僅是因?yàn)閺?qiáng)調(diào)“動(dòng)手能力”的數(shù)據(jù)挖掘更能發(fā)揮中國人的長處,還因?yàn)閿?shù)據(jù)挖掘是一門與產(chǎn)業(yè)密切結(jié)合的學(xué)科,中國龐大的市場(chǎng)與人口基數(shù),以及新一批互聯(lián)網(wǎng)科技公司的茁壯成長,都為中國人引領(lǐng)世界潮流提供了堅(jiān)實(shí)的基礎(chǔ)。
羅馬不是一天建成的,今日數(shù)據(jù)挖掘領(lǐng)域所呈現(xiàn)的“中國力量”,有數(shù)據(jù)挖掘老中青三代人的不懈努力,更離不開研究者們的薪火相傳。不過關(guān)于數(shù)據(jù)挖掘的故事,大叔更愿意用天時(shí)地利人和來形容:
所謂天時(shí),是韓家煒、俞士綸、陸宏鈞等最早一批進(jìn)行數(shù)據(jù)挖掘的研究者,恰逢數(shù)據(jù)挖掘興起之時(shí)就積極參與其中,為后來華人社區(qū)的壯大打下了堅(jiān)實(shí)的基礎(chǔ);
所謂地利,是從上世紀(jì) 90 年代起中國高速發(fā)展崛起的過程中,對(duì)數(shù)據(jù)挖掘的旺盛需求為新一批數(shù)據(jù)挖掘中堅(jiān)力量的崛起供了良好的機(jī)會(huì);
所謂人和,是裴健、楊強(qiáng)、劉兵、劉歡、周志華、吳信東、鄭宇等之后一批數(shù)據(jù)挖掘的領(lǐng)軍人物與中堅(jiān)力量發(fā)揮了承上啟下的作用,在參與數(shù)據(jù)挖掘社區(qū)活動(dòng)的同時(shí),積極帶動(dòng)其他后起之秀參與到社區(qū)中來,使得華人贏得了數(shù)據(jù)挖掘社區(qū)的尊重。
KDD 2017 China Day 合影
前排左起:劉兵、韓家煒、楊強(qiáng)、裴健
后排左二:鄭宇 左四:劉歡
從行業(yè)周期的角度看,從 1989 年知識(shí)發(fā)現(xiàn)的概念提出到今天,數(shù)據(jù)挖掘剛剛走過了三十年的一個(gè)完整周期。從這一角度看,授予裴健院士是一個(gè)肯定的信號(hào),也預(yù)示著數(shù)據(jù)挖掘下半場(chǎng)拉開了序幕。
再度恭喜裴健被評(píng)為院士,也恭喜投身數(shù)據(jù)挖掘領(lǐng)域的各位研究者們,你們正站在一個(gè)新時(shí)代的起點(diǎn)。大叔預(yù)計(jì)在不久的將來,這個(gè)領(lǐng)域會(huì)有更多的研究者獲得他們應(yīng)有的榮譽(yù),也希望各位研究者們?cè)谖磥砣曛斜3殖跣?,壯志前行,繼續(xù)書寫數(shù)據(jù)挖掘的輝煌。
數(shù)風(fēng)流人物,還看今朝。