(2020-11-17)科學發展逐漸透明,研究成果可供分享讓大家引用、評估、或作為進一步發展的根基,但AI研究或有其特殊性,也有人說AI還在實驗階段,所以相對封閉。

AI的論文發表無數,有科學價值或僅是技術成果的展示?(圖:Karolina Grabowska from Pexels)

(2020-11-17)今年一月,《自然》(Nature)期刊登載了一篇Google Health的文章,說他們研究的AI可以從女性乳腺的掃描影像,找出乳癌徵兆,比放射學家判斷的更精確更快速,有擴大發展的潛力。

不料這篇文章立即引起學者質疑,說這個結果在方法上說的不夠詳細,也沒有提供演算法與程式碼,在別的研究人員無法複製重現之下,這一項研究失去科學價值,不過是技術的發表。

 

隔月,由31位學者聯名投書自然期刊,包括美國、加拿大、歐洲的31位學者,投書的標題是「AI的透明度與重現性(Transparency and Reproducibility)」,於十月刊登,這確實觸及AI的根本。

科學的發展逐漸透明,研究成果可以分享同儕,讓大家引用、評估、或作為進一步發展的根基,大家互踩肩膀的進展。AI的研究或有其特殊性,也有人說AI還在實驗階段,所以相對封閉。根據「2020 AI勢態報告」,僅有15%的研究項目供人分享程式碼,而業界較學界更為謹慎,尤其像OpenAI與DeepMind,更把編碼包得緊緊的。

說起來AI從實驗室走進我們的生活,在應用上出現了不少偏差,現在慢慢走進醫療領域,如果不進行透明度與重現性的查證,就立即應用,在安全上不無顧慮。Google的乳癌AI經學者指出後,大概就不會臨床應用了。實驗室的成功,在現實環境可能失敗,讓不同研究人員在不同的環境複製,可以快速發現問題,AI也會因此更為成熟。

話雖如此,有人擔憂AI已經有「黑盒子」的現象了,我們雖然設計了機器學習模型,但經過重複運轉,幾乎很難知道如何產生所得到的結果,有誰知道圍棋高手AlphaGo是怎麼算出下一步棋的?2020的報告說,AI重現的條件有三:程式、資料、硬體,但要滿足這三個條件到一定的程度,能讓AI在另一環境重複出現,困難重重,有的甚至不可能。

拿到了程式碼,就可以在電腦上還原AI的功能?專家說沒那麼容易,因為AI模型涉及許多細節,像是增加參數、調整數值,任何的改變都會影響結果,所以除了程式碼,還需要元數據(Metadata)來描述模型的調整與訓練,否則單有程式碼並無用處。另外,有的實驗室用特別的軟體運轉他們的模型,這些軟體又可能有所有權,是否願意與人分享無從得知。

資料分享也是同樣情形,多是專屬不願分享他人,尤其教敏感的醫療個資更不能分享。AI需要大量資料來訓練模型,只有像Facebook等大型數位機構才能從用戶取得大量資料,一般試驗室或學校都要花很大精力取得。在不願分享的情況下,專家建議可以指引方向,告訴別人有哪些地方或有類似資料。

AI需要龐大的電腦能量來訓練功能,功能越複雜需要的能量越大。例如訓練會寫文章的GPT-3,一位投資人估算可能花了OpenAI一千萬美元,還不包括系統發展與雛形訓練的花費,全數恐要加兩三倍,這種預算非小型研究機構或學校所能負擔,一般的AI實驗室與學校只能用普通的硬體設備。

所以AI的重現確實困難,而論文的發表卻一年多於一年,學者們越感到認證的困難,於是有人從基層發動了。

McGill大學教授Joelle Pineau,同時也是Facebook的AI學者,設計一套發表論文的清單,除了文章,還包括程式碼以及詳細敘述實驗的過程,期望研究人員在大型會議上發表這結構的論文。另有學者讓學生把資料較齊全的AI論文,把AI功能還原重現,做為機器學習的課堂作業。又有學者設計網站,做為論文附帶程式碼的連結。

這些學者們的努力,希望AI走向更科學化的發展,並建議有份量的科學期刊,能把有科學價值的論文,與技術成果的發表分開處理,以維護期刊的信譽。


本文取材自2020年11月15日「那福忠西海岸數位隨筆(178)」:AI的成果發表與學術論文
對本文有任何看法,歡迎 E-Mail:frank.na@gmail.com 給作者,分享您對本文的看法。