AI的成果發表與學術論文 - 動腦Brain.com.tw｜行銷．廣告．傳播．創意數位平台

（2020-11-17）科學發展逐漸透明，研究成果可供分享讓大家引用、評估、或作為進一步發展的根基，但AI研究或有其特殊性，也有人說AI還在實驗階段，所以相對封閉。

AI的論文發表無數，有科學價值或僅是技術成果的展示？（圖：Karolina Grabowska from Pexels）

（2020-11-17）今年一月，《自然》（Nature）期刊登載了一篇Google Health的文章，說他們研究的AI可以從女性乳腺的掃描影像，找出乳癌徵兆，比放射學家判斷的更精確更快速，有擴大發展的潛力。

不料這篇文章立即引起學者質疑，說這個結果在方法上說的不夠詳細，也沒有提供演算法與程式碼，在別的研究人員無法複製重現之下，這一項研究失去科學價值，不過是技術的發表。

隔月，由31位學者聯名投書自然期刊，包括美國、加拿大、歐洲的31位學者，投書的標題是「AI的透明度與重現性（Transparency and Reproducibility）」，於十月刊登，這確實觸及AI的根本。

科學的發展逐漸透明，研究成果可以分享同儕，讓大家引用、評估、或作為進一步發展的根基，大家互踩肩膀的進展。AI的研究或有其特殊性，也有人說AI還在實驗階段，所以相對封閉。根據「2020 AI勢態報告」，僅有15%的研究項目供人分享程式碼，而業界較學界更為謹慎，尤其像OpenAI與DeepMind，更把編碼包得緊緊的。

說起來AI從實驗室走進我們的生活，在應用上出現了不少偏差，現在慢慢走進醫療領域，如果不進行透明度與重現性的查證，就立即應用，在安全上不無顧慮。Google的乳癌AI經學者指出後，大概就不會臨床應用了。實驗室的成功，在現實環境可能失敗，讓不同研究人員在不同的環境複製，可以快速發現問題，AI也會因此更為成熟。

話雖如此，有人擔憂AI已經有「黑盒子」的現象了，我們雖然設計了機器學習模型，但經過重複運轉，幾乎很難知道如何產生所得到的結果，有誰知道圍棋高手AlphaGo是怎麼算出下一步棋的？2020的報告說，AI重現的條件有三：程式、資料、硬體，但要滿足這三個條件到一定的程度，能讓AI在另一環境重複出現，困難重重，有的甚至不可能。

拿到了程式碼，就可以在電腦上還原AI的功能？專家說沒那麼容易，因為AI模型涉及許多細節，像是增加參數、調整數值，任何的改變都會影響結果，所以除了程式碼，還需要元數據（Metadata）來描述模型的調整與訓練，否則單有程式碼並無用處。另外，有的實驗室用特別的軟體運轉他們的模型，這些軟體又可能有所有權，是否願意與人分享無從得知。

資料分享也是同樣情形，多是專屬不願分享他人，尤其教敏感的醫療個資更不能分享。AI需要大量資料來訓練模型，只有像Facebook等大型數位機構才能從用戶取得大量資料，一般試驗室或學校都要花很大精力取得。在不願分享的情況下，專家建議可以指引方向，告訴別人有哪些地方或有類似資料。

AI需要龐大的電腦能量來訓練功能，功能越複雜需要的能量越大。例如訓練會寫文章的GPT-3，一位投資人估算可能花了OpenAI一千萬美元，還不包括系統發展與雛形訓練的花費，全數恐要加兩三倍，這種預算非小型研究機構或學校所能負擔，一般的AI實驗室與學校只能用普通的硬體設備。

所以AI的重現確實困難，而論文的發表卻一年多於一年，學者們越感到認證的困難，於是有人從基層發動了。

McGill大學教授Joelle Pineau，同時也是Facebook的AI學者，設計一套發表論文的清單，除了文章，還包括程式碼以及詳細敘述實驗的過程，期望研究人員在大型會議上發表這結構的論文。另有學者讓學生把資料較齊全的AI論文，把AI功能還原重現，做為機器學習的課堂作業。又有學者設計網站，做為論文附帶程式碼的連結。

這些學者們的努力，希望AI走向更科學化的發展，並建議有份量的科學期刊，能把有科學價值的論文，與技術成果的發表分開處理，以維護期刊的信譽。

本文取材自2020年11月15日「那福忠西海岸數位隨筆（178）」：AI的成果發表與學術論文
對本文有任何看法，歡迎 E-Mail：frank.na@gmail.com 給作者，分享您對本文的看法。