(2024年5月號577期動腦雜誌)

圖片來源:作者提供

2022年底,美國OpenAI公司發布了ChatGPT,人工智慧大量語言模式的系統,使用鉅量書籍內容,預先訓練一個以自然語言深度學習的神經網絡。以致於能夠自然地與人聊天、對話、回答提問、回應指示(prompt),協助人們尋找答案,搜尋資料,產生文字,編輯或翻譯文件,甚至創作圖像、影片、音樂等。短短一年半,風靡全球,不分國界、文化、年紀,至今有1.8億使用者,企業使用率更高,美國財富500強企業有92%使用到各行業領域。

我在大學一門通識課學生問卷調查發現,約98%學生都使用過ChatGPT。使用在學習解答問題佔4成,幫助寫作15%,語言學習/翻譯10%,試用好玩18%。人工智慧AI的時代,在這兩年內已轟轟烈烈來臨了。

但是這個AI浪潮中,一個沒有被談論的問題,就是依靠大量語言模式產生的人工智慧系統,已經遇到瓶頸了。

第一代ChatGPT,用11,000本書來訓練。第二代,使用擁有4.3億使用者的Reddit社群網站成員發布內容,約300億「字」(word)。第三代,也就是此次公開的版本,使用網絡文字資料,如維基百科、17年來網頁存檔等,共3,000多億字的資料。最新的第四代,其資料量是三代的十倍。

OpenAI的執行長阿特曼,在2023年5月一次演講就承認,AI公司「將會耗盡」互聯網上所有可用的數據。同樣谷歌、臉書、亞馬遜等在AI開發上,都遇到同樣的瓶頸。於是他們不約而同開始在網絡上沒有授權的灰色地帶,例如YouTube的影音內容,加掛程式,私下將聲音轉錄為文字,大量蒐集資料,不顧侵犯著作權與否。

我們不禁要問,到資料耗盡的那一天來到時,AI怎麼樣走下去?其實,已經有聰明人提出何不用AI產生的合成資料(synthetic data)來訓練另一個AI?學資料科學的人知道,使用含有冒假、錯誤、偏見的資料來產生AI合成資料,然後再用此瑕疵資料來訓練AI,我們不是自找麻煩及死路嗎?

今天,我們刻不容遲更需要智慧人,為AI發展,畫出「有所為,有所不為」憲章的紅線。


作者為台大管理學院GMBA教授、新娘物語雜誌社董事長
曾任:亞太電信執行長、太平洋證券
執行長、恩友愛心協會理事長