人工智慧，需要「智慧」，不是聰明 - 動腦Brain.com.tw｜行銷．廣告．傳播．創意數位平台

（2024年5月號577期動腦雜誌）

圖片來源：作者提供

2022年底，美國OpenAI公司發布了ChatGPT，人工智慧大量語言模式的系統，使用鉅量書籍內容，預先訓練一個以自然語言深度學習的神經網絡。以致於能夠自然地與人聊天、對話、回答提問、回應指示（prompt），協助人們尋找答案，搜尋資料，產生文字，編輯或翻譯文件，甚至創作圖像、影片、音樂等。短短一年半，風靡全球，不分國界、文化、年紀，至今有1.8億使用者，企業使用率更高，美國財富500強企業有92%使用到各行業領域。

我在大學一門通識課學生問卷調查發現，約98%學生都使用過ChatGPT。使用在學習解答問題佔4成，幫助寫作15%，語言學習／翻譯10%，試用好玩18%。人工智慧AI的時代，在這兩年內已轟轟烈烈來臨了。

但是這個AI浪潮中，一個沒有被談論的問題，就是依靠大量語言模式產生的人工智慧系統，已經遇到瓶頸了。

第一代ChatGPT，用11,000本書來訓練。第二代，使用擁有4.3億使用者的Reddit社群網站成員發布內容，約300億「字」（word）。第三代，也就是此次公開的版本，使用網絡文字資料，如維基百科、17年來網頁存檔等，共3,000多億字的資料。最新的第四代，其資料量是三代的十倍。

OpenAI的執行長阿特曼，在2023年5月一次演講就承認，AI公司「將會耗盡」互聯網上所有可用的數據。同樣谷歌、臉書、亞馬遜等在AI開發上，都遇到同樣的瓶頸。於是他們不約而同開始在網絡上沒有授權的灰色地帶，例如YouTube的影音內容，加掛程式，私下將聲音轉錄為文字，大量蒐集資料，不顧侵犯著作權與否。

我們不禁要問，到資料耗盡的那一天來到時，AI怎麼樣走下去？其實，已經有聰明人提出何不用AI產生的合成資料（synthetic data）來訓練另一個AI？學資料科學的人知道，使用含有冒假、錯誤、偏見的資料來產生AI合成資料，然後再用此瑕疵資料來訓練AI，我們不是自找麻煩及死路嗎？

今天，我們刻不容遲更需要智慧人，為AI發展，畫出「有所為，有所不為」憲章的紅線。

作者為台大管理學院GMBA教授、新娘物語雜誌社董事長
曾任：亞太電信執行長、太平洋證券
執行長、恩友愛心協會理事長