創新點:AI已能根據簡單的文字指令來創作文字、圖片、影音、設計。原本做這些事的人怎麼辦?
本文有3大重點:1. 「生成式AI」(Generative AI) 的發展歷程 2. 文字影音等多種內容,AI都可以做得比人更好 3. AI創作時代,人類如何「換位子」?
2022年末,網路上最受討論的,是一隻聊天機器人—「ChatGPT」。由美國人工智慧研究機構「OpenAI」發表,短短兩週內吸引了上百萬人使用。專家認為,「ChatGPT」的出現,跟智慧型手機、網際網路的出現一樣,將根深蒂固地改變人類的工作和生活。
「ChatGPT」的「生成式AI」(Generative AI) 技術,讓任何人都可以用簡單的自然對話(而非程式語言),指揮AI創作各種內容。
什麼是「生成式AI」?如何爆紅?目前有哪些應用?而人類在AI創作時代如何「另謀高就」?
這篇文章的首圖是我用AI繪圖工具「Stable Diffusion」完成的,而文字是由我和「ChatGPT」一起完成。猜得出哪些是AI寫的?哪些是真人寫的嗎?謎底在文章最後揭曉。
1. 「生成式AI」 (Generative AI) 的發展歷程
生成式AI (Generative AI),是指讓「機器學習模型」研究類似作品的數據,然後去創造一個全新的作品,可以是文字、圖像、音訊檔、影片、程式碼、甚至建築設計。過去七年,Google、Meta等科技巨頭、以及微軟投資的OpenAI,都在打造Generative AI的「語言模型」 (Language Model)。這三家先驅者用大量電腦運算能力和數據「訓練」這些「語言模型」,讓它們能自己創作內容。訓練過程,可分成三個階段:
A. 萌芽期 (2015年之前):
只有小型模型。這些模型在「數據分析」上表現出色,如預測外送抵達時間、詐騙訊息分類…等。但在模仿人類語言的「內容創作」上並不及格,無法像真人一般寫作、寫程式、畫圖。
B. 突破期 (2015年至2022年):
2017年,Google Research 發表「Transformer模型」,是自然語言運算 (Natural Language Processing, NLP)領域的里程碑。Transformer模型需要被訓練的時間比以往少,產出的品質卻大幅提高,並且容易針對各應用領域的需求客製化。(詳細可參考維基百科之介紹)
如Google開發出BERT、LaMDA。Meta開發的OPT-175B、BlenderBot。微軟投資的OpenAI開發出GPT-3(用於文字)、DALL-E2(用於繪圖)、Whisper(用於語音辨識)。
為什麼都是富可敵國的大公司?因為訓練這些模型的成本很高。
例如,GPT-3最初在45TB的數據上進行訓練、運用了高達1750億個參數來預測結果,單次訓練就要1,200萬美元。中國的悟道預訓練模型,則使用了1.75兆個參數進行訓練,動員了清華大學、北京大學、中國科學院等機構的資源。
2015年到2020年之間,訓練這些模型的計算量增加了六個數量級,使得這些模型能夠以近乎、甚至超越人類的水平,來執行任務。
只不過在這個階段,這些模型並未進入大眾視野。因為他們需要龐大資源才能運轉,成本也還沒降低到可以供大眾在雲端使用。
C, 業界落地期(2022年~):
隨著電腦運算成本降低、新技術如擴散模型(Diffusion Model)出現,訓練和營運行逐漸降低。Google等公司陸續公開這些模型,讓開發者可以試用。
當核心的生成模型被訓練出來後,不用太大量的數據,就可依據各領域進行客製化調整。於是Google開發的BERT便有專注生醫領域的模型BioBERT、法律領域的模型Legal-BERT。這讓很多專業人士也開始試用。
然後在2022年,生成式AI在一般大眾之間爆紅。
2. 文字影音等多種內容,AI都可以做得比人更好
2022年,生成式AI出現了殺手級應用,讓一般大眾開始使用。如繪圖領域的Midjourney、Stable Diffusion、DALL·E2,以及聊天機器人ChatGPT。本篇文章的首圖,就是DALL·E2以20世紀初法國後印象派畫家塞尚(Paul Cézanne )的風格創造的作品。
同時,先驅者公開它們的語言模型(如OpenAI開放GPT-3),讓新創公司省掉耗費金錢和時間的訓練階段,直接在各專業領域推出應用產品。
這些新創涵蓋的範圍,不僅是透過文字生成文字、圖片、聲音、程式、音樂、影像、3D、NFT,甚至可以反向操作,用語音生成文字(如逐字稿應用)、圖片生成圖片(如快速去背、圖像編輯)、連結生成文字(如快速擷取url網頁內文產出腳本)、影片生成影片(如從會議影片快速生成部落格文章、推特推文、精彩花絮..等等)。這裡有網友整理出的生成式AI的各類型應用。
以商機龐大的行銷產業為例,生成式AI的商業應用潛力已經相當驚人。
從部落格文章撰寫、SEO優化、影片編輯、社群行銷文案產生、廣告素材生成…等,全部有AI可幫你代勞。各賽道都塞滿競爭者:
(以下只列出部分)
行銷工作 | 新創公司 |
部落格文章點子產生器 | Hubspot Blog Ideas Generator, Portent Idea Generator |
部落格文章、社群貼文、email文案、SEO優化內容產生器 | Jasper, Writesonic, TextCortex |
文字生成廣告素材圖片 | Memorable |
文字生成行銷影片 | Synthesia, Movio |
(文字生成行銷文案公司Jasper的使用情境)
(文字生成行銷影片公司Synthesia的使用情境)
從點子發想,到實際撰寫內容、拍攝圖片、拍攝影片,如今生成各式各樣的行銷素材,都可以坐在電腦前面一鍵完成。不需抓耳撓腮、腸枯思竭,也不必為了打光跑進跑出,NG重來數遍。
美國已有許多公司開始採用這類的AI工具。如雲端運算大廠VMWare的內容行銷人員,就運用Japser產出行銷郵件內容、廣告文案、社群內容。當AI已經可以執行大部分的寫作任務時,寫手就可以專注於尋找更好的寫作題材、研究內容方向、制定內容策略方向。這種跟AI玩「大風吹,換位子」的現象,已經在大企業發生。
另外,如摩根士丹利 (Morgan Stanley) 銀行也透過GPT-3,來為客戶創造客製化金融內容。由真人用特定字眼來「提示」(prompt) AI,然後由AI創造初稿,然後再由真人來編輯、審稿,
行銷領域,只是生成式AI應用的冰山一角。根據美國知名創投公司——紅杉資本 (Sequoia Capital) 的分析,生成式AI也可用於自動創作程式語言、藝術作品、遊戲、產品設計等。
AI百花齊放,人類何去何從?大風吹之後,還有我們的位子嗎?
3. AI創作時代,人類如何「換位子」?
當生成式AI產出可以大量、快速、客製化創作優質內容,人類的價值何在?
幾個趨勢已經注定「回不去」了:
1.AI將成為多數「功能性」內容撰寫的主力:這類內容有明確架構、重複性高,目的在於傳遞訊息、提供清晰、必要的說明。不需傳達個人風格、品牌、形象。不需感性或闡釋。例如促銷訊息、折扣碼說明、產品說明書、社群貼文、教育訓練影片、廣告企劃案、研究報告、白皮書、業務企劃書、說明書,
這些內容都可以透過AI工具快速做出草稿,微調後即可發送。也就是說,行銷、業務、營運、客服都能透過AI節省大量人力。換句話說,在這領域,AI最容易取代人類的價值。
2.把AI當手,人類當腦:內容人才的價值已經不在於「寫」,而在於捕捉市場趨勢、時事動態、客戶心態,制定最符合當下時空背景的內容策略。目前的AI雖然能高效產出內容,但還無法分析受關注的時事議題、市場趨勢,找出可切入的內容策略。另外,AI也還無法同理、模擬客戶的心理,也不能推測客戶可能會想看的文章。AI也還無法統整公司內部的資料庫,從中挖掘有價值的主題產製成內容。進入AI創作時代,人類的最大勝算是換位子當大腦,把手的工作都讓給AI。
3.洞悉觀賞者的情緒與需求,才能在新的內容混戰中殺出血路:生成式AI加速了內容產製,會讓內容更為氾濫。亂軍中,能吸引到眼球的內容,有可能在於內容更緊貼時事、更迎合觀賞者的心理狀態,更能貼近社會上瀰漫的各種情緒,或更具備個人獨特的風格與特色。
生成式AI還在以兇猛的態勢發展——2022年爆紅,2023年將預計將多點開花。生成式AI的「軍火供應商」——OpenAI,因ChatGPT一夕爆紅。據傳將得到微軟新一輪高達100億美元的融資,讓公司估值高達的290億美元。微軟看好無數的第三方公司將可透過OpenAI的API打造全新應用服務,用AI改變商業運作流程。
AI創作引領的新時代就在眼前。或許我們害怕的是,這一切都才剛開始而已。
*謎底揭曉:這篇文章的第一和第二點,有很多事實的陳述,是我引導「ChatGPT」寫下初稿。但機器人的初稿過度複雜專業,我考量《 創新拿鐵》讀者的屬性,大幅簡化。這篇的第三點則是挖掘洞見和預測趨勢,則完全靠我自己。這種合作模式,未來可能適用於所有內容的製作。
參考資料:
1.How Generative AI Is Changing Creative Work
2.Generative AI: A Creative New World
3.What’s New in Artificial Intelligence from the 2022 Gartner Hype Cycle