摘要:ChatGPT憑借NLP生成對文本指令的響應,推動了通用人工智能的跨越式發展。作為輔助創新工具,ChatGPT能夠對復雜的提問做出細微的、邏輯嚴密的回答,節省了學術工作者為知識創意所支付的人力成本。但ChatGPT這種便捷性給學術出版帶來一系列問題——創作臨界值的改變導致作者身份歸因困難,AI捏造消解學術權威性,AI依賴掣肘學術創新,AI偏見承接威脅學術嚴謹性。文章提出,面對技術帶來的挑戰,知識正義的維護不能僅依賴超級虛擬輔助工具,而應由學術共同體一起努力,期刊、作者、審稿專家等都需分擔責任,應采取分布式問責的方式,對AI學術輔助進行合理部署和倫理約束,使得學術社區標準能夠支撐更加公平、公正、具有生產活力的學術實踐。
關鍵詞:ChatGPT;學術出版;知識合規;作者身份;AI依賴
OpenAI成立于2015年,是一家專注于AI產品開發的研究實驗室,獲得了馬斯克、微軟公司等支持。2022年11月30日,OpenAI推出ChatGPT(Chat Generative Pre-trained Transformer),立即在廣泛的社會范圍引起關注,成為當今最強大的AI處理模型之一,在不同領域的應用日益增長,人機交互技術邁向了通用人工智能的階段,從感知智能進入認知智能時代。
GPT起源于自然語言處理(NLP)領域,這是一個專注于使機器能夠理解和生成人類語言的人工智能領域。ChatGPT是生成式的大規模語言模型,以生成式的自監督學習為基礎,從太字節(Terabyte)級訓練數據中學習隱含的語言規律和模式,憑借NLP生成對文本指令的響應,推動了NLP的跨越式發展。ChatGPT成功通過了研究生的商業和法律考試,可以用來撰寫小文章,其質量甚至能夠超過博士生的平均水平,被認為是一種顛覆式的創新。這種基于數據驅動的應用正在進入學術出版領域,成為一股不易被識別的知識暗流(tacit knowledge),可能會徹底改變學術出版。
1 ChatGPT發展歷程
與性能:模型泛化中的知識調度
人工智能(AI)和自然語言處理(NLP)的快速發展促進了多功能語言模型的廣泛應用。其中,GPT模型擅長于對網頁、圖書、社交媒體文本等海量文本數據進行預訓練,對文本中的詞匯、短語機器關系和模式進行學習和分類。GPT能夠實現強大的語言模型創建功能,具體涵蓋GPT-1、GPT-2、GPT-3、GPT-3.5、GPT-4等。從GPT-1到GPT-4,GPT生成連貫文本的能力在逐漸提升,對語言特征的捕捉更為精準,能夠在各種復雜領域進行知識組合和演繹推理,對下游任務的完成度也更加出色,GPT系列模型的演變與更新如表1所示。ChatGPT基于GPT-3.5架構,在自然語言處理中擁有出色表現,可以進行語言理解、文本生成和機器翻譯。其主要架構于Transformer算法之上,Transformer算法是使用超大規模數據來完成日常訓練的神經網絡深度學習算法,它克服了循環神經網絡(RNN)、卷積神經網絡(CNN)等NLP模型從序列到序列的局限性,可以創建高效且可擴展的語言模型,調用千億級別的參數,具有很好的“時序數據處理”(理解上下文關系)和“自注意力機制”(抓重點、找聯系)的能力。
表1 GPT系列模型的演變與更新

自我學習是人工智能的關鍵組成部分,允許系統通過經驗和數據獲取新信息,并改進基于知識的判斷和結論。機器學習(ML)是ChatGPT的重要組成部分,因為它允許系統從數據中學習,并隨著時間的推移逐漸提高語言處理能力,從而實現人機之間更有效的溝通和交互。機器學習模型對通用能力有所掌握后,將其泛化到其他場景和指令中,其所依賴的模型和數據不斷堆積累加時,模型對人類世界運作規律的辨識率與模仿率會隨之累加,這也是為什么ChatGPT一推出就火熱的主要原因?!叭绻f上一次讓AI火出圈的AlphaGo所展現出的是在特定領域的‘?!?,這一次ChatGPT展現出的則是AI在廣泛應用場景的‘通’:這個“通”以正常人都會、都懂、都能體驗的對話形式呈現,讓AI——特別是自然語言處理技術進入主流用戶群,孕育出了這一現象級產品”
ChatGPT在通用人工智能領域取得了突破,在多重場景中表現出比普通勞動者更大的優勢,其發展帶來的“技術性失業潮”讓人們不得不審視人工智能帶給人類社會的深刻影響。ChatGPT從海量數據中提煉、總結規律模型,這種能力在過去被認為只有人類才具備,而狗、鳥等動物只具備簡單的歸納、學習能力。原本人類作為“萬物之靈”是這個世界上僅有的復雜思考者,而如今機器的理解、學習和創新能力被無限放大甚至超越了人類自身,ChatGPT的出現昭示著另類競爭者的降臨。工業時代的機械創造是對人類體力勞動的解放,將人從枯燥的、繁重的流水線中解放出來,提高了生產效率;而人工智能的發展則將人從初級的腦力勞動中解放出來,讓人們可以投入更具創造性的工作中。長遠來看,人工智能甚至是對人類思維意識的一種替代性顛覆,使得“人類無用”的價值凸顯。人類優越感的消解以及日后人與機器的差距或許還將進一步擴大,這緣于二者的進化路徑迥異,自然人的養成需要經歷十多年的成長、教育,需要投入大量的人力、物力,而人工智能的進化基于天文數字一樣的數據參數,能夠進行自我的改進、獨立學習,在之前的基礎上不斷迭代,而不需要像人一樣從嬰孩時代培養。對于用戶來說,ChatGPT最大的魅力在于,它不僅能夠承擔一些輔助性的、基礎性的工作,更能夠在一些創造性的領域生成讓人滿意的內容,由此為人們爭取了更多的自由時間投入自己喜歡的、更具創造性的領域,ChatGPT對于學術工作者來說是非常誘人的輔助工具。
2 ChatGPT在學術研究中的輔助創新
人工智能模型可以從大量的數據中獲得一定的模式和結構來實現新數據的輸出和創建,這是生成式AI的(Generative AI)的底層技術邏輯。諾伯特·維納(Norbert Wiener)發展出了一種關于人類本質和社會的“控制論觀點”,強調我們可以從事物的結構本身獲得什么,同樣的,對于ChatGPT這種新興技術架構本身來說,我們關注的不是這種技術架構本身是如何搭建的,而是我們從這種架構中可以獲得什么。ChatGPT在多領域、多場景中受到追捧,原因在于人們可以通過其獲得高質量的、類人化的智能生成效應,例如,其可以用于財務報表的生成、法律文書的撰寫、合同審查、投資管理、情感分析、創協寫作、代碼調試、腳本生成,等等。ChatGPT作為一個輔助創新工具,利用數據知識進行回應,輸出連貫的、跨領域的文本內容,對復雜的提問做出細微的、邏輯嚴密的回答,甚至可以根據專業人士自身的需求進行差異化的定制服務,這些功能用于學術研究和出版是十分令人興奮的。在傳統的學術研究中,學術工作者要想在專業化、模式化、流程化的工業化生產方式之外獲得創造性突破,完成知識萃取,需要投入大量的時間、精力與腦力,屬于手工原始積累階段。ChatGPT的出現大大提升了人們對知識的合并、組織、擴展的能力,機器模型類人化的推理、對話和總結使得知識的社會價值進一步外溢,科研人員借助ChatGPT強大的自然語言處理能力,完成基礎性甚至是創造性的工作,大大節省了其為知識創意所支付的人力成本,人類知識積累的范式發生了改變。
ChatGPT在學術研究中的輔助創新方式是多維度的,貫穿于整個創作流程中。第一,ChatGPT可以根據特定主題,為研究人員提供選題方向、論文大綱和參考文獻,為學術工作者提供最新的科研成果和文獻,成為有效的學術搜索引擎。例如,ChatGPT的衍生品ChatPDF,是Mathis Lichtenberge開發的一款應用,用戶將文獻的PDF上傳后,它可以提取并歸納文獻的核心觀點,大大提升了文獻閱讀效率,能夠幫助學術審稿人快速抓住文章核心要點和創新點。第二,ChatGPT能夠進行順暢對話的語種超過數百種,包括中文、英語、日語、漢語、西班牙語、德語等,覆蓋全球大部分國家和地區的語言,可以為學者提供翻譯服務,進行線上的實時翻譯,移除不同國別研究人員的語言障礙。第三,ChatGPT可以進行論文草稿的搭建或文本的生成。但目前來看ChatGPT還不具備產生符合期刊要求的原創研究的能力,而更適合用于文獻綜述、評述性文章、總結性報告的寫作。第四,ChatGPT可以進行數據分析、情感分析,對論文稿件中不完善的用語進行調整和修改。第五,ChatGPT可以扮演虛擬導師的角色,為學者提供學術發展規劃與路徑。概括來講,ChatGPT根據用戶輸入內容進行上下文的結合與理解,在此基礎上完成多任務處理。在學術研究工作中,ChatGPT可能完成的輔助性任務包括:翻譯、簡潔呈現研究結果、文本生成、提煉摘要、上下文理解、數據分析等,其在推理、對話和總結方面的突出表現,可充分滿足人們在短時間內低成本獲取密集知識的需求。
ChatGPT在學術研究中引入了知識暗流,模糊了學術創作的邊界。西北大學的研究人員要求ChatGPT根據醫學期刊上的論文撰寫50個醫學研究摘要,然后邀請研究人員進行識別,人類審稿人能夠正確識別68%的機創內容和86%的真正摘要。這說明ChatGPT與真實作者的創作邊界已不是那么清晰可辨,學術審稿人很難完全準確識別出ChatGPT生產的內容。ChatGPT并沒有產生新的知識,而是對已有內容進行歸納與重組,生成了新的部落知識,知識只是發生了形式的遷移,并沒有實質的增量。對于個體來說,往往更關注技術帶來的直接利益,而非更下游的影響,所以有學者認為學術研究中ChatGPT這種AI工具的應用,本質上屬于“高科技剽竊”(high-tech plagiarism)和“學習逃避”(a way of avoiding learning)。當這些高度類人化的機創內容被不加思考、不加核實地挪用時,表面上看,ChatGPT成為了科研人員更有效地組織知識的輔助工具,提升效率的同時使得學者與競爭者拉開了距離;但實質上,這加劇了學術不公平,對學術的權威性、專業性、創新性都會造成某種程度的消解。所以,人們在關注技術便捷的同時,也應該重新審視和評估AI擴散對學術研究和學術出版帶來的可能威脅。
3 ChatGPT給學術出版帶來的挑戰
ChatGPT進入學術出版領域,可幫助作者、期刊和審稿人等承擔很多工作,為他們騰出精力完成其他任務,但伴隨技術便捷而來的是作者身份歸因難、內容失實、AI依賴、AI偏見等問題,對學術出版造成了深刻的影響。
3.1作者身份歸因困難與創作臨界值的改變
作者身份有兩方面的意義,一方面是對做出實質性智力支持與智力付出的參與者給與身份認可,另一方面作者也是對發表內容進行責任歸屬的承擔人。在ChatGPT使人機創作臨界值發生改變的情況下,應該如何框定ChatGPT在學術研究、學術出版中的邊界呢?首先需要回答的問題便是,ChatGPT是否可以成為共同作者?是否可以參與學術論文寫作?國內法學專家傾向于認為ChatGPT作為著作權人仍無法完全成立,并不具有作者身份。根據我國《著作權法》第十一條,雖然允許擬制法人或者非法人組織成為作者,但其并不具備真正的創作力,“即使是那些通過立法承認人工智能生成內容可以獲得著作權保護的國家,通常也是將計算機軟件的開發者,或者是將在生成內容過程中作出實質性貢獻的人認定為作者”。那么,ChatGPT在成文過程中如果扮演了實質性的貢獻角色,是否可以獲得共同作者的身份?學者們看法不一,有的學者認為如果在策劃或撰寫過程中ChatGPT提供了幫助,則應該列為作者,以對其貢獻給與認可,目前已有一些文章將ChatGPT列為合著者(如ChatGPT and Zhavoronkov,2022;King,2023;O’Connor and ChatGPT,2023)。
除了ChatGPT并未產生新的知識,只是對網絡上的信息進行了重新整合與挪用,還有一個問題是ChatGPT無法滿足相應的問責。ChatGPT作為非法律實體,不能管理版權和許可協議,不能以有意義的方式承擔責任,不具備作者身份的獲得條件。作為輔助性工具,ChatGPT無法進行反思、推理和充分論證,而是利用互聯網海量數據訓練出來的,這使得對來源的追蹤、對責任人的歸屬變得不具有現實性,于是作者在學術寫作中引用ChatGPT所提供的內容的那刻起,侵權風險便從模型轉嫁到了作者自身。某種程度上,作者的不合規引用構成了剽竊。對剽竊的定義,不止局限在文字的復制與抄襲,對他人觀點、創意、圖形、方法及其他任何智力產品的挪用都屬于其范疇。通過ChatGPT獲取思路與啟發,尚且并不完全等同于剽竊,如果作者對機創內容進行了說明與標識,也并不完全屬于抄襲。但是,完全以知識暗流的方式,將機創內容融入自身的論述中,就屬于學術不端的范疇。這也是為什么一些期刊、機構拒絕承認ChatGPT的合著者身份,例如《科學》(Science)和《自然》(Nature)禁止在期刊發表的論文中使用ChatGPT以及其他自動生成式工具生成的任何文本,拒絕的理由是ChatGPT無法對其作品承擔相關的問責。不少期刊委員會都出臺了關于學術出版中使用大型語言模型的政策,例如在COPE(出版倫理委員會)、ICMJE(國際醫學雜志編輯委員會)關于作者身份的相關說明中,明確提出人工智能工具無法滿足作者身份的要求,因為它們不能對提交的作品負責,因此不能被列為合著者。
對于ChatGPT作者身份歸因的問題,筆者持保留態度,對于智能工具的問責需要從長遠角度看,正如Polonsky和Rotman所說,未來隨著AI的完善和增強,或許可以成為版權協議的管理者、成為利益沖突的分辨者,可以滿足作者身份的要求成為論文的合作者,只不過需要明確的披露,標注使用了哪種AI工具以及如何使用,充分而完善的引用來源說明不僅是對他人產出的尊重,也確保了學術研究的規范性與完整性。
3.2機器捏造對學術權威性的消解
ChatGPT基于人類語言數據庫而生成、模仿人類對話的應用程序,根據給定的文本提示給出類人的答案,其熱度頗高,有很大一部分原因在于ChatGPT能夠在專業、智慧、對話等方面與人類表現出高度相似的特征。但ChatGPT表現的“足智多謀”并非無條件,它生成的高質量觀念取決于高質量的提問,在沒有得到足夠提示的情況下,ChatGPT只會給出非常簡潔甚至膚淺的回答,而且由于其數據并非及時更新的流動數據,所以學者們在使用過程中可能產生認知誤差或獲得虛假信息。例如,以下為筆者于2023年5月8日上午,向ChatGPT(基于GPT-3.5模型)的提問,ChatGPT給出的回答非常簡單,且錯誤百出,將GPT-3.5模型回答為GPT-2。
■提問:請用谷歌學術的風格,向我介紹一下什么是OpenAI,什么是ChatGPT(2023/5/8上午11:19:28)
■ChatGPT給出的回復:
什么是OpenAI
OpenAI是一個人工智能非營利組織,旨在通過無歧義、有利于所有人的方式開發人工智能。該組織成立于2015年,由伊隆·馬斯克、山姆·阿爾特曼等創建。OpenAI在公開平臺上共享了大量人工智能研究成果和代碼,旨在促進人工智能的發展和普及。
什么是ChatGPT
ChatGPT是OpenAI基于GPT-2模型創建的一種用于智能聊天的系統。GPT-2是一種自然語言處理模型,它的訓練數據來自于大量的網頁內容。ChatGPT基于該模型,使用人工智能技術幫助用戶完成各種任務,如回答問題、聊天等。該系統能夠提供高質量的自然語言輸出,與普通聊天機器人相比,在回答問題時更加詳細,更加接近人的思維方式。
筆者將同一問題投喂給ChatGPT(基于GPT-4模型),其對問題的理解更加到位,給出的問題更符合要求,可以生成學術風格的文本,如圖1所示。

圖1對同一問題的回答,GPT-4模型明顯優于GPT-3.5模型
AI生成內容對學術研究的嚴謹性、科學性、專業性來說是一種威脅。主要問題在于內容低質化,對某一領域的知識缺乏深度產出。有些時候,ChatGPT非常擅長“胡說”,筆者曾經輸入指令要求ChatGPT推薦關于“算法問責”的文獻,并提問這些文獻是否為真實發表,ChatGPT給出肯定答復,但事實上這些文獻都是ChatGPT捏造出來的。類似地,有編輯要求ChatGPT提供果皮在高溫情況下是如何降解的,ChatGPT給出的10個引文幾乎每個都是偽造的。這與模型在初期標注體系不夠完善和規范有關,而且其模型訓練的語言主要為英語,可能會因為語言環境的切換而導致信息有所流失和失誤。雖然ChatGPT接受了海量數據的訓練,但是不可避免地存在各種瑕疵,在學術出版中需要以更加審慎的態度對待。
3.3 AI依賴對學術創新的掣肘
學術研究的目標在于使人類對世界有更清晰的理解并更好地發展。ChatGPT雖然能夠依據研究人員的需求進行內容生成,提升研究效率,但也對科研工作中的創新和反思形成遏制。ChatGPT對知識的計算糅合并沒有明確的引用過程,人們可能會在學術創作中存在一種引用機創內容而不會被發現的僥幸心理,以功利化的方式使用機創工具,依賴自動化工具代替重復性勞動的同時,依賴AI作為觀點的來源,這種依賴可能會導致對AI生成工具的濫用,如垃圾郵件的創建、深度偽造內容等。在沒有完全理解ChatGPT提供內容的基礎上,在沒有付出任何努力的情況下,依賴AI生成工具就可以提交一份學術論述,人們由此喪失獨立思考和批判思維的能力,人類知識價值的創造被知識的計算價值所替代。雖然很難通過強制規避的方式阻止ChatGPT的使用,但如何使ChatGPT對學術創新的吞噬降到最低,如何鼓勵更多的道德實踐,使其成為學術創新中錦上添花的工具,仍然是學術共同體需要思考的問題。
3.4偏見承接對學術嚴謹性的破壞
ChatGPT訓練數據的不確定性和不透明性,導致其可能承接訓練數據的偏見,或者遭遇對抗性的惡意輸入,這些都是比較致命的局限。例如,ChatGPT可能受到一些主流內容的影響,而忽略一些小眾的、邊緣的、值得被關注的新興內容;ChatGPT訓練數據可能刻意凸顯某些內容和偏好,其推薦的結果或數據源可能并非最新研究成果,導致其生成的內容過時;ChatGPT也面臨著被攻擊和惡意誘導的風險,有人借助惡意指令的輸入,躲避ChatGPT的安全機制,誘導ChatGPT執行意外動作,如進行洗稿活動等。對于學術研究來說,基于這些有缺陷的數據所形成的結論和決策,無疑會挑戰學術的嚴謹性和權威性,損害作者個人的學術信譽度。
4人機協作中知識正義的維護與學術智能的實現
“我們傾向于高估新興技術在短期內的影響,而從長遠來看低估其影響?!保╓e overestimate the impact of technology in the short-term and underestimate the effect in the long run.)這是1960年代未來主義學者Roy Amara作出的著名論斷。ChatGPT作為通用人工智能(AGI)和通用目的技術(GPTs)發展的里程碑,顛覆了以內容為中心的傳統大眾傳播模式和以用戶為中心的社交媒體傳播模式,迎來了以數據和算法驅動的“暗網式”大集市傳播模式,是一次社會權力的再轉移和再分配。雖然ChatGPT給人耳目一新的顛覆式認知,但其尚不具備完全的人類智能。未來還將會有大量的智能語言模型在精進,AI的不斷完善與擴散在人類進化中會扮演重要角色。隨著訓練數據量級的不斷膨脹,人工智能會超出人類提取意義核心的能力范疇,成為一種更高階的自動化工具。這種工具將會進一步的改變人類的興趣結構,改變我們思考的事物,通過改變我們用來思考的東西,進一步改變我們的符號屬性,新技術通過改變思想發生的舞臺而改變了社區本質。1981年《渥太華公民報》(The Ottawa Citizen)中有一篇文章《教師必須與計算機斗爭》(Teachers must fight computers)寫道:“如果教師不去抵制越來越多出現在教室中的計算機,識字素養可能會在10年內消失?!睂τ谛录夹g的恐懼一直都有,尤其是人們擔心技術對現有的知識體系造成沖擊,但是面對技術帶來挑戰的時刻,也正是重新審視學術社區的時刻。
為了保證學術研究的質量,杜絕或防止學術不平等現象,對ChatGPT的應用應采取分布式問責(a distributed accountability)的方式展開,期刊、作者、審稿專家都需要分擔責任。對于學術出版機構和期刊來說,需要有接受新興技術的勇氣,包括抓住技術進步帶來的機遇,嘗試解決其帶來的問題;對新興事物保持開放的態度,吸納對學術生產可能會起推動作用的技術工具,根據技術條件的發展與成熟而不斷調整期刊行動與規定,在工具采納的過程中對可能存在的問題進行明智的審議。雖然目前ChatGPT未在國內大范圍用于學術出版,但是對于出版機構來說,依然要持續觀察,保持警惕,對AI工具的使用作出相應的引導,在透明度、問責制、版權保護等方面作出相應的說明與指導。面對可能的高科技剽竊,期刊成為了維護數據正義(data justice)的一環,學術期刊可以采用一些反GPT的軟件來檢測機創論文,例如GPTZero、Originality.ai、Plagibot都能夠對GPT生成的內容依據相似性給出判斷。AI的擴散可能會要求審稿人提高對學術生產評估的審查,優質論文的評估標準或許會發生變化。對于作者來說,有必要也有義務進一步驗證AI工具提供的內容的真實性、有效性,明確標識哪些內容是由ChatGPT產生的,并通過何種提示得到的相應文本,對AI工具的可及性做出解釋,并確保AI內容的準確性。
5結語
目前ChatGPT對學術出版的影響并未深刻顯現,但生成式AI對學術實踐的影響會在日后日益凸顯,其倫理意義是當下不得不思考的問題。雖然ChatGPT的便捷性、智能化、可得性、易用性大大提升了學術產出的效率,但作者身份和版權歸屬、變相剽竊、低質化輸出、數據偏見承接等問題與學術研究息息相關。另外,ChatGPT并非完全免費,基于GPT-3.5模型每千字(1個漢字=2tokens,1個英文=1 token)收費0.002美元,基于GPT-4模型每千字收費0.03—0.06美元,商業平臺的逐利性推廣意味著并非所有地區的所有人都可以負擔得起ChatGPT的訪問成本,這無形中會擴大不同地區、不同群體之間的學術差距。知識傳播的民主化與大眾化并不能完全依賴技術實現,正如知識正義的維護不能僅依賴超級虛擬輔助工具,而應由學術共同體一起努力。對于期刊、審稿人、作者和AI開發者在智能學術中的實踐,需要更新的政策框架進行規范,從不同的主體視角鼓勵人機協作中高質量數據集的采納和創新性內容的生產,通過不同主體的自我規范以及期刊、出版行業的共同協作,對AI學術輔助進行合理部署和倫理約束,使得學術社區標準能夠支撐更加公平、公正、具有生產活力的學術實踐。未來,隨著機器算力的提升,生成式AI會持續完善,彌補現有不足,其對學術出版的潛力是值得期待的,在吸納其優質因素的同時,通過合規實踐避免其負面影響,使得AI技術能夠為人類核心價值觀的實現而服務,而非作為取代人的存在而存在。