您所在的位置: 首頁 >
新聞資訊 >
技術前沿 >
ChatGPT 的發(fā)展現(xiàn)狀、風險及應對
任何事物往往都具有兩面性,ChatGPT 在帶來技術發(fā)展紅利的同時,也引發(fā)對此類技術的使用規(guī)范、監(jiān)督和風險管理等問題的討論。認清 ChatGPT 的本質和局限性、研判潛在的風險和挑戰(zhàn),結合信息安全和倫理道德的約束,提出相應的風險評判標準,以及推進人工智能技術健康發(fā)展的對策建議,對同類人工智能技術的發(fā)展規(guī)劃和落地實施,具有必要的作用。
一、人工智能發(fā)展進入新階段
一、人工智能發(fā)展進入新階段
生成式人工智能的本質是通過從數(shù)據(jù)中學習數(shù)據(jù)的概率分布,從而生成新的數(shù)據(jù)或預測未來的數(shù)據(jù)。生成式人工智能大多使用生成模型,例如傳統(tǒng)的高斯混合模型、隱馬爾可夫模型,其中,深度學習的卷積神經(jīng)網(wǎng)絡、對抗生成神經(jīng)網(wǎng)絡也是重要的生成模型。在 ChatGPT 出現(xiàn)之前,生成式人工智能就已經(jīng)開始應用在不同場景,例如股票預測、智能對話、機器翻譯等。但是,生成式模型在實際應用過程中存在推理速度慢、長距離依賴等問題。因此,在生產(chǎn)活動中,依然以分析式人工智能為主。隨著近年來科研成果的推陳出新,人工智能的落地應用開始從分析式人工智能逐步轉向生成式人工智能,其原因在于:第一,數(shù)據(jù)量的增加?;ヂ?lián)網(wǎng)和物聯(lián)網(wǎng)技術的發(fā)展生成了大量可用的數(shù)據(jù),豐富了生成式人工智能的數(shù)據(jù)資源,為大規(guī)模預訓練模型的出現(xiàn)奠定了基礎。第二,計算能力的提升?,F(xiàn)代計算機和云計算技術的發(fā)展,使原來的摩爾定律不再適用,也使訓練更深、更大的深度神經(jīng)網(wǎng)絡成為可能。第三,算法的改進。上述環(huán)境的改變,促使大規(guī)模預訓練模型誕生。這意味著模型具備更豐富的知識,而其計算和推理的能力也大幅的提升,更準確地模擬真實世界的數(shù)據(jù)分布。這些原因并不能直接促使人工智能發(fā)展方向的改變,卻為生成式人工智能被更好地應用到工業(yè)生產(chǎn)和真實生活中埋下了種子。而且,ChatGPT 產(chǎn)品的成功應用,則意味著這顆種子的生長進入了一個新的階段。
一是基于大數(shù)據(jù)的大模型。Transformer 模型保證了 ChatGPT 的基本生成能力。GPT 系列的模型本體是基于 Transformer 模型的解碼器堆疊而成的,相較于原本的 Transformer 解碼器,GPT 模型移除了多頭編碼器-解碼器注意力模塊,僅保留了多頭掩碼自注意力模塊和前饋神經(jīng)網(wǎng)絡模塊;多頭掩碼自注意力模塊保證輸出語義信息的多樣性和自回歸生成的過程?;?Transformer 模型的自注意力機制和位置編碼等特性,GPT 模型能更好捕捉長距離依賴關系和上下文信息,生成連貫的語言表達。而且,大數(shù)據(jù)保證了 ChatGPT 的知識儲備。GPT 的訓練數(shù)據(jù)包含了文本語料庫、網(wǎng)絡文章、社交媒體、電子書籍、維基百科等多領域多類型的海量文本數(shù)據(jù),保證了 GPT 模型有足夠的“知識”和強大的“推理”能力。GPT 本質是自回歸生成的語言模型。Prompt Tuning 作為一種微調預訓練模型技術,幫助預訓練模型更好地適應具體的任務和應用場景,生成更加精準的語言,保證了 ChatGPT 的適應能力。InstructGPT 引入的基于人類反饋的強化學習(RLHF)模型促進生成符合人類觀點和價值觀的內容,保證了 ChatGPT 生成文本的精確性和真實性。可見,ChatGPT 背后的技術依然是在深度學習的框架內,其效果也是在一次次訓練迭代和人工的指導下完成的,其知識儲備更多是來自訓練數(shù)據(jù)。
二是滿足內容生成需求。隨著人們接受新鮮事物的渠道越來越多,承受能力越來越強,傳統(tǒng)的專家生成內容(PGC)和用戶生成內容(UGC)已經(jīng)不能滿足人們的信息需求。在 ChatGPT 之前,已經(jīng)有基于對比語言-圖像預訓練(CLIP)模型的迪斯科擴散(Disco Diffusion)、達利-2(DALLE-2)的人工智能繪畫軟件,而基于人工智能的生成內容(AIGC)在傳媒、電商、影視、娛樂、教育等領域都得到了廣泛的應用。AIGC 的出現(xiàn)正在彌補內容生產(chǎn)的缺口,諸如 ChatGPT 之類的產(chǎn)品也確實展現(xiàn)了更加人性化和智能化的創(chuàng)作水平。這些幾乎沒有準入技術門檻的產(chǎn)品,使每個人都可能成為創(chuàng)作者;而海量的訓練數(shù)據(jù)也在一定程度上改善了生成內容的質量。目前,ChatGPT 之類的產(chǎn)品創(chuàng)作依然受限于人的“指令引導”。根據(jù)用戶的輸入,模型會根據(jù)從海量訓練數(shù)據(jù)中學習到的“知識”生成用戶所需要的內容。該過程從以往需要用戶自己負責創(chuàng)意產(chǎn)生、內容創(chuàng)作,發(fā)展到現(xiàn)在只需要用戶有一個想法就可實現(xiàn)初步的創(chuàng)作。
三是改進人機交互體驗。ChatGPT 采用了基于語言模型的生成式對話系統(tǒng),通過多輪對話、上下文感知、模型優(yōu)化等技術,實現(xiàn)了更加自然、流暢和智能的對話,從而使用戶感覺在與一個真正的人進行交流。這種自然的交流方式突破了傳統(tǒng)文本輸入的限制,使對話更加順暢,主要表現(xiàn)在:第一,多輪對話。從用戶的反饋看,ChatGPT 相較于過往的對話系統(tǒng),能進行更多輪對話,聊天主題也不會發(fā)生偏離。第二,上下文感知。ChatGPT 能夠有效將上下文信息與用戶的輸入進行結合,理解用戶的意圖和需求,并生成相應的回復,從而使用戶感覺自己在與一個真正理解自己的人進行對話。第三,模型優(yōu)化。ChatGPT 采用了大規(guī)模語料訓練、預訓練-微調等優(yōu)化技術,提高了模型的生成能力和準確性,使 ChatGPT 可以生成更加準確、有條理和自然的回復,并具有更好的魯棒性和泛化能力。
四是實現(xiàn)多維數(shù)據(jù)融合。ChatGPT 可以從多個不同維度獲取數(shù)據(jù),通過將訓練階段的社交媒體、新聞、百科、論壇、網(wǎng)站、社區(qū)等數(shù)據(jù)與部署階段的搜索引擎實時數(shù)據(jù)的深度融合,更好地理解用戶的意圖和需求,生成更加準確和自然的回復。從本質上講,ChatGPT 是對現(xiàn)有數(shù)據(jù)的深度融合,并不存在創(chuàng)造力,所回答的內容并不會超出現(xiàn)有的知識范圍,而且機器本身并不能真正理解所提問題的真實含義,以及它所表達的真實邏輯。因此,既要肯定 ChatGPT 在技術層面的巨大進步,也要認識它的局限性。本質上,ChatGPT 是一個基于大數(shù)據(jù)人工智能的階段性成果,并不具有真正意義上的創(chuàng)造力,要實現(xiàn)人工智能領域質的飛躍,還需要相關專家學者的進一步技術“深耕”。
二、ChatGPT 帶來的風險
二、ChatGPT 帶來的風險
與 ChatGPT 強大的生成能力相伴而生的是一系列風險和挑戰(zhàn)。充分認識并應對這些問題,需要深入了解 ChatGPT 面臨的風險挑戰(zhàn),并采取相應的措施確保其安全、可靠和有益的應用。
(一)信息安全風險
ChatGPT 的訓練數(shù)據(jù)和算法模型決定了它的內容和輸出。由于 ChatGPT 訓練數(shù)據(jù)大多來自網(wǎng)絡,其內容本身的真實性、完備性、嚴謹性無法得到保證,易導致生成內容存在片面、虛假或誤導性信息,帶來信息混亂,干擾用戶獲取科學權威信息。此外,如果訓練數(shù)據(jù)中存在特定價值判斷、政治偏見或帶有意識形態(tài)宣傳性質的數(shù)據(jù)內容,就會導致輸出的內容呈現(xiàn)特定政治立場觀點,甚至成為某些國家和組織進行輿論操控、干擾選舉、挑起事端、顛覆活動的意識形態(tài)工具,威脅國家安全和社會穩(wěn)定。美國黑莓公司 2023 年 2 月的研究報告《信息技術領袖預測 ChatGPT 驅動的網(wǎng)絡攻擊即將到來》(IT Leaders Predict ChatGPT-Enabled Cyberattacks AreImminent)的問卷調查數(shù)據(jù)表明,71% 的接受調查人員認為,一些國家可能已經(jīng)將該技術應用于針對其他國家的惡意目的。
(二)網(wǎng)絡安全風險
ChatGPT 所用過的訓練數(shù)據(jù)包含了大量的編程語言和技術文檔,這就意味著 ChatGPT 具備生成惡意代碼的能力。公開資料顯示,ChatGPT 被刻意用于創(chuàng)建編寫用于間諜、勒索軟件、垃圾郵件、社會工程攻擊、撞庫攻擊等惡意代碼,降低了實施網(wǎng)絡攻擊的技術門檻,成為網(wǎng)絡攻擊者的有力助手。ChatGPT 不斷催生新的“一鍵式”“傻瓜式”的網(wǎng)絡攻擊手段和工具,加劇了網(wǎng)絡犯罪活動自動化、智能化、隱蔽化、大眾化,給網(wǎng)絡空間安全帶來諸多不確定性。記錄未來(Recorded Future)公司的一篇名為《我,聊天機器人》的研究報告指出,已在暗網(wǎng)和封閉論壇發(fā)現(xiàn)了 1500 多條使用 ChatGPT 進行惡意代碼開發(fā)的記錄。
(三)數(shù)據(jù)安全風險
非法收集數(shù)據(jù)、侵犯個人隱私風險。ChatGPT 的訓練數(shù)據(jù)的來源主要是互聯(lián)網(wǎng),可能未經(jīng)過用戶同意和授權進行數(shù)據(jù)訓練,并用于提供商業(yè)化服務,存在非法收集數(shù)據(jù)、侵犯個人隱私的風險。開發(fā)商 OpenAI 并沒有對 ChatGPT 的數(shù)據(jù)來源做詳細說明。OpenAI 的使用條款規(guī)定了 OpenAI 對用戶輸入和輸出內容擁有廣泛使用權,目的是將其納入訓練數(shù)據(jù)庫、用于改善 ChatGPT。截至目前,OpenAI 并未詳細說明該機制將如何有效運行。ChatGPT 具備連續(xù)問答功能,收集用戶提問軌跡,使用戶存在被以熟人式誘導方式推送更多精準信息,獲取用戶行為習慣、興趣偏好等隱私信息,進而進行用戶“精準畫像”,加劇“信息繭房”效應,給用戶隱私保護和生命健康帶來潛在影響。
敏感數(shù)據(jù)泄露風險。在發(fā)現(xiàn) ChatGPT 生成的文本中含有疑似商業(yè)機密的情況后,微軟與亞馬遜先后禁止公司員工向 ChatGPT 發(fā)送公司機密信息。若用戶在輸入請求時輸入個人相關信息、業(yè)務數(shù)據(jù)或涉及商業(yè)秘密等的內容,將增加相關數(shù)據(jù)泄露的風險。這種數(shù)據(jù)泄露風險具體可體現(xiàn)在直接泄露與間接泄露兩方面。直接泄露與通常意義上的隱私泄露類似,攻擊者通過一些手段,竊取了用戶的對話內容。間接泄露則是因為采用用戶的對話內容(如商業(yè)機密、隱私、核心算法等)訓練 GPT 模型后,模型具備了上述能力,導致隱私內容可能被其他 ChatGPT 用戶獲取到。
催生新的“數(shù)據(jù)霸權”。隨著 ChatGPT 的廣泛應用,用戶規(guī)模的快速上漲和數(shù)據(jù)的頻繁交互,ChatGPT 背后的科技公司不斷積攢其計算資源更豐富、算法模型更先進、數(shù)據(jù)質量更優(yōu)質的先發(fā)優(yōu)勢,不斷構筑全球數(shù)據(jù)收集、信息處理、大模型訓練的壟斷式競爭優(yōu)勢,逐步形成“強者恒強”的馬太效應,催生新的“數(shù)據(jù)霸權”“算法霸權”,繼而形成大型科技平臺公司的壟斷權力,威脅政府公信力。
(四)社會穩(wěn)定風險
倫理道德。ChatGPT 模型對世界的理解和表現(xiàn)可謂是基于海量數(shù)據(jù)的一種經(jīng)驗,其道德行為是由它所使用的算法和在決策過程中內置的價值觀和道德原則決定的。例如,為自動駕駛汽車設計的人工智能系統(tǒng)可能會優(yōu)先考慮安全問題,然而,車內人員與車外人員安全的優(yōu)先級孰輕孰重則很大程度上由設計和執(zhí)行人工智能系統(tǒng)的人決定,所以,人工智能系統(tǒng)的倫理最終取決于創(chuàng)建它的人的倫理。人工智能系統(tǒng)規(guī)模日趨龐大,截至目前,仍缺乏對 ChatGPT 等人工智能生成模型進行審查的系統(tǒng)性方法。如果將生成式人工智能技術用于政治謠言、污蔑抹黑,就會給政治安全和國家安全帶來重大危害。
知識產(chǎn)權。ChatGPT 之所以能夠回答不同領域的各類問題,是因為它有龐大的語料庫和知識庫做支撐。利用 ChatGPT 根據(jù)輸入提示自動生成內容的特性,用戶可實現(xiàn)代寫課程作業(yè)甚至撰寫學術論文等創(chuàng)造性工作。從著作權法的角度看,這些通過人工智能技術拼接、整合得到的“答案”是否構成作品、是否存在侵權風險,如何有效評估人工智能創(chuàng)作中的知識產(chǎn)權原創(chuàng)性以及平衡二者之間的矛盾等,都是亟需認真考慮的問題。
三、對策建議
三、對策建議
生成式人工智能如 ChatGPT 正逐漸展現(xiàn)出其無限潛力和廣闊前景。然而,隨著其應用范圍的不斷擴大,多方面的風險挑戰(zhàn)逐漸顯現(xiàn)。因此,需要進行引導和管理。
一是完善人工智能發(fā)展的頂層設計。以 ChatGPT 為代表的生成式人工智能將成為未來研究熱點和產(chǎn)業(yè)化新方向,應緊抓發(fā)展機遇,完善頂層設計,統(tǒng)籌資源配置,夯實產(chǎn)業(yè)根基,規(guī)范健康發(fā)展,打造人工智能安全發(fā)展良性生態(tài)。充分發(fā)揮科技創(chuàng)新的引領作用,加快核心技術創(chuàng)新突破,鼓勵人工智能優(yōu)勢企業(yè)加大科研投入,推動新場景、新應用的落地實踐,增強我國在人工智能領域的國際競爭力。建議進一步健全相應知識產(chǎn)權保護機制,明確人工智能創(chuàng)作內容的權利歸屬。既要鼓勵人工智能創(chuàng)作,促使人工智能生成技術為社會創(chuàng)造更大價值,又要防止人工智能生成內容的侵權以及大量同質化內容影響自然人創(chuàng)新的積極性。
二是加強風險評估和監(jiān)督管理。建議從主動鑒別和被動鑒別兩個維度,研發(fā)高效可靠人工智能生成內容鑒別方法。在主動鑒別方面,加強對相關企業(yè)的監(jiān)管,督促落實信息安全主體責任,建立健全用戶注冊、信息發(fā)布審核、應急處置等技術保障措施,規(guī)范開展生成信息內容的標識以及針對敏感重要數(shù)據(jù)的安全評估工作,確保深度合成類應用符合國家和大眾利益。在被動鑒別方面,加強隱藏編碼識別、水印加注等技術手段建設,提升人工智能生成內容鑒別準確性,完善針對網(wǎng)絡謠言、蓄意抹黑等不良信息內容的治理,凈化網(wǎng)絡空間。
三是倫理道德治理。人工智能系統(tǒng)所表現(xiàn)出的倫理道德很大程度上由模型的設計者決定。因此,應加強人工智能倫理治理,建設人工智能系統(tǒng)智能評測平臺(體系),將“科技向善”等倫理融入人工智能全生命周期。建議將計算機和人工智能從業(yè)人員的思想道德建設作為第一道防線,在研發(fā)階段做好治理策略的融入;將人工智能相關企業(yè)、行業(yè)的自律作為第二道防線,建立企業(yè)、行業(yè)的自律組織,出臺行業(yè)自律規(guī)范,促使相關企業(yè)在技術工程的開發(fā)、設計、應用方面均恪守正確的價值觀、科技倫理基本原則;將智能評估作為第三道防線,構建嚴格的倫理領域的風險控制體系和專業(yè)的倫理風險控制機制,建立高效可靠的人工智能系統(tǒng)智能評測平臺,實現(xiàn)產(chǎn)品立項、發(fā)布、運營等全生命周期的人工智能倫理審核;將倫理、政策與法律的多維度監(jiān)管作為最后一道防線,綜合運用社會輿論、政策引導、法律規(guī)范等多種力量,引導人工智能技術的安全有序發(fā)展。
四是構建完備中文知識體系。ChatGPT 在中文交互服務上存在“知識盲區(qū)”“政治偏見”,直接原因是 ChatGPT 的訓練數(shù)據(jù)主要以外文為主,根本原因是中文知識體系在全球知識體系的占比較低。截至 2020 年 3 月,W3Techs 預測,前一百萬互聯(lián)網(wǎng)網(wǎng)站使用的語言文字百分比中,英語占 59.3%,中文僅占 1.3%。要構架更加強大豐富的中文知識體系,一方面,要加強中文推廣使用,講好“中文故事”,另一方面,要加強世界知識體系的中文吸收和轉化的能力,用中文“講述世界故事”,提升中文在世界知識體系的占比。
五是加強數(shù)據(jù)保護。在技術層面,建議進一步規(guī)范互聯(lián)網(wǎng)數(shù)據(jù)的獲取使用,提升數(shù)據(jù)使用方式的透明度。模型研發(fā)過程需保證訓練數(shù)據(jù)獲取的合法性,包括合法使用爬蟲技術、合法處理個人信息等;模型應用后應嚴格保護企業(yè)商業(yè)秘密和個人隱私,對存在泄露用戶隱私風險的場景,應提前征得用戶同意。在政策層面,建議進一步加強相關技術標準體系中隱私保護內容的構建,建立隱私數(shù)據(jù)分類保護制度。在數(shù)據(jù)的收集和存儲、共享和交換、使用和加工等層面,應建立全生命周期的安全標準和規(guī)范。同時,應進一步建立健全如隱私條款、合規(guī)評估等政策措施,從法律層面確保個人數(shù)據(jù)的安全。
六是加強人才培養(yǎng)和技能培訓??萍几偁幍膶嵸|是人才,擴大創(chuàng)新型、復合型人才培養(yǎng)。科學技術的競爭,歸根結底是人才與教育的競爭。要圍繞人工智能等新興技術建設一支規(guī)模大、結構合理、素質優(yōu)良的創(chuàng)新人才隊伍,用足用好國家人才引進政策,加強國外高水平創(chuàng)新團隊的引進,注重國內“高素質、拔尖”人才的培養(yǎng),同時增大我國高(中)等院校在新興技術人才培養(yǎng)規(guī)模,擴大本土創(chuàng)新融合性人才培養(yǎng)。深入推進《提升全民數(shù)字素養(yǎng)與技能行動綱要》實施,完善職業(yè)技能培訓體系,提升高效率,消解“職業(yè)恐慌”。引導支持新興職業(yè)群體,積極利用 5G、人工智能、虛擬現(xiàn)實、大數(shù)據(jù)、區(qū)塊鏈等數(shù)字技術創(chuàng)新創(chuàng)業(yè)。
原文來源:中國信息安全