欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

Patchscopes實(shí)戰(zhàn)教程,包括拆箱黑盒LLM、谷歌統(tǒng)一框架。

2024-04-29

大模型最受詬病的問題是不透明,無法解釋。谷歌最新框架Patchscopes可以提供模型內(nèi)部隱藏表征的自然語言解釋。本文介紹了一些實(shí)際應(yīng)用的例子。


雖然大的語言模型(LLM)它在各種常見的自然語言理解任務(wù)中表現(xiàn)出優(yōu)異的性能,但隨之而來的幻覺也揭示了模型在真實(shí)性和透明度上仍然存在問題。


如果模型能夠產(chǎn)生錯(cuò)誤的回復(fù)內(nèi)容,「對(duì)這背后的運(yùn)行機(jī)制有深入的了解」,或許可以解決模型幻覺問題。


但是,隨著深度神經(jīng)網(wǎng)絡(luò)的復(fù)雜性和規(guī)模的增加,模型「可解釋研究」通過探索機(jī)器學(xué)習(xí),也越來越具有挑戰(zhàn)性。(ML)模型表示所學(xué)內(nèi)容(模型所謂隱藏表示)的方式,即隱藏表示(hidden representation),研究者能夠在一定程度上控制模型的行為,并對(duì)模型的實(shí)際運(yùn)行方式有更深入的科學(xué)認(rèn)識(shí)。


從以往的研究結(jié)果來看,一個(gè)相對(duì)有前途的方向是「利用LLMs來解釋其它模型的神經(jīng)元方法?!梗╪euron patterns)。


今年1月,Google Research和特拉維夫大學(xué)的研究人員共同提出了一個(gè)統(tǒng)一的框架Patchscopes來討論LLMs中的隱藏表征,其主要思想是使用LLMs來解釋相關(guān)模型本身的隱藏表征。


論文鏈接:https://arxiv.org/pdf/2401.06102.pdf


Patchscopes統(tǒng)一并擴(kuò)展了現(xiàn)有的可解釋技術(shù),可以讓模型回答以前無法解決的問題。例如,模型可以說出關(guān)于模型的內(nèi)容?!溉绾尾蹲侥P洼斎胫蠰LM的隱藏表征意義的細(xì)微差別?」觀點(diǎn)和想法,可以幫助開發(fā)者更容易地修復(fù)某些特定類型的推理錯(cuò)誤。


當(dāng)論文剛剛發(fā)表時(shí),研究人員還只是將Patchscopes的使用場景集中在自然語言理解領(lǐng)域和自回歸Transformer模型家族中,但實(shí)際上這種方法的潛在應(yīng)用范圍很廣。


最近,研究人員發(fā)布了一個(gè)博客,闡述了該方法在更復(fù)雜的場景中如何構(gòu)建預(yù)測的應(yīng)用示例,以檢測和糾正模型幻覺,探索多模式(圖像和文本)的表征,以及研究模型如何在更復(fù)雜的場景中。


01 使用Patchscopes的方法


在NLP中很常見「實(shí)體共同指代解析」(co-references to entities)例如,在Patchscopes中,需要獲得一個(gè)專門用于解決共指問題的工具。


例如,對(duì)代詞進(jìn)行模型研究?!竔t」如何理解代表人物的前后文,需要建立一套Patchscopes配置。



通過使用預(yù)定義的目標(biāo)提示符(右)解碼源提示符(左),Patchscopes框架圖解,「It」編碼內(nèi)容在表征中。


設(shè)置 Setup

在給出目標(biāo)模型之后,需要輸入一個(gè)標(biāo)準(zhǔn)提醒(即源提醒),包括上下文信息,source prompt),如“Patchscopes is robust. It helps interpret"(Patchscopes是穩(wěn)定的,有利于解釋…)


目標(biāo) Target

二級(jí)提醒(secondary prompt 即 target prompt)其目的是提取具體的隱藏信息,在這個(gè)例子中,一個(gè)簡單的單詞反復(fù)提醒就能揭示隱藏表征中的信息。


例子中的目標(biāo)提示是「cat->cat; 135->135; hello->hello; ?」,但是需要注意的是,提醒中的單詞是隨機(jī)抽取的,所以看起來可能與輸入文本無關(guān),但也需要遵循特定的寫作方法:包括多個(gè)例子,其中每個(gè)例子包括一個(gè)單詞、一個(gè)箭頭和單詞的重復(fù)。


若將文本輸入到訓(xùn)練后的語言模型中,以預(yù)測下一個(gè)單詞,則該模型的預(yù)期輸出可以繼續(xù)遵循該模型。


也就是說,如果模型把它放在一起「?」用其它隨機(jī)詞替換內(nèi)容,使模型產(chǎn)生下一個(gè)單詞,從而檢查模型應(yīng)該重復(fù)哪些單詞?


塊 Patch

在源提示符上執(zhí)行推理(inference),其中「It」transformation(示例中的f函數(shù))可以應(yīng)用transformation(示例中的f函數(shù))將token中感興趣層的隱藏表征(圖中的綠點(diǎn))注入目標(biāo)提醒(圖中的橙點(diǎn))。


揭示 Reveal

對(duì)增強(qiáng)后的輸入(augmented input),從模型到導(dǎo)出,包括原模型是如何在特定的前后文本中對(duì)單詞進(jìn)行內(nèi)部對(duì)話的?「It」拓展的想法。


在給定的例子中,模型生成「Patchscopes」,解釋了在「It」token上方模型第四層的隱藏表征,結(jié)果表明,經(jīng)過四層計(jì)算,模型已經(jīng)將以前的詞匯信息合并到以前的詞匯中?!窱t」在token上方的隱藏表征中,得出結(jié)論,它不再指通用目標(biāo),而是指代替。「Patchscopes」。


雖然token表征(綠點(diǎn))可能看起來像一個(gè)浮點(diǎn)數(shù)向量,沒有任何意義解,但Patchscopes框架可以將其轉(zhuǎn)換為人們可以理解的文本,這意味著它指的是「Patchscopes」,和以前的工作一致,也就是說,關(guān)于一個(gè)主題的信息會(huì)在最后一個(gè)token中積累。


02 實(shí)戰(zhàn)Patchscopes


Patchscopes廣泛應(yīng)用于LLMs的理解和控制。


下一個(gè)token預(yù)測(next token prediction)

根據(jù)給定的前后文,在計(jì)算過程中,模型可以「多早地」得到最后的預(yù)測?


Token預(yù)測是一種常見的方法,可以用來評(píng)估Transformer內(nèi)部的可解釋性方法,從中間隱藏表示。


Patchscope的效果特別好,即使在更復(fù)雜的初期或中期處理層:在不同的語言模型中,從第10層開始,它的性能優(yōu)于之前的方法,比如Tuned。 Lens和Logit Lens。


用下一個(gè)token預(yù)測任務(wù)來評(píng)價(jià)LLM中間隱藏表征的各種可解釋性方法,展示了使用一個(gè)簡單的方法?!窽oken Identity」目標(biāo)提示符(即由k個(gè)表示與標(biāo)志相似的函數(shù)的演示組成的目標(biāo)提示符,格式為「tok_1 → tok_1 ; tok_2 → tok_2 ; ... ; tok_k」)和Tuned一起 Lens和Logit 與Lens方法相比。x軸是LLM中檢查的隱藏表征層;y軸顯示precision@1,測量token匹配原始分布中最高概率token示例的比例。


提取事實(shí)(pulling out facts)

在模型計(jì)算中,可以提前獲得特征信息(例如,某個(gè)國家的貨幣)。


在這個(gè)實(shí)驗(yàn)中,研究人員主要考慮從文本中獲取屬性任務(wù)。文本來源是Hernandez等人編寫的常識(shí)和事實(shí)知識(shí)任務(wù)(2024年)。


論文鏈接:https://openreview.net/pdf?id=E4kE7LU2s14


使用目標(biāo)提醒主要針對(duì)簡單的動(dòng)詞關(guān)系,其次是占位符的主題。例如,我們應(yīng)該從「States」在表征中獲得美國官方貨幣,使用目標(biāo)提示符「The official currency of x」,考慮到Patchscopes應(yīng)用程序不使用任何訓(xùn)練示例,而且明顯優(yōu)于其它技術(shù)。


跨源層屬性提取準(zhǔn)確性(Attribute extraction accuracy across source layers,簡稱REQ)。左:工具解決的問題(常識(shí)),54個(gè)來源提醒,12個(gè)類別。右:國家貨幣(事實(shí)),83個(gè)來源提醒,14個(gè)類別。


說明實(shí)體:不僅使用yes或no

處理輸入時(shí)如何理解模型?「亞歷山大帝」(Alexander the Great)這種多字輸入?


超越簡單的Patchscopes「這個(gè)問題已經(jīng)解決了」(has it figured this out yet)回答,揭示了模型如何從一開始就逐漸理解一個(gè)實(shí)體。


使用下列few-shot目標(biāo)提醒,逐步處理解碼模型:「敘利亞:中東國家,列奧納多迪卡普里奧:美國演員,三星:韓國大型跨國家電及消費(fèi)電子企業(yè),x」(Syria: Country in the Middle East, Leonardo DiCaprio: American actor, Samsung: South Korean multinational major appliance and consumer electronics corporation, x)。


在遍歷兩種不同的模式時(shí)(Vicuna-13 B和Pythia-12 B)在層次上,更多來自上下文的單詞被整合到當(dāng)前的表征中,并體現(xiàn)在生成中。


通過定性案例說明實(shí)體分析:表達(dá)性生成說明,當(dāng)通過層時(shí),更多來自上下文的tokens被整合到當(dāng)前的表征中?!附忉尅梗‥xplanation)指生成與源提示詞的關(guān)系。這兩個(gè)例子都使用了上述相同的目標(biāo)提示符。


團(tuán)隊(duì)合作:用模型解釋模型

Patchscopes框架可以用強(qiáng)大的語言模型來解碼較小的過程:研究人員使用Vicuna-13 Vicuna-7a- B的輸入處理將隱藏的物理表征從較小的模型修復(fù)到較大的模型,然后測量模型生成的文本和維基百科的具體參考描述之間的詞匯相似度(使用RougeL評(píng)分)。


Vicuna-7 B → 13 B(綠線)幾乎總是高于Vicuna-7 B → 7 B(藍(lán)線)曲線下面積較大。結(jié)果表明,跨模型被修復(fù)為更大、更有表現(xiàn)力的模型,在優(yōu)化生成和參考文本之間詞匯相似度的結(jié)果表明,跨模型修復(fù)的過程顯著增強(qiáng)了模型能力,生成文本前后對(duì)齊的輸入表示從另一個(gè)模型。


利用Vicuna模型,RougeL(詞匯相似度)從Vicuna-7a-Vicuna- B到Vicuna-13 B的patched表征導(dǎo)致對(duì)popular和rare實(shí)體進(jìn)行更具表現(xiàn)力的語言分析。


修正錯(cuò)誤推理

雖然最先進(jìn)的LLMs可以獨(dú)立處理每一個(gè)推理步驟,但是多步推理仍然很難實(shí)現(xiàn)。


Patchscopes可以通過再次隱藏路由中間的表征來幫助解決這個(gè)問題,從而顯著提高準(zhǔn)確性:在實(shí)驗(yàn)中,系統(tǒng)地生成了多跳的事實(shí)和常識(shí)推理查詢,并表明通過修復(fù)隱藏的表征,可以將輸入結(jié)構(gòu)的先驗(yàn)知識(shí)從查詢的一部分固定到另一個(gè)固定。


思維鏈(CoT)Pathcscope使用相同的源提示和目標(biāo)提醒來執(zhí)行順序推理,但是將一個(gè)位置的隱藏表征修復(fù)到另一個(gè)位置。


CoT Patchscope將準(zhǔn)確率從19.57%提高到50%,這個(gè)實(shí)驗(yàn)的目的是證明使用Patchscopes進(jìn)行干預(yù)和糾正是合理的,但是要注意CoT Pathscope是一種表現(xiàn),而非一種通用的糾正方法。


參考資料:


https://research.google/blog/patchscopes-a-unifying-framework-for-inspecting-hidden-representations-of-language-models/


本文來自微信微信官方賬號(hào)“新智元”(ID:AI_era),作者:新智元,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com