pos機基準信息

 新聞資訊2  |   2023-07-12 09:44  |  投稿人:pos機之家

網上有很多關于pos機基準信息,用于評估跨語言泛化的大規模多語言多任務基準的知識,也有很多人為大家解答關于pos機基準信息的問題,今天pos機之家(www.www690aa.com)為大家整理了關于這方面的知識,讓我們一起來看下吧!

本文目錄一覽:

1、pos機基準信息

pos機基準信息

自然語言處理 (NLP) 的主要挑戰之一是構建不僅可以使用英語而且可以使用世界上所有約 6,900 種語言的系統。幸運的是,雖然世界上大多數語言都是數據稀疏的,并且沒有足夠的可用數據來自行訓練強大的模型,但許多語言確實共享大量的底層結構。在詞匯層面上,語言往往有同源詞——例如,英語中的“ desk”和德語中的“ Tisch”都來自拉丁語“ discus”. 同樣,許多語言也以類似的方式標記語義角色,例如在漢語和土耳其語中都使用后置詞來標記時空關系。

在 NLP 中,有許多方法在訓練中利用多種語言的共享結構來克服數據稀疏問題。從歷史上看,這些方法中的大多數都專注于以多種語言執行特定任務。在過去的幾年里,在深度學習進步的推動下,嘗試學習通用多語言表示的方法數量有所增加(例如,mBERT、XLM、XLM-R),旨在捕獲跨語言共享的知識,并且對許多任務有用。然而,在實踐中,對此類方法的評估主要集中在一小部分任務和語言相似的語言上。

為了鼓勵對多語言學習的更多研究,我們引入了“ XTREME:用于評估跨語言泛化的大規模多語言多任務基準”,它涵蓋了 40 種不同類型的語言(跨越 12 個語系),并包括 9 個需要對不同語言進行推理的任務。語法或語義級別。選擇 XTREME 中的語言是為了最大限度地提高語言多樣性、現有任務的覆蓋范圍以及訓練數據的可用性。其中有許多未被充分研究的語言,例如達羅毗荼語泰米爾語(在印度南部、斯里蘭卡和新加坡使用)、泰盧固語和馬拉雅拉姆語(主要在印度南部使用)以及尼日爾-剛果語斯瓦希里語和約魯巴語,在非洲使用。代碼和數據,包括運行各種基線的示例,可在此處獲得。

XTREME 任務和語言

XTREME 中包含的任務涵蓋了一系列范式,包括句子分類、結構化預測、句子檢索和問答。因此,為了使模型在 XTREME 基準測試中取得成功,他們必須學習可推廣到許多標準跨語言遷移設置的表示。

每個任務都涵蓋 40 種語言的一個子集。為了獲得用于 XTREME 分析的低資源語言的額外數據,自然語言推理 ( XNLI ) 和問答 ( XQuAD ) 這兩個代表性任務的測試集被自動從英語翻譯成其余語言。我們表明,使用這些任務的翻譯測試集的模型表現出的性能與使用人工標記的測試集所達到的性能相當。

零樣本評估

要使用 XTREME 評估性能,必須首先使用鼓勵跨語言學習的目標在多語言文本上對模型進行預訓練。然后,他們對特定于任務的英語數據進行微調,因為英語是最有可能獲得標記數據的語言。然后,XTREME 評估這些模型的零樣本跨語言傳輸性能,即在沒有看到特定任務數據的其他語言上。從預訓練到微調再到零鏡頭轉移的三步過程如下圖所示。

在實踐中,這種零樣本設置的好處之一是計算效率——預訓練模型只需要針對每個任務的英語數據進行微調,然后就可以直接在其他語言上進行評估。然而,對于其他語言中可用的標記數據的任務,我們也比較了對語言數據的微調。最后,我們通過獲得所有九個 XTREME 任務的零樣本分數來提供綜合分數。

遷移學習的測試平臺

我們使用幾種最先進的預訓練多語言模型進行實驗,包括:多語言 BERT,流行 BERT 模型的多語言擴展;XLM和XLM-R,兩個更大版本的多語言 BERT,已經在更多數據上進行了訓練;以及大規模多語言機器翻譯模型M4。這些模型的一個共同特點是它們已經在來自多種語言的大量數據上進行了預訓練。對于我們的實驗,我們選擇了這些模型的變體,這些模型在大約 100 種語言上進行了預訓練,包括我們基準測試的 40 種語言。

我們發現,雖然模型在大多數現有英語任務上的表現接近人類,但許多其他語言的表現要低得多。在所有模型中,結構化預測和問答任務的英語性能與其余語言的性能之間的差距最大,而結構化預測和句子檢索任務的跨語言結果分布最大。

為了說明起見,在下圖中,我們顯示了在所有語言系列中按任務和語言劃分的零樣本設置 XLM-R 中性能最佳的模型的性能。跨任務的分數不具有可比性,因此主要關注點應該是跨任務的語言的相對排名。正如我們所看到的,許多高資源語言,尤其是印歐語系的語言,一直排名靠前。相比之下,該模型在漢藏語、日語、韓語和尼日爾-剛果語等其他語系的許多語言上的性能較低。

總的來說,我們做了一些有趣的觀察。

在零樣本設置中,M4 和 mBERT 在一些較簡單的任務上與 XLM-R 競爭,而后者在特別具有挑戰性的問答任務等方面的表現優于它們。例如,在 XQuAD 上,XLM-R 得分為 76.6,而 mBERT 為 64.5,M4 為 64.6,在MLQA和TyDi QA上的分差相似。我們發現使用機器翻譯的基線(翻譯訓練數據或測試數據)非常有競爭力。在 XNLI 任務中,mBERT 在零樣本傳輸設置中得分為 65.4,在使用翻譯訓練數據時得分為 74.0。我們觀察到,少樣本設置(即,在可用時使用有限數量的語言標記數據)對于更簡單的任務(例如 NER)尤其具有競爭力,但對于更復雜的問答任務則不太有用。這可以從 mBERT 的性能中看出,它在 NER 任務上在小樣本設置中從 62.2 提高到 88.3,提高了 42%,但對于問答任務(TyDi QA),僅提高了 25%(59.7 到 74.5 )??傮w而言,在所有模型和設置中,英語和其他語言的表現之間仍然存在很大差距,這表明跨語言遷移的研究潛力很大??缯Z言遷移分析

與之前關于深度模型泛化能力的觀察結果類似,我們觀察到如果語言有更多的預訓練數據,例如 mBERT,與 XLM-R 相比,結果會有所改善,XLM-R 具有更多的預訓練數據. 然而,我們發現這種相關性不適用于結構化預測任務、詞性標注(POS) 和命名實體識別(NER),這表明當前的深度預訓練模型無法充分利用預訓練模型。 - 訓練數據轉移到這樣的句法任務。我們還發現模型難以轉移到非拉丁文字。這在 POS 任務中很明顯,mBERT 在西班牙語上實現了 86.9 的零樣本準確率,而在日語上僅為 49.2。

對于自然語言推理任務 XNLI,我們發現模型在大約 70% 的時間內對英語的測試示例和另一種語言的同一示例做出相同的預測。半監督方法可能有助于鼓勵改進對示例的預測與其不同語言的翻譯之間的一致性。我們還發現,模型難以預測在經過微調的英語訓練數據中沒有看到的 POS 標簽序列,這突出表明這些模型難以從用于預訓練的大量未標記數據中學習其他語言的語法。 -訓練。對于命名實體識別,模型最難預測遠程語言的英語訓練數據中未出現的實體——印度尼西亞語和斯瓦希里語的準確率分別為 58.0 和 66.6,而葡萄牙語和法語的準確率分別為 82.3 和 80.1。

在多語言遷移學習方面取得進展

盡管世界上只有 15% 左右的人口會說英語,但英語一直是 NLP 最新進展的焦點。我們相信,在深度上下文表示的基礎上,我們現在擁有在為世界其他語言提供服務的系統上取得實質性進展的工具。我們希望 XTREME 能夠促進多語言遷移學習的研究,類似于GLUE和SuperGLUE等基準如何刺激深度單語模型的發展,包括BERT、RoBERTa、XLNet、AlBERT等。

以上就是關于pos機基準信息,用于評估跨語言泛化的大規模多語言多任務基準的知識,后面我們會繼續為大家整理關于pos機基準信息的知識,希望能夠幫助到大家!

轉發請帶上網址:http://www.www690aa.com/newsone/83502.html
上一篇:pos機展業布 下一篇:pos機展業日志

你可能會喜歡:

版權聲明:本文內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容, 請發送郵件至 babsan@163.com 舉報,一經查實,本站將立刻刪除。