語篇結(jié)構(gòu)標注研究的綜述論文

實用文時間：2021-08-31 手機版

　　論文關(guān)鍵詞:修辭結(jié)構(gòu)理論篇章結(jié)構(gòu) 標注

　　論文摘要:語篇結(jié)構(gòu)標注起步較晚,但以修辭結(jié)構(gòu)理論(RST)為指導(dǎo)的篇章修辭結(jié)構(gòu)標注最近取得了令人矚目的成績。目前,已經(jīng)建成并公布的篇章結(jié)構(gòu)標注語料庫是由美國南加州大學(xué)信息科學(xué)學(xué)院的一個課題小組完成的,由385篇文章組成,是一個大規(guī)模、高質(zhì)量、高一致性的帶多層語言學(xué)標注信息的參照篇章語料庫。語料庫建設(shè)的主要成就為:確立了如何將語篇切分為基本語篇單位的理論,擴展了修辭關(guān)系集,為RST理論的運用提供了廣闊的前景。本文綜述該語料庫建設(shè)的研究成果。

　　0.概述

　　隨著計算機技術(shù)的普及和發(fā)展,語料為機器可讀成為語料庫建設(shè)的最基本的要求之一。要達到語料機讀化這一目的,關(guān)鍵在于語料的標注。所謂標注,就是對語料庫中的原始語料進行加工,把各種表示語言特征的附碼標注在相應(yīng)的語言成分上,以便計算機的識讀。

　　語料標注的類型主要包括語篇背景信息、詞性、詞形、句法分析、語義、語篇結(jié)構(gòu)等。從當前的研究現(xiàn)狀來看,雖然語篇結(jié)構(gòu)標注起步較晚,但以修辭結(jié)構(gòu)理論(RST)為指導(dǎo)的篇章修辭結(jié)構(gòu)標注最近取得了令人矚目的成績。目前,已經(jīng)建成并已公布的篇章結(jié)構(gòu)標注語料庫是由美國南加州大學(xué)信息科學(xué)學(xué)院的一個課題小組完成的,由385篇文章組成,是一個大規(guī)模、高質(zhì)量、高一致性的帶多層語言學(xué)標注信息的參照篇章語料庫。在這基礎(chǔ)上研究小組還進行了自動篇章標注算法、自動文摘、機器翻譯等具體應(yīng)用工程方面的研究。

　　該參照篇章語料庫的建成不但為篇章結(jié)構(gòu)標注建立了理論體系,而且為語篇結(jié)構(gòu)的應(yīng)用研究開辟了新的領(lǐng)域。本文將綜述該參照篇章語料庫建設(shè)的研究成果。

1.理論支撐的建立

　　根據(jù)Carlson(2001)的介紹,用于話語分析的理論有很多,如Groz和Sidner(1986)Mann和Thompson(1987)等都提出了自己的篇章分析理論,但這些理論主要用于單個的文本分析,往往著眼于語篇的某一個方面,如指代關(guān)系、語篇的風(fēng)格、語篇的多維性以及某一理論在語篇中的體現(xiàn)等,很少被用于大規(guī)模的語料分析或語料標注。在建立參照語料庫時,Carlson(2001)等研究者將Mann和 Thompson (1987)提出的修辭結(jié)構(gòu)理論(RST)用于大批量的語篇標注和語篇分析。他們認為用修辭結(jié)構(gòu)理論(RST)對語篇進行標注有三點優(yōu)勢:可以同時捕捉到特定文本的交際意圖、語義信息和文本本身的特征;先前的研究表明該理論可以使不同的標注者在標注不同的文本時達到一定的統(tǒng)一;用該理論標注的語篇樹形圖對構(gòu)建自然語篇生成系統(tǒng)、自動文摘系統(tǒng)、文本測評系統(tǒng)起著關(guān)鍵的作用,也可以用來增強機器翻譯的自然性。參照篇章語料庫的建成確立了篇章結(jié)構(gòu)標注的理論基礎(chǔ)。

2.基本語篇單位的確定

　　語篇結(jié)構(gòu)標注的另一成就是確定了英語基本語篇單位。在確定基本語篇單位時,不同的研究者往往運用不同的理論。Givon(1983)認為從句應(yīng)該成為語篇的基本單位,Sacks(1974)認為談話的話輪應(yīng)該成為語篇的基本單位,Polanyi(1988)堅持語篇應(yīng)該以自然句為切分單位,Grosz 和Sindner(1986)認為語篇的基本單位應(yīng)該從語篇的上下文中獲取,它是由一定的符號所反映的信息載體,能反映事物的單個狀態(tài)或部分狀態(tài),最有影響的修辭結(jié)構(gòu)理論認為從句應(yīng)該是語篇的基本單位,不管從句有沒有語法標記或詞匯標記。

　　然而,在具體標注時,Marcu等研究者對基本語篇單位有了新的規(guī)定:所有有詞匯或句法標記的起狀語作用的從句都屬于基本語篇單位,包括起狀語作用的非謂語動詞詞組;充當主語、賓語、補語的從句不屬于基本語篇單位;定語從句、后置的名詞修飾短語或?qū)⑵渌菊Z篇單位割裂開的從句或非謂語動詞短語為內(nèi)置語篇單位;除此而外,還有一定數(shù)量的有明顯語篇標記的短語作為基本語篇單位,如由in spite of(盡管),according to(根據(jù))等引導(dǎo)的短語。

　　Marcu的切分方法綜合了Grosz和Sindner(1986)和Mann(1987)和Thompson(1987)的理論,在確定基本語篇單位時考慮到詞匯、句法、語義和在句中的位置等因素。

3.修辭關(guān)系的擴展

　　當初,Mann和Thompson(1987)提出修辭結(jié)構(gòu)理論時只給出20多種修辭關(guān)系,但他們明確指出這是一個開放關(guān)系集,既然是開放性的,就意味著讀者在給定話語的內(nèi)部可以定義出其他的關(guān)系類型。Marcu(2000)根據(jù)標注的語料庫總結(jié)出53種單層核心關(guān)系和25種多層核心關(guān)系,78種定義關(guān)系又分成16個組別,每組都具有相同的修辭功能。

　　就如同當初的定義關(guān)系集一樣,這些關(guān)系覆蓋了基本語篇單位、語段乃至整個語篇。通過這些關(guān)系,不同層級的語言片段被連接起來,構(gòu)成一定的抽象形式。

4.標注標準和方法的制定

　　為了建立高質(zhì)量的前后一致的標注標準和方法,Carlson(2001)等研究者采用人工標注的方法。他們所選用的標注者都是有過標注經(jīng)歷的、從事語篇分析和新聞報道的專業(yè)人員。在正式標注之前,他們都接受專門的語篇結(jié)構(gòu)標注培訓(xùn),培訓(xùn)包括3個階段。

　　在第一階段,向標注者介紹修辭結(jié)構(gòu)理論和語篇分析工具。在培訓(xùn)的第二階段,標注者開始探索語篇結(jié)構(gòu)的特征。在培訓(xùn)的最后一個階段,標注小組謀求在構(gòu)建語篇總結(jié)構(gòu)圖時保持一致,盡量減少分歧。

　　最終,標注小組研制出兩個基本策略用于文獻分析并建立相關(guān)的語篇結(jié)構(gòu)圖。策略之一是對文本的直接分析,可以在頁邊空白處標出記號,也可以將文獻切分成一定的語段并標出記號,根據(jù)這些標注建立語篇結(jié)構(gòu)圖。以這種方式建立樹型結(jié)構(gòu)圖,標注者必須預(yù)測到隨后的語篇結(jié)構(gòu)。然而,其后語段的修辭關(guān)系,尤其是較大的語段,可能不是太明顯,這就是為什么這一標注策略更適用于短篇文獻的標注。

　　另一策略是將文本分析與建立語篇結(jié)構(gòu)兩項任務(wù)同時進行,很可能是成塊地標注而不是循序漸進地一步一步地增加。以這種策略進行標注,標注者一次可以切分很多語篇單位,并為每個自然句建立結(jié)構(gòu)圖,然后將相鄰的自然句連接起來,構(gòu)成較大的語段結(jié)構(gòu)樹。最終的語篇結(jié)構(gòu)樹是通過連接語篇結(jié)構(gòu)中主要語塊而建成的。

本文來源：http://www.nvnqwx.com/shiyongwen/2041212.htm

以上內(nèi)容來自互聯(lián)網(wǎng)，請自行判斷內(nèi)容的正確性。若本站收錄的信息無意侵犯了貴司版權(quán)，請給我們來信(zaixianzuowenhezi@gmail.com)，我們會及時處理和回復(fù)，謝謝.

上一篇：商業(yè)銀行組織結(jié)構(gòu)再造及效率評價研究的論文下一篇：“中學(xué)生情感態(tài)度與價值觀的培養(yǎng)”論文

国产精品尤物福利片在线观看_少妇免费毛片久久久久久久久_久久久久成人精品免费播放动漫_日韩av综合在线观看

語篇結(jié)構(gòu)標注研究的綜述論文