發布時間:2015-04-07所屬分類:文史論文瀏覽:1次
摘 要: 摘要:語義可以簡單地看作是數據所對應的現實世界中的事物所代表的概念的含義,以及這些含義之間的關系,是數據在某個領域上的解釋和邏輯表示。語義具有領域性特征,不屬于任何領域的語義是不存在的。而語義異構則是指對同一事物在解釋上所存在差異,也就體
摘要:語義可以簡單地看作是數據所對應的現實世界中的事物所代表的概念的含義,以及這些含義之間的關系,是數據在某個領域上的解釋和邏輯表示。語義具有領域性特征,不屬于任何領域的語義是不存在的。而語義異構則是指對同一事物在解釋上所存在差異,也就體現為同一事物在不同領域中理解的不同。對于計算機科學來說,語義一般是指用戶對于那些用來描述現實世界的計算機表示(即符號)的解釋,也就是用戶用來聯系計算機表示和現實世界的途徑。
關鍵詞:語義,文學制度,論文發表
語義是對數據符號的解釋,而語法則是對于這些符號之間的組織規則和結構關系的定義。對于信息集成領域來說,數據往往是通過模式(對于模式不存在或者隱含的非結構化和半結構化數據,往往需要在集成前定義出它們的模式)來組織的,數據的訪問也是通過作用于模式來獲得的,這時語義就是指模式元素(例如類、屬性、約束等等)的含義,而語法則是模式元素的結構。
盡管大多數人都承認語言能力的遺傳性,但是這種機制的存在并沒有解決shepard所提出的概括(在母語習得里,更成為“過度概括”)和相似性的問題。這個歸納性難題經常被看成是范疇化的問題,那就是說我們必須找出的這樣一個機制,足以把一系列刺激、語詞或概念(例如獵豹和老虎)看成是一類的(相似的)事物。但是相似性以什么為基礎卻眾說紛紜,有特征論、原型論,范式論、心理本質論、心理語境論,等等,不一而足(桂詩春2000)。這些理論模型都旨在提出一些制約,以縮小歸納(也就是說學習)所要解決的問題空間。就兒童詞匯習得而言,一些心理語言學家假設存在一些對詞語賦予意義的制約,兒童在早期習得詞匯時都假定:多數詞語在感知上都是對應物體的名稱;兩個詞通常都有兩個不同的意義;享有共同聲音的詞語通常都是意義上相關的;一個不熟悉的言語聲音可能指一些兒童還未能掌握其對應詞的東西。但是這也不是沒有問題,landauer與dumais(1997)指出,一個問題是我們不知道某一個制約是否真正存在;少年兒童雖然假定相同的物體只有一個名稱,但是他們所接觸的語言是否也是這樣呢?又如某一種制約的產生是逐步進化的,還是通過認知而起作用的一種普遍性制約?還有一個問題是,某些制約的存在和產生出于邏輯的需要,但這又是不夠的,可以從3方面看:1)某一套制約是否邏輯上和語用上充分,也就是說使用了它們以后是否就能解決問題?例如兒童認為沒有同義詞,這在多大程度上能幫助他們學習詞匯?2)和方法論有關,怎樣才能獲得前一個問題的答案?怎樣知道某一些特定制約的組合應用到自然環境的輸入時才能解決問題?3)怎樣決定一個提出來的模型是否具有心理現實性?landauer認為要解決這些問題必須使用模擬的模型。而他和其他幾個研究人員foltz、dumais、deerwester、furnas等人(deerwester et.al.1990)所提出的,而又得到著名語篇研究者kintsch支持的模型就是潛伏語義分析(latent semantic analysis,lsa)。這是一個多維數的線性組合模型,“這個模型只是一個普遍的學習機制,本身并不體現人類知識,但是它通過分析一個很大的自然語言文本語料庫來生成一個足以體現詞語和文本片段的相似性的表征。”
2.lsa的理據
從潛伏性語義分析的角度看來,歸納就是減少維數(reduction of dimensionality)。landauer舉了一個形象的例子,一個人站在高原上打電話告訴他的朋友三間房子的位置,a和b、a和c的距離都是5個單位,而b和c的距離則是8個單位。在他的朋友腦海里就形成一個兩個維數的三角形。如果他繼續補充說,這三間房子是在一條直線上,他的朋友就會說,他一定是看錯了這三個房子的距離。a和b、c的距離應該是4.5個單位,而b和c的距離應該是9個單位。因為在一個兩維數的三角形里,其底邊應該是其他兩個邊的和。這說明,減少維數可改善估算。在研究工作中,研究人員往往通過減少維數來降低計算的復雜性,即把數據作平滑化處理:簡化數據并填補所缺的節點。在東京召開的聯合國大學主持的混沌對科學和社會的沖擊學術會議上,兩個著名的混沌學專家feigenbaun和aihara就一致認為,人腦由100億個神經元組成,而我們要對它的相互作用進行觀察只能選取一個極低的維數。(注:這次大會的文集我國已由楊立、劉巨彬等譯,劉式達、杜先之等校,湖南科學技術出版社出版,題為《混沌:對和社會的沖擊》,兩人的對話見該書394-395頁。)在統計學中,這種減少維數的方法,例如因子分析、多維數量表也經常被采用,osgood(1971)在70年代所做的語義微分分析就用過因子分析。同樣地,我們也可以把兩個詞的語義相似性表示為距離:距離越近,相似性就越強。假定兩個詞在一個語篇單位(短語、句子或段落)中出現的頻率和它們的語義距離成反比例(頻率越多,距離越近),那它們就和語義相似性直接相關。我們可以通過觀察兩個詞在同一單位中出現的相對頻率來估算出其語義相似性。因為人們進行交際時,都會使用一些基本成分(如詞),使兩個詞語中存在某種相對的相似性。發送者會選擇同一語義空間彼此相近的詞,它們就會有不同的語義距離;而接收者則會按照它們在同一上下文中的相對頻率來估算這些距離。但是自然語言中的詞語數量極為龐大,而接收到的詞語卻數量極少,例如兩個詞的頻率都是百萬分之一,它們雖然有相關的意義,也不大可能會一起發生?墒侨绻覀兊慕邮諜C制按照統計知識把接受到的詞語表示為相似的語義空間,即同一個維數的各個節點,情況就會大大改善。
基于上述的假設,潛伏性語義分析可以用來比較不同語篇的語義相似性。研究語篇理解的首要目標是:了解有哪些足以影響讀者從文本材料中抽取和保存信息的能力的因素,例如讓受試寫一篇文本材料的摘要,然后再看他們從文本中獲取了什么信息。這意味著把讀者的文本表征(認知模型)和原來的文本表征加以比較,即把摘要中每一個句子的信息和文本中的句子信息加以比較。但是要對信息進行比較并非易事,它要求掃描原文,找出信息的所在。而且受試所寫的摘要往往并不全都采用原文中的詞語。所以光比較詞語也不成。研究人員要比較的是摘要和原來文本的語義內容。kintsch(1988,1998)所提出的構建整合模型(construction-integration model)就是一個觀察讀者對文本表征的認知模型,它把讀者摘要的語義表示為一些語義成分組合,稱之為命題(prepositions)。文本中的每一個子句是一個命題(如the red rose和the rose is red,都屬于一個命題)。這些命題根據各種范疇連接起來,例如看它們是否共享中項(arguments)和指稱(referents)。一個文本的所有命題組合起來就成為文本結構。不少實驗都證明命題是人們的心理處理單位(如graesser1981)。對文本和受試對它回述進行命題分析可以對一系列語義基本元素加以比較,其好處是這種比較并非表層結構的比較。但問題是,目前還沒有生成命題的自動化程序,因為計算機必須對文本進行正確的語法分析,并且了解詞語的正確意義。于是可以利用計算機來對語義相似性進行比較的潛伏性語義分析就應運而生了。
lsa原來是建筑在以語義內容的基礎上以改善提取的一種設計,稱為潛伏性語義索引(latent semantic indexing,lsi)。在現實生活里,往往同一個語義概念表示為不同的詞語,如果以原詞作為檢索單位,就費時失事。例如“電子計算機”往往又可以簡稱為“計算機”或“電腦”,甚至“服務器”和“機器”。如果在檢索中只鍵入任何一種說法就能查出“電子計算機”,不是方便得多嗎?這種方法還可以避免同義性的問題。lsa的基本假設是不同文件(文件可大可小,可以是詞語所出現的整個語境,也可以是某些文本、段落和句子)的詞語使用型式存在著某種“潛伏的”結構,而使用一些統計的方法可以估量出這種潛伏性結構。這些方法通過分析詞語和文件之間的聯系,產生一個在相同語境中使用的詞語將會在語義上更為密切聯系的表征。例如:
(1)the u.s.s.nashville arrived in colon harbor with 42 marines
(2)with the warship in colon harbor,the colombian troops withdrew.
"warship"所出現的語境(lsa稱之為“向量”,vector)和"nashville"所出現的語境相似,兩者的上下文都有"colon"和"harbor"。lsa所使用的技巧可以自動找出這些更深層的聯系的結構。
SCISSCIAHCI