自然語(yǔ)言處理
自然語(yǔ)言處理
自然語(yǔ)言處理(自然語(yǔ)言處理)
自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言處理是一門融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此,這一領(lǐng)域的研究將涉及自然語(yǔ)言,即人們?nèi)粘J褂玫恼Z(yǔ)言,所以它與語(yǔ)言學(xué)的研究有著密切的聯(lián)系,但又有重要的區(qū)別。自然語(yǔ)言處理并不是一般地研究自然語(yǔ)言,而在于研制能有效地實(shí)現(xiàn)自然語(yǔ)言通信的計(jì)算機(jī)系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計(jì)算機(jī)科學(xué)的一部分。
目錄 詳細(xì)介紹 發(fā)展歷史 概述 爭(zhēng)論 收縮展開(kāi) 詳細(xì)介紹語(yǔ)言是人類區(qū)別其他動(dòng)物的本質(zhì)特性。在所有生物中,只有人類才具有語(yǔ)言能力。人類的多種智能都與語(yǔ)言有著密切的關(guān)系。人類的邏輯思維以語(yǔ)言為形式,人類的絕大部分知識(shí)也是以語(yǔ)言文字的形式記載和流傳下來(lái)的。因而,它也是人工智能的一個(gè)重要,甚至核心部分。 用自然語(yǔ)言與計(jì)算機(jī)進(jìn)行通信,這是人們長(zhǎng)期以來(lái)所追求的。因?yàn)樗扔忻黠@的實(shí)際意義,同時(shí)也有重要的理論意義:人們可以用自己最習(xí)慣的語(yǔ)言來(lái)使用計(jì)算機(jī),而無(wú)需再花大量的時(shí)間和精力去學(xué)習(xí)不很自然和習(xí)慣的各種計(jì)算機(jī)語(yǔ)言;人們也可通過(guò)它進(jìn)一步了解人類的語(yǔ)言能力和智能的機(jī)制。 實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信意味著要使計(jì)算機(jī)既能理解自然語(yǔ)言文本的意義,也能以自然語(yǔ)言文本來(lái)表達(dá)給定的意圖、思想等。前者稱為自然語(yǔ)言理解,后者稱為自然語(yǔ)言生成。因此,自然語(yǔ)言處理大體包括了自然語(yǔ)言理解和自然語(yǔ)言生成兩個(gè)部分。歷史上對(duì)自然語(yǔ)言理解研究得較多,而對(duì)自然語(yǔ)言生成研究得較少。但這種狀況已有所改變。 無(wú)論實(shí)現(xiàn)自然語(yǔ)言理解,還是自然語(yǔ)言生成,都遠(yuǎn)不如人們?cè)瓉?lái)想象的那么簡(jiǎn)單,而是十分困難的。從現(xiàn)有的理論和技術(shù)現(xiàn)狀看,通用的、高質(zhì)量的自然語(yǔ)言處理系統(tǒng),仍然是較長(zhǎng)期的努力目標(biāo),但是針對(duì)一定應(yīng)用,具有相當(dāng)自然語(yǔ)言處理能力的實(shí)用系統(tǒng)已經(jīng)出現(xiàn),有些已商品化,甚至開(kāi)始產(chǎn)業(yè)化。典型的例子有:多語(yǔ)種數(shù)據(jù)庫(kù)和專家系統(tǒng)的自然語(yǔ)言接口、各種機(jī)器翻譯系統(tǒng)、全文信息檢索系統(tǒng)、自動(dòng)文摘系統(tǒng)等。 自然語(yǔ)言處理,即實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信,或?qū)崿F(xiàn)自然語(yǔ)言理解和自然語(yǔ)言生成是十分困難的。造成困難的根本原因是自然語(yǔ)言文本和對(duì)話的各個(gè)層次上廣泛存在的各種各樣的歧義性或多義性(ambiguity)。 一個(gè)中文文本從形式上看是由漢字(包括標(biāo)點(diǎn)符號(hào)等)組成的一個(gè)字符串。由字可組成詞,由詞可組成詞組,由詞組可組成句子,進(jìn)而由一些句子組成段、節(jié)、章、篇。無(wú)論在上述的各種層次:字(符)、詞、詞組、句子、段,……還是在下一層次向上一層次轉(zhuǎn)變中都存在著歧義和多義現(xiàn)象,即形式上一樣的一段字符串,在不同的場(chǎng)景或不同的語(yǔ)境下,可以理解成不同的詞串、詞組串等,并有不同的意義。一般情況下,它們中的大多數(shù)都是可以根據(jù)相應(yīng)的語(yǔ)境和場(chǎng)景的規(guī)定而得到解決的。也就是說(shuō),從總體上說(shuō),并不存在歧義。這也就是我們平時(shí)并不感到自然語(yǔ)言歧義,和能用自然語(yǔ)言進(jìn)行正確交流的原因。但是一方面,我們也看到,為了消解歧義,是需要極其大量的知識(shí)和進(jìn)行推理的。如何將這些知識(shí)較完整地加以收集和整理出來(lái);又如何找到合適的形式,將它們存入計(jì)算機(jī)系統(tǒng)中去;以及如何有效地利用它們來(lái)消除歧義,都是工作量極大且十分困難的工作。這不是少數(shù)人短時(shí)期內(nèi)可以完成的,還有待長(zhǎng)期的、系統(tǒng)的工作。 以上說(shuō)的是,一個(gè)中文文本或一個(gè)漢字(含標(biāo)點(diǎn)符號(hào)等)串可能有多個(gè)含義。它是自然語(yǔ)言理解中的主要困難和障礙。反過(guò)來(lái),一個(gè)相同或相近的意義同樣可以用多個(gè)中文文本或多個(gè)漢字串來(lái)表示。 因此,自然語(yǔ)言的形式(字符串)與其意義之間是一種多對(duì)多的關(guān)系。其實(shí)這也正是自然語(yǔ)言的魅力所在。但從計(jì)算機(jī)處理的角度看,我們必須消除歧義,而且有人認(rèn)為它正是自然語(yǔ)言理解中的中心問(wèn)題,即要把帶有潛在歧義的自然語(yǔ)言輸入轉(zhuǎn)換成某種無(wú)歧義的計(jì)算機(jī)內(nèi)部表示。 歧義現(xiàn)象的廣泛存在使得消除它們需要大量的知識(shí)和推理,這就給基于語(yǔ)言學(xué)的方法、基于知識(shí)的方法帶來(lái)了巨大的困難,因而以這些方法為主流的自然語(yǔ)言處理研究幾十年來(lái)一方面在理論和方法方面取得了很多成就,但在能處理大規(guī)模真實(shí)文本的系統(tǒng)研制方面,成績(jī)并不顯著。研制的一些系統(tǒng)大多數(shù)是小規(guī)模的、研究性的演示系統(tǒng)。
發(fā)展歷史最早的自然語(yǔ)言理解方面的研究工作是機(jī)器翻譯。1949年,美國(guó)人威弗首先提出了機(jī)器翻譯設(shè)計(jì)方案。20世紀(jì)60年代,國(guó)外對(duì)機(jī)器翻譯曾有大規(guī)模的研究工作,耗費(fèi)了巨額費(fèi)用,但人們當(dāng)時(shí)顯然是低估了自然語(yǔ)言的復(fù)雜性,語(yǔ)言處理的理論和技術(shù)均不成熱,所以進(jìn)展不大。主要的做法是存儲(chǔ)兩種語(yǔ)言的單詞、短語(yǔ)對(duì)應(yīng)譯法的大辭典,翻譯時(shí)一一對(duì)應(yīng),技術(shù)上只是調(diào)整語(yǔ)言的同條順序。但日常生活中語(yǔ)言的翻譯遠(yuǎn)不是如此簡(jiǎn)單,很多時(shí)候還要參考某句話前后的意思。 大約90年代開(kāi)始,自然語(yǔ)言處理領(lǐng)域發(fā)生了巨大的變化。這種變化的兩個(gè)明顯的特征是: (1)對(duì)系統(tǒng)輸入,要求研制的自然語(yǔ)言處理系統(tǒng)能處理大規(guī)模的真實(shí)文本,而不是如以前的研究性系統(tǒng)那樣,只能處理很少的詞條和典型句子。只有這樣,研制的系統(tǒng)才有真正的實(shí)用價(jià)值。 (2)對(duì)系統(tǒng)的輸出,鑒于真實(shí)地理解自然語(yǔ)言是十分困難的,對(duì)系統(tǒng)并不要求能對(duì)自然語(yǔ)言文本進(jìn)行深層的.理解,但要能從中抽取有用的信息。例如,對(duì)自然語(yǔ)言文本進(jìn)行自動(dòng)地提取索引詞,過(guò)濾,檢索,自動(dòng)提取重要信息,進(jìn)行自動(dòng)摘要等等。 同時(shí),由于強(qiáng)調(diào)了“大規(guī)!,強(qiáng)調(diào)了“真實(shí)文本”,下面兩方面的基礎(chǔ)性工作也得到了重視和加強(qiáng)。 (1)大規(guī)模真實(shí)語(yǔ)料庫(kù)的研制。大規(guī)模的經(jīng)過(guò)不同深度加工的真實(shí)文本的語(yǔ)料庫(kù),是研究自然語(yǔ)言統(tǒng)計(jì)性質(zhì)的基礎(chǔ)。沒(méi)有它們,統(tǒng)計(jì)方法只能是無(wú)源之水。 (2)大規(guī)模、信息豐富的詞典的編制工作。規(guī)模為幾萬(wàn),十幾萬(wàn),甚至幾十萬(wàn)詞,含有豐富的信息(如包含詞的搭配信息)的計(jì)算機(jī)可用詞典對(duì)自然語(yǔ)言處理的重要性是很明顯的。
概述基礎(chǔ)理論
自動(dòng)機(jī) 形式邏輯 統(tǒng)計(jì)機(jī)器學(xué)習(xí)漢語(yǔ)語(yǔ)言學(xué) 形式語(yǔ)法理論
語(yǔ)言資源
語(yǔ)料庫(kù) 詞典
關(guān)鍵技術(shù)
漢字編碼詞法分析 句法分析 語(yǔ)義分析 文本生成 語(yǔ)音識(shí)別
應(yīng)用系統(tǒng)
文本分類和聚類 信息檢索和過(guò)濾 信息抽取問(wèn)答系統(tǒng)拼音漢字轉(zhuǎn)換系統(tǒng) 機(jī)器翻譯 新信息檢測(cè)
爭(zhēng)論雖然上述新趨勢(shì)給自然語(yǔ)言處理領(lǐng)域帶來(lái)了成果,但從理論方法的角度看,由于采集、整理、表示和有效應(yīng)用大量知識(shí)的困難,這些系統(tǒng)更依賴于統(tǒng)計(jì)學(xué)的方法和其他“簡(jiǎn)單”的方法或技巧。而這些統(tǒng)計(jì)學(xué)的方法和其他“簡(jiǎn)單”的方法似乎也快達(dá)到它們的極限了,因此,就現(xiàn)在而言,在自然語(yǔ)言處理界廣泛爭(zhēng)論的一個(gè)問(wèn)題便是:要取得新的更大的進(jìn)展,主要有待于理論上的突破呢,還是可由已有的方法的完善和優(yōu)化實(shí)現(xiàn)?答案還不清楚。大致上,更多的語(yǔ)言學(xué)家傾向于前一種意見(jiàn),而更多的工程師則傾向于后一種意見(jiàn);卮鸹蛟S在“中間”,即應(yīng)將基于知識(shí)和推理的深層方法與基于統(tǒng)計(jì)等“淺層”方法結(jié)合起來(lái)。
【自然語(yǔ)言處理】相關(guān)文章:
自然語(yǔ)言處理中的概率語(yǔ)法07-08
自然語(yǔ)言理解06-10
現(xiàn)代自然語(yǔ)言邏輯研究的若干路徑08-22
自然語(yǔ)言理解中的回指解析研究概述07-19
移動(dòng)GIS中語(yǔ)音與自然語(yǔ)言的應(yīng)用模式探討08-01
自然語(yǔ)言中選言肢相容與否的判定問(wèn)題07-30
處理05-07