计算机语言史话论文,【论文节选】自然语言处理发展历史。
說實話看完文章有點失望,作者帶有一貫的學術吹噓風,就像吹噓云計算,物聯網等等。談到現狀,只字不提問題,一句話“一旦自然語言處理的研究獲得成功,那么機器將能夠進行思考,人類將得到繼工業革命后的又一次解放。不同的是工業革命解放了人類的身體,而自然語言處理將解放人類的大腦。”您在寫YY小說啊?
沒有認識到未來需要解決的問題,就不可能走下去。期待未來真有大牛研究出來吧。
下面是節選的歷史。沒什么實際意義,就是給自己掃盲而已。
1.什么是自然語言處理
自然語言處理(Natural?Language?Processing,?NLP)是一種對自然語言信息進行處理的技術[4],從語言學的角度來說,自然語言處理也叫計算語言學(Computational?Linguistics)。自然語言處理包括自然語言理解(Natural?Language?Understanding,?NLU)和自然語言生成(Natural?Language?Generation,?NLG)兩部分。自然語言理解是指對自然語言的內容和意圖的深層把握。在人工智能領域中,自然語言理解特指計算機對自然語言的內容和意圖的深層把握。自然語言生成是指從非自然語言輸入到自然語言輸出的處理。自然語言理解與自然語言生成互為逆過程[5]。圖1簡單地表示了自然語言處理、自然語言理解和自然語言生成三者之間的關系。其中,語言A和語言B可以是相同的語言,也可以是不同的語言。當語言A和語言B是相同的語言時,整個過程表示為聊天式交流;而當語言A和語言B是不同的語言時,整個過程則表示為機器翻譯式交流。
2.發展概況
自然語言處理的發展大致經歷了4個階段:1956年以前的萌芽期;1957-1970年的快速發展期;1971?-1993年的低谷的發展期和1994年至今的復蘇融合期。
2.1萌芽期(1956年以前)
1956年以前,可以看作自然語言處理的基礎研究階段。一方面,人類文明經過了幾千年的發展,積累了大量的數學、語言學和物理學知識。這些知識不僅是計算機誕生的必要條件,同時也是自然語言處理的理論基礎。另一方面,阿蘭·圖靈在1936年首次提出了“圖靈機”的概念。“圖靈機”作為計算機的理論基礎,促使了1946年電子計算機的誕生。而電子計算機的誕生又為機器翻譯和隨后的自然語言處理提供了物質基礎。
由于來自機器翻譯的社會需求,這一時期也進行了許多自然語言處理的基礎研究。1948年Shannon把離散馬爾可夫過程的概率模型應用于描述語言的自動機。接著,他又把熱力學中“熵”(entropy)的概念引用于語言處理的概率算法中。上世紀50年代初,Kleene研究了有限自動機和正則表達式。1956年,Chomsky又提出了上下文無關語法,并把它運用到自然語言處理中。他們的工作直接引起了基于規則和基于概率這兩種不同的自然語言處理技術的產生。而這兩種不同的自然語言處理方法,又引發了數十年有關基于規則方法和基于概率方法孰優孰劣的爭執。
另外,這一時期還取得了一些令人矚目的研究成果。比如,1946年K?enig進行了關于聲譜的研究。1952年Bell實驗室語音識別系統的研究。1956年人工智能的誕生為自然語言處理翻開了新的篇章。這些研究成果在后來的數十年中逐步與自然語言處理中的其他技術相結合。這種結合既豐富了自然語言處理的技術手段,同時也拓寬了自然語言處理的社會應用面。
2.2快速發展期(1957-1970)
自然語言處理在這一時期很快融入了人工智能的研究領域中。由于有基于規則和基于概率這兩種不同方法的存在,自然語言處理的研究在這一時期分為了兩大陣營。一個是基于規則方法的符號派(symbolic),另一個是采用概率方法的隨機派(stochastic)。
這一時期,兩種方法的研究都取得了長足的發展。從50年代中期開始到60年代中期,以Chomsky為代表的符號派學者開始了形式語言理論和生成句法的研究,60年代末又進行了形式邏輯系統的研究。而隨機派學者采用基于貝葉斯方法的統計學研究方法,在這一時期也取得了很大的進步。但由于在人工智能領域中,這一時期多數學者注重研究推理和邏輯問題,只有少數來自統計學專業和電子專業的學者在研究基于概率的統計方法和神經網絡,所
以,在這一時期中,基于規則方法的研究勢頭明顯強于基于概率方法的研究勢頭。
這一時期的重要研究成果包括1959年賓夕法尼亞大學研制成功的TDAP系統,布朗美國英語語料庫的建立等。1967年美國心理學家Neisser提出認知心理學的概念,直接把自然語言處理與人類的認知聯系起來了。
2.3低速的發展期(1971?-1993)
隨著研究的深入,由于人們看到基于自然語言處理的應用并不能在短時間內得到解決,而一連串的新問題又不斷地涌現,于是,許多人對自然語言處理的研究喪失了信心。從70年代開始,自然語言處理的研究進入了低谷時期。
但盡管如此,一些發達國家的研究人員依舊不依不撓地繼續著他們的研究。由于他們的出色工作,自然語言處理在這一低谷時期同樣取得了一些成果。70年代,基于隱馬爾可夫模型(Hidden?Markov?Model,?HMM)的統計方法在語音識別領域獲得成功。80年代初,話語分析(Discourse?Analysis)也取得了重大進展。之后,由于自然語言處理研究者對于過去的研究進行了反思,有限狀態模型和經驗主義研究方法也開始復蘇。
2.4復蘇融合期(1994年至今)
90年代中期以后,有兩件事從根本上促進了自然語言處理研究的復蘇與發展。一件事是90年代中期以來,計算機的速度和存儲量大幅增加,為自然語言處理改善了物質基礎,使得語音和語言處理的商品化開發成為可能;另一件事是1994年Internet商業化和同期網絡技術的發展使得基于自然語言的信息檢索和信息抽取的需求變得更加突出。這樣,自然語言處理的社會需求更加迫切,自然語言處理的應用面也更加寬廣,自然語言處理不再局限于機器翻譯、語音控制等早期研究領域了。
從90年代末到21世紀初,人們逐漸認識到,僅用基于規則的方法或僅用基于統計的方法都是無法成功進行自然語言處理的。基于統計、基于實例和基于規則的語料庫技術在這一時期開始蓬勃發展,各種處理技術開始融合,自然語言處理的研究又開始興旺起來。
總結
以上是生活随笔為你收集整理的计算机语言史话论文,【论文节选】自然语言处理发展历史。的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: signature=27ba8feff2
- 下一篇: mysql按中文拼音字母排序_解析MyS