Google 的巴別塔搭了起來 , 世界溝通就輕鬆多了 ^-^

2017/01/192017/01/19

雷鋒網

【我們為什麼挑選這篇文章】在人工智慧中，自然語言的處理是一大難題。常因為句子的前後文不同，而造成詞意也不同的情況。Google發表了一項新與牛津字典中例句做對照的語料庫。（責任編輯：黃筱雯）

理解語言的核心自然是了解詞語在文本中的不同含義。先說個中文笑話先：

領導：「你這是什麼意思？」
下屬：「沒什麼意思，意思意思。」
領導：「你這就不夠意思了。」
下屬：「小意思，小意思。」
領導：「你這人真有意思。」
下屬：「其實也沒有別的意思。」
領導：「那我就不好意思了。」
下屬：「是我不好意思。」

如果讓機器來理解這些到底是什麼意思，想必它也會頭疼的吧。

那麼用相對簡單的英文？也沒有那麼簡單。畢竟一個單詞可能包括數十個意思。
舉個例子：「he will receive stock in the reorganized company」，這個句子中，我們結合上下詞就能知道，「stock」在這裡是股票的意思，我們可以從牛津字典中找到更為專業的解釋。
但是同樣在牛津字典中，stock 這個詞還有超過 10 個不同的含義，比如「（商店裡的）庫存」或是「(鞭子、釣竿等的) 柄」。對於計算機算法而言，如何從博大精深的含義中找尋某個句子中對應的詞義？這的確是一個詞義消歧難題，也就是 AI-Complete 問題。

今天Google研究院又發出了重磅新聞，他們發布了基於 MASC&SemCor 數據集的大規模有監督詞義消歧語料。這些語料會與牛津字典上的例句做映照，廣泛適用於各個社區。與此同時，本次發布也是最大的全句釋義語料庫之一。

有監督詞義消歧

人們通過對句子中詞語的內容進行理解，因為我們能通過常識判斷上下文的含義。比如同樣一個例子，「『stock』 in a business」代表的自然是股票的意思，而「『stock』 in a bodega」更有可能是庫存的意思，即使這裡的 bodega 也可能指酒窖生意。我們希望為機器提供足夠的背景信息，並應用於理解文本中詞語的含義。
有監督詞義消歧（WSD）嘗試解決這一問題，也就是讓機器學習使用人工標記的數據，並與字典中的詞語所代表的典型含義匹配。我們希望構建這樣的一個監督模型，能夠不考慮復雜語境，並匹配句中單詞在詞典中最可能表達的含義。雖然這一點富有挑戰，但監督模型在大量訓練數據支持下表現良好。
通過發布數據集，我們希望社區能夠提出更好的算法，讓機器對自然語言產生更深刻的理解，支持以下的應用：

從文本中自動搭建數據庫存，這樣一來，機器可以回答問題，並將文檔中的知識串聯起來。舉個例子，機器在經過學習後，明白「hemi engine」指的是一種自動化的機械；而「locomotive engine」則與火車有關。也能理解「Kanye West is a star」指的是名人的意思；而「Sirius is a star」則是天文學概念。
消除歧義。我們希望讓文本在查詢中能夠呈現不同的含義，避免張冠李戴，與此同時還能返回具有相關語義的文檔。

人工注釋

在我們人工標記的數據集中，每一個詞義注釋都由五個評估者進行審核。為了確保質量，這些評估者會進行訓練（gold annotation），即讓語言學家們對一些研究樣本進行標記。以下是我們的標記頁面。
在頁面左邊呈現的是 general 的常用詞義及例句，在右側的文本中，general 一詞會高亮顯示。除了匹配詞義外，評估者還能對詞語進行判斷，可以指出包括「拼寫錯誤」、「上述情況都不符合」、「不確定」等三種情況。此外，評估者可以對一些含有隱喻的詞語進行標記並評論。
這些人工的詞義標注採用了 Krippendorff’s alpha (α >= 0.67 則具有一定可信度，α >= 0.80 則表示具有很高的可信度) 進行判斷，結果顯示得分為 0.869。雷鋒網認為這是一個非常不錯的成績了。

Wordnet Mappings

與此同時，Google也發布了兩個從牛津詞典到 Wordnet 的映射。小的數據集中含有 2200 個單詞，而大的數據集則是算法構建的。這兩個映射內容能夠更好地將 Wordnet 的內容應用於牛津詞典的語料庫中，也能夠在使用過程中實現系統的構建。
以上研究成果已經收錄在「Semi-supervised Word Sense Disambiguation with Neural Models」中，主要採用的是 LSTM 語言處理模型及半監督學習算法。

一起探索真實的價值 ( Discover Values Go )

網頁

2017年1月23日星期一

Google 發布最大消歧義語料庫，讓機器更聽得懂人話

Google 的巴別塔搭了起來 , 世界溝通就輕鬆多了 ^-^

有監督詞義消歧

人工注釋

Wordnet Mappings

手機QR一下

連結網站

證券市場

個股動態

網頁

2017年1月23日 星期一

Google 發布最大消歧義語料庫，讓機器更聽得懂人話

Google 的 巴別塔 搭了起來 , 世界溝通就輕鬆多了 ^-^

有監督詞義消歧

人工注釋

Wordnet Mappings

2017年1月23日星期一

Google 的巴別塔搭了起來 , 世界溝通就輕鬆多了 ^-^