“技術先廣而後精,先縱覽全域性,而後精研一門”,我個人認為這是進入一個領域並立足於一個領域應該秉承的理念。本文總結中文NLP常見任務如文字分類、命名實體識別、關係抽取、問答系統、等的定義和方法,及其資料集分享給大家(文末附連結),若有不足之處,請大家指出,後期我會不定期更新“NLP各類任務簡介”系列文章,敬請期待。

1. 概述

NLP任務可以根據不同的分類方法來分門別類,本文透過任務處理的文字粒度級別來對NLP任務進行分類的,包括詞彙級別、句子級別、篇章級別,接下來將逐一進行解讀。另外,該系列文章主要定位在科普、瞭解、入門層面,比較適合剛準備入行的小白NLPer閱讀,對NLP從業者和研究者也有一定複習意義。後期我還會對NLP各類任務作比較全面的綜述,這工作量比較大了,這樣正好也督促自己不斷學習不斷積累哈哈。不墨跡,老鐵,幹就完了,奧給力(✪ω✪)

2. 詞彙級別NLP任務

2.1

中文分詞

中文分詞指的是將以字為單位的連續的字序列按照分詞演算法分割成以詞為單位的詞序列。 輸入:連續字序列(一句話); 輸出:連續詞序列。

中文分詞是中文NLP的基礎任務,幾乎都應用在各類NLP上下游任務中。常用的演算法有前/後向最大匹配演算法、以及經典的BiLSTM+CRF模型等。

2.2 詞性標註

詞性標註指的是將句中的詞透過詞性標註演算法將詞打上詞性標籤,即預測句中詞的詞性。輸入:詞序列或者連續字序列(一句話);輸出:帶有詞性標記的詞序列。

詞性標註也是NLP的基礎任務,除非是特殊場景需求,現在一般都是將詞性作為特徵用於下有任務模型的訓練。常用的演算法有HMM、最大熵模型、以及經典的BiLSTM+CRF模型等。

2.3 實體識別

實體識別指的是識別文字中具有特定意義的實體,主要包括人名、地名、機構名、時間、專有名詞等。輸入:詞序列或者連續字序列(一段文字);輸出:文字中包含的預先定義的實體。

實體識別也是NLP的基礎任務,其廣泛應用於資訊檢索、問答系統、以及知識圖譜構建等任務中,常用的演算法有HMM、CRF、以及經典的BiLSTM+CRF模型等。

2.4 關鍵詞抽取

關鍵詞抽取指的是抽取出文字中對文字整體意義貢獻大的詞語。輸入:一段連續的文字序列;輸出:topk個關鍵詞。

關鍵詞抽取可以獨立於其他NLP任務單獨作為一項功能對外開放,如新聞要素打標、熱詞詞雲製作等;也可以作為底層任務作用於其他NLP任務,如資訊檢索、文字分類、聚類等任務中。常用的演算法有Tf-Idf、TextRank、以及序列標註的方法等。

2.5 關係抽取

關係抽取指的是從文字中識別實體並抽取實體之間的語義關係。輸入:一段連續的文字序列;輸出:<實體-關係-實體>列表。

關係抽取也常應用於資訊檢索、問答系統、以及知識圖譜的構建等任務中。常用的演算法有基於規則的模式匹配、基於分類的方法、遠端監督等。

2.6 事件抽取

事件抽取技術是從非結構化資訊中抽取出使用者感興趣的事件,並以結構化呈現給使用者。事件抽取任務可分解為4個子任務: 觸發詞識別、事件型別分類、論元識別和角色分類任務。輸入:一段連續的文字序列;輸出:事件列表,其中呈現形式可能是一句句簡短的文字描述的事件,也可以是結構化資料的事件描述。

事件抽取主要應用於新聞輿情分析、反恐反欺詐、事件型投資等業務中。事件抽取是一項相對複雜的任務,其中,觸發詞識別和事件型別分類可合併成事件識別任務。論元識別和角色分類可合併成論元角色分類任務。事件識別判斷句子中的每個單詞歸屬的事件型別,是一個基於單詞的多分類任務,常用的方法有模式匹配。角色分類任務則是一個基於詞對的多分類任務,判斷句子中任意一對觸發詞和實體之間的角色關係,常用的方法有序列標註。隨著深度學習的發展,現在也越來越多的學者開始研究端到端的事件抽取方法。

3。 總結

至此,詞彙級別的NLP任務就介紹完畢了,句子級別的和篇章級別的將放在後期 ‘中文NLP各類任務簡介 • 下’ 中進行介紹,望持續關注。

福利小放送:

文末掃碼關注公眾號,後臺回覆‘NLPSJ’,領取18類中文NLP任務資料集。

中文NLP各類任務簡介 • 上 (文末一鍵打包中文NLP各類任務資料集)