如何使用python中的nltk對哈薩克語或阿拉伯語進行句法分析

1樓：

如果是英語和西班牙語可以用

使用這個模組可以對名詞的單複數進行版轉換及字元操作。權

如何用 python 中的 nltk 對中文進行分析和處理

2樓：匿名使用者

一、nltk進行分詞

用到的函式：

nltk.sent_tokenize(text) #對文字按照句子進行分割

nltk.word_tokenize(sent) #對句子進行分詞

二、nltk進行詞性標註

用到的函式：

nltk.pos_tag(tokens)#tokens是句子分詞後的結果，同樣是句子級的標註

三、nltk進行命名實體識別（ner）

用到的函式：

nltk.ne_chunk(tags)#tags是句子詞性標註後的結果，同樣是句子級

上例中，有兩個命名實體，一個是xi,這個應該是per，被錯誤識別為gpe了；另一個事china，被正確識別為gpe。

四、句法分析

nltk沒有好的parser，推薦使用stanfordparser

但是nltk有很好的樹類，該類用list實現

可以利用stanfordparser的輸出構建一棵python的句法樹

3樓：匿名使用者

買本書看 ……

4樓：令梅函靖巧

有很多好用的中文處理包：

jieba：可以用來做分詞，詞性標註，textrankhanlp：分詞，命名實體識別，依存句法分析，還有fudannlp，nlpir

個人覺得都比nltk好用～

如何用 python 中的 nltk 對中文進行分析和處理

5樓：蛋包飯配冰紅茶

我感覺用nltk 處理中文是完全可用的。其重點在於中文分詞和文字表達的形式。

中文和英文主要的不同之處是中文需要分詞。因為nltk 的處理粒度一般是詞，所以必須要先對文字進行分詞然後再用nltk 來處理（不需要用nltk 來做分詞，直接用分詞包就可以了。嚴重推薦結巴分詞，非常好用）。

中文分詞之後，文字就是一個由每個片語成的長陣列：[word1, word2, word3…… wordn]。之後就可以使用nltk 裡面的各種方法來處理這個文字了。

比如用freqdist 統計文字詞頻，用bigrams 把文字變成雙片語的形式：[(word1, word2), (word2, word3), (word3, word4)……(wordn-1, wordn)]。

如何使用python中的turtle畫紅蘋果

全部如下列出,使用的是python3。可以作為參考，這個比較簡單，是用圓形來近似地畫一個蘋果。可以複製我把縮排也打進去了，因此我加上了網頁連結，目的地是菜鳥教程不過與本題無關，doge from turtle import def leaf radius,an 90,co green co1...

python轉義雙引號，python中如何輸出引號

為啥一定都用雙引號呢？gp.calculatefield management a,type 林地外面是單引號，裡面可以直接使用雙引號，不必轉義如果使用變數代替可以這樣 a 林地 b s a gp.calculatefield management a,type b 也可以這樣 a 林地 b a...

如何使用python執行遠端shell指令碼

pexpect複雜，但通用靈活。另外一種辦法就是ssh keygen ssh copy id，實現自動金鑰驗證取代手動密碼驗證，然後就可以直接呼叫遠端 ssh remote user remote host remote script.sh 麻煩之處在於要手動建立與維護兩臺機器間的公鑰。至於捕獲輸出...

如何使用python中的nltk對哈薩克語或阿拉伯語進行句法分析

如何使用python中的turtle畫紅蘋果

python轉義雙引號，python中如何輸出引號

如何使用python執行遠端shell指令碼

相關推薦