1樓:匿名使用者
一、nltk進行分bai
詞用到的函式:
nltk.sent_tokenize(text) #對文字
du按照句子zhi進行dao分割
nltk.word_tokenize(sent) #對句子進行分詞
二、nltk進行詞內性標註容
用到的函式:
nltk.pos_tag(tokens)#tokens是句子分詞後的結果,同樣是句子級的標註
三、nltk進行命名實體識別(ner)
用到的函式:
nltk.ne_chunk(tags)#tags是句子詞性標註後的結果,同樣是句子級
上例中,有兩個命名實體,一個是xi,這個應該是per,被錯誤識別為gpe了; 另一個事china,被正確識別為gpe。
四、句法分析
nltk沒有好的parser,推薦使用stanfordparser
但是nltk有很好的樹類,該類用list實現
可以利用stanfordparser的輸出構建一棵python的句法樹
如何使用python中的nltk對哈薩克語或阿拉伯語進行句法分析
如果是英語和西班牙語可以用 使用這個模組可以對名詞的單複數進行版轉換及字元操作。權 如何用 python 中的 nltk 對中文進行分析和處理 一 nltk進行分詞 用到的函式 nltk.sent tokenize text 對文字按照句子進行分割 nltk.word tokenize sent 對...
如何用python做分詞處理,如何用PYTHON做分詞處理
可以利用python的jieba分詞,得到文字中出現次數較多的詞。首先pip安裝一下jieba,這個可以分詞然後用計數器counter 統計一下得到的分詞中各詞的數量最後most mon 5 是列印出排名前五位的詞 包括特殊符號 encoding utf 8 import sys reload sy...
如何用Python繪製Circos圖
python簡單易學 免費開源 高層語言 可移植性超強 可擴充套件性 物件導向 可嵌入型 豐富的庫 規範的 等。python除了極少的涉及不到的開發之外,其他基本上可以說全能 系統運維 圖形處理 數學處理 文字處理 資料庫程式設計 網路程式設計 web程式設計 多 應用 pymo引擎 爬蟲編寫 機器...