文本表示法
分詞與詞頻
自然語言處理(NLP)是人工智慧的一個子領域,旨在使計算機能夠理解、解釋和生成自然語言。
NLP 結合了計算機科學、語言學和統計學的技術,應用於語音識別、文本分析、情感分析等領域。
隨著深度學習技術的發展,NLP 的性能有了顯著提升,並在許多實際應用中取得了成功。
工作流:
資料收集前處理→ 特徵工程→ 模型選擇與訓練→ 模型評估→ 模型部署與優化
Jieba 分詞/詞頻 (Jieba無實體識別)
工作階段:資料收集前處理(分詞)→ 特徵工程(詞頻)
- JIEBA中文分詞庫
- 讀取文本
- 分詞
- 分析詞頻
- 繪製文字雲
Spacy 分詞/詞頻/實體識別
工作階段:資料收集前處理(分詞)→ 特徵工程(詞頻、實體識別)
- SPACY NLP
- 讀取文本
- 分詞
- 分析詞頻
- 繪製文字雲
- 實體識別
詞袋模型 (Bag of Words, BoW)
工作階段:資料收集前處理→ 特徵工程(詞袋模型)
- tensorflow.keras.preprocessing.text.Tokenizer以文字訓練詞袋模型,並將文本轉換為數字序列。
- 詞袋模型是一種簡單的文本表示方法,它將文本轉換為詞頻向量,忽略了詞語的順序和語法結構。
- 詞袋模型有詞彙與索引對照表,將句子的詞語轉換為對應的索引,並計算每個詞語在句子中的出現次數。
- 同樣的方法有sklearn.feature_extraction.text.CountVectorizer,將文本轉換為詞頻矩陣。
- 現今的應用場景很少使用詞袋模型。
N-Grams
工作階段:資料收集前處理→ 特徵工程(N-Grams)
- N-Grams是一種文本處理技術,用於將文本分解為連續的n個詞語或字元組合。
- N-Grams有考慮文本詞彙的前後順序
TF-IDF (Term Frequency-Inverse Document Frequency)
工作階段:資料收集前處理→ 特徵工程(TF-IDF)
- TF-IDF是一種文本表示方法,用於衡量詞語在文本中的重要性。
- TF-IDF考慮了詞語在文本中的頻率和在整個語料庫中的稀有性。
- TF-IDF可以用於文本分類、信息檢索等任務。
- 現今的應用場景很少使用TF-IDF,因為深度學習模型已經取代了它的功能。