<p id="hc59b"><label id="hc59b"><xmp id="hc59b"></xmp></label></p><tr id="hc59b"><label id="hc59b"></label></tr>
      <p id="hc59b"></p>

    1. <table id="hc59b"><ruby id="hc59b"></ruby></table>
      <acronym id="hc59b"><strong id="hc59b"><xmp id="hc59b"></xmp></strong></acronym>

      教育行業A股IPO第一股(股票代碼 003032)

      全國咨詢/投訴熱線:400-618-4000

      Python文本數據分析:NLTK與jieba概述

      更新時間:2022年11月08日10時11分 來源:傳智教育 瀏覽次數:

      好口碑IT培訓

        NLTK全稱為Natural Language Toolkit,它是一套基于Python的自然語言處理工具包,可以方便地完成自然語言處理的任務,包括分詞、詞性標注、命名實體識別(NER)及句法分析等。

        NLTK是一個免費的、開源的、社區驅動的項目,它為超過50個語料庫和詞匯資源(如WordNet)提供了易于使用的接口,以及一套用于分類、標記化、詞干化、解析和語義推理的文本處理庫。接下來,通過一張表來列舉NLTK中用于語言處理任務的一些常用模塊,具體如表8-1所示。

        表8-1 NLTK中的常用模塊

      NLTK中的常用模塊

        GitHub上有一段描述Jieba的句子:

        “jieba”(Chinese for “to stutter”)Chinese text segmentation:built to be the best Python Chinese word segmentation module.

        翻譯:“Jieba”中文分詞:最好的Python中文分詞組件。

        由此可見,jieba最適合做中文分詞,這離不開它擁有的一些特點:

        (1)支持三種分詞模式:

        ◆精確模式:視圖將句子最精確地切開,適合文本分析。

        ◆全模式:把句子中所有的可以成詞的詞語都掃描出來,速度非???,但是不能解決歧義。

        ◆搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。

        (2)支持繁體分詞。

        (3)支持自定義詞典。

        (4)MIT授權協議。

        jieba庫中主要的功能包括分詞、添加自定義詞典、關鍵詞提取、詞性標注、并行分詞等,大家可以參考https://github.com/fxsjy/jieba網址進行全面學習。后期在使用到jieba庫的某些功能時,會再另行單獨介紹。

      0 分享到:
      性vvvv

        <p id="hc59b"><label id="hc59b"><xmp id="hc59b"></xmp></label></p><tr id="hc59b"><label id="hc59b"></label></tr>
        <p id="hc59b"></p>

      1. <table id="hc59b"><ruby id="hc59b"></ruby></table>
        <acronym id="hc59b"><strong id="hc59b"><xmp id="hc59b"></xmp></strong></acronym>