佳木斯湛栽影视文化发展公司

主頁 > 知識庫 > Python 機器學(xué)習(xí)工具包SKlearn的安裝與使用

Python 機器學(xué)習(xí)工具包SKlearn的安裝與使用

熱門標(biāo)簽:客戶服務(wù) Win7旗艦版 硅谷的囚徒呼叫中心 語音系統(tǒng) 百度AI接口 電話運營中心 企業(yè)做大做強 呼叫中心市場需求

1、SKlearn 是什么

  Sklearn(全稱 SciKit-Learn),是基于 Python 語言的機器學(xué)習(xí)工具包。

  Sklearn 主要用Python編寫,建立在 Numpy、Scipy、Pandas 和 Matplotlib 的基礎(chǔ)上,也用 Cython編寫了一些核心算法來提高性能。

  Sklearn 包括六大功能模塊:

  • 分類(Classification):識別樣本屬于哪個類別,常用算法有 SVM(支持向量機)、nearest neighbors(最近鄰)、random forest(隨機森林)
  • 回歸(Regression):預(yù)測與對象相關(guān)聯(lián)的連續(xù)值屬性,常用算法有 SVR(支持向量機)、 ridge regression(嶺回歸)、Lasso
  • 聚類(Clustering):對樣本進行無監(jiān)督的自動分類,常用算法有 k-Means(k均值)、spectral clustering(特征聚類)、mean-shift(均值漂移)
  • 數(shù)據(jù)降維(Dimensionality reduction):減少相關(guān)變量維數(shù),常用算法有 PCA(主成分分析)、feature selection(特征選擇)、non-negative matrix factorization(非負矩陣分解)
  • 模型選擇(Model Selection):比較,驗證,選擇參數(shù)和模型,常用模塊有 grid search(網(wǎng)格搜索)、cross validation(交叉驗證)、 metrics(度量)
  • 數(shù)據(jù)處理 (Preprocessing):特征提取和歸一化,常用模塊有 preprocessing(預(yù)處理),feature extraction(特征提取)
  • 這六個功能模塊涉及 4類算法,分類、回歸 屬于監(jiān)督學(xué)習(xí),聚類屬于非監(jiān)督學(xué)習(xí)。

  官網(wǎng)地址:https://scikit-learn.org/

  官方文檔中文版: https://www.scikitlearn.com.cn/

  內(nèi)置數(shù)據(jù)集:https://scikit-learn.org/stable/datasets.html

2、SKlearn 的安裝

  Sklearn 的安裝要求:Python 3.5 以上版本,需要安裝 NumPy、SciPy、Pandas 工具包的支持,部分內(nèi)容需要使用 Matplotlib、joblib 工具包。

  pip 安裝命令:  

pip3 install -U scikit-learn
pip3 install -U scikit-learn -i https://pypi.douban.com/simple

  注意 Sklearn 建議安裝 Numpy+mkl,可以在網(wǎng)址http://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到你需要的numpy+mkl版本,下載后 pip3安裝:

pip install numpy-1.11.1+mkl-cp27-cp27m-win_amd64.whl

3、SKlearn 內(nèi)置數(shù)據(jù)集

  Sklearn 內(nèi)置了一些標(biāo)準數(shù)據(jù)集可以用于練習(xí)和測試,都是經(jīng)常被引用的經(jīng)典問題,數(shù)據(jù)網(wǎng)址:https://scikit-learn.org/stable/datasets.html  
  Sklearn 標(biāo)準數(shù)據(jù)集主要包括:

測試問題數(shù)據(jù)集

  • 波士頓房價:Boston house prices dataset
  • 鳶尾花問題:Iris plants dataset
  • 糖尿病數(shù)據(jù):Diabetes dataset
  • 手寫數(shù)字的識別:Optical recognition of handwritten digits dataset
  • 體能訓(xùn)練:Linnerrud dataset
  • 葡萄酒鑒別:Wine recognition dataset
  • 威斯康星州癌癥診斷:reast cancer wisconsin (diagnostic) dataset

實際問題數(shù)據(jù)集

  • 人臉數(shù)據(jù):The Olivetti faces dataset
  • 20個新聞文本數(shù)據(jù):The 20 newsgroups text dataset
  • 標(biāo)記的人臉數(shù)據(jù):The Labeled Faces in the Wild face recognition dataset
  • 森林覆蓋類型:Forest covertypes
  • 路透社新聞數(shù)據(jù):RCV1 dataset
  • 網(wǎng)絡(luò)入侵檢測數(shù)據(jù):Kddcup 99 dataset
  • 加州住房數(shù)據(jù):California Housing dataset

4、Sklearn 數(shù)模筆記的計劃

  粗略看看 Sklearn 的文檔,是一個功能強大和豐富的機器學(xué)習(xí)庫,遠遠超出了數(shù)學(xué)建模學(xué)習(xí)的范圍。
  基于數(shù)模教學(xué)的目的,本系列主要對應(yīng)數(shù)模學(xué)習(xí)中的分類、聚類、降維問題,并不打算全面講解 Sklearn 的各種算法,而是以典型問題為例來介紹原理簡單、使用廣泛的基本方法,以便新手入門。

以上就是Python 機器學(xué)習(xí)工具包SKlearn的安裝與使用的詳細內(nèi)容,更多關(guān)于Python SKlearn的安裝與使用的資料請關(guān)注腳本之家其它相關(guān)文章!

您可能感興趣的文章:
  • pytorch 實現(xiàn)計算 kl散度 F.kl_div()
  • python數(shù)據(jù)分析之用sklearn預(yù)測糖尿病
  • pandas讀取excel,txt,csv,pkl文件等命令的操作
  • python爬取之json、pickle與shelve庫的深入講解
  • 基于KL散度、JS散度以及交叉熵的對比

標(biāo)簽:長沙 海南 崇左 喀什 濟南 山西 安康 山西

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Python 機器學(xué)習(xí)工具包SKlearn的安裝與使用》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266
    都江堰市| 当涂县| 湛江市| 枞阳县| 屏东县| 英超| 云安县| 台安县| 和硕县| 蕲春县| 苏尼特右旗| 丰原市| 许昌市| 基隆市| 绥中县| 通渭县| 新巴尔虎右旗| 铜梁县| 吉木萨尔县| 临湘市| 揭西县| 金堂县| 广河县| 油尖旺区| 额尔古纳市| 隆尧县| 健康| 甘肃省| 玉门市| 许昌县| 海门市| 神池县| 永宁县| 贵州省| 明星| 长兴县| 岐山县| 多伦县| 泉州市| 隆昌县| 东兴市|