佳木斯湛栽影视文化发展公司

主頁(yè) > 知識(shí)庫(kù) > pandas:get_dummies()與pd.factorize()的用法及區(qū)別說(shuō)明

pandas:get_dummies()與pd.factorize()的用法及區(qū)別說(shuō)明

熱門標(biāo)簽:硅谷的囚徒呼叫中心 企業(yè)做大做強(qiáng) 百度AI接口 Win7旗艦版 客戶服務(wù) 呼叫中心市場(chǎng)需求 語(yǔ)音系統(tǒng) 電話運(yùn)營(yíng)中心

1.get_dummies()

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None,sparse=False, drop_first=False):Convert categorical variable into dummy/indicator variables

>>> import pandas as pd
>>> s = pd.Series(list('abca'))
>>> pd.get_dummies(s)
   a  b  c
0  1  0  0
1  0  1  0
2  0  0  1
3  1  0  0

2.pd.factorize()

pandas.factorize(values, sort=False, order=None, na_sentinel=-1,size_hint=None):Encode input values as an enumerated type or categorical variable

Series.factorize(sort=False, na_sentinel=-1):Encode the object as an enumerated type or categorical variable

Pandas有一個(gè)方法叫做factorize(),它可以創(chuàng)建一些數(shù)字,來(lái)表示類別變量,對(duì)每一個(gè)類別映射一個(gè)ID,這種映射最后只生成一個(gè)特征,不像dummy那樣生成多個(gè)特征。

Parameters:

sort : boolean, default False

Sort by values

na_sentinel: int, default -1

Value to mark “not found”

Returns:

labels : the indexer to the original array

uniques : the unique Index

labels:對(duì)應(yīng)的編碼array

uniques:需要編碼的類型

補(bǔ)充:pandas.get_dummies 的使用及含義

get_dummies 是利用pandas實(shí)現(xiàn)one hot encode的方式

get_dummies參數(shù)如下:

pandas.get_dummies(data,prefix = None,prefix_sep ='_',dummy_na = False,columns = None,sparse = False,drop_first = False,dtype = None )

data : array-like,Series或DataFrame

prefix :string,字符串列表或字符串dict,默認(rèn)為None,

用于追加DataFrame列名的字符串。在DataFrame上調(diào)用get_dummies時(shí),傳遞一個(gè)長(zhǎng)度等于列數(shù)的列表?;蛘撸熬Y 可以是將列名稱映射到前綴的字典。

prefix_sep : string,默認(rèn)為'_'

如果附加前綴,分隔符/分隔符要使用。或者傳遞與前綴一樣的列表或字典。

dummy_na : bool,默認(rèn)為False

如果忽略False NaN,則添加一列以指示NaN。

columns : 類似列表,默認(rèn)為無(wú)

要編碼的DataFrame中的列名稱。如果列是None,那么所有與列 對(duì)象或類別 D型細(xì)胞將被轉(zhuǎn)換。

sparse : bool,默認(rèn)為False

偽編碼列是否應(yīng)由SparseArray(True)或常規(guī)NumPy數(shù)組(False)支持。

drop_first : bool,默認(rèn)為False

是否通過(guò)刪除第一級(jí)別從k分類級(jí)別獲得k-1個(gè)假人。

版本0.18.0中的新功能。

dtype: D型,默認(rèn)np.uint8

新列的數(shù)據(jù)類型。只允許一個(gè)dtype。

版本0.23.0中的新功能。

實(shí)例

prefix自定義前綴

以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。

您可能感興趣的文章:
  • pandas使用get_dummies進(jìn)行one-hot編碼的方法
  • Python使用Pandas庫(kù)常見(jiàn)操作詳解
  • Python pandas用法最全整理

標(biāo)簽:崇左 濟(jì)南 山西 海南 山西 喀什 長(zhǎng)沙 安康

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《pandas:get_dummies()與pd.factorize()的用法及區(qū)別說(shuō)明》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266
    山东省| 高淳县| 台南县| 邵武市| 六盘水市| 雷波县| 沧州市| 吉水县| 盐池县| 德格县| 夏津县| 呼玛县| 三原县| 新郑市| 绥滨县| 东阿县| 江永县| 台湾省| 文安县| 禄丰县| 开江县| 玉龙| 察隅县| 藁城市| 美姑县| 广德县| 新泰市| 鹿邑县| 会理县| 宁陵县| 临朐县| 敦化市| 韩城市| 垦利县| 新宾| 龙海市| 繁峙县| 兴安盟| 绥芬河市| 海伦市| 满洲里市|