內(nèi)容介紹

將日常工作中遇到的數(shù)數(shù)據(jù)沖突和樣本源的方法進行總結(jié)，其中主要包括實際業(yè)務(wù)數(shù)據(jù)沖突、樣本選取問題、數(shù)據(jù)共線性等思路，并且長期更新。

實際業(yè)務(wù)數(shù)據(jù)沖突

多業(yè)務(wù)數(shù)據(jù)源沖突是指來自多個或具有相同業(yè)務(wù)邏輯但結(jié)果不同的系統(tǒng)，環(huán)境，平臺和工具的數(shù)據(jù)。

沖突的不同特征

一般數(shù)據(jù)沖突類型：

數(shù)據(jù)類型：同字段數(shù)據(jù)的格式不同。例如注冊日期的字段包含字符串。數(shù)
據(jù)結(jié)構(gòu)沖突：同一數(shù)據(jù)主體的描述結(jié)構(gòu)存在沖突。
記錄粒度不同：訂單記錄的粒度可以基于ID存儲在一條數(shù)據(jù)中。
數(shù)據(jù)范圍定義：提取的數(shù)據(jù)字段含義不同發(fā)生沖突。
數(shù)據(jù)值不同：一般發(fā)生情況是格式問題。

一般數(shù)據(jù)沖突原因：

內(nèi)部工具和第三方工具之間的數(shù)據(jù)沖突。

為什么獲得的數(shù)據(jù)與代理商或廣告媒體提供的廣告數(shù)據(jù)之間存在差異，有時差異會特別大？

網(wǎng)站分析工具獲得的數(shù)據(jù)與廣告媒體和代理商提供的數(shù)據(jù)之間不可避免地存在差異。

指標(biāo)的不同定義，不同的收集邏輯，系統(tǒng)過濾規(guī)則不同，不同的更新時間，不同的監(jiān)控位置等等不同步的原因都會產(chǎn)生這些問題。

一般數(shù)據(jù)處理方法：

目前來說沒有一個統(tǒng)一的標(biāo)準(zhǔn)，根據(jù)實際需要進行處理即可。

形成唯一數(shù)據(jù)：如果要進行總體摘要統(tǒng)計，則需要以某種方式消除沖突以便報告一個數(shù)據(jù)。
不消除沖突：而要使用所有沖突的數(shù)據(jù)。如果在進行整體流程統(tǒng)計分析時使用不同業(yè)務(wù)流程的不同數(shù)據(jù)，則不同的指標(biāo)將具有更好的渠道轉(zhuǎn)換效果。要保證處理后的結(jié)果差異可解釋，且客觀穩(wěn)定。

樣本的選擇

數(shù)據(jù)抽樣還是全量基于已經(jīng)有的數(shù)據(jù)來說，肯定是數(shù)據(jù)越全越好，但是實際情況并不是那么理想，我們只能利用統(tǒng)計學(xué)的方法使用抽樣的方式進行取樣比較理想。

一般數(shù)據(jù)采樣方法：

抽樣方法通常分為非概率抽樣和概率抽樣。非概率采樣不是基于均等概率原理，而是基于人類的主觀經(jīng)驗和狀態(tài)。概率抽樣基于數(shù)學(xué)概率論，而抽樣則基于隨機性原理。

簡單隨機抽樣：抽樣方法是根據(jù)等概率原理直接從總數(shù)中抽取n個樣本。這種隨機采樣方法簡單易操作；但這并不能保證樣本可以完美地代表總體。此方法適用于均勻分布的場景。
等距采樣：等距采樣是首先對總體中的每個個體進行編號，然后計算采樣間隔，然后根據(jù)固定的采樣間隔對個體進行采樣。適用于分布均勻或顯示明顯均勻分布規(guī)律，沒有明顯趨勢或周期性規(guī)律的數(shù)據(jù)。
分層抽樣：分層抽樣是根據(jù)某些特征將所有單個樣本劃分為幾個類別，然后從每個類別中使用隨機抽樣或等距抽樣來選擇個體以形成樣本。此方法適用于具有特征（例如屬性和分類邏輯標(biāo)簽）的數(shù)據(jù)。
整群抽樣：整群抽樣是先將所有樣本分成幾個小組，然后再隨機抽樣幾個小組來代表總體。該方法適用于特征差異相對較小的小組，對劃分小組的要求更高。

注意的幾個問題：

數(shù)據(jù)采樣必須反映操作的背景，不存在業(yè)務(wù)隨機性及業(yè)務(wù)數(shù)據(jù)可行性問題，最重要的數(shù)據(jù)采樣必須滿足數(shù)據(jù)分析和建模的需求

數(shù)據(jù)的共線性

所謂共線性（也稱為多重共線性）問題是指輸入自變量之間的高線性相關(guān)性。共線性問題將大大降低回歸模型的穩(wěn)定性和準(zhǔn)確性。例如具有明顯共線性的數(shù)據(jù)：訪問和頁面瀏覽量；頁面瀏覽量和訪問時間；訂單數(shù)量和銷售等。

一般產(chǎn)生原因：

數(shù)據(jù)樣本不足，這實際上反映了缺乏數(shù)據(jù)對數(shù)據(jù)建模的影響的一部分。
許多變量具有基于時間的共同或相反的演變趨勢。
多個變量間存在一定的關(guān)系但是發(fā)生節(jié)點不一致，總體上變量之間的趨勢是一致的。
多個變量之間存在近似線性關(guān)系。簡單理解為一個 y=ax + b 這么一個關(guān)系。

檢驗共線性：共線性通常由公差，方差因子和特征值的特征數(shù)據(jù)確定，做出判斷。

解決共線性的5種常用方法：

增大樣本量：

通過增加樣本消除由于數(shù)據(jù)量不足而出現(xiàn)的偶然共線性現(xiàn)象，也可能無法解決共線性問題，原因是很可能變量間確實存在這個問題。

嶺回歸（Ridge Regression）：

嶺回歸分析是專用于共線性問題的有偏估計回歸方法，本質(zhì)上是一種改進的最小二乘估計方法。

逐步回歸：

一次引入一個自變量并進行統(tǒng)計檢驗，然后逐步引入其他變量，同時測試所有變量的回歸系數(shù)。

主成分回歸（Principal Components Regression）：

可以基于主成分進行回歸分析在不丟失重要數(shù)據(jù)特征的情況下避免共線性問題。

手動刪除：

覺得麻煩的話直接結(jié)合了手動經(jīng)驗刪了就是了。
完全解決共線性問題是不可能的，因為所有事物之間都有一定的聯(lián)系。

在解決共線性問題的相關(guān)主題中，我們僅解決嚴(yán)重的共線性問題，而不是所有共線性問題。

以上就是如何使用python數(shù)據(jù)處理解決數(shù)據(jù)沖突和樣本的選取的詳細(xì)內(nèi)容，更多關(guān)于python數(shù)據(jù)處理的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

python mysql 字段與關(guān)鍵字沖突的解決方式
python數(shù)據(jù)處理實戰(zhàn)(必看篇)
python常用數(shù)據(jù)重復(fù)項處理方法
python數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)標(biāo)準(zhǔn)化的幾種處理方式

標(biāo)簽：樂山紅河河南上海沈陽滄州新疆長治

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《如何使用python數(shù)據(jù)處理解決數(shù)據(jù)沖突和樣本的選取》，本文關(guān)鍵詞；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。