佳木斯湛栽影视文化发展公司

主頁 > 知識庫 > 如何在向量化NumPy數(shù)組上進行移動窗口

如何在向量化NumPy數(shù)組上進行移動窗口

熱門標簽:呼叫中心市場需求 Win7旗艦版 客戶服務 百度AI接口 硅谷的囚徒呼叫中心 語音系統(tǒng) 企業(yè)做大做強 電話運營中心

今天很有可能你已經做了一些使用滑動窗口(也稱為移動窗口)的事情,而你甚至不知道它。例如:許多編輯算法都是基于移動窗口的。

在GIS中做地形分析的大多數(shù)地形柵格度量(坡度、坡向、山坡陰影等)都基于滑動窗口。很多情況下,對格式化為二維數(shù)組的數(shù)據(jù)進行分析時,都很有可能涉及到滑動窗口。

滑動窗口操作非常普遍,非常有用。它們也很容易在Python中實現(xiàn)。學習如何實現(xiàn)移動窗口將把你的數(shù)據(jù)分析和爭論技能提升到一個新的水平。

什么是滑動窗?

下面的例子顯示了一個3×3(3×3)滑動窗口。用紅色標注的數(shù)組元素是目標元素。這是滑動窗口將計算的新度量的數(shù)組位置。例如,在下面的圖像中,我們可以計算灰色窗口中9個元素的平均值(平均值也是8),并將其分配給目標元素,用紅色標出。你可以計算最小值(0)、最大值(16)或其他一些指標,而不是平均值。對數(shù)組中的每個元素都這樣做。

就是這樣。這就是滑動窗口的基本原理。當然,事情可能變得更加復雜。有限差分方法可以用于時間和空間數(shù)據(jù)。邏輯可以實現(xiàn)??梢允褂酶蟮拇翱诖笮』蚍钦叫未翱?。你懂的。但在其核心,移動窗口分析可以簡單地總結為鄰居元素的平均值。

需要注意的是,必須為邊緣元素設置特殊的調整,因為它們沒有9個相鄰元素。因此,許多分析都排除了邊緣元素。為簡單起見,我們將在本文中排除邊緣元素。

樣例數(shù)組

3x3的滑動窗口

創(chuàng)建一個NumPy數(shù)組

為了實現(xiàn)一些簡單的示例,讓我們創(chuàng)建上面所示的數(shù)組。首先,導入numpy。

import numpy as np

然后使用arange創(chuàng)建一個7×7的數(shù)組,值范圍從1到48。另外,創(chuàng)建另一個包含無數(shù)據(jù)值的數(shù)組,該數(shù)組的形狀和數(shù)據(jù)類型與初始數(shù)組相同。在本例中,我使用-1作為無數(shù)據(jù)值。

a = np.arange(49).reshape((7, 7)) 
b = np.full(a.shape, -1.0)

我們將使用這些數(shù)組來開發(fā)下面的滑動窗口示例。

通過循環(huán)實現(xiàn)滑動窗口

毫無疑問,你已經聽說過Python中的循環(huán)很慢,應該盡可能避免。特別是在使用大型NumPy數(shù)組時。這是完全正確。盡管如此,我們將首先看一個使用循環(huán)的示例,因為這是一種簡單的方法來概念化在移動窗口操作中發(fā)生的事情。在你通過循環(huán)示例掌握了概念之后,我們將繼續(xù)使用更有效的向量化方法。

要實現(xiàn)移動窗口,只需循環(huán)遍歷所有內部數(shù)組元素,識別所有相鄰元素的值,并在特定的計算中使用這些值。

通過行和列偏移量可以很容易地識別相鄰值。3×3窗口的偏移量如下所示。

行偏移

列偏移

循環(huán)中NumPy移動窗口的Python代碼

我們可以用三行代碼實現(xiàn)一個移動窗口。這個例子在滑動窗口內計算平均值。首先,循環(huán)遍歷數(shù)組的內部行。其次,循環(huán)遍歷數(shù)組的內部列。第三,在滑動窗口內計算平均值,并將值賦給輸出數(shù)組中相應的數(shù)組元素。

for i in range(1, a.shape[0]-1):
    for j in range(1, a.shape[1]-1): 
        b[i, j] = (a[i-1, j-1] + a[i-1, j] + a[i-1, j+1] + a[i, j-1] + a[i, j] + a[i, j+1] + a[i+1, j-1] + a[i+1, j] + a[i+1, j+1]) / 9.0

循環(huán)后結果

你將注意到結果與輸入數(shù)組具有相同的值,但是外部元素沒有被分配數(shù)據(jù)值,因為它們不包含9個相鄰元素。

[[-1. -1. -1. -1. -1. -1. -1.]
 [-1. 8. 9. 10. 11. 12. -1.]
 [-1. 15. 16. 17. 18. 19. -1.]
 [-1. 22. 23. 24. 25. 26. -1.]
 [-1. 29. 30. 31. 32. 33. -1.] 
 [-1. 36. 37. 38. 39. 40. -1.]
 [-1. -1. -1. -1. -1. -1. -1.]]

向量化滑動窗口

Python中的數(shù)組循環(huán)通常計算效率低下。通過對通常在循環(huán)中執(zhí)行的操作進行向量化,可以提高效率。移動窗口矢量化可以通過同時抵消數(shù)組內部的所有元素來實現(xiàn)。

如下圖所示。每個圖像都有相應的索引。你將注意到最后一張圖像索引了所有內部元素,并且對應的圖像索引了每個相鄰元素的偏移量。



從左到右的偏移索引:[1:-1,:-2],[1:-1,2:],[2 :, 2:]



從左到右的偏移索引:[2 :,:-2],[2 :, 1:-1],[:-2,1:-1]




從左到右的偏移索引:[:-2,2:],[:-2,:-2],[1:-1、1:-1]

Numpy數(shù)組上的向量化移動窗口的Python代碼

有了上述偏移量,我們現(xiàn)在可以輕松地在一行代碼中實現(xiàn)滑動窗口。 只需將輸出數(shù)組的所有內部元素設置為根據(jù)相鄰元素計算所需輸出的函數(shù)。

b[1:-1, 1:-1] = (a[1:-1, 1:-1] + a[:-2, 1:-1] + a[2:, 1:-1] + a[1:-1, :-2] + a[1:-1, 2:] + a[2:, 2:] + a[:-2, :-2] + a[2:, :-2] + a[:-2, 2:]) / 9.0

矢量化滑動窗口結果

如你所見,這將得到與循環(huán)相同的結果。

[[-1. -1. -1. -1. -1. -1. -1.]
 [-1. 8. 9. 10. 11. 12. -1.]
 [-1. 15. 16. 17. 18. 19. -1.]
 [-1. 22. 23. 24. 25. 26. -1.]
 [-1. 29. 30. 31. 32. 33. -1.]
 [-1. 36. 37. 38. 39. 40. -1.]
 [-1. -1. -1. -1. -1. -1. -1.]]

速度比較

上述兩種方法產生相同的結果,但哪一種更有效?我計算了從5行到100列的數(shù)組的每種方法的速度。每種方法對每個測試100次。下面是每種方法的平均時間。

很明顯,向量化的方法更加有效。隨著數(shù)組大小的增加,循環(huán)的效率呈指數(shù)級下降。另外,需要注意的是,一個包含10,000個元素(100行和100列)的數(shù)組非常小。

總結

移動窗口計算在許多數(shù)據(jù)分析工作流程中非常常見。這些計算是非常有用的,非常容易實現(xiàn)。然而,使用循環(huán)來實現(xiàn)滑動窗口操作是非常低效的。

向量化的移動窗口實現(xiàn)不僅更高效,而且使用更少的代碼行。一旦掌握了實現(xiàn)滑動窗口的向量化方法,就可以輕松有效地提高工作流程的速度。

補充:Python學習筆記——Numpy數(shù)組的移動滑窗,使用as_strided實現(xiàn)

Numpy中移動滑窗的實現(xiàn)

為何需要移動滑窗

在量化投資分析過程中,對歷史數(shù)據(jù)進行分析是一個必不可少的步驟。滑窗在歷史數(shù)據(jù)分析中的重要性不言而喻。譬如移動平均、指數(shù)平滑移動平均、MACD、DMA等等價格指標的計算都無一例外需要用到滑窗。

作為一種非常受歡迎的數(shù)據(jù)分析工具,pandas中提供了專門的滑窗類:DataFrame.rolling()。通過這個滑窗類,可以非常容易地實現(xiàn)移動平均等等算法,但是,在某些情況下,Pandas的運行速度還是不夠,需要借助Numpy的高效率進一步提升速度,這時候就需要在Numpy中實現(xiàn)滑窗了。

Numpy中的移動滑窗

可惜Numpy并沒有提供直接簡單的滑窗方法,如果使用for-loop來實現(xiàn)滑窗,不僅效率打折扣,而且內存占用也非常大。實際上,Numpy提供了一個非常底層的函數(shù)可以用來生成滑窗:Numpy.lib.stride_tricks.as_stried。

移動滑窗的as_strided實現(xiàn)方法

舉一個例子,首先生成一個5000行200列的二維數(shù)組,我們需要在這個二維數(shù)組上生成一個寬度為200的滑窗,也就是說,第一個窗口包含前0~199行數(shù)據(jù),第二個窗口包含1~200行,第三個窗口包含2~201行,以此類推,一共4801組:

In [106]: d = np.random.randint(100, size=(5000,200))

如果使用as_strided函數(shù)生成上述滑窗,需要用下面的代碼,它生成一個三維數(shù)組,包括4801組200X200的矩陣,每一組200X200的矩陣代表一組滑窗:

In [107]: %timeit sd = as_strided(d, (4801,200,200), (200*8, 200*8, 8))
5.97 µs ± 33.2 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

我們再嘗試一下用for-loop的方法生成一個滑窗檢驗一下前面生成的滑窗是否正確:

In [108]: %%timeit
     ...: sd2 = np.zeros((4801,200,200))
     ...: for i in range(4801):
     ...:     sd2[i] = d[i:i+200]
     ...: 
722 ms ± 98.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [109]: np.allclose(sd, sd2)
Out[109]: True

從上面的代碼可以看出,使用as_strided生成一組滑窗,速度竟然是for-loop的十萬倍以上!那么as_strided是如何做到的呢?

關于as_strided函數(shù)的詳細解析

as_strided是怎么回事呢?看它的函數(shù)解釋:

Signature: as_strided(x, shape=None, strides=None, subok=False, writeable=True)
Docstring:
Create a view into the array with the given shape and strides.

.. warning:: This function has to be used with extreme care, see notes.

Parameters
----------
x : ndarray
Array to create a new.
shape : sequence of int, optional
The shape of the new array. Defaults to "x.shape".
strides : sequence of int, optional
The strides of the new array. Defaults to "x.strides".
subok : bool, optional
If True, subclasses are preserved.
writeable : bool, optional
If set to False, the returned array will always be readonly. Otherwise it will be writable if the original array was. It is advisable to set this to False if possible (see Notes).

Returns
-------
view : ndarray

這個函數(shù)接受的第一個參數(shù)是一個數(shù)組,第二個參數(shù)是輸出的數(shù)據(jù)shape,第三個參數(shù)是stride。要控制數(shù)據(jù)的輸出,shape和stride都非常重要

shape的含義非常簡單,就是指輸出的數(shù)據(jù)的行、列、層數(shù),這個參數(shù)是一個元組,元組的元素數(shù)量等于數(shù)組的維度。

而stride的含義就相對復雜一些,其實它的含義是指“步幅”,意思是每一個維度的數(shù)據(jù)在內存上平移的字節(jié)數(shù)量。

因為數(shù)組在內存中的存放方式是一維線性方式存放的,因此要訪問數(shù)組中的某個數(shù)字就需要知道平移到哪一個內存單元,ndarray通過stride“步幅”來指定這個平移的幅度。

在as_strided函數(shù)中,stride也是一個元組,其元素的數(shù)量必須跟shape的元素數(shù)量相同,每一個元素就代表該維度的每一個數(shù)據(jù)相對前一個數(shù)據(jù)的內存間隔。

舉個例子:

In [188]: d = np.random.randint(10, size=(5,3))

In [189]: d
Out[189]: 
array([[4, 4, 6],
       [2, 9, 3],
       [5, 1, 1],
       [2, 0, 0],
       [9, 2, 3]])


地址0 地址1 地址2 地址3 地址4 地址5 地址6 地址7 地址8 地址9 地址A 地址B 地址C 地址D 地址E
4 4 5 2 9 3 5 1 1 2 0 0 9 2 3

我們之所以看到一個二維數(shù)組,是因為numpy數(shù)組的shape為(5, 3),stride為(24, 8),意思是說,我們看到的數(shù)據(jù)有5行3列,對應shape的(5, 3),每一行與前一行間隔24個字節(jié)(其實就是三個數(shù)字,因為每一個int類型占據(jù)8字節(jié),而每一列數(shù)字比前一列相差8字節(jié)(1個數(shù)字)

理解上面的含義以后,也就能理解如何生成一個數(shù)據(jù)滑窗了,如果我們需要生成一個2X3的數(shù)據(jù)滑窗,在d上滑動,實際上可以生成一個4組,2行3列的數(shù)據(jù)視圖,第一組覆蓋d的第0、1兩行,第二層覆蓋d的第1、2兩行,第三層覆蓋d的第2、3兩行……這樣就形成了數(shù)據(jù)滑窗的效果,我們只要在新的數(shù)據(jù)視圖上遍歷,就能遍歷整個滑窗。這樣做的好處是,在整個遍歷的過程中完全不需要對數(shù)據(jù)進行任何移動或復制的操作,因此速度飛快。

根據(jù)上面的思路,我們需要生成一個新的數(shù)據(jù)視圖,其shape為(4, 2, 3)代表4組(從頭到尾滑動4次),2行3列(滑窗的尺寸)

接下來需要確定stride,如前所述stride同樣是一個包含三個元素的元組,第一個元素是兩層數(shù)據(jù)之間的內存間隔,由于我們的滑窗每滑動一次下移一行,因此層stride應該是平移三個數(shù)字,也就是24個字節(jié),行stride和列stride與原來的行列stride一致,因為我們需要原樣看到按順序的數(shù)字,因此,新的stride就是:(24, 24, 8)

我們來看看這個新的數(shù)據(jù)視圖是什么樣子:

In [190]: as_strided(d, shape=(4,2,3), strides=(24,24,8))
Out[190]: 
array([[[4, 4, 6],
        [2, 9, 3]],

       [[2, 9, 3],
        [5, 1, 1]],

       [[5, 1, 1],
        [2, 0, 0]],

       [[2, 0, 0],
        [9, 2, 3]]])

看!一個數(shù)據(jù)滑窗正確地出現(xiàn)了!

使用as_strided函數(shù)的危險之處

使用s_strided函數(shù)的最大問題是內存讀取風險,在as_strided生成新的視圖時,由于直接操作內存地址(這一點像極了C的指針操作),而且它并不會檢查內存地址是否越界,因此如果稍有不慎,就會讀到別的內存地址。關鍵是,如果不設置可讀參數(shù),還能直接對內存中的數(shù)據(jù)進行操作,這樣就帶來了無比大的風險。了解這個風險對正確操作至關重要!

例如,使用下面的stride會直接溢出到其他的未知內存地址上,并讀取它的值,甚至還可以直接修改它:

In [194]: as_strided(d, shape=(5,2,3), strides=(24,24,8))
Out[194]: 
array([[[               4,                4,                6],
        [               2,                9,                3]],

       [[               2,                9,                3],
        [               5,                1,                1]],

       [[               5,                1,                1],
        [               2,                0,                0]],

       [[               2,                0,                0],
        [               9,                2,                3]],

       [[               9,                2,                3],
        [2251799813685248,            18963,                0]]])

這時對象的第五組就映射到了三個未知的內存地址上,如果不慎修改了這三個地址上的內容,就可能造成難以預料的問題,如程序崩潰等。

所以,官方才在文檔中鄭重地警告:如果有可能,盡量避免使用as_strided函數(shù)

以上為個人經驗,希望能給大家一個參考,也希望大家多多支持腳本之家。

您可能感興趣的文章:
  • numpy 聲明空數(shù)組詳解
  • Numpy將二維數(shù)組添加到空數(shù)組的實現(xiàn)
  • 在NumPy中創(chuàng)建空數(shù)組/矩陣的方法
  • NumPy實現(xiàn)ndarray多維數(shù)組操作
  • 如何將numpy二維數(shù)組中的np.nan值替換為指定的值
  • 解決numpy數(shù)組互換兩行及賦值的問題
  • python 將numpy維度不同的數(shù)組相加相乘操作
  • python numpy.power()數(shù)組元素求n次方案例
  • Python 用NumPy創(chuàng)建二維數(shù)組的案例
  • Numpy ndarray 多維數(shù)組對象的使用
  • 淺談Python numpy創(chuàng)建空數(shù)組的問題

標簽:長沙 喀什 安康 濟南 山西 海南 山西 崇左

巨人網絡通訊聲明:本文標題《如何在向量化NumPy數(shù)組上進行移動窗口》,本文關鍵詞  ;如發(fā)現(xiàn)本文內容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內容系統(tǒng)采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266
    永修县| 清苑县| 武川县| 老河口市| 平度市| 沂水县| 青田县| 马尔康县| 新密市| 南溪县| 连云港市| 陵川县| 政和县| 自治县| 宣武区| 五河县| 亳州市| 漳平市| 二连浩特市| 武威市| 白河县| 册亨县| 蓬安县| 红原县| 新丰县| 阳谷县| 开原市| 德钦县| 商水县| 塔城市| 达日县| 中牟县| 赞皇县| 甘谷县| 曲周县| 津市市| 堆龙德庆县| 新兴县| 崇信县| 囊谦县| 洛扎县|