Tensorflow Python API 翻譯(sparse_ops)

做者:chen_h
微信號 & QQ:862251340
微信公衆號:coderpai
個人博客:請點擊這裏python

計劃現將 tensorflow 中的 Python API 作一個學習,這樣方便之後的學習。
原文連接git

該章介紹有關稀疏張量的API

稀疏張量表示

對於多維稀疏數據,TensorFlow提供了稀疏張量表示。稀疏張量裏面的值都是採用IndexedSlices索引來表示,這樣能更加高效的表示數據。github

class tf.SparseTensor算法

解釋:這個函數的做用是表示一個稀疏張量。api

Tensorflow使用三個密集張量:indicesvaluesdense_shape,來表示一個稀疏張量。在Python接口中,這三個張量被整合到一個SparseTensor類中,若是你調換了這三個密集張量的位置,那麼在進行操做以前,SparseTensor類會自動調換三個張量的位置。bash

具體的說,稀疏張量表示爲SparseTensor(values, indices, dense_shape):微信

  • indices: 一個二維的張量,數據類型是int64,數據維度是[N, ndims]
  • values: 一個一維的張量,數據類型是任意的,數據維度是[N]
  • dense_shape: 一個一維的張量,數據類型是int64,數據維度是[ndims]

其中,N表示稀疏張量中存在N個值,ndims表示SparseTensor的維度。函數

相應的密集張量知足:學習

dense.shape = dense_shape
dense[tuple(indices[i])] = values[i]複製代碼

按照慣例,indices中的索引應該按照從小到大的順序排序。SparseTensor中三個密集張量的順序不是強制的,你能夠亂序,SparseTensor會自動將它排序。ui

好比:

SparseTensor(values=[1, 2], indices=[[0, 0], [1, 2]], shape=[3, 4])複製代碼

那麼密集張量就是:

[[1, 0, 0, 0]
 [0, 0, 2, 0]
 [0, 0, 0, 0]]複製代碼

tf.SparseTensor.__init__(indices, values, shape)

解釋:這個函數的做用是構建一個SparseTensor

輸入參數:

  • indices: 一個二維的張量,數據類型是int64,數據維度是[N, ndims]
  • values: 一個一維的張量,數據類型是任意的,數據維度是[N]
  • dense_shape: 一個一維的張量,數據類型是int64,數據維度是[ndims]

輸出參數:
* 一個稀疏張量SparseTensor

tf.SparseTensor.indices

解釋:這個函數的做用是取出密集矩陣中非零值得索引。

使用例子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import tensorflow as tf 
import numpy as np

a = tf.SparseTensor(indices=[[4, 1], [1, 2]], values=[1, 2], shape=[3, 4])
b = a.indices
sess = tf.Session()
print sess.run(a)
print sess.run(b)
sess.close()複製代碼

輸出參數:
* 一個二維的張量,數據類型是int64,數據維度是[N, ndims]。其中,N表示在稀疏張量中非零值的個數,ndims表示稀疏張量的秩。

tf.SparseTensor.values

解釋:這個函數的做用是取出密集矩陣中非零值。

使用例子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import tensorflow as tf 
import numpy as np

a = tf.SparseTensor(indices=[[4, 1], [1, 2]], values=[1, 2], shape=[3, 4])
b = a.values
sess = tf.Session()
print sess.run(a)
print sess.run(b)
sess.close()複製代碼

輸出參數:
* 一個一維的張量,數據類型是任意的。

tf.SparseTensor.dtype

解釋:這個函數的做用是返回張量中元素的類型。

使用例子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import tensorflow as tf 
import numpy as np

a = tf.SparseTensor(indices=[[4, 1], [1, 2]], values=tf.constant([1, 2]), shape=[3, 4])
b = a.dtype
sess = tf.Session()
print b
sess.close()複製代碼

輸出參數:

  • 返回張量中元素的類型。

tf.SparseTensor.shape

解釋:這個函數的做用是返回稀疏張量的維度。

使用例子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import tensorflow as tf 
import numpy as np

a = tf.SparseTensor(indices=[[4, 1], [1, 2]], values=tf.constant([1, 2]), shape=[3, 4])
b = a.shape
sess = tf.Session()
print sess.run(b)
sess.close()複製代碼

輸出參數:

  • 返回稀疏張量的維度。

tf.SparseTensor.graph

解釋:這個函數的做用是返回包含該稀疏張量的圖。

使用例子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import tensorflow as tf 
import numpy as np

a = tf.SparseTensor(indices=[[4, 1], [1, 2]], values=tf.constant([1, 2]), shape=[3, 4])
b = a.graph
sess = tf.Session()
print b
sess.close()複製代碼

輸出參數:

  • 返回包含該稀疏張量的圖。

class tf.SparseTensorValue

解釋:這個函數的做用是查看設置稀疏張量的值。

使用例子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import tensorflow as tf 
import numpy as np

a = tf.SparseTensorValue(indices=[[4, 1], [1, 2]], values=tf.constant([1, 2]), shape=[3, 4])
sess = tf.Session()
print a
print a[0]
print a[1]
print a[2]
sess.close()複製代碼

tf.SparseTensorValue.indices

解釋:這個函數的做用是返回稀疏張量中值的存在位置。

使用例子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import tensorflow as tf 
import numpy as np

a = tf.SparseTensorValue(indices=[[4, 1], [1, 2]], values=tf.constant([1, 2]), shape=[3, 4])
sess = tf.Session()
print a.indices
sess.close()複製代碼

輸出參數:

  • 返回稀疏張量中值的存在位置。

tf.SparseTensorValue.shape

解釋:這個函數的做用是返回稀疏張量的維度。

使用例子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import tensorflow as tf 
import numpy as np

a = tf.SparseTensorValue(values=tf.constant([1, 2]), indices=[[4, 1], [1, 2]], shape=[3, 4])
sess = tf.Session()
print a.shape
sess.close()複製代碼

輸出參數:

  • 返回稀疏張量的維度。

tf.SparseTensorValue.shape

解釋:這個函數的做用是返回稀疏張量中的元素。

使用例子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import tensorflow as tf 
import numpy as np

a = tf.SparseTensorValue(values=tf.constant([1, 2]), indices=[[4, 1], [1, 2]], shape=[3, 4])
sess = tf.Session()
print sess.run(a.values)  # 這是一個張量,因此用sess.run()
sess.close()複製代碼

輸出參數:

  • 返回稀疏張量中的元素。
稀疏張量與密集張量的轉換

TensorFlow提供了稀疏張量與密集張量之間的轉換操做。

tf.sparse_to_dense(sparse_indices, output_shape, sparse_values, default_value, name=None)

解釋:這個函數的做用是將一個稀疏表示轉換成一個密集張量。具體將稀疏張量sparse轉換成密集張量dense以下:

# If sparse_indices is scalar
dense[i] = (i == sparse_indices ? sparse_values : default_value)

# If sparse_indices is a vector, then for each i
dense[sparse_indices[i]] = sparse_values[i]

# If sparse_indices is an n by d matrix, then for each i in [0, n)
dense[sparse_indices[i][0], ..., sparse_indices[i][d-1]] = sparse_values[i]複製代碼

默認狀況下,dense中的填充值default_value都是0,除非該值被設置成一個標量。

使用例子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import tensorflow as tf 
import numpy as np

a = tf.sparse_to_dense(sparse_indices = [[1,2],[2,1]], output_shape = [3,3], 
    sparse_values = [2,3], default_value = 1)
sess = tf.Session()
print sess.run(a) 
sess.close()複製代碼

輸入參數:

  • sparse_indices: 一個Tensor,數據類型必須是int32或者int64。數據維度0維,一維或者二維均可以,或者更加高緯度的sparse_indices[i]
  • output_shape: 一個Tensor,數據類型必須和sparse_indices相同。數據維度是一維,表示輸出密集張量的維度。
  • sparse_values: 一個Tensor,數據維度是一維,其中的每個元素對應sparse_indices中座標的值。
  • default_value: 一個Tensor,數據類型必須和sparse_values相同,數據維度是一個標量。設置稀疏索引不指定的值。
  • name: (可選)爲這個操做取一個名字。

輸出參數:

  • 一個Tensor,數據類型和sparse_values相同。密集張量的數據維度是output_shape

tf.sparse_tensor_to_dense(sp_input, default_value, name=None)

解釋:這個函數的做用是將一個稀疏張量SparseTensor轉換成一個密集張量。

這個操做是一個便利的將稀疏張量轉換成密集張量的方法。

好比,sp_input的數據維度是[3, 5],非空值爲:

[0, 1]: a
[0, 3]: b
[2, 0]: c複製代碼

default_value值爲x,那麼輸出的密集張量的維度是[3, 5],具體的展現形式以下:

[[x a x b x]
 [x x x x x]
 [c x x x x]]複製代碼

使用例子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import tensorflow as tf 
import numpy as np

a = tf.SparseTensor(indices = [[0, 1], [0, 3], [2, 0]], values=[1,2,3], shape=[3, 5])
b = tf.sparse_tensor_to_dense(a, default_value = 11)
sess = tf.Session()
print sess.run(b)
sess.close()複製代碼

輸入參數:

  • sp_input: 一個SparseTensor
  • default_value: 數據維度是一個標量,設置稀疏索引不指定的值。
  • name: (可選)設置返回張量名稱的前綴。

輸出參數:

  • 一個密集張量,數據維度是sp_input.shape,密集張量裏面的值爲sp_input中指定的值,沒有索引的值爲default_value值。

異常:

  • 類型錯誤: 若是sp_input不是一個SparseTensor,將報錯。

tf.sparse_to_indicator(sp_input, vocab_size, name=None)

解釋:這個函數的做用是將稀疏張量SparseTensor的座標轉換成密集張量中的布爾座標。

sp_input中的最後一維被丟棄,而且用sp_input在該位的值來代替,若是sp_input.shape = [D0, D1, D2, ..., Dn, K],其中K是最後一維,那麼output.shape = [D0, D1, D2, ..., Dn, vocab_size],其中:

output[d_0, d_1, ..., d_n, sp_input[d_0, d_1, ..., d_n, k]] = True複製代碼

output中其他值爲False

好比,sp_input.shape = [2, 3, 4],非空值以下:

[0, 0, 0]: 0
[0, 1, 0]: 10
[1, 0, 3]: 103
[1, 1, 2]: 112
[1, 1, 3]: 113
[1, 2, 1]: 121複製代碼

而且vocab_size = 200,那麼輸出output.shape = [2, 3, 200],而且output中的值都是False,除了如下位置:

(0, 0, 0), (0, 1, 10), (1, 0, 103), (1, 1, 112), (1, 1, 113), (1, 2, 121).複製代碼

使用例子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import tensorflow as tf 
import numpy as np

a = tf.SparseTensor(indices = [[0, 1], [0, 3], [2, 0]], values=[1,2,3], shape=[3, 5])
b = tf.sparse_to_indicator(a, 10)
sess = tf.Session()
print sess.run(b)
sess.close()複製代碼

輸入參數:

  • sp_input: 一個SparseTensor,數據類型是int32或者int64
  • vocab_size: sp_Input最後一維的新的維度,而且0 <= sp_input.shape > vocab_size
  • name: (可選)設置返回張量名稱的前綴。

輸出參數:

  • 一個通過修改的密集布爾張量。

異常:

  • 類型錯誤: 若是sp_input不是一個SparseTensor,將報錯。
稀疏張量的操做

TensorFlow提供了一些對於稀疏張量的操做函數。

tf.sparse_concat(concat_dim, sp_inputs, name=None)

解釋:這個函數的做用是將一系列的SparseTensor,按照指定的維度進行合併。

具體合併思路是,先將稀疏張量當作是一個密集張量,而後按照指定的維度進行張量合併,最後將合併成的密集張量當作是一個稀疏張量。

輸入的數據中,SparseTensor的數據維度必須是相同的,而且indicesvaluesshapes的長度必須相同。

輸出數據的維度將由輸入數據的維度決定,除了須要合併的那一維度,這一維度是全部數據該維度的相加總和。

輸出張量中的元素將會被從新保存在稀疏張量中,而且按照原來的順序進行排序。

這個操做的時間複雜度是O(M log M),其中,M是輸入數據中全部非空元素的個數總和。

好比,當concat_dim = 1時:

sp_inputs[0]: shape = [2, 3]
[0, 2]: "a"
[1, 0]: "b"
[1, 1]: "c"

sp_inputs[1]: shape = [2, 4]
[0, 1]: "d"
[0, 2]: "e"複製代碼

那麼輸出數據爲:

shape = [2, 7]
[0, 2]: "a"
[0, 4]: "d"
[0, 5]: "e"
[1, 0]: "b"
[1, 1]: "c"複製代碼

用圖形表示,以下:

[    a] concat [  d e  ] = [    a   d e  ]
[b c  ]           [         ]     [b c          ]複製代碼

使用例子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import tensorflow as tf 
import numpy as np

a = tf.SparseTensor(indices = [[0, 1], [0, 3], [2, 0]], values=[1,2,3], shape=[3, 5])
aa = tf.SparseTensor(indices = [[1, 1], [1, 3], [2, 1]], values=[11,12,13], shape=[3, 5])
b = tf.sparse_concat(0, [a, aa])
sess = tf.Session()
print sess.run(b)
print sess.run(tf.sparse_tensor_to_dense(b))
sess.close()複製代碼

輸入參數:

  • concat_dim: 須要合併的維度。
  • sp_inputs: 一個須要合併的SparseTensor列表。
  • name: (可選)設置返回張量名稱的前綴。

輸出參數:

  • 一個通過合併的SparseTensor

異常:

  • 類型錯誤: 若是sp_inputs不是一個SparseTensor列表。

tf.sparse_reorder(sp_input, name=None)

解釋:這個函數的做用是將SparseTensor中的元素進行從新排列,按照索引從小到大進行排序。

重排列不會影響SparseTensor的維度。

好比,若是sp_input的維度是[4, 5]indices / values以下:

[0, 3]: b
[0, 1]: a
[3, 1]: d
[2, 0]: c複製代碼

那麼輸出的SparseTensor的維度仍是[4, 5]indices / values以下:

[0, 1]: a
[0, 3]: b
[2, 0]: c
[3, 1]: d複製代碼

使用例子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import tensorflow as tf 
import numpy as np

a = tf.SparseTensor(indices = [[2, 1], [0, 3], [2, 0]], values=[1,2,3], shape=[3, 5])
b = tf.sparse_reorder(a)
sess = tf.Session()
print sess.run(b)
sess.close()複製代碼

輸入參數:

  • sp_input: 一個SparseTensor
  • name: (可選)設置返回張量名稱的前綴。

輸出參數:

  • 一個SparseTensor,數據維度和數據類型都不變,只有其中的值進行了有序的排序。

異常:

  • 類型錯誤: 若是sp_input不是一個SparseTensor

tf.sparse_retain(sp_input, to_retain, name=None)

解釋:這個函數的做用是保留SparseTensor中指定的非空元素。

好比,若是sp_input的數據維度是[4, 5],而且擁有4個非空值以下:

[0, 1]: a
[0, 3]: b
[2, 0]: c
[3, 1]: d複製代碼

並且to_retain = [True, False, False, True],那麼最後輸出數據SparseTensor的數據維度是[4, 5],而且保留兩個非空值以下:

[0, 1]: a
[3, 1]: d複製代碼

使用例子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import tensorflow as tf 
import numpy as np

a = tf.SparseTensor(indices = [[2, 1], [0, 3], [2, 0]], values=[1,2,3], shape=[3, 5])
b = tf.sparse_retain(a, [False, False, True])
sess = tf.Session()
print sess.run(b)
sess.close()複製代碼

輸入參數:

  • sp_input: 一個SparseTensor,包含N個非空元素。
  • to_retain: 一個布爾類型的向量,向量長度是N,而且其中包含MTrue值。

輸出參數:

  • 一個SparseTensor,數據維度和輸入數據相同,其中包含M個非空值,該值的位置根據True的位置來決定。

異常:

  • 類型錯誤: 若是sp_input不是一個SparseTensor

tf.sparse_fill_empty_rows(sp_input, default_value, name=None)

解釋:這個函數的做用是將二維的SparseTensor中,將空的行中填充指定元素的值。

若是一行中不存在元素,那麼就將改行的座標[row, 0]填上default_value

好比,咱們假設sp_input的數據維度是[5, 6],而且非空值以下:

[0, 1]: a
[0, 3]: b
[2, 0]: c
[3, 1]: d複製代碼

由於在稀疏張量中,第一行和第四行中不存在值,那麼咱們須要在[1, 0][4, 0]座標填上default_value,以下:

[0, 1]: a
[0, 3]: b
[1, 0]: default_value
[2, 0]: c
[3, 1]: d
[4, 0]: default_value複製代碼

請注意,輸入可能有空列在最後,但對這個操做沒有任何影響。

輸出的SparseTensor將是一個按照從小到大的順序進行排序,而且輸出數據和輸入數據擁有相同的數據維度。

這個操做還會返回一個布爾向量,其中的布爾值,若是是True值,那麼表示該行添加了一個default_value,計算公式以下:

empty_row_indicator[i] = True iff row i was an empty row.複製代碼

使用例子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import tensorflow as tf 
import numpy as np

a = tf.SparseTensor(indices = [[2, 1], [0, 3], [2, 0]], values=[1,2,3], shape=[6, 5])
b, bb = tf.sparse_fill_empty_rows(a, 10)
sess = tf.Session()
print sess.run(b)
print '----'
print sess.run(bb)
sess.close()複製代碼

輸入參數:

  • sp_input: 一個SparseTensor,數據維度是[N, M]
  • default_value: 須要向空行填充的值,數據類型和sp_input相同。
  • name: (可選)設置返回張量名稱的前綴。

輸出參數:

  • sp_ordered_output: 一個SparseTensor,數據維度是[N, M],而且其中全部空行填充了default_value
  • empty_row_indicator: 一個布爾類型的向量,數據長度是N,若是該行填充了default_value,那麼該位置的布爾值爲True

異常:

  • 類型錯誤: 若是sp_input不是一個SparseTensor


CoderPai 是一個專一於算法實戰的平臺,從基礎的算法到人工智能算法都有設計。若是你對算法實戰感興趣,請快快關注咱們吧。加入AI實戰微信羣,AI實戰QQ羣,ACM算法微信羣,ACM算法QQ羣。詳情請關注 「CoderPai」 微信號(coderpai) 。

相關文章
相關標籤/搜索