Python新手基礎入門教程:遷移到Python3!!!python
到2019年末,將中止支持 Python2。至於numpy,2018年9月以後任何新功能版本都將只支持Python3。一樣的還包括pandas, matplotlib, ipython, jupyter notebook and jupyter lab。遷移到python3的重要性不言而喻。web
使用pathlib處理更好的路徑shell
pathlib 是 Python3 中的一個默認模塊,能夠幫助你避免使用大量的 os.path.join。編程
from pathlib import Path
dataset = 'wiki_images'
datasets_root = Path('/path/to/datasets/')
#Navigating inside a directory tree,use:/
train_path = datasets_root / dataset / 'train'
test_path = datasets_root / dataset / 'test'
for image_path in train_path.iterdir():
with image_path.open() as f: # note, open is a method of Path object
# do something with an image
複製代碼
不要用字符串連接的形式拼接路徑,根據操做系統的不一樣會出現錯誤,咱們可使用/結合 pathlib來拼接路徑,很是的安全、方便和高可讀性。json
pathlib 還有不少屬性,具體的能夠參考pathlib的官方文檔,下面列舉幾個:c#
from pathlib import Path
a = Path("/data")
b = "test"
c = a / b
print(c)
print(c.exists()) # 路徑是否存在
print(c.is_dir()) # 判斷是否爲文件夾
print(c.parts) # 分離路徑
print(c.with_name('sibling.png')) # 只修改拓展名, 不會修改源文件
print(c.with_suffix('.jpg')) # 只修改拓展名, 不會修改源文件
c.chmod(777) # 修改目錄權限
c.rmdir() # 刪除目錄複製代碼
類型提示如今是語言的一部分安全
一個在 Pycharm 使用Typing的例子:bash
引入類型提示是爲了幫助解決程序日益複雜的問題,IDE能夠識別參數的類型進而給用戶提示。微信
關於Tying的具體用法,能夠參考:python類型檢測最終指南--Typing的使用dom
運行時類型提示類型檢查
除了以前文章提到 mypy 模塊繼續類型檢查之外,還可使用 enforce 模塊進行檢查,經過 pip 安裝便可,使用示例以下:
import enforce
@enforce.runtime_validation
def foo(text: str) -> None:
print(text)
foo('Hi') # ok
foo(5) # fails複製代碼
輸出
Hi
Traceback (most recent call last):
File "/Users/chennan/pythonproject/dataanalysis/e.py", line 10, in <module>
foo(5) # fails
File "/Users/chennan/Desktop/2019/env/lib/python3.6/site-packages/enforce/decorators.py", line 104, in universal
_args, _kwargs, _ = enforcer.validate_inputs(parameters)
File "/Users/chennan/Desktop/2019/env/lib/python3.6/site-packages/enforce/enforcers.py", line 86, in validate_inputs
raise RuntimeTypeError(exception_text)
enforce.exceptions.RuntimeTypeError:
The following runtime type errors were encountered:
Argument 'text' was not of type <class 'str'>. Actual type was int.複製代碼
下面咱們實現一個最簡單的ML模型——l2正則化線性迴歸(又稱嶺迴歸)
# l2-regularized linear regression: || AX - y ||^2 + alpha * ||x||^2 -> min
# Python 2
X = np.linalg.inv(np.dot(A.T, A) + alpha * np.eye(A.shape[1])).dot(A.T.dot(y))
# Python 3
X = np.linalg.inv(A.T @ A + alpha * np.eye(A.shape[1])) @ (A.T @ y)複製代碼
使用@符號,整個代碼變得更可讀和方便移植到其餘科學計算相關的庫,如numpy, cupy, pytorch, tensorflow等。
在 Python2 中,遞歸查找文件不是件容易的事情,即便是使用glob庫,可是從 Python3.5 開始,能夠經過**通配符簡單的實現。
import glob
# Python 2
found_images = (
glob.glob('/path/*.jpg')
+ glob.glob('/path/*/*.jpg')
+ glob.glob('/path/*/*/*.jpg')
+ glob.glob('/path/*/*/*/*.jpg')
+ glob.glob('/path/*/*/*/*/*.jpg'))
# Python 3
found_images = glob.glob('/path/**/*.jpg', recursive=True)複製代碼
更好的路徑寫法是上面提到的 pathlib ,咱們能夠把代碼進一步改寫成以下形式。
# Python 3
import pathlib
import glob
found_images = pathlib.Path('/path/').glob('**/*.jpg')複製代碼
雖然 Python3 的 print 加了一對括號,可是這並不影響它的優勢。
print >>sys.stderr, "critical error" # Python 2
print("critical error", file=sys.stderr) # Python 3複製代碼
不使用 str.join 拼接字符串
# Python 3
print(*array, sep=' ')
print(batch, epoch, loss, accuracy, time, sep=' ')複製代碼
既然 Python3 中的 print 是一個函數,咱們就能夠對其進行改寫。
# Python 3
_print = print # store the original print function
def print(*args, **kargs):
pass # do something useful, e.g. store output to some file複製代碼
注意:在 Jupyter 中,最好將每一個輸出記錄到一個單獨的文件中(跟蹤斷開鏈接後發生的狀況),這樣就能夠覆蓋 print 了。
@contextlib.contextmanager
def replace_print():
import builtins
_print = print # saving old print function
# or use some other function here
builtins.print = lambda *args, **kwargs: _print('new printing', *args, **kwargs)
yield
builtins.print = _print
with replace_print():
<code here will invoke other print function>複製代碼
雖然上面這段代碼也能達到重寫 print 函數的目的,可是不推薦使用。
# Python 3
result = process(x) if is_valid(x) else print('invalid item: ', x)複製代碼
在 PEP-515 中引入了在數字中加入下劃線。在 Python3 中,下劃線可用於整數,浮點和複數,這個下劃線起到一個分組的做用
# grouping decimal numbers by thousands
one_million = 1_000_000
# grouping hexadecimal addresses by words
addr = 0xCAFE_F00D
# grouping bits into nibbles in a binary literal
flags = 0b_0011_1111_0100_1110
# same, for string conversions
flags = int('0b_1111_0000', 2)複製代碼
也就是說10000,你能夠寫成10_000這種形式。
Python2提供的字符串格式化系統仍是不夠好,太冗長麻煩,一般咱們會寫這樣一段代碼來輸出日誌信息:
# Python 2
print '{batch:3} {epoch:3} / {total_epochs:3} accuracy: {acc_mean:0.4f}±{acc_std:0.4f} time: {avg_time:3.2f}'.format(
batch=batch, epoch=epoch, total_epochs=total_epochs,
acc_mean=numpy.mean(accuracies), acc_std=numpy.std(accuracies),
avg_time=time / len(data_batch)
)
# Python 2 (too error-prone during fast modifications, please avoid):
print '{:3} {:3} / {:3} accuracy: {:0.4f}±{:0.4f} time: {:3.2f}'.format(
batch, epoch, total_epochs, numpy.mean(accuracies), numpy.std(accuracies),
time / len(data_batch)
)複製代碼
輸出結果爲
120 12 / 300 accuracy: 0.8180±0.4649 time: 56.60複製代碼
在 Python3.6 中引入了 f-string (格式化字符串)
print(f'{batch:3} {epoch:3} / {total_epochs:3} accuracy: {numpy.mean(accuracies):0.4f}±{numpy.std(accuracies):0.4f} time: {time / len(data_batch):3.2f}')複製代碼
關於 f-string 的用法能夠看我在b站的視頻[www.bilibili.com/video/av316…]
對於數據科學來講,這無疑是一個方便的改變
data = pandas.read_csv('timing.csv')
velocity = data['distance'] / data['time']複製代碼
Python2 中的結果取決於「時間」和「距離」(例如,以米和秒爲單位)是否存儲爲整數。在python3中,這兩種狀況下的結果都是正確的,由於除法的結果是浮點數。
另外一個例子是 floor 除法,它如今是一個顯式操做
n_gifts = money // gift_price # correct for int and float arguments複製代碼
nutshell
>>> from operator import truediv, floordiv
>>> truediv.__doc__, floordiv.__doc__
('truediv(a, b) -- Same as a / b.', 'floordiv(a, b) -- Same as a // b.')
>>> (3 / 2), (3 // 2), (3.0 // 2.0)
(1.5, 1, 1.0)複製代碼
值得注意的是,這種規則既適用於內置類型,也適用於數據包提供的自定義類型(例如 numpy 或pandas)。
下面的這些比較方式在 Python3 中都屬於合法的。
3 < '3'
2 < None
(3, 4) < (3, None)
(4, 5) < [4, 5]複製代碼
對於下面這種不論是2仍是3都是不合法的
(4, 5) == [4, 5]複製代碼
若是對不一樣的類型進行排序
sorted([2, '1', 3]) 複製代碼
雖然上面的寫法在 Python2 中會獲得結果 [2, 3, '1'],可是在 Python3 中上面的寫法是不被容許的。
if a is not None:
pass
if a: # WRONG check for None
pass複製代碼
NLP Unicode問題
s = '您好'
print(len(s))
print(s[:2])複製代碼
輸出內容
Python 2: 6
��
Python 3: 2
您好.複製代碼
還有下面的運算
x = u'со'
x += 'co' # ok
x += 'со' # fail複製代碼
Python2 失敗了,Python3 正常工做(由於我在字符串中使用了俄文字母)。
在 Python3 中,字符串都是 unicode 編碼,因此對於非英語文本處理起來更方便。
'a' < type < u'a' # Python 2: True
'a' < u'a' # Python 2: False複製代碼
再好比
from collections import Counter
Counter('Möbelstück')複製代碼
在 Python2 中
Counter({'Ã': 2, 'b': 1, 'e': 1, 'c': 1, 'k': 1, 'M': 1, 'l': 1, 's': 1, 't': 1, '¶': 1, '¼': 1})複製代碼
在 Python3 中
Counter({'M': 1, 'ö': 1, 'b': 1, 'e': 1, 'l': 1, 's': 1, 't': 1, 'ü': 1, 'c': 1, 'k': 1})複製代碼
雖然能夠在 Python2 中正確地處理這些結果,可是在 Python3 中看起來結果更加友好。
在CPython3.6+ 中,默認狀況下,dict 的行爲相似於 OrderedDict ,都會自動排序(這在Python3.7+ 中獲得保證)。同時在字典生成式(以及其餘操做,例如在 json 序列化/反序列化期間)都保留了順序。
import json
x = {str(i):i for i in range(5)}
json.loads(json.dumps(x))
# Python 2
{u'1': 1, u'0': 0, u'3': 3, u'2': 2, u'4': 4}
# Python 3
{'0': 0, '1': 1, '2': 2, '3': 3, '4': 4}複製代碼
這一樣適用於**kwargs(在Python 3.6+中),它們的順序與參數中出現的順序相同。當涉及到數據管道時,順序是相當重要的,之前咱們必須以一種繁瑣的方式編寫它
from torch import nn
# Python 2
model = nn.Sequential(OrderedDict([
('conv1', nn.Conv2d(1,20,5)),
('relu1', nn.ReLU()),
('conv2', nn.Conv2d(20,64,5)),
('relu2', nn.ReLU())
]))複製代碼
而在 Python3.6 之後你能夠這麼操做
# Python 3.6+, how it *can* be done, not supported right now in pytorch
model = nn.Sequential(
conv1=nn.Conv2d(1,20,5),
relu1=nn.ReLU(),
conv2=nn.Conv2d(20,64,5),
relu2=nn.ReLU())
)
複製代碼
相似於元組和列表的拆包,具體看下面的代碼例子。
# handy when amount of additional stored info may vary between experiments, but the same code can be used in all cases
model_paramteres, optimizer_parameters, *other_params = load(checkpoint_name)
# picking two last values from a sequence
*prev, next_to_last, last = values_history
# This also works with any iterables, so if you have a function that yields e.g. qualities,
# below is a simple way to take only last two values from a list
*prev, next_to_last, last = iter_train(args)
複製代碼
Python2
import cPickle as pickle
import numpy
print len(pickle.dumps(numpy.random.normal(size=[1000, 1000])))
# result: 23691675
複製代碼
Python3
import pickle
import numpy
len(pickle.dumps(numpy.random.normal(size=[1000, 1000])))
# result: 8000162
複製代碼
空間少了三倍。並且要快得多。實際上,使用 protocol=2 參數能夠實現相似的壓縮(但不是速度),可是開發人員一般忽略這個選項(或者根本不知道)。
注意:pickle 不安全(而且不能徹底轉移),因此不要 unpickle 從不受信任或未經身份驗證的來源收到的數據。
labels = <initial_value>
predictions = [model.predict(data) for data, labels in dataset]
# labels are overwritten in Python 2
# labels are not affected by comprehension in Python 3
複製代碼
在python2中 super 相關的代碼是常常容易寫錯的。
# Python 2
class MySubClass(MySuperClass):
def __init__(self, name, **options):
super(MySubClass, self).__init__(name='subclass', **options)
# Python 3
class MySubClass(MySuperClass):
def __init__(self, name, **options):
super().__init__(name='subclass', **options)
複製代碼
這一點Python3獲得了很大的優化,新的 super() 能夠再也不傳遞參數。
同時在調用順序上也不同。
使用Java、c#等語言進行編程最有趣的地方是IDE能夠提供很好的建議,由於在執行程序以前,每一個標識符的類型都是已知的。
在python中這很難實現,可是註釋會幫助你
這是一個帶有變量註釋的 PyCharm 提示示例。即便在使用的函數沒有註釋的狀況下(例如,因爲向後兼容性),也可使用這種方法。
如何合併兩個字典
x = dict(a=1, b=2)
y = dict(b=3, d=4)
# Python 3.5+
z = {**x, **y}
# z = {'a': 1, 'b': 3, 'd': 4}, note that value for `b` is taken from the latter dict.
複製代碼
我在b站一樣發佈了相關的視頻[www.bilibili.com/video/av503…]
一樣的方法也適用於列表、元組和集合(a、b、c是任何迭代器)
[*a, *b, *c] # list, concatenating
(*a, *b, *c) # tuple, concatenating
{*a, *b, *c} # set, union
複製代碼
函數還支持*arg和**kwarg的多重解包
# Python 3.5+
do_something(**{**default_settings, **custom_settings})
# Also possible, this code also checks there is no intersection between keys of dictionaries
do_something(**first_args, **second_args)
複製代碼
Python 3.7引入了Dataclass類,它適合存儲數據對象。數據對象是什麼?下面列出這種對象類型的幾項特徵,雖然不全面:
@dataclass
class Person:
name: str
age: int
@dataclass
class Coder(Person):
preferred_language: str = 'Python 3'
複製代碼
dataclass裝飾器實現了幾個魔法函數方法的功能(__init__,__repr__,__le__,__eq__)
關於數據類有如下幾個特性:
在Python中,能夠用getattr和dir控制任何對象的屬性訪問和提示。由於python3.7,你也能夠對模塊這樣作。
一個天然的例子是實現張量庫的隨機子模塊,這一般是跳過初始化和傳遞隨機狀態對象的快捷方式。numpy的實現以下:
# nprandom.py
import numpy
__random_state = numpy.random.RandomState()
def __getattr__(name):
return getattr(__random_state, name)
def __dir__():
return dir(__random_state)
def seed(seed):
__random_state = numpy.random.RandomState(seed=seed)
複製代碼
也能夠這樣混合不一樣對象/子模塊的功能。與pytorch和cupy中的技巧相比。
除此以外,還能夠作如下事情:
在python3.7中能夠直接使用breakpoint給代碼打斷點
# Python 3.7+, not all IDEs support this at the moment
foo()
breakpoint()
bar()
複製代碼
在python3.7之前咱們能夠經過import pdb的pdb.set_trace()實現相同的功能。
對於遠程調試,可嘗試將breakpoint()與web-pdb結合使用.
# Python 3
math.inf # Infinite float
math.nan # not a number
max_quality = -math.inf # no more magic initial values!
for model in trained_models:
max_quality = max(max_quality, compute_quality(model, data))
複製代碼
Python 2提供了兩種基本的整數類型,一種是int(64位有符號整數)一種是long,使用起來很是容易混亂,而在python3中只提供了int類型這一種。
isinstance(x, numbers.Integral) # Python 2, the canonical way
isinstance(x, (long, int)) # Python 2
isinstance(x, int) # Python 3, easier to remember
複製代碼
在python3中一樣的也能夠應用於其餘整數類型,如numpy.int3二、numpy.int64,但其餘類型不適用。
雖然Python 2和Python 3共存了近10年,可是咱們應該轉向Python 3。
使用Python3以後,不論是研究仍是生產上,代碼都會變得更短,更易讀,更安全。
文章參考自—微信公衆號:Python愛好者社區