本文是譯文,能夠轉載,但需註明出處,點擊這裏能夠獲取原文,有刪減。
本系列博文包含四篇文章:
【譯】技能測試解決方案:Python中的數據科學(一)——Q1-Q15
【譯】技能測試解決方案:Python中的數據科學(二)——Q16-Q30
【譯】技能測試解決方案:Python中的數據科學(三)——Q31-Q45
【譯】技能測試解決方案:Python中的數據科學(四)——A1-A45及其解釋python
Q16
在上述數據集中, 「Cabin」變量5個樣本中就有3個是缺失值,若是某個變量含有較高比例的缺失值,咱們能夠刪除該類變量,但這樣作又會損失必定的信息量。
比較折中的解決方案是,另外創建二分類變量 「Missing_Cabin」,當「Cabin」變量爲缺失值時,該變量取值1,不然取值0。
下列哪行代碼能夠實現這個需求?segmentfault
A - train['Missing_Cabin'] = train.Cabin.apply(lambda x: x == '') B - train['Missing_Cabin'] = train.Cabin.isnull() == False C - train['Missing_Cabin'] = train.Cabin.isnull().astype(int) D - 以上選項都不能
Q17
app
上述數據集是出口產品的屬性數據,可是在原始數據中,沒有列名。咱們怎樣讀入包含指定列名的數據框的數據集?函數
A - pd.read_csv("train.csv", header=None, columns=['Item_Identifier', 'Item_Weight', 'Item_Fat_Content', 'Item_Visibility' ]) B - pd.read_csv("train.csv", header=None, usecols=['Item_Identifier', 'Item_Weight', 'Item_Fat_Content', 'Item_Visibility']) C - pd.read_csv("train.csv", header=None, names=['Item_Identifier' ,'Item_Weight' ,'Item_Fat_Content', 'Item_Visibility']) D - 以上選項都不能
Q18
當咱們使用pandas讀入數據集時,變量的類型可能解析得不對。爲此,咱們須要在讀入數據集時,指定每一個變量的數據類型,或者讀入數據集後,轉換指定變量的數據類型。
下列哪行代碼能夠把「Item_Fat_Content」 變量由「object」類型改變成「category」類型?測試
A - train['Item_Fat_Content'] = train['Item_Fat_Content'].asdtype('categorical') B - train['Item_Fat_Content'] = train['Item_Fat_Content'].astype('category') C - train['Item_Fat_Content'] = train['Item_Fat_Content'].asdtype('category') D - 以上選項都不能
Q19
spa
上述數據集中, 「Item_Identifier」變量彷佛和「Item_Type」變量存在一些關係:當「Item_Identifier」變量首字母發生變化時, 「Item_Type」 變量隨即也發生變化。當「Item_Identifier」變量以字母「F」開頭時,對應的「Item_Type」 變量取值都是能夠吃的物品,而「D」則對應的是飲料。
爲了檢驗這個假設,下列哪行代碼能夠查詢出全部「Item_Identifier」 變量以「F」開頭的樣本?3d
A - train.Item_Identifier.str.starts_with('F') B - train.Item_Identifier.str.startswith('F') C - train.Item_Identifier.str.is_start('F') D - 以上選項都不能
Q20
下列哪行代碼能夠把 「Item_MRP」變量由「浮點型」改變成「整型」?unix
A - train['Item_MRP'] = train.Item_MRP.astype(real) B - train['Item_MRP'] = train.Item_MRP.astype(int) C - train['Item_MRP'] = train.Item_MRP.astype(float) D - 以上選項都不能
Q21
code
咱們如今還有另一個假設:在超市裏,對於新顧客而言,一個物品越容易看到,它的銷量就會越好。
下列哪行代碼能夠計算 「Item_Outlet_Sales」變量和 「Item_Visibility」變量之間的皮爾遜相關係數?orm
A - train.Item_Visibility.corr(train.Item_Outlet_Sales, method='pearson') B - train.Item_Visibility.corr(train.Item_Outlet_Sales) C - train.Item_Visibility.corrwith(train.Item_Outlet_Sales, method='pearson') D - A和B均可以
Q22
咱們想查看「Hours.Per.Week」變量相對於用戶的「Marital.Status」變量和「Occupation」變量的分佈。一種方案是建立「Marital.Status」變量vs「Occupation」變量的數據透視表,並求「Hours.Per.Week」變量的值。
下列哪行代碼能夠實現這個需求?(聚合函數設定爲「Sum」)
A - train.pivot(index='Marital.Status', columns='Occupation', values='Hours.Per.Week', aggfunc='sum') B - train.pivot_table(index='Marital.Status', columns='Occupation', values='Hours.Per.Week', aggfunc='sum') C - train.pivot_table(index='Marital.Status', columns='Hours.Per.Week', values='Occupation', aggfunc='sum') D - 以上選項都不能
Q23
上述數據集中,假設前兩行都不是咱們想要的,咱們想從第三行開始讀入數據,在pandas 中如何操做?
A - train = pd.read_csv('train.csv', startrow=2) B - train = pd.csvReader('train.csv', startrow=2) C - train = pd.read_csv('train.csv', skiprows=2) D - 以上選項都不能
Q24
假設數據集太大而不能加載到本地機器中,可是咱們仍然想把它加載到內存中。一種解決辦法是加載指定數目的行數到內存中。
下列哪行代碼能夠只讀取前500行數據到內存中?
A - train = pd.read_csv('train.csv', nrows=500) B - train = pd.read_csv('train.csv', numrows=500) C - train = pd.read_csv('train.csv', rows=500) D - 以上選項都不能
Q25
咱們如今想要知道「Relationship」變量在數據集中的分佈。 爲此,咱們能夠發現用戶數與「Relationship」變量的百分比分佈。
要作到這一點,須要找到「Relationship」變量全部取值的樣本量,而後將其除以總樣本數,獲得百分比並將其映射到每一列便可。
下列哪行代碼能夠實現這個需求?
A - train['Relationship_Percentage'] = train.Relationship.map(train.Relationship.value_count/train.shape[0]) B - train['Relationship_Percentage'] = train.Relationship.map(train.Relationship.value_counts()/train.shape[0]) C - train['Relationship_Percentage'] = train.Relationship.map(train.Relationship.value_counts/train.shape[0]) D - 以上選項都不能
Q26
上述數據集中,「Date_time_of_event」變量被解析成「分類型」變量,所以,一些有關日期的操做不能做用於該變量。
下列哪行代碼能夠把 「Date_time_of_event」變量由「分類型」變量轉換成「時間型」變量?
A - train['Date_time_of_event'] = pd.to_datetime(train.Date_time_of_event, date_format="%d-%m-%Y") B - train['Date_time_of_event'] = pd.to_datetime(train.Date_time_of_event, format="%d-%m-%Y %H:%M") C - train['Date_time_of_event'] = pd.to_datetime(train.Date_time_of_event, date_format="%d-%m-%Y %h:%m") D - 以上選項都不能
Q27
上述數據集中,咱們想根據「Date_time_of_event」 變量衍生出 「Date」變量,下列哪行代碼能夠提取出「Date_time_of_event」 變量中的日期?
A - train.Date_time_of_event.dt.days B - train.Date_time_of_event.dt.day C - train.Date_time_of_event.dt.Day D - 以上選項都不能
Q28
下列哪行代碼能夠提取「Date_time_of_event」 變量中的工做日?
A - train.Date_time_of_event.dt.weekdayname B - train.Date_time_of_event.dt.weekday_name C - train.Date_time_of_event.dt.Weekday_name D - 以上選項都不能
Q29
「時間型」變量可能被解析成unix格式,在抽取有用信息以前,咱們必須把它轉換成可用的格式,下列哪行代碼能夠實現?
A - pd.to_datetime(train['TIMESTAMP'],unit='s') B - pd.to_datetime(train['TIMESTAMP'],unit='second') C - pd.to_datetime(train['TIMESTAMP'],unit='unix') D - 以上選項都不能
Q30
下列哪行代碼能夠找出「如今」與 ‘Date_time_of_event’變量之間的時間差?
A - pd.datetime.now - train.Date_time_of_event.dt B - pd.datetime.now() - train.Date_time_of_event.dt C - pd.datetime.now() - train.Date_time_of_event D - 以上選項都不能
友情連接:
【譯】技能測試解決方案:Python中的數據科學(一)——Q1-Q15
【譯】技能測試解決方案:Python中的數據科學(三)——Q31-Q45
【譯】技能測試解決方案:Python中的數據科學(四)——A1-A45及其解釋