【譯】技能測試解決方案:Python中的數據科學(二)

本文是譯文,能夠轉載,但需註明出處,點擊這裏能夠獲取原文,有刪減。
本系列博文包含四篇文章:
【譯】技能測試解決方案:Python中的數據科學(一)——Q1-Q15
【譯】技能測試解決方案:Python中的數據科學(二)——Q16-Q30
【譯】技能測試解決方案:Python中的數據科學(三)——Q31-Q45
【譯】技能測試解決方案:Python中的數據科學(四)——A1-A45及其解釋python

Q16
圖片描述
在上述數據集中, 「Cabin」變量5個樣本中就有3個是缺失值,若是某個變量含有較高比例的缺失值,咱們能夠刪除該類變量,但這樣作又會損失必定的信息量。
比較折中的解決方案是,另外創建二分類變量 「Missing_Cabin」,當「Cabin」變量爲缺失值時,該變量取值1,不然取值0。
下列哪行代碼能夠實現這個需求?segmentfault

A - train['Missing_Cabin'] = train.Cabin.apply(lambda x: x == '')
B - train['Missing_Cabin'] = train.Cabin.isnull() == False
C - train['Missing_Cabin'] = train.Cabin.isnull().astype(int)
D - 以上選項都不能

Q17
圖片描述app

上述數據集是出口產品的屬性數據,可是在原始數據中,沒有列名。咱們怎樣讀入包含指定列名的數據框的數據集?函數

A - pd.read_csv("train.csv", header=None, columns=['Item_Identifier', 'Item_Weight', 'Item_Fat_Content', 'Item_Visibility' ])
B - pd.read_csv("train.csv", header=None, usecols=['Item_Identifier', 'Item_Weight', 'Item_Fat_Content', 'Item_Visibility'])
C - pd.read_csv("train.csv", header=None, names=['Item_Identifier' ,'Item_Weight' ,'Item_Fat_Content', 'Item_Visibility'])
D - 以上選項都不能

Q18
圖片描述
當咱們使用pandas讀入數據集時,變量的類型可能解析得不對。爲此,咱們須要在讀入數據集時,指定每一個變量的數據類型,或者讀入數據集後,轉換指定變量的數據類型。
下列哪行代碼能夠把「Item_Fat_Content」 變量由「object」類型改變成「category」類型?測試

A - train['Item_Fat_Content'] = train['Item_Fat_Content'].asdtype('categorical')
B - train['Item_Fat_Content'] = train['Item_Fat_Content'].astype('category')
C - train['Item_Fat_Content'] = train['Item_Fat_Content'].asdtype('category')
D - 以上選項都不能

Q19
圖片描述spa

上述數據集中, 「Item_Identifier」變量彷佛和「Item_Type」變量存在一些關係:當「Item_Identifier」變量首字母發生變化時, 「Item_Type」 變量隨即也發生變化。當「Item_Identifier」變量以字母「F」開頭時,對應的「Item_Type」 變量取值都是能夠吃的物品,而「D」則對應的是飲料。
爲了檢驗這個假設,下列哪行代碼能夠查詢出全部「Item_Identifier」 變量以「F」開頭的樣本?3d

A - train.Item_Identifier.str.starts_with('F')
B - train.Item_Identifier.str.startswith('F')
C - train.Item_Identifier.str.is_start('F')
D - 以上選項都不能

Q20
圖片描述
下列哪行代碼能夠把 「Item_MRP」變量由「浮點型」改變成「整型」?unix

A - train['Item_MRP'] = train.Item_MRP.astype(real)
B - train['Item_MRP'] = train.Item_MRP.astype(int)
C - train['Item_MRP'] = train.Item_MRP.astype(float)
D - 以上選項都不能

Q21
圖片描述code

咱們如今還有另一個假設:在超市裏,對於新顧客而言,一個物品越容易看到,它的銷量就會越好。
下列哪行代碼能夠計算 「Item_Outlet_Sales」變量和 「Item_Visibility」變量之間的皮爾遜相關係數?orm

A - train.Item_Visibility.corr(train.Item_Outlet_Sales, method='pearson')
B - train.Item_Visibility.corr(train.Item_Outlet_Sales)
C - train.Item_Visibility.corrwith(train.Item_Outlet_Sales, method='pearson')
D - A和B均可以

Q22
圖片描述
咱們想查看「Hours.Per.Week」變量相對於用戶的「Marital.Status」變量和「Occupation」變量的分佈。一種方案是建立「Marital.Status」變量vs「Occupation」變量的數據透視表,並求「Hours.Per.Week」變量的值。
下列哪行代碼能夠實現這個需求?(聚合函數設定爲「Sum」)

A - train.pivot(index='Marital.Status', columns='Occupation', values='Hours.Per.Week', aggfunc='sum')
B - train.pivot_table(index='Marital.Status', columns='Occupation', values='Hours.Per.Week', aggfunc='sum')
C - train.pivot_table(index='Marital.Status', columns='Hours.Per.Week', values='Occupation', aggfunc='sum')
D - 以上選項都不能

Q23
圖片描述
上述數據集中,假設前兩行都不是咱們想要的,咱們想從第三行開始讀入數據,在pandas 中如何操做?

A - train = pd.read_csv('train.csv', startrow=2)
B - train = pd.csvReader('train.csv', startrow=2)
C - train = pd.read_csv('train.csv', skiprows=2)
D - 以上選項都不能

Q24
圖片描述
假設數據集太大而不能加載到本地機器中,可是咱們仍然想把它加載到內存中。一種解決辦法是加載指定數目的行數到內存中。
下列哪行代碼能夠只讀取前500行數據到內存中?

A - train = pd.read_csv('train.csv', nrows=500)
B - train = pd.read_csv('train.csv', numrows=500)
C - train = pd.read_csv('train.csv', rows=500)
D - 以上選項都不能

Q25
圖片描述

咱們如今想要知道「Relationship」變量在數據集中的分佈。 爲此,咱們能夠發現用戶數與「Relationship」變量的百分比分佈。
要作到這一點,須要找到「Relationship」變量全部取值的樣本量,而後將其除以總樣本數,獲得百分比並將其映射到每一列便可。
下列哪行代碼能夠實現這個需求?

A - train['Relationship_Percentage'] = train.Relationship.map(train.Relationship.value_count/train.shape[0])
B - train['Relationship_Percentage'] = train.Relationship.map(train.Relationship.value_counts()/train.shape[0])
C - train['Relationship_Percentage'] = train.Relationship.map(train.Relationship.value_counts/train.shape[0])
D - 以上選項都不能

Q26
圖片描述

上述數據集中,「Date_time_of_event」變量被解析成「分類型」變量,所以,一些有關日期的操做不能做用於該變量。
下列哪行代碼能夠把 「Date_time_of_event」變量由「分類型」變量轉換成「時間型」變量?

A - train['Date_time_of_event'] = pd.to_datetime(train.Date_time_of_event, date_format="%d-%m-%Y")
B - train['Date_time_of_event'] = pd.to_datetime(train.Date_time_of_event, format="%d-%m-%Y %H:%M")
C - train['Date_time_of_event'] = pd.to_datetime(train.Date_time_of_event, date_format="%d-%m-%Y %h:%m")
D - 以上選項都不能

Q27
圖片描述

上述數據集中,咱們想根據「Date_time_of_event」 變量衍生出 「Date」變量,下列哪行代碼能夠提取出「Date_time_of_event」 變量中的日期?

A - train.Date_time_of_event.dt.days
B - train.Date_time_of_event.dt.day
C - train.Date_time_of_event.dt.Day
D - 以上選項都不能

Q28
圖片描述
下列哪行代碼能夠提取「Date_time_of_event」 變量中的工做日?

A - train.Date_time_of_event.dt.weekdayname
B - train.Date_time_of_event.dt.weekday_name
C - train.Date_time_of_event.dt.Weekday_name
D - 以上選項都不能

Q29
圖片描述

「時間型」變量可能被解析成unix格式,在抽取有用信息以前,咱們必須把它轉換成可用的格式,下列哪行代碼能夠實現?

A - pd.to_datetime(train['TIMESTAMP'],unit='s')
B - pd.to_datetime(train['TIMESTAMP'],unit='second')
C - pd.to_datetime(train['TIMESTAMP'],unit='unix')
D - 以上選項都不能

Q30
圖片描述
下列哪行代碼能夠找出「如今」與 ‘Date_time_of_event’變量之間的時間差?

A - pd.datetime.now - train.Date_time_of_event.dt
B - pd.datetime.now() - train.Date_time_of_event.dt
C - pd.datetime.now() - train.Date_time_of_event
D - 以上選項都不能

友情連接:
【譯】技能測試解決方案:Python中的數據科學(一)——Q1-Q15
【譯】技能測試解決方案:Python中的數據科學(三)——Q31-Q45
【譯】技能測試解決方案:Python中的數據科學(四)——A1-A45及其解釋

相關文章
相關標籤/搜索