分析一套源代碼的代碼規範和風格並討論如何改進優化代碼

時間 2019-11-09

標籤分析一套源代碼代碼規範風格討論如何改進優化简体版

原文原文鏈接

源碼下載：python

git clone https://github.com/lemonhu/stock-knowledge-graph.git

stock-knowledge-graph

A small knowledge graph (knowledge base) construction using data published on the web.
利用網絡上公開的數據構建一個小型的證券知識圖譜（知識庫）。git

tree:github

├── build_csv.py
├── data
│   ├── executive_prep.csv
│   ├── import
│   │   ├── concept.csv
│   │   ├── executive.csv
│   │   ├── executive_stock.csv
│   │   ├── import.report
│   │   ├── industry.csv
│   │   ├── stock_concept.csv
│   │   ├── stock.csv
│   │   └── stock_industry.csv
│   ├── stock_concept_prep.csv
│   ├── stock_industry_prep.csv
│   └── stockpage.zip
├── design.png
├── extract.py
├── img
│   ├── executive_detail.png
│   ├── executive.png
│   └── stock_graph_demo.png
├── import.report
├── import.sh
├── LICENSE
├── README.md
├── requirements.txt
├── result.txt
├── Review prediction with Neo4j and TensorFlow.md
├── ssr.sh
└── stock.pyweb

├── data：處理好的neo4j關係型數據庫數據集算法

│ ├── import：以csv格式保存的關係型數據庫預處理數據集shell

├── img：媒體文件，以圖片文件爲主數據庫

├── build_csv.py ：從預處理csv創建csv處理後數據集編程

├── extract.py：提取公司或者股票中的經理設計模式

├── stock.py：獲取並保存股票上市公司行業分類信息、獲取並保存股票上市公司行業概念信息網絡

文件名函數命名規範：

extract、build_csv、 stock_concept_prep.csv、stock_concept.csv、Review prediction with Neo4j and TensorFlow.md

等均使用較爲準確描述其功能的小寫字母命名，除了readme文件，均以短下劃線爲分割，清晰易懂。如stock_concept_prep.csv，令人準確知道這是股票與概念之間聯繫預處理數據集的csv文件。stock_graph_demo.png令人準確知道這是股票演示圖的示範圖片文件，對於媒體文件的準確命名是不少項目疏忽或者難以耗費精力完成的地方，做者對媒體文件命名規範準確可貴。

類命名延續了文件命名小寫字母+下劃線分割的作法，build_executive表示創建能夠被neo4j識別的csv文件，清晰易懂。下劃線法是c出現後開始流行起來的，在許多舊的程序和UNIX這樣的環境中，它的使用很是廣泛。

接口規範：

接口不只有對函數功能的說明，也有對參數類型及內容的描述。

def extract(stockpage_dir, executive_csv):
    """Extract executive of the comnpany or stock

    Args:
        stockpage_dir: (str) the directory of stock pages
        executive_csv: (str) the full path of the CSV file to be saved
    """

stockpage_dir = './data/stockpage'
directors_csv = './data/executive_prep.csv'
extract(stockpage_dir, directors_csv)

def get_md5(string):
    """Get md5 according to the string
    """
    return restult #string type

def build_executive(executive_prep, executive_import):
    """Create an 'executive' file in csv format that can be imported into Neo4j.
    format -> person_id:ID,name,gender,age:int,:LABEL
    label -> Person
    """
    return None

def build_stock(stock_industry_prep, stock_concept_prep, stock_import):
    """Create an 'stock' file in csv format that can be imported into Neo4j.
    format -> company_id:ID,name,code,:LABEL
    label -> Company,ST
    """

def build_concept(stock_concept_prep, concept_import):
    """Create an 'concept' file in csv format that can be imported into Neo4j.
    format -> concept_id:ID,name,:LABEL
    label -> Concept
    """

單元測試組織形式

做者將工程切割爲6個單元分別測試，模塊間耦合性在做者代碼重構下被分爲多個文件後有所下降，可單獨進行測試：

從⽹頁中抽取董事會的信息、獲取股票行業和概念的信息、設計知識圖譜、建立能夠導⼊Neo4j的csv文件、

利用上面的csv文件生成數據庫、基於構建好的知識圖譜，經過編寫Cypher語句回答以下問題。

使用logs:記錄出錯詳細信息，便於分析：

Id '50371a2c5078b757a8f8c75b8877e815' is defined more than once in group 'global id space'

使用requestments，指導其餘用戶測試時快速搭建環境：

lxml
pandas
beautifulsoup4
tushare

使用beta測試改進兩個用戶提交的錯誤：

1.IndexError: list index out of range

2.Id 'xxx' is defined more than once in group 'global id space'

基於MD5的實體惟一性肯定規則，這裏的兩個姚波應該屬於同一我的，不該該有重複的ID(實際上重複也不會有影響)。

列舉哪些作法有悖於「代碼的簡潔、清晰、無歧義」的基本原則，及如何進一步優化改進：

1. 部分模塊沒有使用面向對象的思想，個別變量命名只有一個單詞，表意不夠直觀。

　2. 對函數接口沒有返回類型要求的描述，代碼讀者須要從函數調用實際狀況觀察。接口不徹底統一，沒法直接生成接口幫助文檔。

3. 對於各個模塊沒有完整的註釋，儘管劃分模塊下降耦合但模塊間依然存在多種依賴關係。

總結同類編程語言或項目在代碼規範和風格的通常要求：

文件目錄清晰合理，文件命名基本體現文件功能。
文件或函數接口命名採用駝峯或下劃線命名。
文檔內容縮進合理，不能空格tab混用。
開頭加上coding: utf-8 防止中文顯示亂碼
函數接口有參數內容類型和返回類型說明，有對函數說明，最好能生成統一性文檔
使用基本設計模式下降模塊耦合，並對函數間數據流流向有較好把握和控制。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。