因爲某些需求,現需對系統在最近幾個月生成的xml文件進行預處理,提取<text>標籤內的數據進行分析。這些須要預處理的數據大概有280GB左右880多萬,存放在gysl目錄下,gysl的下一層按天命名,分爲若干個目錄,接下來一層目錄下又有多個目錄,咱們所需的xml目錄就在這一層。咱們如今須要將此目錄下面的xml文件使用Python腳本進行處理,並將處理結果按天(與源文件一致)保存到~/temp目錄下。python
2.1 Python腳本準備。正則表達式
#!/usr/bin/python3 # -*- coding:utf-8 -*- import glob,os,sys, re from concurrent.futures import ProcessPoolExecutor import argparse import random def find_xs(str, list): i = 0 for i in range(0,len(str)): if str[i] in list: return i return -1 def segement_aux(para, OUT, sep_list, max_length, merge_prob): pos = 0 res_sentence = "" sentence_size = 0 while True: #segment one line. pos = find_xs(para,sep_list) if pos == -1: break cur_sentence = para[:pos+1].strip() cur_sentence_filtering = cur_sentence res_sentence = res_sentence + cur_sentence_filtering sentence_size = sentence_size + 1 if sentence_size == 2: OUT.write(res_sentence + '\n') else: rand = random.random() if rand > merge_prob: OUT.write(res_sentence + '\n') res_sentence = "" sentence_size = 0 else: sentence_size = sentence_size + 1 para = para[pos+1:] def loadXMLfile(inputfile): sep_list= ['。', '?', '!'] targetfolder = "Target" max_length = 100000 merge_prob = 0.6 basefilename =os.path.basename(inputfile) outputfile = targetfolder + '/'+ os.path.splitext(basefilename)[0] + ".tsv" textSessionPattern = re.compile(r'<text>(.*?)</text>\s*', re.I|re.MULTILINE) OUT = open(outputfile, 'w',encoding="utf8") for line in open(inputfile,encoding="utf8"): line = line.strip().rstrip("\r\n") alltextsessions = re.findall(textSessionPattern, line) for textsession in alltextsessions: textsession = re.sub(r'\t', r' ', textsession) textsession = re.sub(r'\<[^\<|\>]+\>', r'', textsession) textsession = re.sub(r'\{[^\}|\{]+\}', r'', textsession) textsession = re.sub(r'\s+',r'',textsession) OUT.write(textsession+'\n') OUT.close() return outputfile def processXMLfilesWithThreads(input): with ProcessPoolExecutor() as executor: xmlfiles = glob.glob(input + "/*.xml") for xmlfile, outputfile in zip( xmlfiles, executor.map( loadXMLfile, xmlfiles) ): print("Processed" + outputfile) if __name__ == '__main__': ap = argparse.ArgumentParser() ap.add_argument("-i", "--input", required=True, help="the directory of input files") args = ap.parse_args() processXMLfilesWithThreads(input = args.input)
2.2 Shell腳本準備。shell
for folder in `find /home/ivandu/gysl -path "*/xml" -print`;do mkdir Target;python3 XMLPreProcess.py --input $folder;mv Target ~/temp/$(echo $folder|awk -F "/" '{print $5}');done
看着有點費勁,改一下:bash
#!/bin/bash for folder in `find /home/ivandu/gysl -path "*/xml" -print`; do mkdir Target; python3 XMLPreProcess.py --input $folder; mv Target ~/temp/$(echo $folder|awk -F "/" '{print $5}'); done
2.3 執行腳本。session
此步驟就不展現了,涉及到某些商業機密。在Python腳本所在的目錄下,執行Shell腳本就行。多線程
3.1 「Argument list too long」。dom
在執行某目錄下的文件移動、複製、刪除操做時,發現提示「Argument list too long」,命令執行不成功。這個目錄下的文件數量超過30萬,操做命令以下:ide
cp * ~/gysl_test
提示:學習
-sh: /bin/cp: Argument list too long
解決方案:優化
for file in `ls`;do cp $file ~/gysl_test/;done
rm,mv也相似,太忙了也就沒繼續探討其餘解決方案。
3.2 雙for循環執行效率過低。
for folder in `find /home/ivandu/gysl/ -mindepth 2 -maxdepth 2 -print|grep "xml"`;do cd $folder;for file in $(ls);do cp $file ~/gysl_test/;done;done
若是使用這命令來拷貝這些文件的話,那麼這一天可能就過去了!這個確定不妥,必須改進。find也用得不夠簡潔,後來都進行優化了。
3.3 Python單線程執行效率過低。
Python腳本使用了多線程來進行處理。不過多解釋,你們見諒\^_^
4.1 整體來講今天處理這些數據仍是挺給力的,差很少5000秒就完成了。我寫了一條命令動態觀察了一下。
4.2 正則表達式隨時都能用上,要不是處理一下特殊任務和Python多線程,直接一個grep命令寫到shell命令或許早就完事了。
4.3 多線程。bash shell中的多線程還不會使用,之後還得增強學習一下。
4.4 就寫這麼多了,不足之處還望諸位不吝賜教。