2020年第一波更新,再來個重量級的剛需場景,文件互轉。有Excel催化劑後,再也不須要頻繁處處找尋各類網頁在線版的轉換操做,數據安全很重要,不要輕易將本身文件上傳到網上,哪天出事了,沒人可憐!html
文件轉換的確是一個很是剛需的功能,滋生了大量的網頁在線轉換應用,固然也有很多是收費性質的,至於免費的也是有功能限制的如文件大小限制或轉換頁數限制。數據庫
因着沒有過硬的數據管理能力,大量的本該在Excel上作結構化存儲的數據,被分散地存儲在pdf、word、甚至ppt上,這些數據的回收再加工,就有了很是剛需的場景。安全
一樣地在人員往來過程當中,爲了文檔的保護和查閱方便,也催生了大量的pdf版本的文件數據。pdf文件,其致命之處是,已經失去了平常咱們文檔中的結構化信息,如1、二級標題、正文、圖片、表格等。除非用很是專業的Adobe軟件才能作一些的還原。一樣最大的痛點是可編輯能力幾乎爲0。數據結構
在一些系統導出的報表文件中,可能就出現有pdf格式的數據,對程序輸出來講容易,但輸出後,再加工的餘地很是少。工具
因此pdf文件的轉換,能夠說是文件轉換中的剛需中的剛需,爲了能拿到可從新編輯的數據,重中之重,可不能讓人工去一遍又一遍的複製粘貼的操做。學習
Excel催化劑倡導從源頭解決問題,如本該使用Excel來整理數據,存儲數據源的,最大可能性地培訓教導一線人員作好此工做,其餘各式各樣的用於展示、打印、查看需求的,可靈活應用在pdf、word、ppt、html等不一樣場景需求的文件上。數據源是根本,務必管理好本身的數據源。spa
固然理想很豐滿,現實很骨感,企業運做過程當中,生產出大量不規範的數據及不規範的數據存儲方式,也須要有一些工具功能來亡羊補牢一下。視頻
Excel催化劑也對其作了一些補充,讓數據轉換過程更流暢,更重要的是轉換後,可以再次輕鬆地從其中從新採集到所需的數據,做二次加工整理。htm
具體的功能實現有以下幾種blog
更佳的找尋菜單方式,使用搜索。
此功能對文檔類型的數據很是剛需,只有數據回到Word中,才能從新有編輯的餘地。此功能使用Word原生的功能,在Word2013及以後的版本中,能夠直接在Word中打開pdf文件,在Excel催化劑的場景中,僅對其作了批量性操做處理,一次性處理多個Word文檔。
此轉換已經在2019年的功能中做了實現,可輕鬆完成pdf的文本信息、圖片信息提取及pdf圖片化保護操做。但有可能在數據提取後的再加工上,仍然不是最佳的方式,特別是須要在pdf文件中獲取結構化信息時,一些表格類數據獲取能力較弱。
此功能將是本篇的一大亮點功能,雖然實現起來,很不起眼, 只是很粗爆地將Word文件的數據全選後,再粘貼到Excel中。爲什麼將其擡舉到如此重要的環節?
最開始想作這個轉換的動機是,因前面pdf提取表格信息有缺陷,識別率有限,若要將pdf的表格信息拿到Excel中使用,想到的迂迴方式是將其轉換成Word,再經過Word做中間橋樑,Word裏有表格的結構化信息,可輕鬆提取。
後來在朋友的公衆號推文中認識了Doc2Xls這款小工具,由Excel加載宏開發而成,以下圖所示。
瞭解了一翻後,發現其實現的原理,相似於筆者以前開發過的報表結構數據源轉換標準數據源的邏輯,思惟定性地往此做者的實現方式的方向去思考,直到某一天一個靈光出現,直接將Word文檔複製粘貼到Excel文檔中,最符合筆者對此功能的期待。
Doc2xls工具,也迭代了好多年,但整體看回來,功能仍是很是單薄,只能處理一對一關係的數據結構(可能未深刻學習瞭解全面,有不對的地方請指正)。
在Excel催化劑的報表結構數據源轉換標準數據源功能中,實現的效果是能夠知足一對多的數據源,也是最爲常見的訂單、發貨單、採購單等樣式,符合實際的業務場景。
由Word直接轉爲Excel,數據到了Excel環境,在Excel催化劑過往的大量文本處理、格式處理、數據轉換的功能支持下,比起Doc2Xls很機械地做一些簡單配置,必然要通用強大得多。
Excel環境下采集指定內容及轉換的功能大概會有如下幾個大的功能支持,往後有好的示例將經過視頻的方式給你們展現其強大及靈活之處。
一樣地配合以前所提到的場景,對Word中的表格數據,進行額外的提取操做,方便數據更合理地被Excel環境所識別和提取到。一個表格佔用一個工做表,如果規範性的文檔,表格結構一致,位置順序一致,將很是方便將Word的數據輸出到Excel中從新利用。
此功能我的理解,僅僅用於數據保護和數據查閱須要,可能的場景只是手中大量的Word文檔,想一次性轉換爲Pdf格式,Word的原生功能能夠輕鬆對Word文檔轉Pdf,只是一次只轉換一個文檔,本功能也只是調用Word的轉換接口,進行循環批量操做而已。
#### 5、PPT轉Pdf功能
和第四點徹底一致的場景,功能實現也沒特別之處,仍然是內部原生功能便可完成。
基於前期的網頁採集功能的開發,將Word轉換爲Html,就比較有場景需求了,若在前面第3點上直接轉Xlsx文件,不能很好地拿到想要的數據(會丟失一些格式、標題、層級等信息或字段名和內容不分離等問題),將其轉換爲Html,再使用xPath的提取方式來從新提取,何嘗不是一個很是好的方式,相似使用網頁採集的原理,採集一些結構化的數據。
同時另外一剛需場景爲,能夠輕鬆地提取到Word裏面的圖片,轉換成Html後,圖片將會在一個文件夾中存放,更多的技能是如何將這些文件夾裏的無心義的命名圖片,從新快速地進行篩選,拿到本身最終所需的圖片子集。
在此給出大概的操做步驟及用到的功能:
Excel文件結構,相似數據庫結構,有多個工做表,因此更科學的轉換方式是按指定工做錶轉換,此功能也在過往的功能中得以實現,詳見文章:
源頭沒擺正,最終衍生出大量稀奇古怪的各類神操做,固然文件轉換過程,也必然很大緣由歸咎於沒有規範科學的數據管理,沒有樹立科學的數據管理方法論,最終只能是無窮無盡地各類問題各類低效。
Excel催化劑倡導,從源頭中處理,正確地理解好數據源與報表的二者關係,並在實際工做中加以應用,將減小很是多這些文件轉換的工做。
仍是那句話,你足夠優秀,但你不能阻礙你的隊友拖你大大的後腿,此篇一系列的轉換功能,相信每一個人都有不一樣程度的使用機會。
文字太蒼白,後續有機會將以視頻的方式給你們演示其威力所在。歡迎提供脫敏的原始示例數據,以便更有針對性地講解。