pdf2htmlEX實現pdf轉html

首先要感謝pdf2htmlEX的做者Lu Wang,該軟件是一個pdf轉html的開源軟件,效果很是理想。下面兩張圖片是html和pdf視圖下的截圖:javascript




windows下載地址pdf2htmlEX-v1.0-win32-staticcss


本人開發的一個功能:文檔在線閱讀,要求可以支持移動終端瀏覽器在線閱讀。考慮過將文檔先轉pdf,而後在將pdf轉swf,利用flexpaper在前端瀏覽器訪問。可是因爲safari瀏覽器不支持flash,因此這種方式不太適合。也測試過火狐的pdf.js,可是這個框架在safari中出現中文亂碼,一樣不行。最後,通過測試,只有使用pdf2htmlEX轉的html在各個瀏覽器上展現效果均不錯,因此選擇該軟件。html

第一步:下載pdf2html。前端

第二步:修改pdf2html自帶的js文件pdf2htmlEX.min.js。緣由:移動終端瀏覽器對CSS定位absolute的支持有問題(不會出現滾動條),因此須要爲全部頁面的容器設置高度,這樣,手機瀏覽器就能夠出現滾動條了。修改和添加的js代碼以下:java

[html] view plaincopy在CODE上查看代碼片派生到個人代碼片web

  1. 文件最後加上:  windows

  2. window.onload=function(){  瀏覽器

  3.     var eles = document.getElementsByClassName('pf w0 h0');  ruby

  4.     var height = 0;  框架

  5.     for(var i=0,len=eles.length;i<len;i++){  

  6.         height +=eles[i].scrollHeight+20;  

  7.     }  

  8.     if(height>0)  

  9.     document.getElementById('page-container').style.height=height+'px';  

  10. }  

[javascript] view plaincopy在CODE上查看代碼片派生到個人代碼片

  1. /*註釋下面這段代碼,由於手機瀏覽器沒法觸發滾動事件 

  2.     <span style="white-space:pre">  </span>this.container.addEventListener('scroll', function() { 

  3.       <span style="white-space:pre">        </span>self.update_page_idx(); 

  4.       <span style="white-space:pre">        </span>self.schedule_render(true); 

  5.    <span style="white-space:pre">   </span>}, false); 

  6. */  

  7. /*新增,使用document對象上滾動加載頁面數據,這樣能夠兼容手機瀏覽器*/  

  8. <span style="white-space:pre">  </span>document.addEventListener('scroll'function() {  

  9.         <span style="white-space:pre">  </span>self.update_page_idx();  

  10.         <span style="white-space:pre">  </span>self.schedule_render(true);  

  11.       <span style="white-space:pre">    </span>}, false);  


第三步:編寫java處理類

[java] view plaincopy在CODE上查看代碼片派生到個人代碼片

  1. public class Pdf2htmlEXUtil {  

  2.   

  3.     /** 

  4.      * 調用pdf2htmlEX將pdf文件轉換爲html文件 

  5.      * @param command 調用exe的字符串 

  6.      * @param pdfName 須要轉換的pdf文件名稱 

  7.      * @param htmlName 生成的html文件名稱 

  8.      * @return  

  9.      */  

  10.     public static boolean pdf2html(String command,String pdfName,String htmlName){  

  11.         Runtime rt = Runtime.getRuntime();  

  12.         try {  

  13.             Process p = rt.exec(command);  

  14.             StreamGobbler errorGobbler = new StreamGobbler(p.getErrorStream(), "ERROR");                

  15.               // kick off stderr    

  16.             errorGobbler.start();    

  17.             StreamGobbler outGobbler = new StreamGobbler(p.getInputStream(), "STDOUT");    

  18.               // kick off stdout    

  19.             outGobbler.start();   

  20.             int w = p.waitFor();  

  21.             System.out.println(w);  

  22.             int v = p.exitValue();  

  23.             System.out.println(v);  

  24.             return true;  

  25.         } catch (Exception e) {  

  26.             e.printStackTrace();  

  27.         }  

  28.         return false;  

  29.     }  

  30.       

  31.     public static void main(String[] args) {  

  32.         pdf2html("D:\\pdf2htmlEX-v1.0\\pdf2htmlEX.exe D:\\v.pdf hello.html","v.pdf","v2.html");  

  33.     }  

  34. }  

處理Runtime.exec()一直阻塞的類:若是沒有這個類,p.waitFor()將會一直等待,這是從這裏找到的解決方法

[java] view plaincopy在CODE上查看代碼片派生到個人代碼片

  1. import java.io.BufferedReader;  

  2. import java.io.IOException;  

  3. import java.io.InputStream;  

  4. import java.io.InputStreamReader;  

  5. import java.io.OutputStream;  

  6. import java.io.PrintWriter;  

  7.   

  8. /** 

  9.  * 用於處理Runtime.getRuntime().exec產生的錯誤流及輸出流 

  10.  * @author shaojing 

  11.  * 

  12.  */  

  13. public class StreamGobbler extends Thread {  

  14.     InputStream is;  

  15.     String type;  

  16.     OutputStream os;  

  17.           

  18.     StreamGobbler(InputStream is, String type) {  

  19.         this(is, type, null);  

  20.     }  

  21.   

  22.     StreamGobbler(InputStream is, String type, OutputStream redirect) {  

  23.         this.is = is;  

  24.         this.type = type;  

  25.         this.os = redirect;  

  26.     }  

  27.       

  28.     public void run() {  

  29.         InputStreamReader isr = null;  

  30.         BufferedReader br = null;  

  31.         PrintWriter pw = null;  

  32.         try {  

  33.             if (os != null)  

  34.                 pw = new PrintWriter(os);  

  35.             isr = new InputStreamReader(is);  

  36.             br = new BufferedReader(isr);  

  37.             String line=null;  

  38.             while ( (line = br.readLine()) != null) {  

  39.                 if (pw != null)  

  40.                     pw.println(line);  

  41.                 System.out.println(type + ">" + line);      

  42.             }  

  43.             if (pw != null)  

  44.                 pw.flush();  

  45.         } catch (IOException ioe) {  

  46.             ioe.printStackTrace();    

  47.         } finally{  

  48.             try {  

  49.                 if(pw!=null)  

  50.                     pw.close();  

  51.                 if(br!=null)  

  52.                     br.close();  

  53.                 if(isr!=null)  

  54.                     isr.close();  

  55.             } catch (IOException e) {  

  56.                 e.printStackTrace();  

  57.             }  

  58.         }  

  59.     }  

  60. }   

一個完整的高保真pdf轉html例子就完成了。使用pdf2html,本人摸索了2天,終於在今天搞定,特此記錄一下。

pdf2html命令用法:

[html] view plaincopy在CODE上查看代碼片派生到個人代碼片

  1. 用法: pdf2htmlEX [options] <input.pdf> [<output.html>]  

  2.   -f,--first-page <int>         須要轉換的起始頁 (默認: 1)  

  3.   -l,--last-page <int>          須要轉換的最後一頁 (默認: 2147483647)  

  4.   --zoom <fp>                   縮放比例  

  5.   --fit-width <fp>              適合寬度 <fp> 像素  

  6.   --fit-height <fp>             適合高度 <fp> 像素  

  7.   --use-cropbox <int>           使用剪切框 (default: 1)  

  8.   --hdpi <fp>                   圖像水平分辨率 (default: 144)  

  9.   --vdpi <fp>                   圖像垂直分辨率 (default: 144)  

  10.   --embed <string>              指定哪些元素應該被嵌入到輸出  

  11.   --embed-css <int>             將CSS文件嵌入到輸出中 (default: 1)  

  12.   --embed-font <int>            將字體文件嵌入到輸出中 (default: 1)  

  13.   --embed-image <int>           將圖片文件嵌入到輸出中 (default: 1)  

  14.   --embed-javascript <int>      將javascript文件嵌入到輸出中 (default: 1)  

  15.   --embed-outline <int>         將連接嵌入到輸出中 (default: 1)  

  16.   --split-pages <int>           將頁面分割爲單獨的文件 (default: 0)  

  17.   --dest-dir <string>           指定目標目錄 (default: ".")  

  18.   --css-filename <string>       生成的css文件的文件名 (default: "")  

  19.   --page-filename <string>      分割的網頁名稱  (default:"")  

  20.   --outline-filename <string>   生成的連接文件名稱 (default:"")  

  21.   --process-nontext <int>       渲染圖行,文字除外 (default: 1)  

  22.   --process-outline <int>       在html中顯示連接 (default: 1)  

  23.   --printing <int>              支持打印 (default: 1)  

  24.   --fallback <int>              在備用模式下輸出 (default: 0)  

  25.   --embed-external-font <int>   嵌入局部匹配的外部字體 (default: 1)  

  26.   --font-format <string>        嵌入的字體文件後綴 (ttf,otf,woff,svg) (default: "woff")  

  27.   --decompose-ligature <int>    分解連字-> fi (default:0)  

  28.   --auto-hint <int>             使用fontforge的autohint上的字體時不提示 (default: 0)  

  29.   --external-hint-tool <string> 字體外部提示工具 (overrides --auto-hint) (default: "")  

  30.   --stretch-narrow-glyph <int>  伸展狹窄的字形,而不是填充 (default: 0)  

  31.   --squeeze-wide-glyph <int>    收縮較寬的字形,而不是截斷 (default: 1)  

  32.   --override-fstype <int>       clear the fstype bits in TTF/OTF fonts (default:0)  

  33.   --process-type3 <int>         convert Type 3 fonts for web (experimental) (default: 0)  

  34.   --heps <fp>                   合併文本的水平臨界值,單位:像素(default: 1)  

  35.   --veps <fp>                   vertical threshold for merging text, in pixels (default: 1)  

  36.   --space-threshold <fp>        斷字臨界值 (臨界值 * em) (default:0.125)  

  37.   --font-size-multiplier <fp>   一個大於1的值增長渲染精度 (default: 4)  

  38.   --space-as-offset <int>       把空格字符做爲偏移量 (default: 0)  

  39.   --tounicode <int>             如何處理ToUnicode的CMap (0=auto1=force,-1=ignore) (default: 0)  

  40.   --optimize-text <int>         儘可能減小用於文本的HTML元素的數目 (default: 0)  

  41.   --bg-format <string>          指定背景圖像格式 (default: "png")  

  42.   -o,--owner-password <string>  全部者密碼 (爲了加密文件)  

  43.   -u,--user-password <string>   用戶密碼 (爲了加密文件)  

  44.   --no-drm <int>                覆蓋文檔的 DRM 設置 (default: 0)  

  45.   --clean-tmp <int>             轉換後刪除臨時文件 (default: 1)  

  46.   --data-dir <string>           指定的數據目錄 (default: ".\share\pdf2htmlEX")  

  47.   --debug <int>                 打印調試信息 (default: 0)  

  48.   -v,--version                  打印版權和版本信息  

  49.   -h,--help                     打印使用幫助信息  



本人使用的版本時v0.11的和v1的版本有一些區別,主要是做者從新編寫了pdftohtmlEX.js因此須要對照上面的js作相應修改

[javascript] view plaincopy在CODE上查看代碼片派生到個人代碼片

  1. window.onload=function(){  

  2.     var eles = document.getElementsByClassName('pd w0 h0');  

  3.     var height = 0;  

  4.     for(var i=0,len=eles.length;i<len;i++){  

  5.         height +=eles[i].scrollHeight+20;  

  6.     }  

  7.     if(height>0){  

  8.         document.getElementById('page-container').style.height=height+'px';  

  9.         document.getElementById('page-container').style.overflow='hidden';  

  10.     }  

  11. }  


[javascript] view plaincopy在CODE上查看代碼片派生到個人代碼片

  1. //this.$container.scroll(function(){ _.schedule_render(); });  

  2.   $(document).scroll(function(){_.schedule_render();});  

相關文章
相關標籤/搜索