DMCTextFilter和HTMLFilter數據過濾器java
咱們已經進入了大數據處理時代,須要快速、簡單的處理海量數據,企業郵箱服務也面臨着大數據處理,海量數據處理的三個主要因素:大容量數據、多格式數據和速度。DMCTextFilter和HTMLFilter是由北京紅櫻楓軟件有限公司研製和開發的純文本抽出和HTML轉換通用程序庫產品。本產品能夠從各類各樣的文檔格式的數據中或從插入的OLE對象中,快速抽出純文本數據信息和轉換成HTML文件。便於用戶實現對多種文檔數據資源信息進行統一管理,編輯,檢索和瀏覽。安全
1.服務器 |
多格式數據抽取:能夠對近百種文件格式進行文本抽取網絡 |
支持Microsoft Office、RTF、PDF、Visio、Outlook EML和MSG、Lotus1-2-三、HTML、AutoCAD DXF和DWG、IGES、PageMaker、ClarisWorks、AppleWorks、XML、WordPerfect、Mac Write、Works、Corel Presentations、QuarkXpress、DocuWorks、WPS、壓縮文件的LZH/ZIP/RAR以及一太郎、OASYS等文件格式的文字抽取和HTML轉換。多線程 |
2.併發 |
對文件的操做不須要安裝其餘任何第三方軟件函數 |
文件操做在數據轉換過程當中徹底獨立對文件格式進行分析轉換,不須要安裝生成文件的原軟件。特別是不依賴於原軟件的各類文檔的Image化、PDF化技術,在網絡服務器中的應用很是普遍。這是一項世界上比較流行、且需求量很大的技術。工具 |
3.性能 |
無與倫比的運行速度大數據 |
程序所有用C/C++語言開發,執行速度無與倫比,即便是單線程運行,平均每秒鐘處理9個文件,當50個線程時,每秒鐘16個文件,隨着線程數的增長以及機器性能的提升。是目前世界上處理文檔效率最高的軟件。 |
4. |
能夠支持多種操做系統環境、支持服務器併發操做 |
支持各類操做系統,如:Windows的32位和64位各類版本以及Sun SPARC版Solaris(32bit/64bit)、x86版Solaris10(64bit)、Linux32bit、Linux64bit、IBM AIX 5L、Macintosh等,並支持單線程或多線程操做,實現了多人共用機制。 |
5. |
多種語言文字代碼的支持 |
抽出文本時,能夠指定如下的字符集合做爲文本文件的字符集:GBK、GB18030、Big五、Shift_JIS、WINDOWS31J、EUC-JP、EUC-JP-FIX、ISO-2022-JP、KS X 100一、ISO-8859-一、ISO-10646-UCS-二、ISO-10646-UCS-四、UTF-1六、UTF-八、Shift_JIS-200四、ISO-2022-JP-200四、EUC-JIS-2004 |
6. |
C/C++、JAVA、.NET等功能強大的接口功能 |
程序庫除提供C/C++函數接口外,還提供了com接口、java接口、perl接口等各類調用方法。功能上有:文件格式識別函數、文本抽出函數(文件)、文本抽出函數(流Stream輸出)、文件屬性抽出函數、頁抽出函數、頁抽出函數(流Stream輸出)、設定User Password的PDF文件的文本抽出函數、設定User Password的PDF文件的頁抽出函數、設定User Password的PDF文件屬性的抽出函數等。 |
軟件程序庫普遍的應用於政府、企業等各個領域的信息資源開發利用、智能搜索引擎、情報分析和服務、信息安全、企業知識門戶、數字圖書館、電子商務等領域。在世界各地獲得了衆多知名企業的青睞。本產品在性能和質量上都獲得了用戶高度評價。
客戶典型應用案例
●攔截郵件後的內容信息抽取過濾●搜索引擎的數據前期格式統一
●分詞信息挖掘系統的數據轉換●網絡數據的過濾
●輿情繫統的信息挖掘●企業郵件系統監控
在實際的推廣和應用中,我公司的通用文本抽出程序軟件被應用到了多個領域,如:信息資源開發利用,智能搜索引擎,情報分析和服務,信息安全,企業知識門戶,數字圖書館,電子商務等領域。在世界各地獲得了衆多知名企業的青睞。本產品在性能和質量上都獲得了用戶高度評價。我司將不懈努力,繼續爲用戶提供品質優良,性能可靠的一流產品。爲用戶提供優良的技術服務,知足用戶的各類需求。
目前主要突出體現出以下應用價值:
1) 爲海量非結構化資源提供了智能加工工具,提升信息資源加工效率;同時,可爲政務信息資源服務的使用者提供智能檢索和挖掘分析的手段,放大政務信息資源增值效用。
2) 此軟件在國家相關部門的搜索引擎以及多個行業垂直搜索引擎服務的建設中,得到了成功應用,能夠爲提升垂直搜索引擎服務的智能化、行業化和知識化水平奠基了基礎。
3) 此軟件爲相關機構從事內容安全管理提供了智能化的技術,能夠下降監管成本,提升監管效率。
4) 此軟件能夠做爲信息資源利用和知識管理應用的基礎構件,爲企業信息資源的加工、分析和服務提供先進智能的文本轉換技術。