背景:今天接到一個有關江蘇省企業信息彙總的excel文件,大小約爲48M,包含了三張表,總數據量約爲48萬條。按照要求須要篩選出地址爲徐州市的企業。
分析:此excel文件沒有設置字段,也沒有進行相應的排序,各個市的信息是無序排列的,索引值僅告知咱們企業的總數。因爲對excel表格並不熟悉,且將48w條數據寫入數據庫在進行操做並導出會很麻煩,因此我首先想到的是使用SQL語句對excel文件進行查詢。
工具:excel表格2016版本
具體作法:
正則表達式
-
對原始數據進行必定處理,將所需表名以及字段名更換成英文,雖然支持utf8編碼格式,可是對於中文的處理仍是須要加上引號。sql
-
新建一個excel文件,在上方菜單欄找到數據,並在數據選項下找到現有鏈接並打開。數據庫
-
點擊瀏覽更多
工具 -
找到咱們所要處理的excel文件,由於處理的文件有能夠有多個表格,因此會出現以下界面。
這裏能夠選擇自動將首行列爲標題,而後選中須要處理的表格,點擊肯定。
編碼 -
接下來,在下圖界面選擇屬性
spa -
咱們在屬性界面裏面首先找到定義,在文本命令處能夠獲得當前表格的名字(即3處),選擇表名後,在命令文本中輸入SQL語句,便可對excel表格進行處理
3d -
按照分析咱們使用的語句是excel
select * from [ market_search$] where location like '%徐州%'; --這裏的表名須要加上中括號,對字段location進行模糊查詢,使用like並配合上正則表達式便可。
8. 最後在點擊肯定便可,須要注意的是,這裏你須要指定是否將篩選的內容生成新的表格
code