實習記錄

準備天天下班前都會花幾分鐘總結一下實習的每一天干了什麼。html

本人是某大型農民工企業的人肉實習標記師,調參實習魔法師。c++

實習的最終目的:git

1.學會該公司的核心技術,後端的搜索技術,至少得掌握的七七八八。算法

2.可以靠實習期間學會的技術,找到一個算法工程師的工做。shell

2017年4月26日

早上入職。vim

中午食堂還挺好吃的,就是感受人好多的樣子?後端

下午電腦有問題,拿給it服務部門從新配了個系統。架構

領到新手任務:熟悉一下shell腳本,重點能夠看看awk。學習一下hadoop的使用,主要是streaming方式。框架

我找到的awk學習連接:http://coolshell.cn/articles/9070.html機器學習

2017年4月27日

今天的任務是學習hadoop。

中午簡單給了我三個shell的練習題,讓我練練手。

練習題連接:http://www.cnblogs.com/qscqesze/p/6774125.html

百度內部的度學堂很是贊,乾貨特別多。

新的akw學習地址:http://awk.readthedocs.io/en/latest/

晚上被拖去聽核心技術去了,而後就和聽天書同樣,徹底聽不懂。。。。

半天,shell從入門到跑路。

2017年4月28日

讓我寫爬蟲,寫個傻逼爬蟲

肯定了本身的開發方式,本地寫代碼->gitlab->pull開發機->開發機調試的過程。

2017年5月2日 14:25:29

放了三天的假,回來一看原來的爬蟲效率好低,重構了一下,效率一會兒就上來了。

而後扔在那兒爬了一上午。

我就去看公司內部的度學堂,去看了幾節Hadoop的公開課,但實際上那些都是講hadoop的原理,並無講怎麼用,尷尬……

感受之後只能結合任務,再來學習hadoop了。

下午去翻了翻sklearn的一些知識。

2017年5月3日 19:15:02

早上在作電子商務的做業,寫了個京東的動態爬蟲,抓了抓手機的參數。

下午當了一兩個小時的人肉標記師,標了數據交過去,好像結果不太理想,mentor讓我構造query去檢查一下什麼的。

而後我就把我以前的爬蟲改了改,準備跑更多的數據出來,因而就扔在本地一直跑了。(公司的開發機並不能連外網。。

我順手和某我的組隊去玩了下騰訊的算法大賽,xjb處理了下數據,拿gdbr取跑了跑,log loss跑出來是0.24,感受仍是蠻好的。

我給我同窗推銷我司的5折愛奇藝的時候,他覺得我號被盜了,差點就把我拉黑了,阿西吧(x

2017年5月4日

早上一來,就發現爬蟲跑完了,比以前跑的數據多了400%,感受很強。

而後鼓搗騰訊的算法比賽,找了個magic feature,loss 跑到了0.12,感受也很強。

中午去聽李彥宏演講,見證了新使命的誕生,順手拿了本書,雖然感受本身不會讀。。

下午就作分層,造query。作完了,就去kaggle找了個算法比賽,把騰訊那邊的比賽代碼拿過去用了下,不過結果不太理想,感受本身還須要努力。

2017年5月5日

一早上都在人肉標數據,終於把這件事兒給幹完了。

下午我以爲我在搜索組,不能浪費了這個資源,因而找了個百度內部的搜索框架公開課,把搜索框架大概的看了一遍。

至少知道了百度的搜索的框架是什麼,若是我要作搜索引擎,究竟應該怎麼作什麼的。

下班的時候,陪着學長去打檯球,結果沒位置,就直接滾回去了。

這周過的仍是蠻好的吧。

2017年5月8日 18:49:55

早上在幹雜事,把qscoj的首頁更新了,把cf的題解作了。

下午把爬蟲這件事兒好像應該是弄完結了吧。

而後把騰訊的傻逼比賽調了調參數,弄到了0.11大關。

用公司安裝xgboost,死活安裝不上去,真是太氣。。。

晚上去度學堂學技術把。

2017年5月9日 19:19:23

今天一天好像都在打雜,都在忙一些瑣事,雖然本身確實在寫代碼,可是好像這些事兒學不到任何東西。。。

今天看到了hadoop是怎麼用的了,感受好像是有點簡單呀,至少使用難度很是低。。。

2017年5月10日

今天好像啥都沒學會?誒不對,騰訊算法大賽混了件T-shirt。

看了下bs的一些教程,可是徹底看不懂啊,我以爲這玩意兒沒人講,就很難看懂的= =

本身看了百度內部的人臉識別的教程,結果是教人如何使用API= =

2017年5月11日

GTMD內部調試工具,這個怎麼能寫的這麼爛?第二次和第一次調試出來的結果還不同???難道我每次都得調試四五次,而後取最好的嗎???GTMD百度,賊氣

今天學會了xgboost。

早上造query,下午邊造數據邊跑騰訊算法大賽的模型,晚上專心調整參數。

2017年5月15日

早上沒什麼事兒幹,就把騰訊模型從新跑了一遍,哇,玩了一早上提高了0.004的成績,真TM棒。

我搞不懂那個騰訊比賽了,我每次都在進步,排名卻愈來愈低,哎喲,心態炸了,心疼本身……

下午標數據,感受

晚飯吃的沙拉,感受就是在吃草,看着像草,聞着像草,吃着也像草。我以爲美帝人民竟然每天都吃這玩意兒,果真是生活在水生火熱之中。

晚上拿xgboost,把kaggle的菜B比賽所有跑了一遍。

2017年5月16日

早上不停的標數據。

下午不停的跑模型。

晚上跑模型。。。

回家玩手遊。。。

好頹廢呀。。。

2017年5月17日

出題出題,出玲瓏杯的題目中。。

早上寫了一早上的標程

下午老大給了我幾億的數據,讓我從這些數據中篩選出一些東西來。。

Emmmmmmmmmmmmmmmmmmmmmmmmmmmmm

我感受我就是在大海撈針呀。。。

手動玩了玩其中的200W數據,篩除了2000個,因而我只要重複這樣篩選大概200次好像就作完了,真強。

晚上看電影

2017年5月19日

早上加中午出題,把玲瓏杯糊弄過去了

下午大海撈針

晚上看公開課,學會了一些機器學習的奇淫技巧(x

2017年5月24日 17:19:19

好像一直忘記寫了。。。

這幾天在弄爬蟲,標數據。

讓我想辦法,找到XX的官網數據,這簡直是大海撈針。。。。

而後出完了玲瓏杯的題目。

玩騰訊的傻逼比賽。

機器學習從入門到跑路。(x

以及天天晚上回去都在趕學習的做業T T

2017年5月31日 15:20:53

好像仍是忘記寫了,一直在大海撈針,划水上班……

2017年6月14日

徹底忘了這個了。。

大海撈針弄完了,接了個新任務,任務大概就是要實現一個簡單的搜索引擎。

query -> query進行分詞 -> 計算每一個單詞在url出現的權重 -> 分詞結果進行合併獲得query權值 -> 權值排序

不過這個裏面的第二步和第三步都已經被實現了,我只須要實現1,4,5這三部分就行了。

總結

百度裏面我確實因爲是短時間實習,因此並無接觸到比較長線的項目,接觸的大概都是一些可有可無,體力活偏多的東西。

不過我仍然學到了不少,很是感謝在百度的前輩。

印象比較深的就是跟着偉哥作的一個酒店相關數據收集的項目,雖然這個項目我以爲很傻逼(x。可是我學到了,作事情必定要作完全,本身肯定無誤以後,再去上交,以及遇到不懂的問題的時候,必定要及時和本身的leader溝通,不要本身悶着……

在百度裏面,跟着鐵頭娃作了一個機器學習的比賽,讓我完全入了機器學習的門,很是感謝鐵頭娃的不離不棄,到死都沒有拋棄我這個拖油瓶。

以及熟悉了大公司的流程,也開闊了眼界,還趁着去了青島旅遊了一趟。這也是人生第一次看到海!

不得不說,百度食堂真的很好~

從後面來看,我應該是基本達到了最初本身定下的兩個目標:瞭解搜索引擎,學習機器學習。

感謝驍哥推薦的一本搜索引擎架構的書,讀了以後收穫良多。

機器學習我以爲我也成爲了一個調包俠了(x

再次感謝前輩們,青山不改,綠水長流,往後江湖相見,自當杯酒言歡,我們就此別過。

----------------------------------分界線!!!!!!-------------------------------------

初步目標:找到一份工做!!!!

2017年7月12日

百度實習已經離職了,如今到了今日頭條

今天是頭條的第一天上班,leader給了我一個(超級超級大的)代碼庫,讓我先看一天

而後我把git和vimrc都配置了

今日頭條比較好的就是公司食堂是免費的,空調溫度比百度的溫度低一點,好評!

並且電腦發的是最新的macpro,感受超爽!

2017年7月13日

繼續讀代碼,找leader把項目的業務流程熟悉了一遍。

不過真的很想吐槽啊,幾萬行的代碼,註釋不超過十句。。。全是c++,這怎麼看= =【和別人討論了一下,我感受是個人C++姿式水平過低

晚上幫人作了一下筆試題,感受本身寶刀未老(x

2017年7月14日

今日頭條請假了,去百度把離職完全弄完了,和他們還一塊兒吃了一頓午餐。

比較好玩的事情,我交接離職信息的時候,發現管這事兒的人不在,而後我就打電話給她。

而後我bb了一下子我交接的信息,而後她告訴我:「那個 我也離職了,你要不找XXX吧。」

對了,走以前,我去百度內部的超市,買了一個百度的卡套,算是留給本身的記念了吧~

2017年7月16日

看一天代碼,不過效率很低,大概是由於本身蠢吧

而後順便把google的筆試作了,最後的排名還能夠

相關文章
相關標籤/搜索