2016年,我這個IT屌絲終於擁有了愛情的結晶——老婆懷孕了。隨着老婆肚子的一每天變大,一個很是艱鉅的任務落在了個人頭上,那就是——取名字。由於曾今跟老婆吹牛,本身飽讀詩書,文學功底深厚(其實就是看看網絡小說),老婆把這任務分派下來以後,我彷佛還只能欣然接受。再加上即將成爲爸爸的喜悅,讓我痛快的拍下胸脯說:沒問題,保證取一個好名字。數據庫
接到這個任務後,斷然不敢敷衍了事,做爲IT碼農的話,開始拿出了我超強的執行力。首先,我在腦海中一遍一遍的搜刮,各類詩詞,散文,小說文學集,古今中外名人,甚至網絡小說的主角配角名字。。。小程序
然而,尷尬的是,腦容量有限,個人腦海中並無留下太多可用的資料。做爲一個有創新精神IT屌絲,是否是能用些不同的方案來解決這個難題呢?想到這兒,個人腦海中忽然浮現出一個詞:大數據。服務器
心動不如行動,做爲一名有執行力的IT屌絲,我果斷開啓數據爬取之旅。漢字做爲中國文學的基石,天然是我首先想到必選資料。字典類的網站,隨意百度一下,就能找到一大堆,我挑選了幾個看起來較爲專業的網站做爲個人數據來源(具體是哪些網站,就不透露了)。微信
通過一番努力以後,最終把7900個簡體漢字存到了自家的數據庫,數據表中包含了它的拼音,筆畫,基本釋義這三個基本欄位。數據本地化了,是否是大功告成,能夠開始取名了? 不,我感受仍是少了點什麼,讓我想一想。。。網絡
你應該也想到了,是的,這漢字的信息太粗了,沒有多少使用價值,可是那又還缺了哪些信息呢?大數據
因而,我又開始了新一輪的數據爬取,這一次,能參考的網站相對少了不少,由於不少網站並無我想要的這些信息。不過,這一步總體還算順利,只是考慮到怕整崩潰了人家的服務器,只好在雲服務器上掛着爬蟲程序,高間隔的爬取。一個晚上以後,總量20800的中國漢字庫就正式產生了。網站
同一個漢字,出如今不一樣的詞語中,每每會有不同的含義,所以,詞語的數據也很是重要。相對字典來說,詞典相關的網站少了不少,我最終爬取了353000筆數據。cdn
詞組的數據內容主要包含:開發
成語是中國漢字語言詞彙中定型的詞,使用普遍,是中國傳統文化的一大特點,讀起來朗朗上口,並且每每還具備深意。所以,成語和歇後語不容錯過。通過排重等簡單處理後,總共獲得了2W+的數據。文檔
成語的數據內容主要包含:
走到這一步,一切十分順利,接下來還有哪些須要用到呢?
對的,就是它:詩詞
說到詩詞,你們可能第一反應就是唐詩三百首;你們這麼想,是可以理解的,由於唐詩的確是中華文化寶庫中的一顆明珠,對中國乃至世界文化,都產生了深遠的影響。可是,中國的詩詞,遠不止唐詩,並且數量,也遠遠不止三百首,如下我按照朝代大體列了一下:
據不徹底收集,我這邊居然爬取到了8000+的詩詞文章,的確有點出乎意料的多。
這數據應該是你們沒有想到的吧!
爬取這些數據,主要是爲了解決重名的問題。重名是一個很尷尬的事情,好比如今不少人叫子涵,紫涵,紫萱,子軒之類的,上課的時候老師一叫名字,可能好幾我的站起來。所以我收集了近年來特別高頻使用的名字,以便後續規避使用。
除了這種狀況,另外一種重名也容易帶來尷尬:重名古代名人。
與古代名人重名,容易招致身邊朋友的調笑,尤爲是重名的古人具備負面形象的時候。好比我有個朋友叫:趙高,長期以來他都受到名字的困擾。
古代名人的收集相對麻煩,由於不多有這類的名字收藏整理。好在經過某度的各類榜單,以及其餘各類古代名人錄,現當代各個領域的精英人物榜,總共收集到了大概5W的各種名人。
上面介紹的數據,其實只是我收集的資料的一部分。其餘的我也再也不贅述,由於收集數據是一個單調而耗時的工做,沒有什麼技術含量可言。
通過大概兩個月的陸陸續續的收集,總算是把這些想要的數據所有收集並整理好。是否是能夠大幹一場了?
是的,我以爲我能夠開始大幹一場了。
數據逐漸到手,準備開乾的時候,一個急需解決的問題擺在個人面前:怎麼樣纔算是一個好名字?
這個問題不明確下來,就比如開發人員沒有需求文檔,下一步徹底就就無法開展了。不過如今可沒有需求人員協助我,因此只好本身動手,豐衣足食了。靜下心來,仔細琢磨琢磨,彷佛能夠從如下方面着手:
上面有提到幾個能夠着手的點,可是具體的規則,還須要細化理解,而後逐個攻破。
以字形爲例,咱們能夠引伸出相關的知識,好比偏旁部首,筆畫數量,是左右結構,仍是上下結構,漢字又如何拆解。
進一步來分析,筆畫的多少,決定漢字的簡易,名字筆畫太多,會給小孩形成必定的書寫障礙;筆畫太少,又會讓名字看起來顯得單薄。一樣的道理,漢字的結構與拼音,在不一樣的組合下,會有不一樣的效果。所以,如何合理的組合漢字,造成最優的方案,最終再把它們規則化,這是一個棘手的問題。爲了解決這個問題,頭髮又掉了一地。
這樣一層層的規則拆解下去,取名的總體規則彷佛變得愈來愈複雜了。
固然,字音與字形相關的知識,實際上是相對簡單的;更有難度的是:名字的含義,以及八字喜用神推算,三才五格評估,生肖喜愛等比較籠統或者玄學的東西。
這樣一步步走來,到這兒終於有了放棄的想法。網上一搜索,各類算命大師,取名大師,看起來都十分權威,不只各類承諾,並且每每折扣力度驚人,原價1888,折後價只要188,甚至更低。若是真如他們所說,花個幾十百來塊,直接解決問題豈不是更好?抱着這個心態,我常識性的諮詢了幾家,結果令我十分失望。
這兒暫且不論這些大師的總體水準,可是我這個半吊子學徒,略微一試探,也探出了好些冒充大師的人。
喜用神推算是最大的難點,也是大部分華人取名專業人士最爲看重的一點。我花了不少的時間去理解這些名詞的含義,各類時間的推算,以及喜用神與名字之間的關聯。
過程甚至複雜,可是單純從結果來看,又十分的簡單。爲何說簡單呢,由於歸根到底,其實都是一個數學問題。
舉例來講,咱們肯定喜用神每每是經過真太陽時間,而真太陽時間與北京時間的差別,徹底能夠經過出生地的的經度進行轉化,具體公式你們能夠在網上搜索一下。
另一個例子,咱們肯定喜用神時,會經過四柱八字法來排,它們分別是年幹年支,月幹月支,日干日支,時干時支。粗看一下,如何去排徹底沒有頭緒,可是若是從數學的角度來想一想,就沒那麼複雜了。
天干:甲、乙、丙、丁、戊、己、庚、辛、壬、癸
地支:子、醜、寅、卯、辰、巳、午、未、申、酉、戌、亥
四柱八字若是使用窮舉法,那就是10的4次方再乘以12的4次方,總計2.0736億種結果。這樣看來,彷佛也就沒有那麼神祕了。
理解了上面的喜用神推算,三才五格彷佛就變得更加的簡單了。
三才五格的計算,主要是經過筆畫的組合,來定義名字的吉凶。注意:筆畫通常是指繁體字的筆畫,而不是簡體字。
同理上面的推斷:五格有九九八十一種情形,三才有125種吉凶。國人大部分姓名都是3個字,而每一個字的筆畫基本都是不會超過36,這樣咱們來算一下: 36 * 36 * 36 = 46656
這樣看來,三才五格確實不復雜,並且筆畫這個東西,你們也都熟悉,很容易就能理解。市面上大部分的姓名打分,測評軟件基本上都是基於這個來實現的;因此你們對於這類軟件,看看就行,不要當真。
十二生肖,包括鼠、牛、虎、兔、龍、蛇、馬、羊、猴、雞、狗、豬,它們是十二地支的形象化表明,即子(鼠)、醜(牛)、寅(虎)、卯(兔)、辰(龍)、巳(蛇)、午(馬)、未(羊)、申(猴)、酉(雞)、戌(狗)、亥(豬)。
生肖既然對應上了了具體的動物,那天然就賦予了它們各自的喜愛與忌諱;並且它們與十二地支一一對應,天然也就擁有了各自的屬性。這樣一來,你們取名之時,每每會考慮這些因素。
好比:屬雞的寶寶,每每不取帶有「犬」、「犭」、「戌」的字,由於你們都知道雞犬不寧這個成語,雞和狗難以相處。這些用法,都是比較直白易懂的,規則整理上,也是簡單的經過字形的拆解就能達成目的。
收集整理這些資料,差很少花費了我將近半年的業務時間。雖然看起來沒有太大的產出,可是實際上,卻給我帶來了很大的收穫。名字雖然是簡簡單單的幾個字,但它也是咱們中華文化的一個縮影,是父母對下一輩的一個期許,更是咱們上一輩對下一輩的滿滿的愛意。
正果不是最終的名字,而是這一路對於中國人對於取名文化的一個理解。
看到這兒,你們或許以爲我是來推銷APP或者小程序的,其實並非的。當時確實有弄成APP以及小程序的想法,不事後面工做繁忙,自家小孩的名字也已經取好了,因此也就沒有太多的動力繼續研究了。
如今二胎又在準備了,因此翻出來總結一下。
這兩年來,身邊有親友陸陸續續給委託我幫忙取名,這也成了我業餘的一個小愛好。因此,諸位掘友若是有取名字需求,並且又信任個人,能夠找我幫忙,放心,絕對免費!
若是對個人數據感興趣的,也能夠微信私聊,不過考慮到版權問題,我並不太公佈出來。
下面是個人微信二維碼,若是須要驗證,請填:掘友取名