本文的代碼,從https://github.com/cleverdeng/pinyin.py升級得來,針對原文的代碼,作了如下升級:python
1
2
3
4
|
一、能夠傳入參數firstcode:若是爲true,只取漢子的第一個拼音字母;若是爲false,則會輸出所有拼音;
二、修復:若是爲英文字母,則直接輸出;
三、修復:若是分隔符爲空字符串,仍然能正常輸出;
四、升級:能夠指定詞典的文件路徑
|
代碼很簡單,直接讀取了一個詞典(字符和英文的映射),而後挨個替換中文中的拼音便可;git
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
|
#!/usr/bin/env python
# -*- coding:utf-8 -*-
"""
原版代碼:https://github.com/cleverdeng/pinyin.py
新增功能:
一、能夠傳入參數firstcode:若是爲true,只取漢子的第一個拼音字母;若是爲false,則會輸出所有拼音;
二、修復:若是爲英文字母,則直接輸出;
三、修復:若是分隔符爲空字符串,仍然能正常輸出;
四、升級:能夠指定詞典的文件路徑
"""
__version__ = '0.9'
__all__ = ["PinYin"]
import os.path
class PinYin(object):
def __init__(self):
self.word_dict = {}
def load_word(self, dict_file):
self.dict_file = dict_file
if not os.path.exists(self.dict_file):
raise IOError("NotFoundFile")
with file(self.dict_file) as f_obj:
for f_line in f_obj.readlines():
try:
line = f_line.split(' ')
self.word_dict[line[0]] = line[1]
except:
line = f_line.split(' ')
self.word_dict[line[0]] = line[1]
def hanzi2pinyin(self, string="", firstcode=False):
result = []
if not isinstance(string, unicode):
string = string.decode("utf-8")
for char in string:
key = '%X' % ord(char)
value = self.word_dict.get(key, char)
outpinyin = str(value).split()[0][:-1].lower()
if not outpinyin:
outpinyin = char
if firstcode:
result.append(outpinyin[0])
else:
result.append(outpinyin)
return result
def hanzi2pinyin_split(self, string="", split="", firstcode=False):
"""提取中文的拼音
@param string:要提取的中文
@param split:分隔符
@param firstcode: 提取的是全拼仍是首字母?若是爲true表示提取首字母,默認爲False提取全拼
"""
result = self.hanzi2pinyin(string=string, firstcode=firstcode)
return split.join(result)
if __name__ == "__main__":
test = PinYin()
test.load_word('word.data')
string = "Java程序性能優化-讓你的Java程序更快更穩定"
print "in: %s" % string
print "out: %s" % str(test.hanzi2pinyin(string=string))
print "out: %s" % test.hanzi2pinyin_split(string=string, split="", firstcode=True)
print "out: %s" % test.hanzi2pinyin_split(string=string, split="", firstcode=False)
|
實例中main函數的代碼輸出結果github
代碼使用方法:性能優化
若是須要其餘的提取,能夠修改一下代碼實現;app