python 人工智能基礎 14 day(上)

MYSQL 數據庫

1 數據存儲:結繩記事,甲骨石刻,圖書。python

缺點:不易保存,備份困難,查找不便mysql

2 現代化手段----文件程序員

特色:使用簡單,例如python中的open能夠打開文件,用read/write對文件進行讀寫,close關閉文件web

缺點:對於數據容量較大的數據,不可以很好的知足,並且性能較差 不易擴展算法

3 現代化手段----數據庫sql

數據庫就是一種特殊的文件,其中存儲着須要的數據數據庫

特色:持久化存儲,讀寫速度極高,保證數據的有效性,對程序支持性很是好,容易擴展編程

RDBMS(關係型數據庫)ubuntu

Relational Database Management System

經過表來表示關係型

當前主要使用兩種類型的數據庫:關係型數據庫、非關係型數據庫,本部分主要討論關係型數據庫,對於非關係型數據庫會在後面學習

所謂的關係型數據庫RDBMS,是創建在關係模型基礎上的數據庫,藉助於集合代數等數學概念和方法來處理數據庫中的數據
複製代碼

關係型數據庫核心元素緩存

數據行(記錄),數據列(字段),數據表(數據行的集合),數據庫(數據表的集合)

SQL

SQL是結構化查詢語言,是一種用來操做RDBMS的數據庫語言,當前關係型數據庫都支持使用SQL語言進行操做,也就是說能夠經過 SQL 操做 oracle,sql server,mysql,sqlite 等等全部的關係型的數據庫

SQL語句主要分爲:

DQL:數據查詢語言,用於對數據進行查詢,如select

DML:數據操做語言,對數據進行增長、修改、刪除,如insert、udpate、delete

TPL:事務處理語言,對事務進行處理,包括begin transaction、commit、rollback

DCL:數據控制語言,進行受權與權限回收,如grant、revoke

DDL:數據定義語言,進行數據庫、表的管理等,如create、drop

CCL:指針控制語言,經過控制指針完成表的操做,如declare cursor

對於web程序員來說,重點是數據的crud(增刪改查),必須熟練編寫DQL、DML,可以編寫DDL完成數據庫、表的操做,其它語言如TPL、DCL、CCL瞭解便可

SQL 是一門特殊的語言,專門用來操做關係數據庫

不區分大小寫

MySQL 簡介

MySQL是一個關係型數據庫管理系統,由瑞典MySQL AB公司開發,後來被Sun公司收購,Sun公司後來又被Oracle公司收購,目前屬於Oracle旗下產品

特色

使用C和C++編寫,並使用了多種編譯器進行測試,保證源代碼的可移植性

支持多種操做系統,如Linux、Windows、AIX、FreeBSD、HP-UX、MacOS、NovellNetware、OpenBSD、OS/2 Wrap、Solaris等

爲多種編程語言提供了API,如C、C++、Python、Java、Perl、PHP、Eiffel、Ruby等

支持多線程,充分利用CPU資源
優化的SQL查詢算法,有效地提升查詢速度
提供多語言支持,常見的編碼如GB23十二、BIG五、UTF8
提供TCP/IP、ODBC和JDBC等多種數據庫鏈接途徑
提供用於管理、檢查、優化數據庫操做的管理工具
大型的數據庫。能夠處理擁有上千萬條記錄的大型數據庫
支持多種存儲引擎
MySQL 軟件採用了雙受權政策,它分爲社區版和商業版,因爲其體積小、速度快、整體擁有成本低,尤爲是開放源碼這一特色,通常中小型網站的開發都選擇MySQL做爲網站數據庫
MySQL使用標準的SQL數據語言形式
Mysql是能夠定製的,採用了GPL協議,你能夠修改源碼來開發本身的Mysql系統
在線DDL更改功能
複製全局事務標識
複製無崩潰從機
複製多線程從機
複製代碼

開源 免費 不要錢 使用範圍廣,跨平臺支持性好,提供了多種語言調用的 API

是學習數據庫開發的首選

服務器端安裝

安裝服務器端:在終端中輸入以下命令,回車後,而後按照提示輸入
複製代碼

sudo apt-get install mysql-server

當前使用的ubuntu鏡像中已經安裝好了mysql服務器端,無需再安裝,而且設置成了開機自啓動
服務器用於接收客戶端的請求、執行sql語句、管理數據庫
服務器端通常以服務方式管理,名稱爲mysql
啓動服務
複製代碼

sudo service mysql start

查看進程中是否存在mysql服務
複製代碼

ps ajx|grep mysql

中止服務
複製代碼

sudo service mysql stop

重啓服務
複製代碼

sudo service mysql restart

配置

配置文件目錄爲/etc/mysql/mysql.cnf

進入conf.d目錄,打開mysql.cnf,發現並無配置
進入mysql.conf.d目錄,打開mysql.cnf,能夠看到配置項

主要配置項以下
複製代碼

bind-address表示服務器綁定的ip,默認爲127.0.0.1

port表示端口,默認爲3306

datadir表示數據庫目錄,默認爲/var/lib/mysql

general_log_file表示普通日誌,默認爲/var/log/mysql/mysql.log

log_error表示錯誤日誌,默認爲/var/log/mysql/error.log

客戶端

客戶端爲開發人員與dba使用,經過socket方式與服務端通訊,經常使用的有navicat、命令行mysql
複製代碼

圖形化界面客戶端navicat

能夠到Navicat官網下載
將壓縮文件拷貝到ubuntu虛擬機中,放到桌面上,解壓
複製代碼

tar zxvf navicat112_mysql_cs_x64.tar.gz

進入解壓的目錄,運行以下命令
複製代碼

./start_navicat

問題一:中文亂碼

解決:打開start_navicat文件
複製代碼

將export LANG="en_US.UTF-8"改成export LANG="zh_CN.UTF-8"

問題二:試用期
解決:刪除用戶目錄下的.navicat64目錄
複製代碼

cd ~ rm -r .navicat64

命令行客戶端

在終端運行以下命令,按提示填寫信息
複製代碼

sudo apt-get install mysql-client

當前使用的ubuntu鏡像中已經安裝好了mysql客戶端,無需再安裝
詳細鏈接的命令能夠查看幫助文檔
複製代碼

mysql --help

最基本的鏈接命令以下,輸入後回車
複製代碼

mysql -u root -pmysql

數據完整性

一個數據庫就是一個完整的業務單元,能夠包含多張表,數據被存儲在表中
在表中爲了更加準確的存儲數據,保證數據的正確有效,能夠在建立表的時候,爲表添加一些強制性的驗證,包括數據字段的類型、約束
複製代碼

數據類型

能夠經過查看幫助文檔查閱全部支持的數據類型
使用數據類型的原則是:夠用就行,儘可能使用取值範圍小的,而不用大的,這樣能夠更多的節省存儲空間
經常使用數據類型以下:
    整數:int,bit
    小數:decimal
    字符串:varchar,char
    日期時間: date, time, datetime
    枚舉類型(enum)
特別說明的類型以下:
    decimal表示浮點數,如decimal(5,2)表示共存5位數,小數佔2位
    char表示固定長度的字符串,如char(3),若是填充'ab'時會補一個空格爲'ab '
    varchar表示可變長度的字符串,如varchar(3),填充'ab'時就會存儲'ab'
    字符串text表示存儲大文本,當字符大於4000時推薦使用
    對於圖片、音頻、視頻等文件,不存儲在數據庫中,而是上傳到某個服務器上,而後在表中存儲這個文件的保存路徑
複製代碼

約束

主鍵primary key:物理上存儲的順序
非空not null:此字段不容許填寫空值
唯一unique:此字段的值不容許重複
默認default:當不填寫此值時會使用默認值,若是填寫時以填寫爲準
外鍵foreign key:對關係字段進行約束,當爲關係字段填寫值時,會到關聯的表中查詢此值是否存在,若是存在則填寫成功,若是不存在則填寫失敗並拋出異常
說明:雖然外鍵約束能夠保證數據的有效性,可是在進行數據的crud(增長、修改、刪除、查詢)時,都會下降數據庫的性能,因此不推薦使用,那麼數據的有效性怎麼保證呢?答:能夠在邏輯層進行控制
複製代碼

建立數據庫

查看數據

退出登陸

quit 和 exit或ctrl+d

登陸成功後,輸入以下命令查看效果

查看版本:select version();
顯示當前時間:select now();
複製代碼

數據庫

查看全部數據庫

show databases;
複製代碼

使用數據庫

use 數據庫名;
複製代碼

查看當前使用的數據庫

select database();
複製代碼

建立數據庫

create database 數據庫名 charset=utf8;
例:
create database python charset=utf8;
複製代碼

刪除數據庫

drop database 數據庫名;
例:
drop database python;
複製代碼

數據表

查看當前數據庫中全部表

show tables;
複製代碼

查看錶結構

desc 表名;
複製代碼

建立表

auto_increment表示自動增加
複製代碼

例:建立班級表

create table classes(
    id int unsigned auto_increment primary key not null,
    name varchar(10)
);
複製代碼

例:建立學生表

create table students(
    id int unsigned primary key auto_increment not null,
    name varchar(20) default '',
    age tinyint unsigned default 0,
    height decimal(5,2),
    gender enum('男','女','人妖','保密'),
    cls_id int unsigned default 0
)
複製代碼

修改表-添加字段

alter table 表名 add 列名 類型;
例:
alter table students add birthday datetime;
複製代碼

修改表-修改字段:重命名版

alter table 表名 change 原名 新名 類型及約束;
例:
alter table students change birthday birth datetime not null;
複製代碼

修改表-修改字段:不重命名版

alter table 表名 modify 列名 類型及約束;
例:
alter table students modify birth date not null;
複製代碼

修改表-刪除字段

alter table 表名 drop 列名;
例:
alter table students drop birthday;
複製代碼

刪除表

drop table 表名;
例:
drop table students;
複製代碼

查看錶的建立語句

show create table 表名;
例:
show create table classes;
複製代碼

增刪改查(curd)

curd的解釋: 表明建立(Create)、更新(Update)、讀取(Retrieve)和刪除(Delete)

查詢基本使用

查詢全部列

select * from 表名;
例:
select * from classes;
複製代碼

查詢指定列

可使用as爲列或表指定別名

select 列1,列2,... from 表名;
例:
select id,name from classes;
複製代碼

增長

格式:INSERT [INTO] tb_name [(col_name,...)] {VALUES | VALUE} ({expr | DEFAULT},...),(...),...

說明:主鍵列是自動增加,可是在全列插入時須要佔位,一般使用0或者 default 或者 null 來佔位,插入成功後以實際數據爲準
全列插入:值的順序與表中字段的順序對應
複製代碼

insert into 表名 values(...) 例: insert into students values(0,’郭靖‘,1,'蒙古','2016-1-2');

部分列插入:值的順序與給出的列順序對應
複製代碼

insert into 表名(列1,...) values(值1,...) 例: insert into students(name,hometown,birthday) values('黃蓉','桃花島','2016-3-2');

上面的語句一次能夠向表中插入一行數據,還能夠一次性插入多行數據,這樣能夠減小與數據庫的通訊

全列多行插入:值的順序與給出的列順序對應

insert into 表名 values(...),(...)...; 例: insert into classes values(0,'python1'),(0,'python2');

insert into 表名(列1,...) values(值1,...),(值1,...)...; 例: insert into students(name) values('楊康'),('楊過'),('小龍女');

修改

格式: UPDATE tbname SET col1={expr1|DEFAULT} [,col2={expr2|default}]...[where 條件判斷]

update 表名 set 列1=值1,列2=值2... where 條件
例:
update students set gender=0,hometown='北京' where id=5;
複製代碼

刪除

DELETE FROM tbname [where 條件判斷]

delete from 表名 where 條件
例:
delete from students where id=5;
複製代碼

邏輯刪除,本質就是修改操做

update students set isdelete=1 where id=1;
複製代碼

(解釋)邏輯刪除

對於重要數據,並不但願物理刪除,一旦刪除,數據沒法找回
刪除方案:設置isDelete的列,類型爲bit,表示邏輯刪除,默認值爲0
對於非重要數據,能夠進行物理刪除
數據的重要性,要根據實際開發決定
複製代碼

備份

運行mysqldump命令

mysqldump –uroot –p 數據庫名 > python.sql;

按提示輸入mysql的密碼
複製代碼

恢復

鏈接mysql,建立新的數據庫
退出鏈接,執行以下命令

mysql -uroot –p 新數據庫名 < python.sql

根據提示輸入mysql密碼
複製代碼

數據庫設計

關係型數據庫建議在E-R模型的基礎上,咱們須要根據產品經理的設計策劃,抽取出來模型與關係,制定出表結構,這是項目開始的第一步
在開發中有不少設計數據庫的軟件,經常使用的如power designer,db desinger等,這些軟件能夠直觀的看到實體及實體間的關係
設計數據庫,多是由專門的數據庫設計人員完成,也多是由開發組成員完成,通常是項目經理帶領組員來完成
現階段不須要獨立完成數據庫設計,可是要注意積累一些這方面的經驗
複製代碼

三範式

通過研究和對使用中問題的總結,對於設計數據庫提出了一些規範,這些規範被稱爲範式(Normal Form)
目前有跡可尋的共有8種範式,通常須要遵照3範式便可
◆ 第一範式(1NF):強調的是列的原子性,即列不可以再分紅其餘幾列。

    考慮這樣一個表:【聯繫人】(姓名,性別,電話) 若是在實際場景中,一個聯繫人有家庭電話和公司電話,那麼這種表結構設計就沒有達到 1NF。要符合 1NF 咱們只需把列(電話)拆分,即:【聯繫人】(姓名,性別,家庭電話,公司電話)。1NF 很好辨別,可是 2NF 和 3NF 就容易搞混淆。

◆ 第二範式(2NF):首先是 1NF,另外包含兩部份內容,一是表必須有一個主鍵;二是沒有包含在主鍵中的列必須徹底依賴於主鍵,而不能只依賴於主鍵的一部分。

    考慮一個訂單明細表:【OrderDetail】(OrderID,ProductID,UnitPrice,Discount,Quantity,ProductName)。 由於咱們知道在一個訂單中能夠訂購多種產品,因此單單一個 OrderID 是不足以成爲主鍵的,主鍵應該是(OrderID,ProductID)。顯而易見 Discount(折扣),Quantity(數量)徹底依賴(取決)於主鍵(OderID,ProductID),而 UnitPrice,ProductName 只依賴於 ProductID。因此 OrderDetail 表不符合 2NF。不符合 2NF 的設計容易產生冗餘數據。

    能夠把【OrderDetail】表拆分爲【OrderDetail】(OrderID,ProductID,Discount,Quantity)和【Product】(ProductID,UnitPrice,ProductName)來消除原訂單表中UnitPrice,ProductName屢次重複的狀況。

◆ 第三範式(3NF):首先是 2NF,另外非主鍵列必須直接依賴於主鍵,不能存在傳遞依賴。即不能存在:非主鍵列 A 依賴於非主鍵列 B,非主鍵列 B 依賴於主鍵的狀況。

    考慮一個訂單表【Order】(OrderID,OrderDate,CustomerID,CustomerName,CustomerAddr,CustomerCity)主鍵是(OrderID)。 其中 OrderDate,CustomerID,CustomerName,CustomerAddr,CustomerCity 等非主鍵列都徹底依賴於主鍵(OrderID),因此符合 2NF。不過問題是 CustomerName,CustomerAddr,CustomerCity 直接依賴的是 CustomerID(非主鍵列),而不是直接依賴於主鍵,它是經過傳遞才依賴於主鍵,因此不符合 3NF。 經過拆分【Order】爲【Order】(OrderID,OrderDate,CustomerID)和【Customer】(CustomerID,CustomerName,CustomerAddr,CustomerCity)從而達到 3NF。 *第二範式(2NF)和第三範式(3NF)的概念很容易混淆,區分它們的關鍵點在於,2NF:非主鍵列是否徹底依賴於主鍵,仍是依賴於主鍵的一部分;3NF:非主鍵列是直接依賴於主鍵,仍是直接依賴於非主鍵列。
複製代碼

E-R模型

E表示entry,實體,設計實體就像定義一個類同樣,指定從哪些方面描述對象,一個實體轉換爲數據庫中的一個表
R表示relationship,關係,關係描述兩個實體之間的對應規則,關係的類型包括包括一對1、一對多、多對多
關係也是一種數據,須要經過一個字段存儲在表中
實體A對實體B爲1對1,則在表A或表B中建立一個字段,存儲另外一個表的主鍵值
複製代碼

實體A對實體B爲1對多:在表B中建立一個字段,存儲表A的主鍵值

實體A對實體B爲多對多:新建一張表C,這個表只有兩個字段,一個用於存儲A的主鍵值,一個用於存儲B的主鍵值

示例

設計兩張表:班級表、學生表
班級表classes
    id
    name
    isdelete
學生表students
    id
    name
    birthday
    gender
    clsid
    isdelete
複製代碼

擴展閱讀

58到家網站 -----數據庫30條軍規解讀 原創: 58沈劍 架構師之路 2017-02-15

軍規適用場景:併發量大、數據量大的互聯網業務

軍規:介紹內容

解讀:講解緣由,解讀比軍規更重要

1、基礎規範

(1)必須使用InnoDB存儲引擎

解讀:支持事務、行級鎖、併發性能更好、CPU及內存緩存頁優化使得資源利用率更高

(2)必須使用UTF8字符集

解讀:萬國碼,無需轉碼,無亂碼風險,節省空間

(3)數據表、數據字段必須加入中文註釋

解讀:N年後誰tm知道這個r1,r2,r3字段是幹嗎的

(4)禁止使用存儲過程、視圖、觸發器、Event

解讀:高併發大數據的互聯網業務,架構設計思路是「解放數據庫CPU,將計算轉移到服務層」,併發量大的狀況下,這些功能極可能將數據庫拖死,業務邏輯放到服務層具有更好的擴展性,可以輕易實現「增機器就加性能」。數據庫擅長存儲與索引,CPU計算仍是上移吧

(5)禁止存儲大文件或者大照片

解讀:爲什麼要讓數據庫作它不擅長的事情?大文件和照片存儲在文件系統,數據庫裏存URI多好

2、命名規範

(6)只容許使用內網域名,而不是ip鏈接數據庫

(7)線上環境、開發環境、測試環境數據庫內網域名遵循命名規範

業務名稱:xxx

線上環境:dj.xxx.db

開發環境:dj.xxx.rdb

測試環境:dj.xxx.tdb

從庫在名稱後加-s標識,備庫在名稱後加-ss標識

線上從庫:dj.xxx-s.db

線上備庫:dj.xxx-sss.db

(8)庫名、表名、字段名:小寫,下劃線風格,不超過32個字符,必須見名知意,禁止拼音英文混用

(9)表名t_xxx,非惟一索引名idx_xxx,惟一索引名uniq_xxx

3、表設計規範

(10)單實例表數目必須小於500

(11)單表列數目必須小於30

(12)表必須有主鍵,例如自增主鍵

解讀:

a)主鍵遞增,數據行寫入能夠提升插入性能,能夠避免page分裂,減小表碎片提高空間和內存的使用

b)主鍵要選擇較短的數據類型, Innodb引擎普通索引都會保存主鍵的值,較短的數據類型能夠有效的減小索引的磁盤空間,提升索引的緩存效率

c) 無主鍵的表刪除,在row模式的主從架構,會致使備庫夯住

(13)禁止使用外鍵,若是有外鍵完整性約束,須要應用程序控制

解讀:外鍵會致使表與表之間耦合,update與delete操做都會涉及相關聯的表,十分影響sql 的性能,甚至會形成死鎖。高併發狀況下容易形成數據庫性能,大數據高併發業務場景數據庫使用以性能優先

4、字段設計規範

(14)必須把字段定義爲NOT NULL而且提供默認值

解讀:

a)null的列使索引/索引統計/值比較都更加複雜,對MySQL來講更難優化

b)null 這種類型MySQL內部須要進行特殊處理,增長數據庫處理記錄的複雜性;同等條件下,表中有較多空字段的時候,數據庫的處理性能會下降不少

c)null值須要更多的存儲空,不管是表仍是索引中每行中的null的列都須要額外的空間來標識

d)對null 的處理時候,只能採用is null或is not null,而不能採用=、in、<、<>、!=、not in這些操做符號。如:where name!=’shenjian’,若是存在name爲null值的記錄,查詢結果就不會包含name爲null值的記錄

(15)禁止使用TEXT、BLOB類型

解讀:會浪費更多的磁盤和內存空間,非必要的大量的大字段查詢會淘汰掉熱數據,致使內存命中率急劇下降,影響數據庫性能

(16)禁止使用小數存儲貨幣

解讀:使用整數吧,小數容易致使錢對不上

(17)必須使用varchar(20)存儲手機號

解讀:

a)涉及到區號或者國家代號,可能出現+-()

b)手機號會去作數學運算麼?

c)varchar能夠支持模糊查詢,例如:like「138%」

(18)禁止使用ENUM,可以使用TINYINT代替

解讀:

a)增長新的ENUM值要作DDL操做

b)ENUM的內部實際存儲就是整數,你覺得本身定義的是字符串?

5、索引設計規範

(19)單表索引建議控制在5個之內

(20)單索引字段數不容許超過5個

解讀:字段超過5個時,實際已經起不到有效過濾數據的做用了

(21)禁止在更新十分頻繁、區分度不高的屬性上創建索引

解讀:

a)更新會變動B+樹,更新頻繁的字段創建索引會大大下降數據庫性能

b)「性別」這種區分度不大的屬性,創建索引是沒有什麼意義的,不能有效過濾數據,性能與全表掃描相似

(22)創建組合索引,必須把區分度高的字段放在前面

解讀:可以更加有效的過濾數據

6、SQL使用規範

(23)禁止使用SELECT *,只獲取必要的字段,須要顯示說明列屬性

解讀:

a)讀取不須要的列會增長CPU、IO、NET消耗

b)不能有效的利用覆蓋索引

c)使用SELECT *容易在增長或者刪除字段後出現程序BUG

(24)禁止使用INSERT INTO t_xxx VALUES(xxx),必須顯示指定插入的列屬性

解讀:容易在增長或者刪除字段後出現程序BUG

(25)禁止使用屬性隱式轉換

解讀:SELECT uid FROM t_user WHERE phone=13812345678 會致使全表掃描,而不能命中phone索引,猜猜爲何?(這個線上問題不止出現過一次)

(26)禁止在WHERE條件的屬性上使用函數或者表達式

解讀:SELECT uid FROM t_user WHERE from_unixtime(day)>='2017-02-15' 會致使全表掃描

正確的寫法是:SELECT uid FROM t_user WHERE day>= unix_timestamp('2017-02-15 00:00:00')

(27)禁止負向查詢,以及%開頭的模糊查詢

解讀:

a)負向查詢條件:NOT、!=、<>、!<、!>、NOT IN、NOT LIKE等,會致使全表掃描

b)%開頭的模糊查詢,會致使全表掃描

(28)禁止大表使用JOIN查詢,禁止大表使用子查詢

解讀:會產生臨時表,消耗較多內存與CPU,極大影響數據庫性能

(29)禁止使用OR條件,必須改成IN查詢

解讀:舊版本Mysql的OR查詢是不能命中索引的,即便能命中索引,爲什麼要讓數據庫耗費更多的CPU幫助實施查詢優化呢?

(30)應用程序必須捕獲SQL異常,並有相應處理

總結:大數據量高併發的互聯網業務,極大影響數據庫性能的都不讓用,不讓用喲。

==【完】==

自轉到58到家,負責過較長一段時間DBA部門,搭建團隊,討論流程,討論規範,討論自動化,嘗試平臺化,故但願沉澱一些東西。

相關文章
相關標籤/搜索