python 人工智能基礎 14 day(上)

時間 2019-11-24

標籤 python 人工智能基礎 day 欄目 Python 简体版

原文原文鏈接

MYSQL 數據庫

1 數據存儲：結繩記事，甲骨石刻，圖書。python

缺點：不易保存，備份困難，查找不便mysql

2 現代化手段----文件程序員

特色：使用簡單，例如python中的open能夠打開文件，用read/write對文件進行讀寫，close關閉文件web

缺點：對於數據容量較大的數據，不可以很好的知足，並且性能較差不易擴展算法

3 現代化手段----數據庫sql

數據庫就是一種特殊的文件，其中存儲着須要的數據數據庫

特色：持久化存儲，讀寫速度極高，保證數據的有效性，對程序支持性很是好，容易擴展編程

RDBMS（關係型數據庫）ubuntu

Relational Database Management System

經過表來表示關係型

當前主要使用兩種類型的數據庫：關係型數據庫、非關係型數據庫，本部分主要討論關係型數據庫，對於非關係型數據庫會在後面學習

所謂的關係型數據庫RDBMS，是創建在關係模型基礎上的數據庫，藉助於集合代數等數學概念和方法來處理數據庫中的數據
複製代碼

關係型數據庫核心元素緩存

數據行(記錄)，數據列(字段)，數據表(數據行的集合)，數據庫(數據表的集合)

SQL

SQL是結構化查詢語言，是一種用來操做RDBMS的數據庫語言，當前關係型數據庫都支持使用SQL語言進行操做,也就是說能夠經過 SQL 操做 oracle,sql server,mysql,sqlite 等等全部的關係型的數據庫

SQL語句主要分爲：

DQL：數據查詢語言，用於對數據進行查詢，如select

DML：數據操做語言，對數據進行增長、修改、刪除，如insert、udpate、delete

TPL：事務處理語言，對事務進行處理，包括begin transaction、commit、rollback

DCL：數據控制語言，進行受權與權限回收，如grant、revoke

DDL：數據定義語言，進行數據庫、表的管理等，如create、drop

CCL：指針控制語言，經過控制指針完成表的操做，如declare cursor

對於web程序員來說，重點是數據的crud（增刪改查），必須熟練編寫DQL、DML，可以編寫DDL完成數據庫、表的操做，其它語言如TPL、DCL、CCL瞭解便可

SQL 是一門特殊的語言,專門用來操做關係數據庫

不區分大小寫

MySQL 簡介

MySQL是一個關係型數據庫管理系統，由瑞典MySQL AB公司開發，後來被Sun公司收購，Sun公司後來又被Oracle公司收購，目前屬於Oracle旗下產品

特色

使用C和C++編寫，並使用了多種編譯器進行測試，保證源代碼的可移植性

支持多種操做系統，如Linux、Windows、AIX、FreeBSD、HP-UX、MacOS、NovellNetware、OpenBSD、OS/2 Wrap、Solaris等

爲多種編程語言提供了API，如C、C++、Python、Java、Perl、PHP、Eiffel、Ruby等

支持多線程，充分利用CPU資源
優化的SQL查詢算法，有效地提升查詢速度
提供多語言支持，常見的編碼如GB23十二、BIG五、UTF8
提供TCP/IP、ODBC和JDBC等多種數據庫鏈接途徑
提供用於管理、檢查、優化數據庫操做的管理工具
大型的數據庫。能夠處理擁有上千萬條記錄的大型數據庫
支持多種存儲引擎
MySQL 軟件採用了雙受權政策，它分爲社區版和商業版，因爲其體積小、速度快、整體擁有成本低，尤爲是開放源碼這一特色，通常中小型網站的開發都選擇MySQL做爲網站數據庫
MySQL使用標準的SQL數據語言形式
Mysql是能夠定製的，採用了GPL協議，你能夠修改源碼來開發本身的Mysql系統
在線DDL更改功能
複製全局事務標識
複製無崩潰從機
複製多線程從機
複製代碼

開源免費不要錢使用範圍廣,跨平臺支持性好,提供了多種語言調用的 API

是學習數據庫開發的首選

服務器端安裝

安裝服務器端：在終端中輸入以下命令，回車後，而後按照提示輸入
複製代碼

sudo apt-get install mysql-server

當前使用的ubuntu鏡像中已經安裝好了mysql服務器端，無需再安裝，而且設置成了開機自啓動
服務器用於接收客戶端的請求、執行sql語句、管理數據庫
服務器端通常以服務方式管理，名稱爲mysql
啓動服務
複製代碼

sudo service mysql start

查看進程中是否存在mysql服務
複製代碼

ps ajx|grep mysql

中止服務
複製代碼

sudo service mysql stop

重啓服務
複製代碼

sudo service mysql restart

配置

配置文件目錄爲/etc/mysql/mysql.cnf

進入conf.d目錄，打開mysql.cnf，發現並無配置
進入mysql.conf.d目錄，打開mysql.cnf，能夠看到配置項

主要配置項以下
複製代碼

bind-address表示服務器綁定的ip，默認爲127.0.0.1

port表示端口，默認爲3306

datadir表示數據庫目錄，默認爲/var/lib/mysql

general_log_file表示普通日誌，默認爲/var/log/mysql/mysql.log

log_error表示錯誤日誌，默認爲/var/log/mysql/error.log

客戶端

客戶端爲開發人員與dba使用，經過socket方式與服務端通訊，經常使用的有navicat、命令行mysql
複製代碼

圖形化界面客戶端navicat

能夠到Navicat官網下載
將壓縮文件拷貝到ubuntu虛擬機中，放到桌面上，解壓
複製代碼

tar zxvf navicat112_mysql_cs_x64.tar.gz

進入解壓的目錄，運行以下命令
複製代碼

./start_navicat

問題一：中文亂碼

解決：打開start_navicat文件
複製代碼

將export LANG="en_US.UTF-8"改成export LANG="zh_CN.UTF-8"

問題二：試用期
解決：刪除用戶目錄下的.navicat64目錄
複製代碼

cd ~ rm -r .navicat64

命令行客戶端

在終端運行以下命令，按提示填寫信息
複製代碼

sudo apt-get install mysql-client

當前使用的ubuntu鏡像中已經安裝好了mysql客戶端，無需再安裝
詳細鏈接的命令能夠查看幫助文檔
複製代碼

mysql --help

最基本的鏈接命令以下，輸入後回車
複製代碼

mysql -u root -pmysql

數據完整性

一個數據庫就是一個完整的業務單元，能夠包含多張表，數據被存儲在表中
在表中爲了更加準確的存儲數據，保證數據的正確有效，能夠在建立表的時候，爲表添加一些強制性的驗證，包括數據字段的類型、約束
複製代碼

數據類型

能夠經過查看幫助文檔查閱全部支持的數據類型
使用數據類型的原則是：夠用就行，儘可能使用取值範圍小的，而不用大的，這樣能夠更多的節省存儲空間
經常使用數據類型以下：
    整數：int，bit
    小數：decimal
    字符串：varchar,char
    日期時間: date, time, datetime
    枚舉類型(enum)
特別說明的類型以下：
    decimal表示浮點數，如decimal(5,2)表示共存5位數，小數佔2位
    char表示固定長度的字符串，如char(3)，若是填充'ab'時會補一個空格爲'ab '
    varchar表示可變長度的字符串，如varchar(3)，填充'ab'時就會存儲'ab'
    字符串text表示存儲大文本，當字符大於4000時推薦使用
    對於圖片、音頻、視頻等文件，不存儲在數據庫中，而是上傳到某個服務器上，而後在表中存儲這個文件的保存路徑
複製代碼

約束

主鍵primary key：物理上存儲的順序
非空not null：此字段不容許填寫空值
唯一unique：此字段的值不容許重複
默認default：當不填寫此值時會使用默認值，若是填寫時以填寫爲準
外鍵foreign key：對關係字段進行約束，當爲關係字段填寫值時，會到關聯的表中查詢此值是否存在，若是存在則填寫成功，若是不存在則填寫失敗並拋出異常
說明：雖然外鍵約束能夠保證數據的有效性，可是在進行數據的crud（增長、修改、刪除、查詢）時，都會下降數據庫的性能，因此不推薦使用，那麼數據的有效性怎麼保證呢？答：能夠在邏輯層進行控制
複製代碼

建立數據庫

查看數據

退出登陸

quit 和 exit或ctrl+d

登陸成功後，輸入以下命令查看效果

查看版本：select version();
顯示當前時間：select now();
複製代碼

數據庫

查看全部數據庫

show databases;
複製代碼

使用數據庫

use 數據庫名;
複製代碼

查看當前使用的數據庫

select database();
複製代碼

建立數據庫

create database 數據庫名 charset=utf8;
例：
create database python charset=utf8;
複製代碼

刪除數據庫

drop database 數據庫名;
例：
drop database python;
複製代碼

數據表

查看當前數據庫中全部表

show tables;
複製代碼

查看錶結構

desc 表名;
複製代碼

建立表

auto_increment表示自動增加
複製代碼

例：建立班級表

create table classes(
    id int unsigned auto_increment primary key not null,
    name varchar(10)
);
複製代碼

例：建立學生表

create table students(
    id int unsigned primary key auto_increment not null,
    name varchar(20) default '',
    age tinyint unsigned default 0,
    height decimal(5,2),
    gender enum('男','女','人妖','保密'),
    cls_id int unsigned default 0
)
複製代碼

修改表-添加字段

alter table 表名 add 列名 類型;
例：
alter table students add birthday datetime;
複製代碼

修改表-修改字段：重命名版

alter table 表名 change 原名 新名 類型及約束;
例：
alter table students change birthday birth datetime not null;
複製代碼

修改表-修改字段：不重命名版

alter table 表名 modify 列名 類型及約束;
例：
alter table students modify birth date not null;
複製代碼

修改表-刪除字段

alter table 表名 drop 列名;
例：
alter table students drop birthday;
複製代碼

刪除表

drop table 表名;
例：
drop table students;
複製代碼

查看錶的建立語句

show create table 表名;
例：
show create table classes;
複製代碼

增刪改查(curd)

curd的解釋: 表明建立（Create）、更新（Update）、讀取（Retrieve）和刪除（Delete）

查詢基本使用

查詢全部列

select * from 表名;
例：
select * from classes;
複製代碼

查詢指定列

可使用as爲列或表指定別名

select 列1,列2,... from 表名;
例：
select id,name from classes;
複製代碼

增長

格式:INSERT [INTO] tb_name [(col_name,...)] {VALUES | VALUE} ({expr | DEFAULT},...),(...),...

說明：主鍵列是自動增加，可是在全列插入時須要佔位，一般使用0或者 default 或者 null 來佔位，插入成功後以實際數據爲準
全列插入：值的順序與表中字段的順序對應
複製代碼

insert into 表名 values(...) 例： insert into students values(0,’郭靖‘,1,'蒙古','2016-1-2');

部分列插入：值的順序與給出的列順序對應
複製代碼

insert into 表名(列1,...) values(值1,...) 例： insert into students(name,hometown,birthday) values('黃蓉','桃花島','2016-3-2');

上面的語句一次能夠向表中插入一行數據，還能夠一次性插入多行數據，這樣能夠減小與數據庫的通訊

全列多行插入：值的順序與給出的列順序對應

insert into 表名 values(...),(...)...; 例： insert into classes values(0,'python1'),(0,'python2');

insert into 表名(列1,...) values(值1,...),(值1,...)...; 例： insert into students(name) values('楊康'),('楊過'),('小龍女');

修改

格式: UPDATE tbname SET col1={expr1|DEFAULT} [,col2={expr2|default}]...[where 條件判斷]

update 表名 set 列1=值1,列2=值2... where 條件
例：
update students set gender=0,hometown='北京' where id=5;
複製代碼

刪除

DELETE FROM tbname [where 條件判斷]

delete from 表名 where 條件
例：
delete from students where id=5;
複製代碼

邏輯刪除，本質就是修改操做

update students set isdelete=1 where id=1;
複製代碼

（解釋）邏輯刪除

對於重要數據，並不但願物理刪除，一旦刪除，數據沒法找回
刪除方案：設置isDelete的列，類型爲bit，表示邏輯刪除，默認值爲0
對於非重要數據，能夠進行物理刪除
數據的重要性，要根據實際開發決定
複製代碼

備份

運行mysqldump命令

mysqldump –uroot –p 數據庫名 > python.sql;

按提示輸入mysql的密碼
複製代碼

恢復

鏈接mysql，建立新的數據庫
退出鏈接，執行以下命令

mysql -uroot –p 新數據庫名 < python.sql

根據提示輸入mysql密碼
複製代碼

數據庫設計

關係型數據庫建議在E-R模型的基礎上，咱們須要根據產品經理的設計策劃，抽取出來模型與關係，制定出表結構，這是項目開始的第一步
在開發中有不少設計數據庫的軟件，經常使用的如power designer，db desinger等，這些軟件能夠直觀的看到實體及實體間的關係
設計數據庫，多是由專門的數據庫設計人員完成，也多是由開發組成員完成，通常是項目經理帶領組員來完成
現階段不須要獨立完成數據庫設計，可是要注意積累一些這方面的經驗
複製代碼

三範式

通過研究和對使用中問題的總結，對於設計數據庫提出了一些規範，這些規範被稱爲範式(Normal Form)
目前有跡可尋的共有8種範式，通常須要遵照3範式便可
◆ 第一範式（1NF）：強調的是列的原子性，即列不可以再分紅其餘幾列。

    考慮這樣一個表：【聯繫人】（姓名，性別，電話） 若是在實際場景中，一個聯繫人有家庭電話和公司電話，那麼這種表結構設計就沒有達到 1NF。要符合 1NF 咱們只需把列（電話）拆分，即：【聯繫人】（姓名，性別，家庭電話，公司電話）。1NF 很好辨別，可是 2NF 和 3NF 就容易搞混淆。

◆ 第二範式（2NF）：首先是 1NF，另外包含兩部份內容，一是表必須有一個主鍵；二是沒有包含在主鍵中的列必須徹底依賴於主鍵，而不能只依賴於主鍵的一部分。

    考慮一個訂單明細表：【OrderDetail】（OrderID，ProductID，UnitPrice，Discount，Quantity，ProductName）。 由於咱們知道在一個訂單中能夠訂購多種產品，因此單單一個 OrderID 是不足以成爲主鍵的，主鍵應該是（OrderID，ProductID）。顯而易見 Discount（折扣），Quantity（數量）徹底依賴（取決）於主鍵（OderID，ProductID），而 UnitPrice，ProductName 只依賴於 ProductID。因此 OrderDetail 表不符合 2NF。不符合 2NF 的設計容易產生冗餘數據。

    能夠把【OrderDetail】表拆分爲【OrderDetail】（OrderID，ProductID，Discount，Quantity）和【Product】（ProductID，UnitPrice，ProductName）來消除原訂單表中UnitPrice，ProductName屢次重複的狀況。

◆ 第三範式（3NF）：首先是 2NF，另外非主鍵列必須直接依賴於主鍵，不能存在傳遞依賴。即不能存在：非主鍵列 A 依賴於非主鍵列 B，非主鍵列 B 依賴於主鍵的狀況。

    考慮一個訂單表【Order】（OrderID，OrderDate，CustomerID，CustomerName，CustomerAddr，CustomerCity）主鍵是（OrderID）。 其中 OrderDate，CustomerID，CustomerName，CustomerAddr，CustomerCity 等非主鍵列都徹底依賴於主鍵（OrderID），因此符合 2NF。不過問題是 CustomerName，CustomerAddr，CustomerCity 直接依賴的是 CustomerID（非主鍵列），而不是直接依賴於主鍵，它是經過傳遞才依賴於主鍵，因此不符合 3NF。 經過拆分【Order】爲【Order】（OrderID，OrderDate，CustomerID）和【Customer】（CustomerID，CustomerName，CustomerAddr，CustomerCity）從而達到 3NF。 *第二範式（2NF）和第三範式（3NF）的概念很容易混淆，區分它們的關鍵點在於，2NF：非主鍵列是否徹底依賴於主鍵，仍是依賴於主鍵的一部分；3NF：非主鍵列是直接依賴於主鍵，仍是直接依賴於非主鍵列。
複製代碼

E-R模型

E表示entry，實體，設計實體就像定義一個類同樣，指定從哪些方面描述對象，一個實體轉換爲數據庫中的一個表
R表示relationship，關係，關係描述兩個實體之間的對應規則，關係的類型包括包括一對1、一對多、多對多
關係也是一種數據，須要經過一個字段存儲在表中
實體A對實體B爲1對1，則在表A或表B中建立一個字段，存儲另外一個表的主鍵值
複製代碼

實體A對實體B爲1對多：在表B中建立一個字段，存儲表A的主鍵值

實體A對實體B爲多對多：新建一張表C，這個表只有兩個字段，一個用於存儲A的主鍵值，一個用於存儲B的主鍵值

示例

設計兩張表：班級表、學生表
班級表classes
    id
    name
    isdelete
學生表students
    id
    name
    birthday
    gender
    clsid
    isdelete
複製代碼

擴展閱讀

58到家網站 -----數據庫30條軍規解讀原創： 58沈劍架構師之路 2017-02-15

軍規適用場景：併發量大、數據量大的互聯網業務

軍規：介紹內容

解讀：講解緣由，解讀比軍規更重要

1、基礎規範

（1）必須使用InnoDB存儲引擎

解讀：支持事務、行級鎖、併發性能更好、CPU及內存緩存頁優化使得資源利用率更高

（2）必須使用UTF8字符集

解讀：萬國碼，無需轉碼，無亂碼風險，節省空間

（3）數據表、數據字段必須加入中文註釋

解讀：N年後誰tm知道這個r1,r2,r3字段是幹嗎的

（4）禁止使用存儲過程、視圖、觸發器、Event

解讀：高併發大數據的互聯網業務，架構設計思路是「解放數據庫CPU，將計算轉移到服務層」，併發量大的狀況下，這些功能極可能將數據庫拖死，業務邏輯放到服務層具有更好的擴展性，可以輕易實現「增機器就加性能」。數據庫擅長存儲與索引，CPU計算仍是上移吧

（5）禁止存儲大文件或者大照片

解讀：爲什麼要讓數據庫作它不擅長的事情？大文件和照片存儲在文件系統，數據庫裏存URI多好

2、命名規範

（6）只容許使用內網域名，而不是ip鏈接數據庫

（7）線上環境、開發環境、測試環境數據庫內網域名遵循命名規範

業務名稱：xxx

線上環境：dj.xxx.db

開發環境：dj.xxx.rdb

測試環境：dj.xxx.tdb

從庫在名稱後加-s標識，備庫在名稱後加-ss標識

線上從庫：dj.xxx-s.db

線上備庫：dj.xxx-sss.db

（8）庫名、表名、字段名：小寫，下劃線風格，不超過32個字符，必須見名知意，禁止拼音英文混用

（9）表名t_xxx，非惟一索引名idx_xxx，惟一索引名uniq_xxx

3、表設計規範

（10）單實例表數目必須小於500

（11）單表列數目必須小於30

（12）表必須有主鍵，例如自增主鍵

解讀：

a）主鍵遞增，數據行寫入能夠提升插入性能，能夠避免page分裂，減小表碎片提高空間和內存的使用

b）主鍵要選擇較短的數據類型， Innodb引擎普通索引都會保存主鍵的值，較短的數據類型能夠有效的減小索引的磁盤空間，提升索引的緩存效率

c）無主鍵的表刪除，在row模式的主從架構，會致使備庫夯住

（13）禁止使用外鍵，若是有外鍵完整性約束，須要應用程序控制

解讀：外鍵會致使表與表之間耦合，update與delete操做都會涉及相關聯的表，十分影響sql 的性能，甚至會形成死鎖。高併發狀況下容易形成數據庫性能，大數據高併發業務場景數據庫使用以性能優先

4、字段設計規範

（14）必須把字段定義爲NOT NULL而且提供默認值

解讀：

a）null的列使索引/索引統計/值比較都更加複雜，對MySQL來講更難優化

b）null 這種類型MySQL內部須要進行特殊處理，增長數據庫處理記錄的複雜性；同等條件下，表中有較多空字段的時候，數據庫的處理性能會下降不少

c）null值須要更多的存儲空，不管是表仍是索引中每行中的null的列都須要額外的空間來標識

d）對null 的處理時候，只能採用is null或is not null，而不能採用=、in、<、<>、!=、not in這些操做符號。如：where name!=’shenjian’，若是存在name爲null值的記錄，查詢結果就不會包含name爲null值的記錄

（15）禁止使用TEXT、BLOB類型

解讀：會浪費更多的磁盤和內存空間，非必要的大量的大字段查詢會淘汰掉熱數據，致使內存命中率急劇下降，影響數據庫性能

（16）禁止使用小數存儲貨幣

解讀：使用整數吧，小數容易致使錢對不上

（17）必須使用varchar(20)存儲手機號

解讀：

a）涉及到區號或者國家代號，可能出現+-()

b）手機號會去作數學運算麼？

c）varchar能夠支持模糊查詢，例如：like「138%」

（18）禁止使用ENUM，可以使用TINYINT代替

解讀：

a）增長新的ENUM值要作DDL操做

b）ENUM的內部實際存儲就是整數，你覺得本身定義的是字符串？

5、索引設計規範

（19）單表索引建議控制在5個之內

（20）單索引字段數不容許超過5個

解讀：字段超過5個時，實際已經起不到有效過濾數據的做用了

（21）禁止在更新十分頻繁、區分度不高的屬性上創建索引

解讀：

a）更新會變動B+樹，更新頻繁的字段創建索引會大大下降數據庫性能

b）「性別」這種區分度不大的屬性，創建索引是沒有什麼意義的，不能有效過濾數據，性能與全表掃描相似

（22）創建組合索引，必須把區分度高的字段放在前面

解讀：可以更加有效的過濾數據

6、SQL使用規範

（23）禁止使用SELECT *，只獲取必要的字段，須要顯示說明列屬性

解讀：

a）讀取不須要的列會增長CPU、IO、NET消耗

b）不能有效的利用覆蓋索引

c）使用SELECT *容易在增長或者刪除字段後出現程序BUG

（24）禁止使用INSERT INTO t_xxx VALUES(xxx)，必須顯示指定插入的列屬性

解讀：容易在增長或者刪除字段後出現程序BUG

（25）禁止使用屬性隱式轉換

解讀：SELECT uid FROM t_user WHERE phone=13812345678 會致使全表掃描，而不能命中phone索引，猜猜爲何？（這個線上問題不止出現過一次）

（26）禁止在WHERE條件的屬性上使用函數或者表達式

解讀：SELECT uid FROM t_user WHERE from_unixtime(day)>='2017-02-15' 會致使全表掃描

正確的寫法是：SELECT uid FROM t_user WHERE day>= unix_timestamp('2017-02-15 00:00:00')

（27）禁止負向查詢，以及%開頭的模糊查詢

解讀：

a）負向查詢條件：NOT、!=、<>、!<、!>、NOT IN、NOT LIKE等，會致使全表掃描

b）%開頭的模糊查詢，會致使全表掃描

（28）禁止大表使用JOIN查詢，禁止大表使用子查詢

解讀：會產生臨時表，消耗較多內存與CPU，極大影響數據庫性能

（29）禁止使用OR條件，必須改成IN查詢

解讀：舊版本Mysql的OR查詢是不能命中索引的，即便能命中索引，爲什麼要讓數據庫耗費更多的CPU幫助實施查詢優化呢？

（30）應用程序必須捕獲SQL異常，並有相應處理

總結：大數據量高併發的互聯網業務，極大影響數據庫性能的都不讓用，不讓用喲。

==【完】==

自轉到58到家，負責過較長一段時間DBA部門，搭建團隊，討論流程，討論規範，討論自動化，嘗試平臺化，故但願沉澱一些東西。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。