人工智能之語音合成,語音識別

人工智能

此篇是人工智能應用的重點,只用現成的技術不作底層算法,也是讓初級程序員快速進入人工智能行業的捷徑python

目前市面上主流的AI技術提供公司有不少,好比百度,阿里,騰訊,主作語音的科大訊飛,作只能問答的圖靈機器人等等程序員

這些公司投入了很大一部分財力物力人力將底層封裝,提供應用接口給咱們,尤爲是百度,徹底免費的接口算法

既然百度這麼仗義,我們就不要浪費掉怎麼好的資源,從百度AI入手,開啓人工智能之旅windows

開啓人工智能技術的大門 : http://ai.baidu.com/工具

看看我大百度的AI大法,這些技術所有都是封裝好的接口,看着就爽測試

接下來我們就一步一步的操做一下人工智能

首先進入控制檯,註冊一個百度的帳號(百度帳號通用)spa

開通一下咱們百度AI開放平臺的受權命令行

而後找到已開通服務中的百度語音3d

 就能夠建立應用了,回到應用列表咱們能夠看到已建立的應用了

 

安裝百度的人工智能SDK:

首先我們要 pip install baidu-aip 安裝一個百度人工智能開放平臺的Python SDK實在是太方便了,這也是爲何咱們選擇百度人工智能的最大緣由

語音合成

 其中參數:

 

這個時候audio.mp3就出來了,可使用播放器播放,也可以使用os模塊調用os.steam(文件名)播放

語音識別:

哎,每次到這裏,我都默默無語淚兩行,聲音這個東西格式太多樣化了,若是要想讓百度的SDK識別我們的音頻文件,就要想辦法轉變成百度SDK能夠識別的格式PCM

目前DragonFire已知能夠實現自動化轉換格式而且屢試不爽的工具 : FFmpeg 這個工具的下載地址是 : 連接:https://pan.baidu.com/s/1jonSAa_TG2XuaJEy3iTmHg 密碼:w6hk

FFmpeg 環境變量配置:

首先你要解壓縮,而後找到bin目錄,個人目錄是 D:\python\ffmpeg-20180619-a990184-win64-shared\bin

嘗試一下,是否配置成功

看到這個界面就算配置成功了,配置成功有什麼用呢, 這個工具能夠將wav wma mp3 等音頻文件轉換爲 pcm 無壓縮音頻文件

作一個測試,首先要打開windows的錄音機,錄製一段音頻(說普通話)

如今假設錄製的音頻文件的名字爲 audio.wav 放置在 D:\kujiaweiAudio\

而後咱們用命令行對這個 audio.wav 進行pcm格式的轉換而後獲得 audio.mp3

命令是 : ffmpeg -y  -i audio.mp3  -acodec pcm_s16le -f s16le -ac 1 -ar 16000 audio.pcm

其中參數:

 

 

運行結果以下:

相關文章
相關標籤/搜索