語音轉寫,顧名思義就是把語音轉換成文本node
在實際的應用場景中,能夠是講演轉文稿,能夠是在IM工具交流,等等等等git
能夠說,這項技術的出現,極大的解放了生產力,提升了工做、溝通效率github
今天這裏拿出一個實例,你們一塊兒看一看在這個應用場景中語音轉文本所帶來的便利web
對於記者朋友來講,一場發佈會後整理出文字稿件永遠是第一主題api
在之前,他須要在現場錄製音頻,回到單位後一句一句聽寫,純人工轉寫,隨後再一次造成報道工具
那麼如今,他能夠在現場直接調用服務,實時把語音轉換爲文字。回到辦公室,他能夠根據文稿直接造成報道.net
也或者他依舊用錄音筆錄制了現場的錄音,在回辦公室的路上,他把音頻文件經過軟件轉換到了文本稿件,一樣的,回到辦公室,他只須要根據文稿造成報道接口
瞭解了這樣的案例,今天要介紹的主角就能夠閃亮登場了開發
IBM Watson!文檔
你可能覺得它只是一個簡單的語音轉文本的服務(接口),其實,它是一個標準的計算機認知系統!
讓咱們把時間退回到2011年,當時有這樣一則報道
「2011年,Watson 在美國最受歡迎的智力問答電視節目《危險邊緣》(Jeopardy)中亮相,一舉戰勝了人類智力競賽冠軍。現在,Watson 已經發展爲一個商業化、基於雲的認知系統,應用到各行各業中,逐漸讓咱們的生活變得更美好。」
在這樣強大的基礎之上,今天咱們須要用到的是它的語音識別服務Speech to Text
首先做爲通常使用者,你們可能最基礎的使用環境就是剛剛案例中提到的那樣,那麼,IBM團隊已經爲你們提供了一個免費的能夠當即使用的web端語言轉文本程序
https://speech-to-text-demo.mybluemix.net/(若是你那邊打不開,請用力!用力!我是說攀高兒過牆你懂的)
首先,你們能夠看到輸入音頻的方式能夠有兩種,一個是調用設備的麥克風現場錄製,一個是上傳一個音頻文件
在這裏須要注意都是,上傳的文件支持格式爲.wav, .flac, .opus,這裏說一句題外話,咱們建議你們把本地錄製的音頻轉碼爲opus格式,由於在低碼率狀況下,opus格式的音質會更強,這意味着你能夠把你的音頻文件壓制的更加小巧而不會過多的損失音質更不會爲此下降了IBM Watson的識別能力
其次你們在抓圖中可能已經注意到,有一個識別模式的下拉選項,當前顯示爲英語。那麼除了英語,讓咱們來看一下它還支持什麼語言
清晰、一目瞭然,高亮選選擇的就是你們的母語,普通話
那麼咱們能夠試一下剛剛提到的兩種錄入方式,其中之一是上傳已經錄製好的音頻文件
其次咱們還能夠直接實時錄製語言轉換爲文字
這個語音轉文本的簡單演示大概就是這樣。固然,做爲開發者,你必定不知足於上邊的演示demo,你能夠免費註冊Bluemix服務,在該服務中內嵌了Speech to Text 服務,你可以輕鬆的經過強大的接口和完整的文檔來構建本身的應用,把Speech to Text部署到你本身的應用場景中
好了,讓咱們憧憬一下將來,更加便捷更增強大的服務在不斷的出現,今天的夢想,明天的平常。