再探Watson服務

再探Watson服務

基於上個系列的關於Watson的介紹。我在這個系列會對Watson進行更深一步的探究和使用,主要使用文本語音轉換,天然語言分析,文本分類這幾個服務作一個簡單的人機交互系統,初步目標是相似像siri那樣。
本文地址:https://segmentfault.com/a/11...html

一. 基本服務簡介

1.1 speech to text(語音文本轉換)

speech to text 能夠爲你的應用提供語音文本轉錄的能力。對非結構化信息的處理是Watson很是吸引人的地方,也使得他在衆多人工智能服務中脫穎而出。於是,Watson對語音文字轉化能夠達到較高的可信度。json

1.1.1 應用場景

1.能夠經過語音進行控制的應用,包括一些嵌入式設備,好比無人車,智能家電等。
2.視頻或者語音電話會議。
3.一些經過語音能夠進行的操做(用以解放雙手),好比口述短信或郵件內容。segmentfault

1.1.2 使用及方法

接口調用api

該服務能夠經過三種方法實現調用,經過WebSocket接口,或者REST接口,或者是異步HTTP接口。session

  • WebSocket接口
    該方法提供了有效的,低延遲,高通量的全雙工鏈接,是最好的調用方式,能夠同時發送並獲取結果。curl

  • REST接口
    只需創建一次鏈接,便可上傳音頻文件用以分析。該方法的優勢是簡單上手,但在實際應用中須要處理實時數據就顯得不那麼有用了。異步

  • 異步HTTP接口
    經過非阻塞的方式調用服務,而且容許你使用用戶指定的祕密字符串或是數字簽名以肯定加密級別。工具

輸入優化

儘管使用三種不一樣的調用接口,可是三種方式共享相同的調用參數,只須要修改請求頭的部分便可。人工智能

  • 認證

  • 音頻格式

  • 使用的語言(默認)

  • 自定義語言

更詳細的文檔見API輸入參數說明

輸出

輸出以json格式返回,它將包括如下幾方面內容:

  • 基礎翻譯

  • 說話者識別

  • 關鍵詞識別

  • 詞或句的可選擇性

  • 優化輸出格式(針對日期,數字,網址等)

我會在這篇文章中舉例說明具體如何使用。

1.2 text to speech(文本語音化)

speech to text使用IBM語音合成技術,將文本內容語音化輸出。

1.2.1 應用場景

在一些由語音控制或者屏幕控制接口缺乏(不存在)的應用場景下,該服務大有用武之地。一般包括:

  1. 智能家居

  2. 視覺障礙輔助工具

  3. 智能汽車中向駕駛員朗讀郵件和短信

  4. 視頻字幕朗讀

  5. 基於朗誦的教育工具

1.2.2 使用及方法

接口調用

經過HTTP接口或者WebSocket接口,這和speech2text是同樣的。

合成語音

HTTP GET方法,經過查詢參數傳遞較短文本。

HTTP POST方法,在請求體中傳遞較長文本。

WebSockets

相關文章
相關標籤/搜索