每次會員到訪都須要。會員自主結帳或找導購才能被發現。或者須要一我的員站在門口,而且對會員都所有了解,才能對會員到訪進行更好服務的接待。前端
小帥爲了免去這些操做呢。就想到了百度AI。語音合成。再結合第三方的人臉庫會員到訪推送。作了一個簡單的會員到訪語音提醒推送小工程。java
下面咱們就一塊兒看一下總體流程吧~ios
咱們有帳號以後登陸,而且點擊此處(百度語音)建立一個應用,以下圖spring
而後就能看到建立完的應用和 APPID、API KEY 以及 Secret KEY了json
語音合成是將文本轉換爲能夠播放的音頻文件的服務,咱們從大姚的訂單庫中找一段訂單信息的文本以下:後端
三分鐘前,由北京市順義區二經路與二緯路交匯處北側,北京首都國際機場T3航站樓 去往 東城區北三環東路36號喜來登大酒店(北京金隅店)服務器
有 第一步 的 API KEY 以及 Secret KEY,以及 第二步 的數據,咱們就能夠寫一個示例代碼調用百度AI開放平臺的文字識別能力app
小帥選擇用 Java來快速搭建一個原型,關於如何安裝Java。能夠參考百度經驗哦~。百度AI有很完善的API文檔、和封裝調用更方便的工具包。接下來小帥就用Maven搭建工程環境框架
pom.xml配置以下:dom
<!-- https://mvnrepository.com/artifact/com.baidu.aip/java-sdk --> <dependency> <groupId>com.baidu.aip</groupId> <artifactId>java-sdk</artifactId> <version>4.12.0</version> </dependency>
粘貼如下內容,不要忘記替換你的 APPID APIKEY 以及 SECRETKEY 和 圖片文件
運行main方法便可
import com.baidu.aip.speech.AipSpeech; import com.baidu.aip.speech.TtsResponse; import com.baidu.aip.util.Util; import org.json.JSONObject; import java.util.HashMap; public class Sample { //第一步建立應用獲取的三個值 private static String APPID = "你的 App ID"; private static String APIKEY = "你的 Api Key"; private static String SECRETKEY = "你的 Secret Key"; public static void main(String[] args) { // 初始化一個AipSpeech AipSpeech client = new AipSpeech(APPID,APIKEY,SECRETKEY); // 調用接口 第二步準備的圖片 HashMap<String, Object> options = new HashMap<>(); //合成的文本內容 String text = "三分鐘前,由北京市順義區二經路與二緯路交匯處北側,北京首都國際機場T3航站樓 去往 東城區北三環東路36號喜來登大酒店(北京金隅店)"; //發音人選擇 /** * 度小宇=1,度小美=0,度逍遙=3,度丫丫=4 * 度博文=106,度小童=110,度小萌=111,度米朵=103,度小嬌=5 **/ options.put("per","0"); //語速,取值0-9,默認爲5中語速 options.put("spd", "3"); TtsResponse res = client.synthesis(text , "zh", 1, options); byte[] data = res.getData(); JSONObject res1 = res.getResult(); if (data != null) { try { Util.writeBytesToFileSystem(data, "F:\\testaudio\\度小美Demooutput.mp3"); } catch (IOException e) { e.printStackTrace(); } } if (res1 != null) { System.out.println(res1.toString()); } } }
保存接口返回語音byte[] 轉存爲MP3格式文件。這裏說明一下默認返回就是MP3格式的數據哦。若是想要其餘格式
//3爲mp3格式(默認); //4爲pcm-16k; //5爲pcm-8k; //6爲wav(內容同pcm-16k); //注意aue=4或者6是語音識別要求的格式,可是音頻內容不是語音識別要求的天然人發音,因此識別效果會受影響。 options.put("aue","3");
語音合成 單例加載。10次測試耗時以下(單位:ms(毫秒))。第一次須要加載一次AUTH。耗時多了一些。後續基本都持平在710ms之內
發送請求到返回數據耗時:1493 發送請求到保存文件耗時:1495 發送請求到返回數據耗時:611 發送請求到保存文件耗時:612 發送請求到返回數據耗時:609 發送請求到保存文件耗時:610 發送請求到返回數據耗時:473 發送請求到保存文件耗時:474 發送請求到返回數據耗時:549 發送請求到保存文件耗時:550 發送請求到返回數據耗時:673 發送請求到保存文件耗時:674 發送請求到返回數據耗時:754 發送請求到保存文件耗時:755 發送請求到返回數據耗時:676 發送請求到保存文件耗時:676 發送請求到返回數據耗時:582 發送請求到保存文件耗時:582 發送請求到返回數據耗時:662 發送請求到保存文件耗時:663 發送請求到返回數據平均耗時:708.2ms 發送請求到保存文件平均耗時:709.1ms
for (int i = 0; i < 10; i++) { // 調用接口 String text = "三分鐘前,由北京市順義區二經路與二緯路交匯處北側,北京首都國際機場T3航站樓 去往 東城區北三環東路36號喜來登大酒店(北京金隅店)"; HashMap<String, Object> options = new HashMap<String, Object>(); options.put("per", "0"); options.put("spd", "3"); long startTime = System.currentTimeMillis(); TtsResponse res = client.synthesis(text, "zh", 1, options); byte[] data = res.getData(); if (data != null) { long endTime = System.currentTimeMillis(); System.out.println("發送請求到返回數據耗時:"+(endTime - startTime)); try { Util.writeBytesToFileSystem(data, "F:\\testaudio\\度小美Demooutput.mp3"); long saveEndTime = System.currentTimeMillis(); System.out.println("發送請求到保存文件耗時:"+(saveEndTime - startTime)); } catch (IOException e) { e.printStackTrace(); } } JSONObject res1 = res.getResult(); if (res1 != null) { System.out.println(res1.toString()); } System.out.println(); }
以上數據能夠看出。平均耗時在0.7s上下。若是服務器配置賊六、帶寬也賊寬。應該耗時還會更低哦
接下來。我們就拿語音合成的服務。來結合實際業務作一個小的功能哦~
簡單看一下業務流程圖。主要看語音合成、語音提醒部分便可
人臉會員識別能夠看百度AI的官方解決方案 https://ai.baidu.com/solution/faceidentify
本業務中人臉識別、攝像頭廠商暫時沒用百度AI。這一點我也很無奈。迫於公司要求呀。若是再來一次選擇。絕對強制提議選擇百度AI(怕太便宜而了結 你懂得)
接口調用封裝,並符合業務系統使用
簡單說明一下:
案例中Java後端部分總體使用SpringBoot框架 JDK1.8
1.會員人臉照片信息上傳這一步小帥設計的是定時任務去執行語音信息並進行合成操做。因此須要對Java的定時任務、任務調度有必定了解哦
2.定時任務就是對人臉會員信息讀取並進行會員到訪語音提示音頻文件合成
會員信息採集
會員到訪提示音發音類型默認 度米多。也能夠根據會員不一樣給不一樣的發音類型哦~
/** * 會員人臉信息添加 * @param csFace * @return */ @AutoLog(value = "會員人臉信息添加") @ApiOperation(value="會員人臉信息添加", notes="會員人臉信息添加") @PostMapping(value = "/add") public Result<CsFace> add(@RequestBody CsFace csFace) { Result<CsFace> result = new Result<CsFace>(); csFaceGroup group = new csFaceGroup(); try { //這裏存人臉信息到人臉庫就不演示了。人臉庫存入成功後業務系統再記錄 csFaceService.save(csFace); //把會員人臉信息提交給JOB等待後續執行。方便前端頁面交互不等待 //人臉會員信息只是在一個JobFace類中增長一個List容器 public static List<CsFace> vipFaceMap=new ArrayList<CsFace>(); JobFace.vipFaceMap.add(csFace); result.success("添加成功!"); } catch (Exception e) { log.info(e.getMessage()); result.error500("操做失敗-人臉服務存在異常"); } return result; }
import cn.hutool.core.date.DatePattern; import cn.hutool.core.date.DateUtil; import cn.netand.common.factory.BDFactory; import cn.netand.modules.csface.entity.CsFace; import cn.netand.modules.csface.service.ICsFaceService; import com.baidu.aip.speech.AipSpeech; import com.baidu.aip.speech.TtsResponse; import com.baidu.aip.util.Util; import lombok.extern.slf4j.Slf4j; import org.quartz.Job; import org.quartz.JobExecutionContext; import org.quartz.JobExecutionException; import org.springframework.beans.factory.annotation.Autowired; import org.springframework.beans.factory.annotation.Value; import java.io.File; import java.text.SimpleDateFormat; import java.util.Arrays; import java.util.Date; import java.util.HashMap; import java.util.List; /** * @Description 人臉會員音頻生成 * @author 小帥丶 * @className VipVoiceJob * @Date 2019/11/20 22:11 **/ @Slf4j public class VipVoiceJob implements Job { @Value(value = "${xiaoshuai.path.upload}") private String uploadpath; @Autowired private GeneralDealBeanUtil generalDealBeanUtil; @Autowired private ICsFaceService csFaceService; //獲取音頻合成的客戶端 AipSpeech aipSpeech = BDFactory.getAipSpeech(); @Value(value = "${xiaoshuai.domainVoice}") private String domainVoice; /** * 度小宇=1,度小美=0,度逍遙=3,度丫丫=4 * 度博文=106,度小童=110,度小萌=111,度米朵=103,度小嬌=5 **/ private static final List<String> audioType = Arrays.asList("1","0","3","4","106","110","111","103","5"); private static final String LANGUAGE_ZH = "zh"; private static final Integer CTP = 1; private static final String AUDIO = ".mp3"; //任務執行詳情 @Override public void execute(JobExecutionContext jobExecutionContext) throws JobExecutionException { System.out.println("execute VipVoiceJob = " + DateUtil.format(new Date(), DatePattern.NORM_DATETIME_PATTERN)); List<CsFace> vipFaceMap = JobFace.vipFaceMap; int vipFaceSize = vipFaceMap.size(); if(vipFaceSize>0){ vipFaceMap.forEach(csFace -> { //獲取會員信息 try { generalAudio(csFace); csFace.setVoiceStatus(1); csFaceService.updateById(csFace); }catch (Exception e){ System.out.println(e.getMessage()); csFace.setVoiceStatus(2); csFaceService.updateById(csFace); } }); JobFace.vipFaceMap.clear(); } } /** * @Description 生成所有音庫音頻文件 * @Author 小帥丶 * @Date 2019/11/20 23:28 * @param face 會員人臉數據 * @return void **/ public void generalAudio(CsFace face){ String ctxPath = uploadpath; String bizPath = "audios"; File file = new File(ctxPath + File.separator + bizPath + File.separator + face.getId()); if (!file.exists()) { file.mkdirs();// 建立文件根目錄 } long startTime = System.currentTimeMillis(); audioType.forEach(audioTypeStr->{ HashMap<String, Object> options = new HashMap<>(); //合成的文本內容 String text = "XX門店提醒 "+face.getName()+" 會員到訪"; //發音人選擇 options.put("per",audioTypeStr); //語速,取值0-9,默認爲5中語速 options.put("spd", "3"); String fileName = audioTypeStr+AUDIO; TtsResponse response = aipSpeech.synthesis(text,LANGUAGE_ZH,CTP,options); byte[] data = response.getData(); if (data != null) { try { String savePath = file.getPath() + File.separator +fileName; String filePath = bizPath + File.separator + face.getId() + File.separator + fileName; if(null!=face.getVoiceType()&&face.getVoiceType().equals(Integer.parseInt(audioTypeStr))){ filePath = filePath.replace("\\", "/"); face.setVoicePath(filePath); face.setVoiceUrl(domainVoice+filePath); } Util.writeBytesToFileSystem(data, savePath); } catch (Exception e) { System.out.println(e.getMessage()); } } }); long endTime = System.currentTimeMillis(); System.out.println("總耗時 = " + (endTime - startTime) + "ms"); } }
這裏是5秒執行一次。其實能夠根據自我需求來定義。定時任務形式也不是必須。
數字表明的是發音類型。每添加一個會員。則會生成全部發音類型的音頻文件哦。方便後續給每一個到訪會員給定不一樣聲音的提醒
會員到訪APP推送
非百度AI人臉會員解決方案哦~ 不要問爲何不用百度AI的。上面已經給出說明了。
1.攝像頭抓怕推送到人臉庫系統
2.人臉庫系統對比並推送結果到內部業務系統
3.內部業務系統|人臉庫系統推送給APP(小帥使用前者)
下圖是一個gif。會演示app收到推送彈窗並播放語音提醒。