【百度AI語音合成】會員到訪門店語音提醒

時間 2020-01-12

標籤百度AI語音合成會員到訪門店語音提醒简体版

原文原文鏈接

每次會員到訪都須要。會員自主結帳或找導購才能被發現。或者須要一我的員站在門口，而且對會員都所有了解，才能對會員到訪進行更好服務的接待。前端

小帥爲了免去這些操做呢。就想到了百度AI。語音合成。再結合第三方的人臉庫會員到訪推送。作了一個簡單的會員到訪語音提醒推送小工程。java

下面咱們就一塊兒看一下總體流程吧~ios

實現步驟

Step1:成爲百度AI開放平臺的開發者

咱們有帳號以後登陸，而且點擊此處(百度語音)建立一個應用，以下圖spring

而後就能看到建立完的應用和 APPID、API KEY 以及 Secret KEY了json

Step2:準備數據

語音合成是將文本轉換爲能夠播放的音頻文件的服務，咱們從大姚的訂單庫中找一段訂單信息的文本以下：後端

三分鐘前，由北京市順義區二經路與二緯路交匯處北側，北京首都國際機場T3航站樓去往東城區北三環東路36號喜來登大酒店(北京金隅店)服務器

Step3: 編寫一個語音合成示例程序

有 第一步 的 API KEY 以及 Secret KEY，以及 第二步 的數據，咱們就能夠寫一個示例代碼調用百度AI開放平臺的文字識別能力app

準備開發環境

小帥選擇用 Java來快速搭建一個原型，關於如何安裝Java。能夠參考百度經驗哦～。百度AI有很完善的API文檔、和封裝調用更方便的工具包。接下來小帥就用Maven搭建工程環境框架

pom.xml配置以下：dom

<!-- https://mvnrepository.com/artifact/com.baidu.aip/java-sdk -->
<dependency>
     <groupId>com.baidu.aip</groupId>
     <artifactId>java-sdk</artifactId>
     <version>4.12.0</version>
</dependency>

編寫代碼

粘貼如下內容，不要忘記替換你的 APPID APIKEY 以及 SECRETKEY 和 圖片文件

運行main方法便可

import com.baidu.aip.speech.AipSpeech;
import com.baidu.aip.speech.TtsResponse;
import com.baidu.aip.util.Util;
import org.json.JSONObject;

import java.util.HashMap;

public class Sample {
    //第一步建立應用獲取的三個值
    private static String APPID = "你的 App ID";
    private static String APIKEY = "你的 Api Key";
    private static String SECRETKEY = "你的 Secret Key";

    public static void main(String[] args) {
        // 初始化一個AipSpeech 
        AipSpeech client = new AipSpeech(APPID,APIKEY,SECRETKEY);
        // 調用接口 第二步準備的圖片
        HashMap<String, Object> options = new HashMap<>();
        //合成的文本內容
        String text = "三分鐘前，由北京市順義區二經路與二緯路交匯處北側，北京首都國際機場T3航站樓 去往 東城區北三環東路36號喜來登大酒店(北京金隅店)";
        //發音人選擇
        /**
         * 度小宇=1，度小美=0，度逍遙=3，度丫丫=4
         * 度博文=106，度小童=110，度小萌=111，度米朵=103，度小嬌=5
         **/
        options.put("per","0");
        //語速，取值0-9，默認爲5中語速
        options.put("spd", "3");
        TtsResponse res = client.synthesis(text , "zh", 1, options);
 byte[] data = res.getData();
        JSONObject res1 = res.getResult();
        if (data != null) {
            try {
                Util.writeBytesToFileSystem(data, "F:\\testaudio\\度小美Demooutput.mp3");
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
        if (res1 != null) {
            System.out.println(res1.toString());
        }
    }
}

保存接口返回語音byte[] 轉存爲MP3格式文件。這裏說明一下默認返回就是MP3格式的數據哦。若是想要其餘格式

//3爲mp3格式(默認)； 
//4爲pcm-16k；
//5爲pcm-8k；
//6爲wav（內容同pcm-16k）; 
//注意aue=4或者6是語音識別要求的格式，可是音頻內容不是語音識別要求的天然人發音，因此識別效果會受影響。

options.put("aue","3");

點擊訪問合成的示例MP3文件

語音合成單例加載。10次測試耗時以下(單位:ms(毫秒))。第一次須要加載一次AUTH。耗時多了一些。後續基本都持平在710ms之內

發送請求到返回數據耗時:1493
發送請求到保存文件耗時:1495

發送請求到返回數據耗時:611
發送請求到保存文件耗時:612

發送請求到返回數據耗時:609
發送請求到保存文件耗時:610

發送請求到返回數據耗時:473
發送請求到保存文件耗時:474

發送請求到返回數據耗時:549
發送請求到保存文件耗時:550

發送請求到返回數據耗時:673
發送請求到保存文件耗時:674

發送請求到返回數據耗時:754
發送請求到保存文件耗時:755

發送請求到返回數據耗時:676
發送請求到保存文件耗時:676

發送請求到返回數據耗時:582
發送請求到保存文件耗時:582

發送請求到返回數據耗時:662
發送請求到保存文件耗時:663

發送請求到返回數據平均耗時:708.2ms
發送請求到保存文件平均耗時:709.1ms

for (int i = 0; i < 10; i++) {
            // 調用接口
            String text = "三分鐘前，由北京市順義區二經路與二緯路交匯處北側，北京首都國際機場T3航站樓 去往 東城區北三環東路36號喜來登大酒店(北京金隅店)";
            HashMap<String, Object> options = new HashMap<String, Object>();
            options.put("per", "0");
            options.put("spd", "3");
            long startTime = System.currentTimeMillis();
            TtsResponse res = client.synthesis(text, "zh", 1, options);
            byte[] data = res.getData();
            if (data != null) {
                long endTime = System.currentTimeMillis();
                System.out.println("發送請求到返回數據耗時:"+(endTime - startTime));
                try {
                    Util.writeBytesToFileSystem(data, "F:\\testaudio\\度小美Demooutput.mp3");
                    long saveEndTime = System.currentTimeMillis();
                    System.out.println("發送請求到保存文件耗時:"+(saveEndTime - startTime));
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
            JSONObject res1 = res.getResult();
            if (res1 != null) {
                System.out.println(res1.toString());
            }
            System.out.println();
        }

以上數據能夠看出。平均耗時在0.7s上下。若是服務器配置賊六、帶寬也賊寬。應該耗時還會更低哦

接下來。我們就拿語音合成的服務。來結合實際業務作一個小的功能哦~

會員到訪語音提醒搞起來

簡單看一下業務流程圖。主要看語音合成、語音提醒部分便可

人臉會員識別能夠看百度AI的官方解決方案 https://ai.baidu.com/solution/faceidentify

本業務中人臉識別、攝像頭廠商暫時沒用百度AI。這一點我也很無奈。迫於公司要求呀。若是再來一次選擇。絕對強制提議選擇百度AI(怕太便宜而了結你懂得)

接口調用封裝，並符合業務系統使用

簡單說明一下：

案例中Java後端部分總體使用SpringBoot框架 JDK1.8

1.會員人臉照片信息上傳這一步小帥設計的是定時任務去執行語音信息並進行合成操做。因此須要對Java的定時任務、任務調度有必定了解哦

2.定時任務就是對人臉會員信息讀取並進行會員到訪語音提示音頻文件合成

會員信息採集

會員到訪提示音發音類型默認度米多。也能夠根據會員不一樣給不一樣的發音類型哦~

後端會員人臉信息處理

/**
  * 會員人臉信息添加
  * @param csFace
  * @return
  */
 @AutoLog(value = "會員人臉信息添加")
 @ApiOperation(value="會員人臉信息添加", notes="會員人臉信息添加")
 @PostMapping(value = "/add")
 public Result<CsFace> add(@RequestBody CsFace csFace) {
	 Result<CsFace> result = new Result<CsFace>();
	 csFaceGroup group = new csFaceGroup();
	 try {
                 //這裏存人臉信息到人臉庫就不演示了。人臉庫存入成功後業務系統再記錄
		 csFaceService.save(csFace);
                 //把會員人臉信息提交給JOB等待後續執行。方便前端頁面交互不等待
                 //人臉會員信息只是在一個JobFace類中增長一個List容器 public static List<CsFace> vipFaceMap=new ArrayList<CsFace>();
		 JobFace.vipFaceMap.add(csFace);
		 result.success("添加成功！");
	 } catch (Exception e) {
		 log.info(e.getMessage());
		 result.error500("操做失敗-人臉服務存在異常");
	 }
	 return result;
 }

會員到訪定製提示音頻合成定時任務

import cn.hutool.core.date.DatePattern;
import cn.hutool.core.date.DateUtil;
import cn.netand.common.factory.BDFactory;
import cn.netand.modules.csface.entity.CsFace;
import cn.netand.modules.csface.service.ICsFaceService;
import com.baidu.aip.speech.AipSpeech;
import com.baidu.aip.speech.TtsResponse;
import com.baidu.aip.util.Util;
import lombok.extern.slf4j.Slf4j;
import org.quartz.Job;
import org.quartz.JobExecutionContext;
import org.quartz.JobExecutionException;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.beans.factory.annotation.Value;

import java.io.File;
import java.text.SimpleDateFormat;
import java.util.Arrays;
import java.util.Date;
import java.util.HashMap;
import java.util.List;

/**
 * @Description 人臉會員音頻生成
 * @author 小帥丶
 * @className VipVoiceJob 
 * @Date 2019/11/20 22:11
 **/
@Slf4j
public class VipVoiceJob implements Job {
    @Value(value = "${xiaoshuai.path.upload}")
    private String uploadpath;
    @Autowired
    private GeneralDealBeanUtil generalDealBeanUtil;
    @Autowired
    private ICsFaceService csFaceService;
    //獲取音頻合成的客戶端
    AipSpeech aipSpeech = BDFactory.getAipSpeech();
    @Value(value = "${xiaoshuai.domainVoice}")
    private String domainVoice;

    /**
     * 度小宇=1，度小美=0，度逍遙=3，度丫丫=4
     * 度博文=106，度小童=110，度小萌=111，度米朵=103，度小嬌=5
     **/
    private static final List<String> audioType = Arrays.asList("1","0","3","4","106","110","111","103","5");
    private static final String LANGUAGE_ZH = "zh";
    private static final Integer CTP = 1;
    private static final String AUDIO = ".mp3";
    //任務執行詳情
    @Override
    public void execute(JobExecutionContext jobExecutionContext) throws JobExecutionException {
        System.out.println("execute VipVoiceJob = " + DateUtil.format(new Date(), DatePattern.NORM_DATETIME_PATTERN));
        List<CsFace> vipFaceMap = JobFace.vipFaceMap;
        int vipFaceSize = vipFaceMap.size();
        if(vipFaceSize>0){
            vipFaceMap.forEach(csFace -> {
                //獲取會員信息
                try {
                    generalAudio(csFace);
                    csFace.setVoiceStatus(1);
                    csFaceService.updateById(csFace);
                }catch (Exception e){
                    System.out.println(e.getMessage());
                    csFace.setVoiceStatus(2);
                    csFaceService.updateById(csFace);
                }
            });
            JobFace.vipFaceMap.clear();
        }
    }
    /**
     * @Description 生成所有音庫音頻文件
     * @Author 小帥丶
     * @Date  2019/11/20 23:28
     * @param face 會員人臉數據
     * @return void
     **/
    public void generalAudio(CsFace face){
        String ctxPath = uploadpath;
        String bizPath = "audios";
        File file = new File(ctxPath + File.separator + bizPath + File.separator + face.getId());
        if (!file.exists()) {
            file.mkdirs();// 建立文件根目錄
        }
        long startTime = System.currentTimeMillis();
        audioType.forEach(audioTypeStr->{
            HashMap<String, Object> options = new HashMap<>();
            //合成的文本內容
            String text = "XX門店提醒 "+face.getName()+" 會員到訪";
           //發音人選擇
           options.put("per",audioTypeStr);
           //語速，取值0-9，默認爲5中語速
           options.put("spd", "3");
           String fileName = audioTypeStr+AUDIO;
           TtsResponse response = aipSpeech.synthesis(text,LANGUAGE_ZH,CTP,options);
            byte[] data = response.getData();
            if (data != null) {
                try {
                    String savePath = file.getPath() + File.separator +fileName;
                    String filePath = bizPath + File.separator + face.getId() + File.separator + fileName;
                    if(null!=face.getVoiceType()&&face.getVoiceType().equals(Integer.parseInt(audioTypeStr))){
                        filePath = filePath.replace("\\", "/");
                        face.setVoicePath(filePath);
                        face.setVoiceUrl(domainVoice+filePath);
                    }
                    Util.writeBytesToFileSystem(data, savePath);
                } catch (Exception e) {
                   System.out.println(e.getMessage());
                }
            }
        });
        long endTime = System.currentTimeMillis();
        System.out.println("總耗時 = " + (endTime - startTime) + "ms");
    }
}

添加一條定時任務

這裏是5秒執行一次。其實能夠根據自我需求來定義。定時任務形式也不是必須。

會員音頻提示文件生成

數字表明的是發音類型。每添加一個會員。則會生成全部發音類型的音頻文件哦。方便後續給每一個到訪會員給定不一樣聲音的提醒

會員到訪APP推送

非百度AI人臉會員解決方案哦~ 不要問爲何不用百度AI的。上面已經給出說明了。

1.攝像頭抓怕推送到人臉庫系統

2.人臉庫系統對比並推送結果到內部業務系統

3.內部業務系統|人臉庫系統推送給APP(小帥使用前者)

下圖是一個gif。會演示app收到推送彈窗並播放語音提醒。

帶聲音的訪問 https://mp.weixin.qq.com/s/qL57AxdS4r5zlDzM57z2CQ

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。