用百度大脑技术让AI做回新闻主播！

实现效果：

利用百度新闻摘要能力和微信小程序，快速抽取新闻摘要内容并进行语音播报，让AI做回新闻主播！本文主要介绍小程序功能开发实现过程，分享主要功能实现的子程序模块，都是干货哦！！

想了解python3下的技能调用，请参看我之前的帖子：《AI新闻主播为您读报》

https://ai.baidu.com/forum/topic/show/953193

1 系统框架

这里用到的主要技术有：百度通用文字识别、语音合成、新闻摘要和微信小程序。小程序通过对上传新闻照片进行文字识别，将新闻内容由图片转换成文字，然后通过新闻摘要能力提取核心内容摘要，并将新闻摘要内容利用语音合成朗读出来。非常适合带上老花镜也看不见字的老年人，拍张照片就能将报纸内容转换成声音，听就完了。

2 调用通用文字识别API

2.1在控制台创建应用，调用通用文字识别API，“获取API Key/Secret Key”。

接口文档地址：https://ai.baidu.com/docs#/OCR-API/e1bd77f3

请求URL: https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic

2.2 程序实现

ocrRequest:function  (base64Img, callback) {

  //拼接接口body参数

  var params = {

    image: base64Img

  }

  //发送接口请求

  wx.request({

    url: ocrUrl + ‘?access_token=‘ + accessToken,

    data: params,

    header: {

      ‘content-type‘: ‘application/x-www-form-urlencoded‘

    },

    method: ‘POST‘,

    success: function (res) {

      callback.success(res.data)

      console.log("request okr", res);

    },

    fail: function (res) {

      if (callback.fail)

        callback.fail()

    }

  })

}

3 调用新闻摘要API

3.1 在控制台创建应用，调用新闻摘要API，“获取API Key/Secret Key”。

（1）接口文档地址：https://ai.baidu.com/docs#/NLP-Apply-API/c3df5fbc

（2）请求URL: https://aip.baidubce.com/rpc/2.0/nlp/v1/news_summary

Body中放置请求参数，参数详情如下：

body整体文本内容可以支持GBK和UTF-8两种格式的编码，这里选择GBK编码。

GBK支持：默认按GBK进行编码，输入内容为GBK编码，输出内容为GBK编码，否则会接口报错编码错误；

UTF-8支持：若文本需要使用UTF-8编码，请在url参数中添加charset=UTF-8 （大小写敏感）例如：https://aip.baidubce.com/rpc/2.0/nlp/v1/lexer?charset=UTF-8&access_token=24.f9ba9c5241b67688bb4adbed8bc91dec.2592000.1485570332.282335-8574074。

（3）返回参数

默认返回内容为GBK编码；

若用户指定输入为UTF-8编码（通过指定charset参数），则返回内容为UTF-8编码。

3.2 程序实现

NewsRequest: function (corpus, arg) { // corpus是要发送的对话；arg是回调方法

    var that = this;

    console.log("[Console log]:corpus:" + corpus);

    var api = "nli";

    var timestamp = new Date().getTime();

    var rqJson = {

      "title": "新闻摘要",

      "content": corpus,

      "max_summary_len": 200

    };

    var rq0 = JSON.stringify(rqJson);

    console.log("[Console log]:rq0:" + rq0);  

    var nliUrl = that.globalData.NLPUrl;

    console.log("[Console log]:NewsRequest(),URL:" + nliUrl);

    wx.request({

      url: nliUrl,

      data: rq0,

      header: { ‘content-type‘: ‘application/json‘ },

      method: ‘POST‘,

      success: function (res) {

        var resData = res.data.summary;

        var t0 = decodeURI(resData);

        console.log("[Console log]:NewsRequest() success...");

        console.log("[Console log]:Result:");

        console.log("[Console log]:t0:" + t0);

        var nli = JSON.stringify(resData);

        console.log("[Console log]:nli:" + nli);

        // 回调函数，解析数据

        typeof arg.success == "function" && arg.success(nli);

      },

      fail: function (res) {

        console.log("[Console log]:NewsRequest() failed...");

        console.error("[Console log]:Error Message:" + res.errMsg);

        typeof arg.fail == "function" && arg.fail();

      },

      complete: function () {

        console.log("[Console log]:NewsRequest() complete...");

        typeof arg.complete == "function" && arg.complete();

      }

    })

  },

4 调用语音合成API

4.1 在控制台创建应用，调用语音合成API，“获取API Key/Secret Key”。

（1）接口文档地址：https://ai.baidu.com/docs#/TTS-API/top

（2）请求URL: https://tsn.baidu.com/text2audio

将文本以及其他参数写入到body里面，利用html表单的方式将参数传递到服务端。所有的参数都在body中。body里面的数据为：

tex=***&lan=zh&cuid=***&ctp=1&aue=3&tok=***

（3）返回参数

需要根据 Content-Type的头部来确定是否服务端合成成功。

如果合成成功，返回的Content-Type以“audio”开头，例如：

aue =3 ，返回为二进制mp3文件，具体header信息 Content-Type: audio/mp3；

4.2 程序实现

// 语音合成
  tts: function (e) {
    console.log("[Console log]tts:" + e);
    var tex = encodeURI(e);//转换编码url_encode UTF8编码
    var tok = "填入获得的token";
    var cuid = app.globalData.NLPCusid;
    var ctp = 1;
    var lan = "zh";    // zh表示中文
    // 字符编码
    var spd = 5;  // 表示朗读的语速，9代表最快，1是最慢
    var url = "https://tsn.baidu.com/text2audio?tex=" + tex + "&lan=" + lan + "&cuid=" + cuid + "&ctp=" + ctp + "&tok=" + tok + "&spd=" + spd
    wx.downloadFile({
      url: url,
      success: function (res) {
        console.log(res)
        filePath = res.tempFilePath;

        if (res.statusCode === 200) {
          //小程序自身录音，用playVoice播放不了，要用innerAudioContext
          var filepath = res.tempFilePath;
          console.log(filepath);
          const innerAudioContext = wx.createInnerAudioContext();
          innerAudioContext.src = filepath;
          innerAudioContext.onPlay(() => {
            console.log(‘开始播放‘)
          });
          innerAudioContext.onError((res) => {
            console.log(res.errMsg)
            console.log(res.errCode)
          });
          innerAudioContext.play();
        }
      }
    })
  },

5 欢迎扫码测试

作者：wangwei8638

原文地址：https://www.cnblogs.com/AIBOOM/p/11502856.html

时间： 2024-10-09 01:10:22

用百度大脑技术让AI做回新闻主播！的相关文章

百度强势入场，AI们集体打 call：揭秘百度智能客服背后的语音技术与应用

两年前的今天,AI流行下围棋:今天,AI流行打电话-- 这个潮流的最近一次上演,是几天前的百度AI开发者大会上,李彦宏现场播放了百度AI客服邀请开发者的真实电话录音. 当时我就在现场,第一通电话里那位开发者方言比较重,到底说了什么我基本没听懂.但百度的AI却应对自如,在电话中回答了各种问题. 第二通电话更神了,那位女开发者发现了小度的AI身份,直接问百度给ta发钱吗,结果被小度用一句"百度给我免费充电",巧妙的"回撩"了过去. 在众人的惊叹中,我们很容易发现让AI打

浮出雾海的真实：从ET大脑到产业AI

最近我们一直在探讨这样一个问题:为什么AI飞速发展,普通人还是觉得距离AI非常遥远? 实际上,推而广之这可能不单单是媒体和技术爱好者的疑问.上升到更大的国家与社会经济层面,对真实可用.能快速见到实效的AI需求已经十分迫切. 从"新一代人工智能"政策出台,到国家AI创新开放平台公布首批名单,再到近期工信部发布三年规划,可以看到政策层面一直在将AI向实用化.产业化.融合化方向推进.换言之,如何让浮在实验室与测试数据中的AI技术,走到现实世界和我们的生活当中,显然已经足够急迫了. 今天很多媒

PaddlePaddle应用于百度视觉技术的工程实践

深度学习的出现,某种程度上改变了我们对计算机视觉的定义.而PaddlePaddle是百度开源的深度学习框架,它是如何支持百度视觉技术,有哪些工程实践,这篇文章将由百度视觉技术部主任研发架构师刘国翌为大家解答. 以下为刘国翌老师演讲实录百度AI视觉能力百度内部大规模应用计算机视觉的技术分为四个方面,第一是图像识别,包含图像分类.文字识别.人脸识别等.第二是图像检索,包含图文.相同图片.相似图片和商品图片检索.第三是视频理解,主要涉及视频分类.目标追踪.人体姿态跟踪,应用在商业.监控.安全.新零

【碎碎念】百度前端技术学院春季班

早上迷迷糊糊被读研阶段的室友的微信叫醒了,邀约组队参加百度前端技术学院春季班(http://ife.baidu.com/),前室友在前端方面还是有一定造诣的,自己本身对前端开发又有一定兴趣,因此准备组团参与下. 想想我的技能树长得确实有点奇葩,最早是做嵌入式的,做了三个月点唱机跑去做产品和实施,跑完了大半个福州高校做某系统推广与实施后觉得做开发的童鞋的Bug有点多就边实施边改代码,久而久之就慢慢转向了开发,想想读研阶段白天上班写C#晚上下班写实验室的Java横向项目的经验也是蛮奇葩的,导致现在我

投资人的能量往往大多远远不仅于此，他能站在不同的角度和高度看问题（要早点拿投资，要舍得让出股份）——最好不要让 Leader 一边做技术、一边做管理，人的能力是有限的，精力也是有限的

摘要:在创业三年时间里作为联合创始人,虽然拿着大家均等的股份,我始终是没有什么话语权的,但是,这也给了我从旁观者的角度看清整个局面的机会.创业公司的成败绝大程度取决于技术大牛和公司 Leader,这两个人最好能在性格上形成互补,而遗憾的是我们公司是同一人. 关于决定是否创业 2012年4月,正好三年前整,在深圳能源正混的郁郁不得志的时候,大学的好兄弟找到我一起创业,他们有钱.有 idea,就是差人,当时的我还是技术菜鸟,本科学的也不是计算机,看着移动互联网蓬勃的发展羡慕不已.很快就答应了一起

百度前端技术学院—-小薇学院(HTML+CSS课程任务)

任务一:零基础HTML编码课程概述作业提交截止时间:04-24 重要说明百度前端技术学院的课程任务是由百度前端工程师专为对前端不同掌握程度的同学设计.我们尽力保证课程内容的质量以及学习难度的合理性,但即使如此,真正决定课程效果的,还是你的每一次思考和实践. 课程多数题目的解决方案都不是唯一的,这和我们在实际工作中的情况也是一致的.因此,我们的要求不仅仅是实现设计稿的效果,更是要多去思考不同的解决方案,评估不同方案的优劣,然后使用在该场景下最优雅的方式去实现.那些最终没有被我们采纳的方案,同

百度地图技术大揭秘

在优亿开放日上,我们邀请过众多产品.运营方面的专家,但是工程师可能比较少一点,这次的活动,我们很高兴请到了百度地图高级研发工程师游东.游东具有四年以上的地图和导航开发经验,目前主要负责百度地图的SDK研发工作.在技术和开发上肯定是亲临第一线的高手. 我们整理了游东先生的演讲,希望给广大开发者提供实实在在的帮助. 一.百度地图介绍:高端手机实现陀螺仪导航我们可以看到百度这一块对SDK重视还是比较大,我们的迭代版本速度也是比较快.一般来说一个小版本是一个月左右,如果大版本升级可能三个月左右的时间.

百度大脑UNIT3.0详解之数据生产工具DataKit

在智能对话项目搭建的过程中,高效筛选.处理对话日志并将其转化为新的训练数据,是对话系统效果持续提升的重要环节,也是当前开发者面临的难题之一.为此百度大脑UNIT推出学习反馈闭环机制,提供数据获取.辅助标注工具DataKit,帮助企业提升数据处理效率. [快速了解什么是DataKit] DataKit是面向开发者提供的数据生产工具集,可以利用交互式学习.规则样本生成和多模型一致性检验等技术方法自动获取大量数据,并从中筛选出带标注.半标注和无标注3类样本,这些样本经过高效的预处理后形成新的训练数据,

百度前端技术学院任务-01

这两天发现了一个很不错的学习前端的地方:百度前端技术学院. 里面有不同类型的任务,任务之间的难度是递增的,很适合作为练习. 下面是任务-01的代码(并没有涉及到CSS): <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>百度前端技术学院任务-01</title> </head> <bod