产品功能 产品优势 应用场景

产品功能

  • 语音识别

    将录音文档或者实时音频流转成文本。
    提供录音文档识别、实时语音识别、一句话识别服务,RESTful API/MRCP 等多样化调用方式,能够在各种不同实际使用场景中做适配。
    支持中文、英文等语种,及带口音的普通话识别。

  • 语音合成

    将文本转写化为语音,并实现自然的发声效果。
    支持汉语普通话和英语并提供多风格和音色的发音人,以满足各种不同的应用需求。
    高度智能的文本处理能力:包含多音字、数字、符号等处理以及高自然度的韵律预测

  • 语音分析

    语音情绪识别
    通过声纹特征和语义理解多角度出发,支持 4 种语音情绪判别。
    语者分离
    支持机器自动分离对话中的不同人声, 可应用于区分用户与坐席语音。
    声纹识别
    提取说话者声音特征及内容信息,核验说话者身份。
    可将说话人声纹讯息与库中已知用户声纹进行 1:1 和 1:N 的比对验证检索。

  • 语音全双工

    语音全双工即智能打断功能,能自动侦测用户在语音交互过程中的打断行为
    系统能够自动进行判断,立即停止提示语的播放,对用户的语音指示做出响应。
    该功能使人机交互更加高效、快捷、自然,有助于增强客户体验。

产品优势

  • 语音识别
  • 语音合成
识别准确率高
使用轻量化架构,考虑特征的时序,改善语速、连音造成的辨识错误以提高辨识效率。 模拟 20种以上扩增情境,例如:回声、背景噪音、信道压缩等,使模型有高度强健性。
可定制化自学习模组
专项模型识别增强竹间提供范围包括: 地址、日期、身分证字号、车牌、手机号码、姓氏等专项模型供客户做特定内容辨识的强化。热词强化识别通过提交自定义热词列表的方式更新模型,快速提高专有名词以及产品关键词识别效果。文本语料强化识别使用客户可提供话术文本、产品讯息、扩写语料等语句资料来更新模型以强化语音辨识效果。简易操作提供前端操作界面,不需调用 API, 客户可自行进行调优,维持数据保密性。
高度智能的文本范式
竹间语音辨识功能具备文本正规化能力,包含标点智能侦测、汉字与阿拉伯数字转写等功能,提高文本可读性。
高精准度噪音消除
具备高效的噪音消除能力,降低用户在实际环境中的噪声,最大限度的保留用户的原始语音信息。
实时语音串流活性检测
透过对输入的音频流进行分析,确定用户说话的起始和终止 使用多个局部感知器和权重共享特性大幅提升准确度使模型有高度环境适应力、抗噪能力。
半自动化数据迭代
自动语料标注结合验证机制,最后运用少量人力协助确认,以降低数据搜集之成本。 协助利用客户语音记录,自动迭代模型,持续优化语音识别识别率。
高品质的语音合成效果
该平台基于最新的语音合成研究成果,集成了智能的文本分析算法,让合成的音色更加自然接近真正的人声。 独特的韵律切分技术,使得合成语音的节奏非常自然,听感舒适,易于理解。
专属的语音定制
提供可客制化定制语音服务的功能。客户只需依照规范提供发音人的语料,竹间将以发音人为基准定制出专属的语音合成系统。
高度智能的文本处理能力
多音字处理 竹间采用高度智能的学习方法,结合多种上下文语境特征对多音字的读法进行智能判断,以确保多音字发音正确。 数字处理 根据数字的上下文语境,自动做出智能判断,正确区分出 10/12 读音为十月十二日,或是十二分之十。 符号处理 竹间语音合成系统能正确判断出符号的读法,以及其符号与相邻文本(数字)朗读的先后顺序。比如 40% - 50% 读作“百分之四十到百分之五十”。
可客制化语音合成的内容
灵活的播放调节功能 用户可以根据自己的喜好,选择加快或减慢语音播放的速度,提高或降低合成语音的声调、音高 语音合成标记语言 (SSML) 用户可指定专用的词汇发音,例如生僻字、姓氏、数字读音。 透过语法可实时调控语音合成的停顿点、停顿时长、音量、语速、音高等变数。

应用场景

  • 金融

    金融

    信贷业务
    理财服务
    银行业务

  • 车用

    车用

    车辆保险
    财产保险

  • 医疗

    医疗

    咨询服务
    医疗调查

  • 教育

    教育

    儿童早教
    管理培训

  • 电商

    电商

    业务咨询
    售后服务

  • 招聘

    招聘

    企业招聘
    事务洽询

仅需5步,创建您的专属机器人
申请试用