读论文 《TransForm Mapping Using Shared Decision Tree Context Clustering for HMM-based Cross-Lingual Speech Synthesis》(3)

3.1. Shareddecisiontreecontextclustering(STC)

  1. STC [11] was originally proposed to avoid generating speaker-biased leaf nodes in the tree construction of an average voice model.

    1. 果然,这里作者说了一下STC技术的出处在什么地方
    2. 然后简单的介绍了STC技术是用来解决什么问题的
      1. 在average voice model的树的构建过程中,避免产生说话人偏差的叶子节点
      2. 关于上面提到的“说话人偏差的叶子节点”,得详细的去看引用[11],还有之前看过的做自适应的一篇博士论文,就是之前组会上讲的没讲清楚的那篇博士论文。
  2. In the conventional decision-tree-based context cluster- ing for the average voice model, each leaf node does not always have the training data of all speakers, and some leaf nodes have only a few speakers’ training data.
    1. 在传统的average voice model的基于决策树的上下文聚类技术中,每个叶子节点,不总是会有所有的说话人的训练数据,一些叶子节点,仅仅有几个说话人的训练数据。
  3. The experimental results have shown that such speaker-biased leaf nodes degrade the naturalness of the speech synthesized from the adapted model.

    1. speaker-biased leaf nodes
  4. On the other hand, in STC, we only use the questions which can be applied to all speakers.
    1. 对于STC,我们仅仅使用可以应用到所有说话人的问题。
    2. 有一个问题,IBM、helen、拼接不都是粤语的语料吗,还有IBM能用的问题,但是不能用到helen的吗?
    3. 还是说,这里我理解错了,作者这里指的是英语和粤语这两个说话人。他在这里把STC是用于不同语言之间。
  5. As a result, every node of the deci- sion tree has the training data of all speakers, which leads to a speaker-unbiased average voice model. 
    1. 这就是所谓的speaker-unbiased average voice model

================

================    

3.2. Transform mapping based on language-independent decision tree using STC

  1. To use contextual information in the transform mapping be- tween different languages, we must consider the language dependency of decision trees.

    1. 这也是我正在考虑的一个问题,如何在state mapping构建过程中去考虑上下文的信息

    2. 什么叫做上下文的信息,于泉杰,你自己能举一个例子吗?
    3. 作者在这里给出了一个提示,如何在构建state mapping时,考虑上下文的信息,
      1. 必须要考虑决策树的language dependence
  2. In general, near the root node of the decision trees, there are language-independent proper- ties between the two languages in terms of basic articulation manners such as vowel, consonant, and voiced/unvoiced sound.
    1. 在决策树的根节点,是两种语言的语言无关的属性
    2. 像是基本的发音方式:
      1. 元音
      2. 辅音
      3. 清音/浊音
    3. 是这样的吗?
    4. 好像我之前有看过HTS训练出来的模型文件,例如,/trees/.../下面的模型文件,没有发现这个规律,
    5. 还是我当时看的不对,这个可以以后再来看一下
  3. On the other hand, near the leaf nodes, there frequently appear language-dependent properties because some nodes are split us- ing language-specific questions, e.g., ”Is the current phoneme diphthong?” 
    1. 在叶子节点处,一般是出现语言相关的属性,因为一些节点的分裂,使用语言特定的问题
    2. 例如,当前的音素是diphthong?这种问题是英语所特有的,粤语是肯定没有这个问题的
  4. To alleviate the language mismatch in the trans- form mapping between the average voice models, we gener- ate a transform mapping based on a language-independent de- cision tree constructed by STC.  
    1. 我们使用STC构建一个语言无关的决策树,使用这个决策树来,构建state mapping
  5. Specifically, we use both av- erage voice models of input and output languages in the con- text clustering, and the transformation matrices for the two av- erage voice models are explicitly mapped to each other in the leaf nodes of the language-independent decision tree.
    1. 把英语和粤语的average voice model放到一起,在聚类时,
    2. 语言无关的决策树,叶子节点,如果两种语言的state在语言无关决策树的同一个叶子节点中,那么认为这两个state是一对映射的叶子节点。
  6. Con- structing the tree, we split nodes from the root using only the questions that can be applied to all speakers of both languages.
    1. 构建树,什么树,language-independent decision tree,
    2. 构建树,就需要问题集,那么用什么样的问题集呢?
      1. 问题集中的问题,必须能应用两种不同的语言
      2. 也就是两种语言共享的问题
  7. In this study, we control the tree size by introducing a weight into stopping criterion based on the minimum description length (MDL) [13].
    1. 我们控制树的大小,通过引入一个权重,到停止原则中,基于MDL的
  8. To avoid the effect of the language dependency, a smaller tree is constructed compared with that based on MDL.
    1. 为了避免语言相关性的影响,一个更小的树被构建,与基于MDL的进行比较
  9. Since the node splitting is based on the acoustic parameters of each node, the transform mapping is conducted using both the acoustic and contextual information, which is more desirable than the conventional state mapping based on KLD.
    1. 由于节点分裂是基于每个节点的声学参数,
    2. state mapping被构建使用声学特征和上下文相关因素
    3. 比传统的KLD的state mapping更明智
    4. 好吧,作者自己说漏嘴了,前后不一致,这里是state mapping,前面是transform mapping
  10. An appro- priate size of the tree is experimentally examined in Sect. 4.3. 
    1. 一个适当大小的树,在4.3节中做了一个实验
时间: 2024-10-01 22:17:57

读论文 《TransForm Mapping Using Shared Decision Tree Context Clustering for HMM-based Cross-Lingual Speech Synthesis》(3)的相关文章

读论文 《TransForm Mapping Using Shared Decision Tree Context Clustering for HMM-based Cross-Lingual Speech Synthesis》(2)

3   Cross-lingualspeakeradaptationusing STC with a bilingual corpus 第一段: In the state mapping technique described in the previous section, the mismatch of language characteristics affects the mapping performance of transformation matrices because onl

读论文 《TransForm Mapping Using Shared Decision Tree Context Clustering for HMM-based Cross-Lingual Speech Synthesis》(1)

3. Cross-lingual speaker adaptation using STC with a bilingual corpus 第一段 问题1,为什么要用双语语料库,双语语料库是同一个说话人的吗? cross-lingual speaker adaptation的开山鼻祖是Yijiang Wang的论文,而且也实现了代码,在HTS 2.2中. Yijiang Wang的做法是基于state mapping的,而本文作者的做法是基于STC,然后加上双语语料库 注意一点,本文作者与Yij

Gradient Boost Decision Tree(&Treelink)

http://www.cnblogs.com/joneswood/archive/2012/03/04/2379615.html 1.      什么是Treelink Treelink是阿里集团内部的叫法,其学术上的名称是GBDT(Gradient Boosting Decision Tree,梯度提升决策树).GBDT是“模型组合+决策树”相关算法的两个基本形式中的一个,另外一个是随机森林(Random Forest),相较于GBDT要简单一些. 1.1    决策树 应用最广的分类算法之一

机器学习中的算法:决策树模型组合之GBDT(Gradient Boost Decision Tree)

[转载自:http://www.cnblogs.com/LeftNotEasy/archive/2011/03/07/random-forest-and-gbdt.html] 前言 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等.但是同时,单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不够的. 模型组合(比如说有Boosting,Bagging等

【Gradient Boosted Decision Tree】林轩田机器学习技术

GBDT之前实习的时候就听说应用很广,现在终于有机会系统的了解一下. 首先对比上节课讲的Random Forest模型,引出AdaBoost-DTree(D) AdaBoost-DTree可以类比AdaBoost-Stump模型,就可以直观理解了 1)每轮都给调整sample的权重 2)获得gt(D,ut) 3)计算gt的投票力度alphat 最后返回一系列gt的线性组合. weighted error这个比较难搞,有没有不用动原来的模型,通过输入数据上做文章就可以达到同样的目的呢? 回想bag

object detection--Decision Tree

VJ VJ算法是object detection中提出较早的方法了,将它归类于DF (decision forests 决策森林)方法的范畴. References中的[1],提出了 VJ 算法来进行人脸识别: 采用的特征.分类器.算法的结构 1) 采用的特征为rectangle features,种类有3种: two-rectangle feature.three-rectangle feature.four-rectangle feature 论文原图如下: 这三种特征都有一横一竖两种情况,

机器学习分类实例——SVM(修改)/Decision Tree/Naive Bayes

机器学习分类实例--SVM(修改)/Decision Tree/Naive Bayes 20180427-28笔记.30总结 已经5月了,毕设告一段落了,该准备论文了.前天开会老师说,希望我以后做关于语义分析那一块内容,会议期间还讨论了学姐的知识图谱的知识推理内容,感觉也挺有趣的,但是感觉应该会比较复杂.有时间的话希望对这块了解一下.其实吧,具体怎么展示我还是不太清楚... 大概就是图表那个样子.我先做一个出来,让老师看看,两个礼拜写论文.24/25答辩,6月就可以去浪哈哈哈哈哈哈. 一.工作

数据挖掘-决策树 Decision tree

数据挖掘-决策树 Decision tree 目录 数据挖掘-决策树 Decision tree 1. 决策树概述 1.1 决策树介绍 1.1.1 决策树定义 1.1.2 本质 1.1.3 决策树的组成 1.1.4 决策树的分类 1.1.5 决策过程 1.2 决策树的优化 1.2.1 过拟合 1.3.1 剪枝 2. 理论基础 2.1 香农理论 2.1.1 信息量 2.1.2 平均信息量/信息熵 2.1.3 条件熵 2.1.4 信息增益(Information gain) 2.1.5 信息增益率

Decision Tree 1: Basis 决策树基础

 介绍 我们有一些历史数据: record id\attributes A B C Result 1 a1 b1 c1 Good 2 a2 b2 c1 Bad 3 a1 b3 c2 Good 根据这些数据,我们想回答: If we got a record 4, that is 'a1,b1,c2',  is record4 Good or Bad? 解决方法 我们要分别考量record4的三个属性的先验(Priori)结果.那首先考虑属性C吧. C / \ c1(Subset1: Good-1