G.728ITU-T が勧告した 16 kbps音声符号化方式で、符号化の際の遅延が小さいという特徴がある。

G.728の正式な名称は"Coding of speech at 16 kbit/s using low-delay code excited linear prediction" (低遅延符号励振線形予測(LD-CELP) を用いた 16kbit/s 音声符号化方式)である。

概要 編集

ITU-T G.728(16kbps)はLD-CELPlow-delay code excited linear prediction、low-delay CELP)という音声符号化アルゴリズムを使い、32kbps の ADPCM と同等の音質を実現している [1]。 G.728 は符号化時の遅延を 2ms(サンプリング周波数 8 kHz で 16 サンプル)以下に抑えることを目標に仕様が作成され、1992年に勧告された。

LD-CELPは、符号化遅延を 0.625 ms( 5 サンプル)に低遅延化した CELP である。 一般に、多くの低ビットレート音声符号化方式はサンプル値を 10ms から 30ms 程度のまとまり(フレーム)にまとめ、フレーム単位で符号化の処理を行う。通常の CELP の場合、人間の声道に相当する合成フィルターとして線形予測フィルターを、声帯に相当する音源として適応型と固定型のコードブックの値を使用するため、線形予測係数の計算や、最適な適応型/固定型コードブック値の探索のためにフレーム単位での処理が必要になる。そのため符号化方式とフレーム長によって決まる一定の「符号化遅延」が発生する。例えば、ITU-T G.729 の符号化遅延は 15ms(先読み遅延5msを含む)、G.729.1 の符号化遅延は 48.9375 ms であり、どんなに高速な処理を行っても遅延をこれ以下にできない。

それに対し、LD-CELP はフレーム単位の処理を行わない。線形予測係数などのパラメータは過去のサンプル値から後ろ向きに求める。また 5 サンプル単位という短い時間ごとに固定型コードブック探索を行う。これらの処理により符号化遅延を 0.625 ms(5サンプル)に抑えている[1]

また、適応型コードブックは使用せず、その代わり 50 次という高次数の線形予測を行う(通常の CELP では 10~16 次程度)。 線形予測係数はエンコーダ/デコーダ双方で後ろ向きに係数を求めることで同期を行う。線形予測係数を符号化データとして送る必要が無いため、符号化データとしてはコードブックのインデックス値のみを送る。

G.728 の特徴を以下にまとめる。

脚注 編集

  1. ^ a b ITU-T Recommendation G.728 (09/1992), Coding of speech at 16 kbit/s using low-delay code excited linear prediction. ITU-T, 1992.

参考文献 編集

  • Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
  • ITU-T Recommendation G.728 (09/1992), Coding of speech at 16 kbit/s using low-delay code excited linear prediction. ITU-T, 1992.

関連項目 編集

外部リンク 編集