ユビコン環境におけるオープンコンテンツアプリケーションの開発

青木 直史(1), 伊藤 博之(2), 井口 勇(2), 澤田 周(3), 須藤 健次(3), アレキサンダー・ブルガー(4)
(1) 北海道大学大学院情報科学研究科
〒060-0814 札幌市北区北14条西9丁目
http://www.ist.hokudai.ac.jp
(2) (株)クリプトン・フューチャー・メディア
〒060-0062 札幌市中央区南2条西12丁目
エクセルシアビル5F
http://www.crypton.co.jp
(3) (資)サイクル・オブ・フィフス
〒062-0901 札幌市豊平区豊平1条12丁目1-12
インタークロス・クリエイティブセンター303B
http://www.cycleof5th.com
(4) Software Lab., Inc.
Bahnhofstr. 24a, D-86462 Langweid
http://www.software-lab.de

研究計画

 ネットワークのユビキタス化が進むにつれ,ソースプログラムのオープン化のみならず,コンテンツのオープン化に対する需要もまた増大していくことが予想される.こうしたオープンコンテンツの利用を促進するには,データ交換のためのフォーマットの標準化について検討することが重要である.
 平成16年度は,XMLによる音声データベースの標準化に関する検討を行う.それと並行して,前年度に引き続き,音声データベースを効率よく構築するための支援システムの開発を行なう.また,音声データベースを利用するアプリケーションの開発にも着手する.

平成16年度の研究成果

 (資)サイクル・オブ・フィフスと北海道大学大学院情報科学研究科の共同研究開発により,音声データベース構築用エディタ「Voice Label Editor(VLE)」を開発した.VLEを利用すると,ユーザーは音声波形やスペクトログラムを参照しながら,インタラクティブにタグ付けの作業を行なうことができる.なお,VLEでは,音素ラベルをセグメント層,ピッチマークをイベント層として,これら2種類のタグ情報を階層構造で表現している.図1に実行画面を示す.
 VLEではこうしたタグ情報をWAVEファイルのチャンクデータとし,音声データと一緒に記録することができる.また,データの可読性を高め,別のアプリケーションで利用し易くするため,図2に示すように,タグ情報をXML形式に変換して出力することも可能である.
 




図1.Voice Label Editor




図2.XML形式に変換したタグ情報

 VLEを利用して,(株)クリプトン・フューチャー・メディアと北海道大学大学院情報科学研究科の共同研究開発により,1200語からなる日本語単語の音声データベースを構築した.現在,Software Lab., Inc.と北海道大学大学院情報科学研究科の共同研究開発により,本データベースを利用するクライアント・サーバーアプリケーション「Pico Lisp Speech Synthesizer」の開発を継続して行っているところである.

平成16年度の研究実績

[1] 青木 直史, 須藤 健次, 伊藤 博之, 井口 勇, ``Voice Label Editorの開発,'' 電気・情報関係学会北海道支部連合大会, はこだて未来大学 (函館), Oct.23--24, 2004.
[2] 岡田 一秀, 青木 直史, ``波形の形状分析に基づく音素セグメンテーションの一検討,'' 日本音響学会聴覚研究会資料, vol.35, no.2, H-2005-26, Mar.3--4, 2005.
[3] 青木 直史, 伊藤 博之, ``音素セグメンテーション方法及び装置,'' 特願2005-104513, ITCARO-031, 2005. (出願中)
[4] 青木 直史, アレキサンダー・ブルガー, ``Pico Lisp Speech Synthesizer,'' 2005.

Last Modified: March 31 12:00 JST 2005 by Naofumi Aoki
E-mail: aoki@nis-ei.eng.hokudai.ac.jp