PaPeRoの発話に関する質問

アプリ開発に関する質問 PaPeRoの発話に関する質問

6件の投稿を表示中 - 1 - 6件目 (全6件中)
  • 投稿者
    投稿
  • #3487
    まつやま
    参加者

    いつも参考にさせていただいており、誠にありがとうございます。

    PaPeRoの発話に関して、2点質問があります。
    もし何かご存じでしたら、お知恵を拝借できますと幸いです。

    1.発話できるテキスト量について
    約5,000字(10KB程度)のテキストをいっぺんにsend_start_speechに渡して発話させたところ、うまく最後まで喋るケースと、途中でPaPeRoがハングアップするケースがありました。
    発話可能なテキスト量の上限について書かれているドキュメントを見つけられなかったのですが、上限はあるのでしょうか?

    2.声の低さについて
    send_set_default_status_speechで、pitchを下限ぎりぎりの55に設定して発話させたところ、pitch=120のときと比較して、
    ・発話を開始するまでのタイムラグが長い。
    ・長文の場合、ときどきバッファ切れ(?)が起きる。「こんにちは。僕の名前はパペロです。」が「こんにちは。(しばし無音)パペロです。」のように途切れる。
    という現象が見られます。
    pitchをあまり低くすると、PaPeRo本体の音声合成の負荷が高くなるのでしょうか?

    以上、さし迫って困っているわけではございませんが、お時間のあるときにでもお目通しいただけるとありがたいです。
    よろしくお願いいたします。

    0
    #3494
    takahashi@spi
    参加者

    こんにちは、いつもありがとうございます。

    今回もお役に立てず申し訳ありません、どちらも正式な仕様をお問い合わせ頂くしかなさそうです。

    1.につきまして、
    5000字まとめて発話できることがあるというのは逆に驚きましたが、ハングアップは困りますね。。。
    発話開始までのタイムラグを減らすためにも細切れにしてsend_start_speechに渡す対策は必須と思いますが、
    動作が保証される上限は知りたいところですね。

    2.につきまして、
    確かにご指摘の現象が発生するのを確認したことがあり、実質80~90程度が限度ではないかと思っています。
    ちゃんと調べておらず憶測ですが、発話は最終的には波形データを作ってオーディオデバイスに送るのでしょうから、
     ピッチが下がる->時間が延びる->波形データが増える
    ということで負荷が大きくなるのではないでしょうか。

    0
    #3497
    まつやま
    参加者

    takahashi様

    こんばんは。ご丁寧なご返信ありがとうございます。

    そうですね、NECプラットフォームズさまに、今度聞いてみようと思います。

    ちなみに、弊社のパペロで試したところでは、約1万字のテキスト(「我が輩は猫である」の一部)を40分くらいかけて喋ることができました。
    古い表現が多い文章ですが、まあまあ良い具合に、読みこなしておりました。

    ピッチ50くらいの低い声は、ご高齢者に需要があるのですが、声を低くすると可愛さも失われてしまうので、なかなか悩ましいところではあります。

    ご回答ありがとうございました。
    またよろしくお願いいたします。

    0
    #3980

    重ねて質問です。
    現在のパペロの規定音質は、「かわいい」を前面に出した、中性幼児の声を、ピッチで高低の変化をつけ、自然な表現に近づける努力を、みなさまはされていると思います。
    ですが、幼児ではなく、成人の声質が必要な場合、NECプラットフォームズさんからは、別途アプリで対応と回答がありました。
    どなたか、そういう開発をされた方、またはやろうとされている方は、おられませんか?
    例えば高齢者施設に持って言って、ご高齢者相手に発話させる時、今の中性的幼児発声では、すぐに飽きられることが分かりました。
    声質のバリエーションが必要だと思っています。オーストラリアのパートナーのパペロは、成人女性の声で話します。
    何卒、よろしくお願いします。

    0
    #3981
    takahashi@spi
    参加者

    あまり参考にならないかも知れませんが知っている範囲でお答えします。

    パペロでは無くラズパイ1だったのですが、Open JTalkを利用して発話させる装置に関わったことがあります。
    短い言葉しかしゃべらない仕様でしたが発話までのタイムラグが結構あり、また発話品質もPaPeRo iのVoice Textよりは劣るモノだったと思います。
    PaPeRo iで今やるとどうなるかは試していないので分かりません。

    先々代?のパペロのR500で実証実験をなさった方のお話を伺ったことがあるのですが、R500は声優さんの録音がベースだったか、詳しいことは忘れてしまったのですがとにかく普通に聞けば大変かわいらしい声で喋ったのですが、音質の問題で高齢者の方にはなかなか良く聞き取って貰えなかったそうです。較べるとPaPeRo iはとても明瞭に発話します。
    従いましてもしご高齢者対象であれば、音質を重視する必要があるかと思います。

    最近はクラウドサービスの音声合成も色々あるようですがそれらは試したことがありません。
    予算が許せば改めてVoice Textを買って使うのが音質の面では安心出来そうに思います。
    (ご存知の事と思いますが本来Voice Textには複数の話者が用意されていますが、おそらくライセンス料の問題でPaPeRo iでは1話者に限定されています)

    あとご指摘の通り、PaPeRo iも英語で喋らせると急に大人になって、びっくりしますね。

    • この返信は1年、 8ヶ月前にtakahashi@spiが編集しました。
    0
    #3995

    takahashi@spi様、早速のアドバイス、ありがとうございます。
    そういう経緯があったのですね?初めて知りました。
    オーストラリアのパートナーに問い合わせたところ、やはりVoiceを購入してモディファイしたと回答がありました。
    内容によるのでしょうが、高齢者の中には、最初は「かわいい声!」なのが、だんだん「子供扱いしやがって」に
    変化してしまい、びっくりしたことがあります。
    しかし予算はありません・・・・

    とにかく、ありがとうございました。

    0
6件の投稿を表示中 - 1 - 6件目 (全6件中)
  • このトピックに返信するにはログインが必要です。