jp

数据解决方案

请输入姓名

携帯電話番号が無効です

連絡先を入力してください

会社名を入力してください

有効な仕事用電子メールを入力してください。

ご希望のデータについて入力してください

送信完了しました! ご協力ありがとうございました。

填写格式错误请重新填写

確認する

5文字以下、または数字のみでの入力は無効です。

https://www.datatang.co.jp

高品質な会話音声データでAIモデルを改善しよう

作者:Datatang 公開日:2024-09-12

現在、市場に出回っている音声データのほとんどは読み上げで。しかし、人間と機械の対話は、単なる対話や質問と回答のコマンド制御ではなく、言語の文脈を理解し、人間の発話や感情を認識し、それに対応したフィードバックを行う必要があります

 

技術の飛躍的進歩がもたらしたユーザー体験の向上により、会話型音声対話はAI大手の焦点となっています。グーグル、アマゾン、アリババ、テンセントなどは、複数ラウンドの連続対話をサポートするスマートスピーカー、スマートアシスタント、スマートカスタマーサービス、スマートロボットを発表しましたAIシステムの継続的対話能力は、金融、教育、インターネット、交通、モバイル通信、製造などの業界における技術的変化の引き金となるでしょう

 

世界有数のAIデータサービスプロバイダーとして、弊社日本語、中国語方言、英語、韓国語、タイ語、フランス語、ドイツ語、ロシア語、スペイン語、韓国語、ヒンディー語、など数十言語の一連の自然対話音声データセットを保有しています。データセットには、発音の癖や特徴、アクセントの強弱、話者の分布など、多種多様なものが含まれています。

 

513時間 - 電話録音による日本語会話データセット

 

800人以上のネイティブスピーカーが参加し、男女比のバランスを考慮しながら作成されました。録音装置は電話録音システム。音声フォーマットは8kHz8bit、非圧縮WAVで、すべての音声データは静かな室内環境で録音されました。すべての音声は、テキストの内容、各有効文の開始時刻と終了時刻、話者の識別を含めて手作業で書き起こし済みです。文の精度は95%以上です。

 

633時間 - 携帯録音による日本語自然対話音声データセット

 

テキスト内容、タイムスタンプ、話者ID、性別、その他の属性とともに書き起こされています。多様な話者(1000人のネイティブスピーカー)から収集されたデータセットは、実際の複雑なタスクにおけるモデルのパフォーマンスを向上させます。様々なAI企業によって品質テストされています。弊社はデータ保護とプライバシー基準を厳格に遵守し、データ収集、保存、使用プロセスを通じて、ユーザーのプライバシーと法的権利の維持を保証します。

 

1,000時間 アメリカ英語自然対話音声データセット

 

このデータセットには1,000時間分のアメリカ英語の会話音声データが含まれています。2,000人のネイティブスピーカーによって録音されています。会話のスムーズさと自然さを保証するために、話し手はよくあるトピックから会話を始めます。文の精度は95%以上になります

‍ 

136時間 - 韓国語自然対話音声データセット

 

与えられたトピックに基づく対話から収集され、20以上のドメインをカバーしています。テキスト内容、話者のID、性別、年齢、その他の属性とともに書き起こされています。216人のネイティブスピーカーから収集され、実際の複雑なタスクにおけるモデルのパフォーマンスを向上させます。

 

500時間 - 携帯電話によるフランス語会話データセット

 

約1,000人のネイティブスピーカーによって録音されています。会話のスムーズさと自然さを確保するため、話者たちは身近な話題から会話を始めています。文の精度は95%以上です。

上記のデータがお客様の研究ニーズを満たせない場合、弊社は、特定のグループ、特定のシナリオ、特定の言語向けにデータをカスタマイズするサービスも提供しています。

 

まとめ

データサービスが必要な場合は、お気軽にお問い合わせください。