Tel:03-6256-8911

jp

数据解决方案

请输入姓名

携帯電話番号が無効です

連絡先を入力してください

会社名を入力してください

有効な仕事用電子メールを入力してください。

ご希望のデータについて入力してください

送信完了しました! ご協力ありがとうございました。

填写格式错误请重新填写

確認する

5文字以下、または数字のみでの入力は無効です。

https://www.datatang.co.jp

音声認識研究の最先端向け、音声モデル・LLM向けデータソリューション

作者:Datatang 公開日:2024-11-07

音声言語処理における世界最大の国際学会INTERSPEECH2024に弊社がスポンサーとして出展致しました。学会で所見した音声認識研究の最先端に合わせて、弊社の音声データサービスを紹介致します。

 

弊社では、100万時間に及ぶ既製の音声データによって、お客様の音声モデルを強化します。全てのデータセットは弊社が著作権を持ち、安心で高品質なデータサービスはMeta様、AWS様、NICT様、NTT様などグローバル的に好評を頂いております。

 

弊社の音声モデルとLLM向けデータサービスを紹介致します:

 

教師なし学習向け大規模音声データ

日本語、英語、韓国語、フランス語、アラビア語、ドイツ語、スペイン語、ポルトガル語など、各言語10万時間以上ほゆうしております。

 

多言語TTSデータ

日本語、中国語、英語などをはじめ、60+の言語をカバーし、50万時間時間を超えております。イントネーション、リズム、ポーズ、声質、感情などのパラ言語、韻律など、ラベル付け済みです。

 

複数話者の会話・感情音声データ

発話者は30つの日常話題から自由に選べ、そのまま自然会話を収録しております。録音されたテキストは、怒り、喜び、悲しみなど10の感情をカバーしています。すべて高音質のマイクで収録され、感情的な音声の分析と検出に適しており、複数のAI企業によって検証済みです。

 

音声合成・音声変換向け多言語コーパス

日本語とその方言、英語、中国語及ぶその方言を含み、30の言語をカバーしています。平均音色、マルチシーンを含め、総計で1万時間を及びます。

 

業界向け自然会話音声データ

金融、医療、コールセンター、ゲーム業界をカバーそれぞれ総計20時間を有しています。60つの言語の中には、日本語、英語、スペイン語、ポルトガル語、フランス語、ドイツ語が人気シリーズとなります。

 

ファインチューニングテキストデータ

数百の大規模言語モデルプロジェクトの経験により、ファンチューニング向けの多言語テキストデータを積み上げてきました。言語としては、日本語、英語、中国語、フランス語、スペイン語、ポルトガル語、ドイツ語、韓国語、イタリア語などがあります。

 

弊社Datatangは、個別対応のデータ収集とアノテーションサービスも提供しています。データサービスにおいて13年の経験を持つ弊社は、60以上の国と地域にまたがるリソースを有しています。当社のHuman-in-the-Loopアノテーションプラットフォームは、音声セグメンテーション、ノイズアノテーション、音声の文字起こし、話者の役割ラベリングなど、多様な音声アノテーションをサポートしています。

 

詳細はHPにてお問い合わせください。