最大10,000ドル賞金、多言語会話音声言語モデルワークショップコンテスト応募開始！　

作者：Datatang 公開日：2025-03-12

大規模言語モデル（LLM）ベースの音声認識や対話モデルの開発が注目されていますが、現実世界の多言語会話音声データの複雑さが課題となっています。Datatang株式会社は、Meta、Google、Samsung、Naverなど世界大手会社と共に、多言語会話音声言語モデルをテーマにしたワークショップコンテスト（略称：MLC-SLM Workshop）を開催します。INTERSPEECH2025ワークショップとして、多言語会話音声モデルの研究者向けに参加者を募集中です。優勝チームに最大10,000ドルの賞金を授与します。

背景

大規模言語モデル(LLM)は、言語理解・生成のタスクにおいて強力な基盤モデルとして機能しています。近年では、LLMを自動音声認識(ASR)、オーディオキャプション、音声対話モデルなどの最先端分野の音声言語処理タスクに適用する研究が多くなっています。

現実世界の会話音声データは、自然な一時停止・中断、話者の重複、多様な会話スタイルなど、人間のコミュニケーションの複雑さを捉えているため、LLMベースの音声対話モデルの開発に不可欠です。しかし、多言語環境の音声認識研究において、データ不足が大きな課題となっています。

現実世界の会話型音声は、多言語でダイナミック、かつ文脈に富んだ環境における高精度なAIシステムの構築や、音声対話が主要なコミュニケーションモードとして機能する次世代AI対話システムの開発に欠かせないです。

したがって、本ワークショップ・コンテストは、高精度な多言語会話音声言語モデルの構築に挑み、現実世界における多言語会話音声データセットを作成することで、音声認識の発展に寄与致します。

タスク設定

タスク1:多言語会話型音声認識モデルの開発

参加者には、会話ごとにオラクルセグメンテーションが提供されます。

目的: 多言語 LLM ベースのASRモデルの開発。このタスクでは、多言語環境での文字起こしの精度の最適化に焦点を当てています。

タスク2:多言語会話音声のダイアライゼーションと認識

評価中に事前情報は提供されません(たとえば、事前にセグメント化された発話や話者ラベルなど)。

目的:話者のダイアライゼーション(誰がいつ話しているかを特定する)及び認識(音声の文字起こし)の両方のシステム開発。

システムの設計・実装に柔軟性をもたらすため、パイプラインベースのシステムとエンドツーエンドのシステムの両方が推奨されます。

重要な日程

2025年2月20日:申し込み開始

2025年3月10日:トレーニングデータ公開

2025年3月17日:開発セットとベースラインシステムのリリース

2025年5月15日:評価セットのリリースとランキング公開

2025年6月01日:ランキング終了、提出ポータル公開(CMTシステム)

2025年6月20日:提出の締切

2025年7月10日:採否通知

2025年8月22日:ワークショップ開催（INTERSPEECH2025開催地ロッテルダム）

データセットの説明

チャレンジデータセットは、英語(en)、フランス語(fr)、ドイツ語(de)、イタリア語(it)、ポルトガル語(pt)、スペイン語(es)、日本語(jp)、韓国語(ko)、ロシア語(ru)、タイ語(th)、ベトナム語(vi)の約11言語で構成されています。

各セットは、ランダムに割り当てられたトピックに関する2人のスピーカーの会話スピーチで構成されています。会話は自然・流暢に録音され、スピーカーは各トピックについて有意義な対話をします。iPhoneなどのデバイスを使用して静かな屋内環境で録音します。

英語データセットは、イギリス英語、アメリカ英語、オーストラリア英語、インド英語、フィリピン英語など、さまざまな地域からの約 500 時間の録音で構成されています。他の言語はそれぞれ約 100 時間で、合計で約 1500 時間の多言語会話音声データが得られます。

データセットの詳細や使用についてはこちら：https://www.nexdata.ai/competition/mlc-slm

応募方法

2025年4月1日までに署名したデータ使用契約書をアップロードし、登録フォームに必要事項をご記入ください。

申し込み詳細はこちら：https://www.nexdata.ai/competition/mlc-slm

賞金

賞金総額 : 20,000ドル

タスク１

1位チーム 5,000ドル

2位チーム 3,000ドル

3位チーム 2,000ドル

タスク2

1位チーム 5,000ドル

2位チーム 3,000ドル

3位チーム 2,000ドル

委員会

Shinji Watanabe カーネギーメロン大学准教授

Eng Siong Chng 南洋理工大学准教授

Khalid Choukri（ハリド・チョウクリ）、欧州言語資源協会事務局長

Junlan Feng、IEEE 特別研究員 & チャイナモバイルチーフサイエンティスト

Qiangze Feng、共同創業者兼データサイエンティスト、Datatang株式会社

Daliang Wang、データサイエンティスト、Datatang株式会社

Lei Xie、中国西北工業大学音声認識教授

Pengcheng Guo、中国西北工業大学博士

Bingshen Mu、中国西北工業大学博士

コンテストに関するお問い合わせ先：[email protected]

Datatang株式会社について

社名：データ・タング株式会社（Datatang株式会社）

所在地：東京都千代田区神田淡路町2-105ワテラスアネックス6階

設立： 2020年2月

資本金： 5000万円

事業概要：AI学習データ提供事業（自社データ・カスタマイズデータ）

AI学習データの収集・アノテーション・プラットフォーム提供事業

URL ： https://www.datatang.co.jp/

Datatang株式会社、世界最大のクルマの先端技術展示会「オートモーティブワールド」に出展

Datatang株式会社は、2025年 1月22 日(水)～24 日(金)に東京ビッグサイトで開催される「第17回オートモーティブワールド」内「第8回自動運転EXPO」に出展します。

CoT（Chain-of-Thought）データセットとは？入手先・LLMへの役割について解説

近年、生成AIや大規模言語モデル（LLM: Large Language Models）の進化は目覚ましく、特に自然な推論能力を持つモデルの開発が注目されています。この中で、「CoT（Chain-of-Thought）」データセットは、AIモデルに多段階の推論プロセスを学ばせるための鍵となるリソースとして重要性を増しています。本白皮書では、CoTデータセットの特徴とその活用方法について解説するとともに、国内外の調査データを基にした業界動向と事例を交え、その実効性と将来性を考察します。

最大10,000ドル賞金、多言語会話音声言語モデルワークショップコンテスト応募開始！

前の記事

Datatang株式会社、世界最大のクルマの先端技術展示会「オートモーティブワールド」に出展

次の記事

CoT（Chain-of-Thought）データセットとは？入手先・LLMへの役割について解説

最大10,000ドル賞金、多言語会話音声言語モデルワークショップコンテスト応募開始！

最近のコンテンツ

迷わないアノテーション外注:3つの基準でベストパートナーを見つける

エンドツーエンド（E2E）型自動運転を支える学習データとは？技術動向・作成方法・注意点を解説

次世代AI-OCR向け学習データセットの調達方法とは？入手先・注意点について解説

前の記事

Datatang株式会社、世界最大のクルマの先端技術展示会「オートモーティブワールド」に出展

次の記事

CoT（Chain-of-Thought）データセットとは？入手先・LLMへの役割について解説

最大10,000ドル賞金、多言語会話音声言語モデルワークショップコンテスト応募開始！