Technical 2026.06.17

アイリアSDKを試す <第14回> YOLOを利用した動画のオブジェクト検出

#アイリアSDKを試す #places365 #シーン推定

今回は、前回紹介（https://interface.cqpub.co.jp/ailia013/）した静止画に対するオブジェクト検出の続編として、動画入力に対するオブジェクト検出を取り上げます。

今回もYOLO11を利用する

前回の静止画入力の場合はYOLO11を利用しましたが、今回もYOLO11を使用します。YOLO11には、用途やリソース条件に応じて複数のバリエーションが用意されています。
具体的には、

YOLO11n-seg
YOLO11s-seg
YOLO11m-seg
YOLO11l-seg
YOLO11x-seg

などがあり、処理速度と識別精度のバランスを選択可能です。
今回はその中で最も軽量なYOLO11n-segを用いて検証を行います。他のモデルについては、処理精度や速度の比較を含めて、後日あらためて紹介する予定です。

なお、今回は環境構築方法などの詳細には立ち入りません。実行環境のセットアップ、基本的な実行方法や静止画での動作確認などについては、前回分を参照してください。

動画の作成方法

今回は静止画像を編集/結合し、動画を作成して検証を行いました。動画入力では、各フレームの検出精度に加え、処理速度（FPS）を計測しました。動画作成や解像度などの条件については、次に示します。

動画作成方法：Microsoft Clipchampを使用し、各静止画を4秒間表示する形式で30fpsの動画を作成
解像度：縦長480×720、横長 852×480

ほかにも、前回の静止画検証で用いた画像を素材とすることで、静止画と動画での検出の変化を検証します。

イベント風景：多数の人物が写っており、人の検出性能を確認。
新幹線ホーム風景：人物と新幹線を区別して検出可能かを確認。
複数オブジェクト・リスト（生成AI作成）：多様な物体が含まれており、正しく検出できるかを検証。

検証する

1、イベント風景

オブジェクト検出結果を図1に、詳細の結果を表1に示します。

項目	クラス	件数
検出結果	person	14
	backpack	2
	frisbee	2
	handbag	1
合計	19件
FPS	4

結果詳細

人物以外にも、バッグやバックパックといった小物類を正しく検出できていることが確認できました。処理速度は約4FPS であり、CPU実行環境においても簡易なリアルタイム確認が可能です。
一方で、パーティション・ポールの土台をフリスビー（frisbee）と誤認するケースが見られました。これは学習データにポールやポール部品が含まれていないためであり、誤認としても妥当な結果と考えられます。

2、新幹線ホーム風景

オブジェクト検出結果を図2に、詳細の結果を表2に示します。

項目	クラス	件数
検出結果	person	3
検出結果	train	1
合計	4件
FPS	8.3

結果詳細

人物と新幹線を区別して検出できており、静止画検証と同などの結果が得られました。処理速度は約8FPSと比較的高速で、動画入力でも安定した性能が確認できました。

3、複数オブジェクト・リスト（生成AI作成）

オブジェクト検出結果を図3に、詳細の結果を表3に示します。

項目	クラス
検出結果	person	car	motorcycle	airplane
	train	fire hydrant	stop sign	parking meter
	bench	dog	dog	couch
	sheep	cow	zebra	未検出
	backpack	未検出	person tie	couch chair
	未検出	couch chair	person snowboard	tv
合計	24件
FPS	4

結果詳細

オブジェクト数が多い場面でも安定して検出が行われましたが、一部オブジェクト（snowboard）が未検出となるケースが確認されました。

4、各検証のまとめ（比較表）

最後に、今回検証した内容をまとめると表4になります。

検証対象	検出件数［件］	主な検出対象	FPS	備考
イベント風景	19	person, backpack, frisbee, handbag	4	小物類も含め検出
新幹線ホーム風景	4	person, train	8.3	静止画と同等の結果
複数オブジェクト・リスト	24	多様な物体（snowboard未検出）	4	静止画と同程度だが，一部未検出あり