# HDTV 解像度実時間動画像認識応用 SIFT 特徴量抽出プロセッサ

発表者:神戸大学大学院 システム情報学研究科 水野 孝祐

Email: mi-no@cs.kobe-u.ac.jp

### Abstract

実時間動画像認識応用 SIFT 特徴量抽出プロセッ サを提案する. オリジナルの SIFT アルゴリズムの処 理を VLSI 向きに改良し, さらに高並列アーキテクチ ャと3 ステージ ROI パイプラインの導入をおこなった. その結果, HDTV 解像度の動画像を 30fps で処理で きる性能を低消費電力で実現した.

### Introduction

近年の画像認識技術の応用例としてはデジタルカ メラに搭載されている顔検出や車載カメラ画像から の道路交通標識の認識などが挙げられる. 画像認 識はどのような環境で撮影しても, ロバストに高速・ 高精度処理を行うことが要求される. この要求に対し て、モデルを局所記述子によって得られる特徴ベクト ルで表現し、撮影画像の特徴ベクトルと比較・識別す るものが提案されている. 代表的なものとして SIFT[1]が挙げられる. SIFT を用いると, 輝度値の変 化・回転の影響を受けずに、高精度に画像認識を行 うことができる. しかしながら SIFT を計算するために は莫大な演算量が必要となる. Intel Core2Duo E8400(3.0GHz)で SIFT 特徴量抽出を実行した場合 の処理時間を図1に示す. VGA 解像度において2.77 秒かかっており、実時間動作が難しい. さらに将来 の高知能ロボット応用を想定した場合、認識に用い る動画像の高解像度化が考えられる. そのため, 高 解像度対応の実時間 SIFT 特徴量抽出プロセッサの 実現が必要不可欠であると言える.



高解像度対応の SIFT 特徴量抽出プロセッサを実

現するために,回路を高並列化する必要がある. HDTV 解像度における SIFT 特徴量抽出を行うため の必要演算量の解析をおこなった.図2に SIFT 特徴 量抽出の3 大処理である,ガウシアン平滑化,特徴 点抽出,特徴量記述の演算量の解析結果を示す. 縦軸が演算量,横軸が特徴点数を表している.ガウ シアン平滑化の演算量が支配的となっており,高速 化阻害の一番の要因となっている.そのため,本設 計ではガウシアン平滑化回路の並列度を120 とし, HDTV 解像度動画像に対してリアルタイム処理可能 な性能を達成した.

特徴点数は写っている物体により大きく変わり,画 像の複雑度によっては数万点となることも想定され る.数万点の特徴点を扱う場合,特徴量記述が占め る演算量も無視できない値となる.そのため特徴量 記述の専用演算回路化も必要となる.



SIFT 特徴量抽出を実行するためのメモリ帯域の 見積もりをおこなった(図 3). 横軸を解像度, 縦軸を メモリ帯域としている. 最も大きな帯域を占めるのは ガウシアン平滑化であり, HDTV 解像度においては 5374Gbps である. 特徴点抽出は 1254Gbps となり, ガウシアン平滑化に次いで 2 番目に大きなメモリ帯 域を必要とする. 演算量のみ考慮した場合, 特徴点 抽出は汎用 RISC プロセッサで十分であると考えられ る. しかし上記のような大きなメモリ帯域が必要とな るため, 専用ハードウェアを用いた解決が必要とな る. 本設計ではガウシアン平滑化部, 特徴点抽出部 にシストリックアレイアーキテクチャを導入することで 画素再利用, 処理結果再利用を促進しメモリ帯域の 削減をおこなった.



図 3 メモリ帯域解析

さらに ROI 単位で処理を行う3 ステージ ROI パイ プラインアーキテクチャを導入することで、低消費電 カ化と回路の拡張性の確保を実現する.

# Sift Algorithm for VLSI Implementation

図4にVLSI向きに処理を改変したSIFT特徴量抽 出アルゴリズムを示す.入力画像を ROI に分割し, ROI 毎に処理していくことで内部メモリ容量を大幅に 削減する. さらに全てのガウシアン平滑化を入力画 像から直接生成することにより、処理遅延の問題を 解決する.



#### 図 4 VLSI 向き SIFT 特徴量抽出アルゴリズム

図5に提案アルゴリズムの導入による認識精度へ の影響を示す. 図に示す通り、オリジナルに比べて 2.1%の精度劣化に抑えることができており、シビアな 安全性が求められないアプリケーションに対しては 十分適用可能な値になっていると言える.



# **Three-stage Pipelined Architecture**

図 6 に ROI を効率的に処理することができる 3 ス テージ ROI パイプラインアーキテクチャのブロック図 を示す. ガウシアン平滑化画像用 SRAM を 3 枚実装 しており、3 つのモジュール(ガウシアン平滑化, 特徴 点抽出,特徴量記述)は別々の SRAM にアクセスす る.



図7に3ステージROIパイプラインの動作を示す. 縦の点線で区切られた範囲が1つの ROIを処理する ために必要なサイクルタイムを表す. ガウシアンピラ ミッド生成部,特徴点抽出部,特徴量記述部はそれ ぞれ独立に動作し、それぞれ別々の ROI に対する処 理を行う.

1つの ROI の処理にかかる時間は、3 つのモジュ ールの内、最も処理に時間のかかるモジュールに依 存することになる.1つのモジュールの処理の完了を 待つ間,他の2 つのモジュールにはアイドルサイク ルが発生する. そのためクロックゲーティングなどを 用いてアイドルサイクル中に無駄な電力が発生しな いようにしなければならない. 本パイプラインを用い ることで、各モジュールが必要とするサイクル数が事 前にある程度把握できるため、回路の低消費電力化 技術であるクロックゲーティングや周波数制御などを 適用することが容易となる.

提案アーキテクチャを用いることで ROI を効率的 に処理することができ、大幅な消費電力削減効果が 得られる.

| Cycle Time for 1 ROI            |       |       |  |       |    |       |   |    |     |    |
|---------------------------------|-------|-------|--|-------|----|-------|---|----|-----|----|
| ROI Loading                     | ROI 0 | ROI 1 |  | ROI 2 |    | ROI 3 |   |    | • • | •  |
| Gaussian Filtering              | CG    | ROI 0 |  | ROI 1 |    | ROI 2 |   | CG | • • | •  |
| Key-point<br>Extraction         | CG    | CG    |  | ROI 0 | CG | ROI   | 1 | CG | • • | •  |
| Descriptor Vector<br>Generation | CG    | CG    |  | CG    |    | ROI 0 |   |    | • • | •  |
| CG: Clock Gating                |       |       |  |       |    |       |   |    |     |    |
|                                 |       |       |  |       |    |       |   |    | T   | me |

3 ステージ ROI パイプライン 図 7

認識精度評価

# **Gaussian filtering Architecture**

図8に本設計で実装した120並列ガウシアン並列 化アーキテクチャを示す.本アーキテクチャは120個 の1 次元リング状シストリックアレイ(SA)から構成さ れる.1 つの SA は2 つの積和演算器,14 段のリン グ状レジスタ,セレクタ回路から構成されている.本 アーキテクチャによるガウシアン平滑化ではウィンド ウサイズとして15を想定している.この時,1 次元ガ ウシアン平滑化処理を1 画素ずれた点に対して連続 的に行うことを考えると,隣り合うガウシアン平滑化 処理同士では14 画素が重複することになる.そのた め,隣り合うガウシアン平滑化画素の生成の際に再 利用できる14 画素分のレジスタを用意している.2つ ある MAC はそれぞれが1 次元ガウシアン平滑化に 対応している.



Key-point Extraction Architecture 図 9 に 27 並列特徴点抽出シストリックアレイアー

はまた27 並列将国点抽出ンスパックソフレイソー キテクチャを示す. 全体としては 27 個の Processing Element(PE), 9 個の差分演算器(Subtractor), AND 回路から構成されるSystolic Array型のアーキテクチ ャである. 中段の真ん中の PE からの出力は全 PE に 接続されており, 比較演算のために用いられる. 上 段の PE は中段の PE へ, 中段の PE は下段の PE へ接続されており, 1 サイクル毎に画素データがシフ トしていく. この構造により画素の再利用が実現され る.

次に PE への画素ロードの流れについて説明する. 1 サイクルごとにガウシアン平滑化画像 SRAM から 18 画素を読み出し, 差分演算器により DoG 画像 9 画素を生成する. この 9 画素を毎サイクル PE に入力 する. シストリックアレイの動作は, PE に初期画素を ロードすることから始まる. 初期化するためには 27 個の PE 全てに画素をロードする必要があるため, 3 サイクル必要となる. 初期化のための 3 サイクルが 経過すると, 27 個の PE に画素データが蓄積し, 極値 検出の結果が出力される. その後は 1 サイクル毎に データが一段ずつ下にシフトしていき, 1 サイクル毎 に 1 点に対する極値検出結果が出力される.



**Descriptor Vector Generation Architecture** 図 10 に特徴量記述アーキテクチャのブロック図を 示す.特徴量記述アーキテクチャは制御回路 (Sequencer), 2 並列の向き計算部(Orientation), 2 並 列の特徴量記述部(Description)から構成される.本 アーキテクチャの最も特徴的な部分である向き計算 部は,勾配計算部,COrdinae Rotation DIgital Computer (CORDIC)演算部,ヒストグラム生成部に よって構成されている.CORDIC はハードウェアで三 角関数を計算するための手法であり,広く用いられ ている.



## **Performance Evaluation**

図 11, 12 に提案アーキテクチャの導入によるガウ シアン平滑化, 特徴点抽出, 特徴量記述それぞれの サイクル数とメモリアクセスの削減効果を示す. SIMD アーキテクチャと比較して, ガウシアン平滑化 においてはサイクル数を 82%削減し, メモリアクセス を 99.8%削減する. 特徴点抽出においてメモリアクセ スを 66%削減する. 提案アーキテクチャは SIFT 処理 のボトルネックとなっている (1)ガウシアン平滑化の 演算量, (2)ガウシアン平滑化のメモリ帯域, (3)特徴 点抽出のメモリ帯域の 3 つの問題を解決する.



図 11 サイクル数削減効果



図 12 メモリアクセス削減効果

#### **Hardware Results**

設計したプロセッサは論理ゲート 1.1M ゲートで SRAM 容量は 1.38M ビットになった. 図 13 に設計し たプロセッサのチップ写真と仕様を示す.



図 13 チップ写真

図 14 に提案プロセッサの周波数・消費電力特性 の実測結果を示す. 青線がコア電圧 1.2V 固定時の グラフ, 赤線が最低動作電圧時のグラフである.



図 15 に過去に提案されている SIFT 特徴量抽出プ ロセッサ[2][3]との性能比較を示す. [2]と比較してフ レームレートについては 53 倍となっており, 高速性 が要求されるアプリケーションに適用可能である. さ らに消費電力については 38.2mW となり, 39%削減す ることができる. そのため限られたバッテリ環境で動 作する, モバイルアプリケーションへの適用が期待 できる.



図 15 性能比較

#### References

- D. Lowe, "Distinctive image features from scale-invariant keypoints," in International Journal of Computer Vision, vol. 20, 2003, pp. 91–110.
- [2] D. Kim, et al., "An 81.6 GOPS Object Recognition Processor Based on NoC and Visual Image Processing Memory", CICC, pp.443-446, Sep. 2007.
- [3] J. Y. Kim, et al., "A 201.4GOPS 496mW real-time multi-object recognition processor with bio-inspired neural perception engine", ISSCC Dig., pp.150-151, Feb. 2009.