画像認識API徹底比較
画像解析APIをGoogleやIBMが公開しているけど何れを使うのが良いの?
色々あって迷うよね。画像認識APIを徹底比較したので詳しく解説します💛
Google、IBM、Amazon、Microsoftの画像解析APIを徹底比較してどのAPIが良いのかを詳しく解説します。
1.代表的な画像認識API
- Google Cloud Visision AI
- IBM Watson Visual Recognition
- AWS Amazon Rekognition
- Microsoft Azure Computer Vision
画像認識の機能
分類 | 機能 | 説明 |
---|---|---|
オブジェクト検出 | 汎用 | 物、人などのオブジェクトの座標を取得します。 |
顔 | 画像内から人物の顔を検出します。 | |
関心領域 | 画像内の"関心領域"の座標を取得します。 | |
ラベル検出 | 汎用 | 画像を物、場所、動物の種類、商品などの名称で識別します。 |
ランドマーク | 画像に含まれる自然/人工のランドマークの名前を返します。 | |
食品 | 画像に含まれる食品の名前を返します。 | |
ブランド | 画像に含まれる商業ブランドを識別します。 | |
有名人 | 画像に含まれる有名人を識別します。 | |
ロゴ検出 | 画像に含まれる一般的な商品ロゴや企業ロゴが検出します。 | |
テキスト検出 | 汎用 | 画像からテキスト(文字)を検出します。 |
顔分析 | 表情 | 顔画像から笑っている、目が開いているなどの表情の特長の判定を行います。 |
感情 | 顔画像から感情の状態の予測(喜び、怒り、驚きなど)を行います。 | |
年齢・性別 | 顔画像から年齢・性別の判定を行います。 | |
画像説明検出 | 汎用 | 画像全体の説明を生成します。 |
色検出 | 画像の色を識別します。 | |
ウェブ情報 | 画像に関連するGoogle検索結果を返します。 | |
セーフサーチ | 性的表現 | 裸・性的行為などの画像か判定します。 |
暴力表現 | 暴力的なコンテンツか判定します。 | |
不快 | ブラックジョークなど視覚的に不快なコンテンツでないか? | |
手術 | 手術やMRI などのコンテンツでないか? | |
改変 | オリジナルを改変した画像か判定します。 |
2.画像認識APIの比較
機能比較一覧
分類 | 機能 | IBM | Amazon | Microsoft | |
---|---|---|---|---|---|
オブジェクト検出 | 汎用 | 〇 | 〇 | 〇 | 〇 |
顔 | 〇 | 〇 | 〇 | 〇 | |
関心領域 | - | - | - | 〇 | |
ラベル検出 | 汎用 | 〇 | 〇 | 〇 | 〇 |
ランドマーク | 〇 | - | - | 〇 | |
食品 | △(*1) | 〇 | - | - | |
ブランド | △(*1) | - | - | 〇 | |
有名人 | △(*1) | - | 〇 | 〇 | |
ロゴ検出 | 〇 | - | - | - | |
テキスト検出 | 汎用 | 〇 | 〇 | 〇 | 〇 |
顔分析 | 汎用 | - | - | 〇 | - |
感情 | 〇 | - | 〇 | - | |
年齢・性別 | - | 〇 | 〇 | 〇 | |
画像説明検出 | 汎用 | △(*1) | - | - | 〇 |
色検出 | 〇 | - | - | 〇 | |
ウェブ情報 | 〇 | - | - | - | |
セーフサーチ | 性的表現 | 〇 | 〇 | 〇 | - |
暴力表現 | 〇 | ? | ○ | - | |
不快 | 〇 | ? | ○ | - | |
手術 | 〇 | ? | - | - | |
改変 | 〇 | - | - | - |
*1 当該専用機能は無いが「(画像に関連する)ウェブ情報」抽出機能で実現可能
日本語対応
ベンダー | 対応有無 |
---|---|
× | |
IBM | 〇 |
Amazon | × |
Microsoft | × |
どのベンダーも翻訳APIを提供しているので、画像認識APIの結果を翻訳APIで翻訳することで、どのAPIも日本語対応可能です。
価格
どこのベンダーも1,000リクエストくらいまでは無料で使えます。以降は重量課金で使った分だけお金がかかります。
1,000リクエストあたりの価格
ベンダー | 概算価格 | 製品ページ |
---|---|---|
100円強 | リンク | |
IBM | 200円強 | リンク |
Amazon | 100円強 | リンク |
Microsoft | 100円強 | リンク |
3.画像認識API比較結果
結論
解説
GoogleのWEB検索が最強
各社それぞれ得意分野がありますが、Googleは十八番のウェブ検索を用いてほぼ何でも見分けることが出来るので、何を使うか迷ったらGoogleです。ランドマーク、食品、ブランド、有名人何でも見分けられます。
Google Cloud AutoML Vision入門 画像認識・機械学習・AIを使ったウェブサイトやアプリをつくる/衛藤剛史【合計3000円以上で送料無料】 価格:2,592円 |
何かに特化するならGoogle以外の選択もある
何かに特化して調べたい場合はそれ専用のAPIがある製品を選んでも良いと思います。たとえば食品に特化して調べたいと言う場合はIBM Watsonを選ぶのが良いと思います。
2019/9/21追記
解析精度を詳しく検証しました。現時点でGoogleの解析精度は最強です。
Googleの画像認識APIは最強!!画像認識API徹底比較結果 - ぴよ猫ちゃんの機械学習
顔認識はAmazon AWSの機能の方がGoogleより多いので、顔認識をするならAWSという選択肢もありますが、それ以外でGoogle以外を選ぶ理由は現時点では無いと思います。
顔認識ならAWS
顔認識はAmazon AWSが非常に高機能です。Googleを含む他の三社には表情をカテゴライズする機能は無いので、顔認識をしたい場合はAmazon AWSを選ぶのが良いと思います。
価格:3,567円 |
ハイブリッドもお勧め
どの会社の製品も万能ではありません。なので色々なことをしたい場合は複数社の製品を組み合わせると良いと思います。
極端な話し一社のAPIで出来ることで皆が欲しいと思う機能はその会社が実現してしまうので、作っても売れません。しかし、逆にこの四社が基本的にやらないことがあります。各社のハイブリッドです。事実として画像認識ではありませんが正に翻訳こんにゃくと話題になったポケトーク
は翻訳APIをハイブリッドで使っておりGoogle翻訳より精度が良いとアピールしています。
4.画像認識でアプリを作ってみた
試しに画像認識APIでアプリを作って見ました。
驚くほど簡単に画像認識が出来ました。やり方もこちらの記事で紹介していますので良ければご覧下さい。
それではまたー💛