Microsoft Cognitive Services(マイクロソフト認知サービスAPI)まとめ

Microsoft Cognitive Services(マイクロソフト認知サービスAPI)で利用できる機能を簡単にまとめました。

コグニティブってなに? というかたもいると思いますので、簡単に説明するとAI技術をつかって「モノ・コトを認識させる」(認知)の技術です。
そのため、通常のAI(人工知能)とはゴールが異なり、あくまで「AI技術を利用したサポート」を行うものとなっています。
※ただの「認識」だけならセンサーや分析になります。AI技術を使うことにより、「認識」+「知覚」となりますので、「認知」として訳しています。

便利に使えそうな機能が多いので、アプリ開発の幅が広くなりますし、うまく組み合わせて利用すれば、Windows10の「コルタナ」LINEの「りんな」のような対話型のアプリ開発が出来るかもしれません。(※AIではなく、対話Botまで。)

有料サービスではありますが、各機能ごとに月単位での無料セッション数がありますのである程度までは普通に使えます。
(※個別に無料枠の範囲が異なります。)
ぜひ、有効に活用してみてください。

追記:
タイトルのリンクから簡単に遊べる動作テストを行えるページにリンクできます。
気になる技術は実際に確認してみてください。

視覚(Vision)

コンピュータビジョンAPI(Computer Vision)
(無料範囲:5,000トランザクション/月)
画像を分析して、画像から豊富な情報を抽出します。
有名人の認識、サムネイルの生成、画像内のテキスト抽出も可能。
日本語での提供あり

エモーションAPI(Emotion)
(無料範囲:3万トランザクション/月)
画像内の表情から感情を認識することができます。
日本語での提供あり

フェイスAPI(Face)
(無料範囲:3万トランザクション/月)
画像内の複数の顔を検出し、顔の特徴から顔を検出できます。
類似顔検索、グループ化、タグ付けします。
日本語での提供あり

動画API(Video)
(無料範囲:300トランザクション/月)
インテリジェントビデオ処理。不安定な映像を滑らかに安定させます。
動画内の顔検出と追跡、動きの検出、動画のサムネイルの作成も可能。

追加記事あり。Microsoft Azure Media Analytics(動画処理サービス)まとめ

音声(Speech)

BingスピーチAPI(Speech Recognition)
(無料範囲:5,000トランザクション/月)
音声をテキストに変換、およびテキストを音声で読み上げます。(または両方)
音声の意図認識機能(言語理解インテリジェントサービス)で、自然な音声応答を学習していきます。
日本語での提供あり

カスタム認識インテリジェントサービス(CRIS)(Speech Custom)
(無料範囲:プレビューのため不明)
音声認識での誤認識やバックグラウンドノイズの問題を微調整できます。
言語モデルのカスタマイズ、音響モデルのカスタマイズ、アプリへのカスタマイズ環境の提供。

話者認識API(Speaker Recognition)
(無料範囲:1万トランザクション/月)
認証の手段として、話している人物を特定できます。
音声データからの話者照合、話者識別で話している人物を認識することができる。
日本語での提供あり

言語(Language)

BingスペルチェックAPI(Bing Spell Check)
(無料範囲:5,000トランザクション/月)
スペルチェック機能。スペルミスを検出し、正しく修正します。
名前やブランド名、同音異語やスラング(方言)の違いも認識。
日本語での提供あり

言語理解インテリジェントサービス(LUIS)(Language Understanding)
(無料範囲:10万トランザクション/月)
言語理解モデルを使用して、文脈言語を理解します。
専用の言語理解モデルを構築する必要がありますが、Bingやコルタナの言語理解モデルを使用して、すぐに機能を有効できる。
また、ユーザーからの言語コマンドを理解させて、アプリの実行をさせることも可能。
日本語での提供あり

言語分析API(Linquistic Analysis)
(無料範囲:5,000トランザクション/月)
自然言語処理のための高度な言語解析ツールを使用できます。
テキストの文章を分割して、品詞(一般名詞、人物、場所、物事など)や動詞のタグ付けして分類をすることで、文の内部構造と意味を解りやすくします。

テキスト解析API(Text Analutics)
(無料範囲:5,000トランザクション/月)
テキストの内容から言語検出、感情分析、キーフレーズ抽出、話題の検出ができます。
※感情分析、キーフレーズ抽出は英語のみサポート
日本語での提供あり

ウェブ言語モデルAPI(WebLM)
(無料範囲:10万トランザクション/月)
ウェブ全体で構築した言語モデルを活用できます。
単語の自動分割、特定文章の頻度を計算、次の単語の確率や補完が可能。
日本語での提供あり

知識(Knowledge)

教育コンテンツAPI(Knowledge Academic)
(無料範囲:1万トランザクション/月)
アカデミックグラフを利用して学術論文、雑誌、著者の検索ができます。
検索ボックスでの自動補完、教育コンテンツの検索、引用分布のグラフデータ活用。
日本語での提供あり

固有名詞の認識サービス(Knowledge Entity Linking)
(無料範囲:1000トランザクション/日)
文脈から関係する人や場所、物事などを関係づけて認識できる。

知識探査サービス(Knowledge Exploration)
(無料範囲:最大10,000オブジェクト、1000トランザクション/月)
自然言語の入力を構造化されたデータの活用で解釈して、対話型のインタラクティブな検索機能が実現できます。
自然言語の理解、候補を表示する自動補完、構造化データでの評価、属性のグラフデータ活用。

推奨API(オススメAPI)(Knowledge Recommendation)
(無料範囲:1万トランザクション/月)
顧客にパーソナライズされた情報で商品の推奨を提供できます。
一緒に購入される商品を推奨、商品に関連した商品を推奨、事前の活動から予測して興味がある商品を推奨。
日本語での提供あり

Web検索(Search)

BingオートサジェストAPI(Bing Autosuggest)
(無料範囲:1万トランザクション/月)
入力時に検索候補を表示する、入力補完機能を利用できます。
日本語での提供あり

Bing画像検索API(Bing Image Search)
(無料範囲:Bing全体で1,000トランザクション/月)
画像のメタデータを利用したWeb上の画像検索を利用できます。
結果はサムネイル、画像のURL、出稿元のウェブサイト情報、画像のメタデータなどがあります。

Bingニュース検索API(Bing News Search)
(無料範囲:Bing全体で1,000トランザクション/月)
トレンドやトピックでWeb上のニュース記事を検索できます。
結果は、ニュース記事の画像、関連するニュース、カテゴリー、記事のURLなどがあります。

Bing動画検索API(Bing Video Serach)
(無料範囲:Bing全体で1,000トランザクション/月)
Web上のトレンド動画を検索できます。
結果は、サムネイル、アニメーションGIF、作成者、エンコード形式、ビデオの長さ、ページビュー数など。

Bingウェブ検索API(Bing Web Search)
Web検索を利用できます。
Bingによってインデックス付けされた、Webドキュメントを検索できます。
画像、動画、ニュース、電卓などの機能を一度に処理することが出来ます。

その他

ボットフレームワーク(Bot Framework)
(2016/4/1時点で開発中のため無料)
テキストはもちろん、スカイプやツイッター、ショートメッセージサービス、Office 365メールなどの人気のあるサービスから、自然なユーザーとの自然な対話ができるボットサービスを構築できる。
※英語のみサポート(日本語での利用は可能

マイクロソフト翻訳(機械翻訳API)(Microsoft Translator)
(無料範囲:200万文字/月)
マイクロソフトの翻訳を利用できます。
クラウドを利用してテキストと音声を翻訳できます。
音声翻訳は8言語、テキスト翻訳は50以上の言語をサポートしています。
日本語での提供あり

コンテンツモデレータ(Content Moderator)
(2016/4/1時点で未提供)
カスタムおよび共有ブラックリストを利用して、コンテンツポリシー違反のコンテンツを警告、ブロックするための機能が利用できる。
日本語での提供あり

PhotoDNAクラウドサービス(PhotoDNA Cloud Service)
(無償)
違法画像発見ツール。過去に摘発された数十万枚の違法画像の特徴から違法画像を検出できる。

まとめ

他のAPIサービスにない機能として、やはり注目は「フェイスAPI」や「ボットフレームワーク」でしょう。
学習など注意する点もありますが、マイクロソフトが提供しているサービスでの運用実績もありますので有効利用が期待できそうです。
そのうちにすべてのアプリが対話型になる世界が実現されるかもしれません。

今のところ、こちらはほぼ英語圏でのサービスしか提供していない状態になっています。
まだベータとなってはいますが、Microsoft Cognitive Services(マイクロソフト認知サービスAPI)は日本語での環境も充実してきており、サンプルコードや企業での活用実績も出てきました。そろそろ本格的に利用の検討をしていく時かもしれません。

利用申請はこちらから行えます。

日本語圏でのサービス利用:
https://azure.microsoft.com/ja-jp/services/cognitive-services/

英語圏でのサービス利用:
https://www.microsoft.com/cognitive-services/en-us/sign-up

2017/4/21追記

「コンピュータビジョンAPI(Computer Vision)」
 ※検出できる種類が増えました。(手書き文字、観光名所、有名人など)
「フェイスAPI(Face)」
 ※エモーションAPI(Emotion)の感情検出機能がつきました。
「コンテンツモデレータ(Content Moderator)」

この3つのサービスが、2017年4月20日から一般提供を開始しました。
長らく(約1年)ベータ版ということで、利用を控えていたケースもあるかもしれませんが、他のサービスも続いてリリースされると思いますので、期待しておきましょう。

気になる料金体系はこちらを参考にしてください。
https://www.microsoft.com/cognitive-services/en-us/pricing

訂正、指摘などあればコメントをお願いします。
参考原文:https://www.microsoft.com/cognitive-services/

※2017/2/3 一部修正

この記事をシェアする
Tweet about this on Twitter
Twitter
Share on Facebook
Facebook
0

Comments

Comments