RTView Oracle Coherence Monitor

Coherence 開発チームとのコラボレーションによって生まれた、
専用のモニタリング・ツール


Oracle Coherence は、業界をリードするインメモリ分散データ・グリッド・ソリューションで、ユーザはミッション・クリティカルなアプリケーションをスケーリングすることができます。Coherence は、信頼性が高く極めてスケール可能なピアツーピア・クラスタリング・プロトコルをベースに構築された分散(パーティションされた)データ管理ならびにキャッシング・サービスを提供します。

このピアツーピア・クラスタリング・プロトコルによって、Coherence はシステム・ダウンすることなくスケーリングされることから、集中監視ならびにレポ―ティング・コンソール機能は含まれません。代わりに、ノード毎に何百もの運用指標が JMX インタフェースによって提供されます。特に大規模で複雑なクラスタ運用では、専門の Coherence 監視ツールがないと、クラスタ構成、健全性、リソースの使用状況、アクティビティ、パフォーマンスを検証するのは容易ではありません。

RTView Oracle Coherence Monitor (OCM) は、2006年来、今日に至って、Coherence の開発チームとのコラボレーションによって開発・機能拡張されてきた、Coherence クラスタの監視とトラブルシューティング専用のモニタリング・ツールです。世界で最もクリティカルなシステムを運用されている Coherence ユーザの多くが OCM を活用しており、SL 社の OCM 開発メンバーは Coherence 監視の専門家として、カスタマ・アドバイザリー・ボード (CAB) ミーティングや SIG (Special Interest Group) ユーザ会に、技術講演などで積極的に参加しています。

・OCM ユーザ例:
BI Worldwide, BNP Paribas, CMC Markets, Harris Corp, Healthways, Litle Corp, Macys.com, McAfee, ON24, OOCL, Riot Games, TD Ameritrade, US Oncology, Victor Chandler

包括的な監視、パフォーマンス・チューニング、ならびに Oracle Coherence の可視化ソリューションを提供してきた RTView OCM は、他の監視ツールと異なり、Coherence アーキテクト、開発者、オペレーション・スタッフによって、使用されており、軽量でスケーラブル、容易にインストールして構成できます。また、データベースを中核にした監視ツールと異なり、OCM はデータを遅延なくリアルタイムに収集、分析、表示します。典型的な OCM による監視では、性能指標は10秒から30秒間隔で更新されるため、システム遅延や性能劣化に関連したクリティカルなイベントを捉えることができます。


クラスタの物理構成ならびに論理構成


クラスタが意図したとおり構成されているか、RTView OCM は、物理的ならびに論理的両方のリソースを含め、Coherence クラスタ構成の完全な全体像を提供します。重要な構成に関する情報には、ホスト、ノード(JVM)、メモリ、CPU、スレッドなどの物理的なリソースが含まれます。また、OCM は Coherence 特有の論理的なリソースも報告します。これらには、クラスタ・サービスやそのカレント・メンバーシップ、メンバー・ロール、分散ならびにレプリケーション・キャッシュ・サービス、サービスに関連したキャッシュとキャッシュ構成、各キャッシュ毎のオブジェクト数があります。論理的なリソースには呼び出しサービス、プロキシ・サービス、各プロキシ・ノード毎のクライアント・コネクションがあります。

クリックで拡大表示
「クラスタ・オーバービュー」画面では、クラスタのサイズ、サービスの状態、
アクティビティ、健全性などの高レベル概要を表示。



クラスタ・アクティビティとワークロード: カレントと履歴


RTView OCM では、すべてのサービスならびにサービス・タイプに対してクラスタのアクティビティとワークロードを監視します。その情報はリアルタイムに表示されるとともに、OCM のヒストリアンに永続化され、同じインタフェースで短期と長期両方のトレンドを容易に分析できます。Coherence では、性能データは通常サービス・レベル(メッセージ、リクエストならびに保留中リクエスト、タスク・バックログ、スレッドと放棄されたスレッドなど)に報告されます。また、ワークロード(プットとゲット、エビクション(追い出し)と有効期限、データベース格納と格納失敗など)は、キャッシュ・レベルで報告されます。


クリックで拡大表示

クリックで拡大表示
「単一サービス・サマリ」画面では、一つの
キャッシュ・サービスに関連する全ノードを
集計したパフォーマンス指標、アクティビティ、
ステータスを表示。
「カレントサイズ・グラフ」画面は、選択した
サービスのオブジェクト総数、総ユニット数を
棒グラフで表示。「テーブル」ボタンで、
現在の情報を容易にテーブル形式で
表示してレポート化可能。


クラスタ健全性、リソース使用状況、重要な KPI


すべてのメンバーで通信状況は健全でクラスタは安定しているか?
クラスタは全体的に充分な容量(メモリ、ネットワーク、CPU、スレッド、ハイユニット)があるか?
任意の個々メンバーまたは個々のキャッシュ容量は制約されたまたは無効な状態にないか?
など、RTView OCM は、これらの質問に答える高度なクラスタ・ワイドな分析を提供します。サービスの高可用性(HA)状態、各キャッシュのデータ量、サービスによって報告された性能指標、データベースへの書き込みエラーなど、使用可能な Coherence リソース全体の現在の状態を監視します。


クリックで拡大表示
この「ヒートマップ」画面では、ノードを種類とホストで分類してクラスタに含まれる全ノードを表示。 それぞれの矩形は各ノードの最大メモリ・サイズに比例した面積で描画され、
その緑色の濃さは各ノードの CPU 使用率。


ホットスポットならびにボトルネックの革新的なビジュアル分析


Oracle Coherence におけるホットスポット、ボトルネック、遅延は、革新的な「ヒートマップ履歴」画面に描写され、薄色の矩形と濃い色の矩形の行で、クラスタの振る舞いを時間経過とともに示します。トレンドチャートにおけるそれぞれの行は、物理的または論理的なリソースについて、時間経過とともに表示します。これらを積み重ねていくことで、クラスタのパターンを時系列で見ることが可能になります。そして、任意の矩形でマウスオーバーして、その基盤の性能指標を確認できます。また、「ヒートマップ履歴」画面では、ユーザは Coherence 内部の「ロード・バランシング」のクラスタ・アクティビティやリソースの使用状態や、ノード全体に渡って、キュー形成や永続化を容易に見ることができます。これによってユーザは、想定外の振る舞いや分散しきれていないアクティビティ、リソースの使用状態が良くないなど、どこでいつ起きたのかとともに識別することが可能です。
濃い縦線は、ある時点でのクラスタ全体のイベント一つを示します。濃いスポットは、ある時点での特定リソースにおけるホットスポットを示します。濃い横線は、物理的または論理的なリソースにおけるホットスポットが時間とともに永続化されていることを示します。これらの画面は、本番環境におけるトラブルシューティングならびに問題の根本原因の解明、負荷ならびに性能テスト結果の解釈、コード変更による影響の分析で、極めて有効です。


クリックで拡大表示
クラスタ内全ノードの JVM のメモリ使用量とパケット送受信の失敗を時系列で示す画面。
負荷分散状況からボトルネックとなるノードの分析が可能。
通常、ストレージ・ノードはメモリ・プロセス(非格納)とは
かなり異なるメモリ・プロファイルを持っています。


アラートと最も重要なクラスタ KPI(主要性能評価指標)


Oracle Coherence は多くの場合、重要なビジネス・アプリケーションのコンポーネントであり、オペレーション・スタッフはプロアクティブに監視することによって、障害になり得る問題をユーザが影響を受ける前に解決しなくてはなりません。RView OCM には、18種類の予め定義されたアラートを装備しており、クラスタ障害と性能劣化に発展し得る最も重要な状況を把握することができます。また、これらほとんどのアラートは、クラスタ全体の分析に関与します。

個々のノードにおける多くの問題は透過的で介入を要しませんが、クラスタ全体における問題は即座に解決対応する必要があります。たとえば、利用可能なメモリ量が低い、一つのノードで異常なネットワーク・パケットのロスは、正常なガ−ベッジ・コレクションによる想定内の一時的な現象かもしれません。しかしながら、クラスタ全体の利用可能なメモリ量が低いまたは異常なクラスタ全体におけるパケット・ロスは、アラートと調査を即座に要する非常な状態です。RTView OCM では、アラートの情報はメールで通知したり、他のアラート・システムに送信するように、簡単に構成できます。


クリックで拡大表示
「アラート管理」画面では、各アラートしきい値、有効/無効を容易に変更可能。
設定は OCM インスタンス内の全クラスタに対してグローバルにも適用可能。


効率的で革新的なクラスタ全体の JMX MBean データ収集


Oracle Coherence から JMX ポーリング技術を使って、そのクラスタへの性能に影響を及ぼすことなく、10秒〜30秒毎に一貫性ある正確な監視データを収集するのは、意外にも困難です。SL 社では、多数年における最も大規模でクリティカルな Coherence クラスタ運用の監視経験から独自の技法を開発・実装してきました。時間ロスやクラスタに影響なくすべての MBean データをある時点で一気に収集することや、JMX MBean サーバの性能改善によって何万もの MBean を迅速に返して秒単位のポーリング間隔を可能にすることなどが、解決しなくてはいけない重要問題として挙げられます。


クリックで拡大表示
「JMX データソース・ステータス」画面では、すべてのクラスタ JMX リクエストを表示して追跡。
トータルな実行時間は、正確なデータを返すために、
ポーリング時間インターバル以内でなくてはいけません。

RTView OCM は自身をも監視し、OCM が出した JMX リクエストそれぞれをすべて詳細に報告します。その情報は、OCM のポーリング間隔を調整するのに使用し返すデータの正確さを確保できます。OCM で提供されている「JMX テーブル」カスタム MBean は、JMX データ収集におけるクラスタのオーバーヘッドを削減します。ネットワーク・オーバーヘッドの削減(予測)は約 66 %です。また、OCM は「スーパーサイズ」管理フレームワークを含む3種類の JMX クラスタ接続を提供しています。


商用・テスト・開発クラスタに適用するのに最適な最小フットプリント


Oracle Coherence 自身のように、RTView OCM は Java で書かれており、インメモリで稼働してパーティショニングを通してスケーリングします。そして極めて軽量、柔軟、かつ容易にインストールして構成でき、OCM に収集して集約される監視データを閲覧できるよう、RTView は複数の画面とレポ―ティング・クライアントをすぐに使えるアウトオブザボックスで提供しています。また、最も対話性の高い Java デスクトップ・クライアントの他、RTView の HTML サーバ運用によるブラウザ・シンクライアントはスマートホンを含む複数のデバイスでのリモート・アクセスを提供します。

さらには、OCM によって収集されたすべての監視データは、REST ウェブサービス、XML HTTP リクエスト、またはシンプルな Java API で利用可能です。リアルタイムな現在のデータと履歴データの両方を OCM から抽出し、ユーザ独自のレポ―ティング・ツールや CSV ファイルや Excel に抽出して、さらに分析することも可能です。

また、OCM ヒストリアンによって収集されたデータは、Oracle などの任意の JDBC/ODBC データベースに保存することができ、他のレポ―ティング・ツールによってアクセスすることができます。

クリックで拡大表示
iPhone や iPad に表示される OCM

Technical Paper: Oracle Coherence

AP2014 拡大版セミナ

定期購読の申し込み

Download Free Trial


RTView ユーザ事例: OOCL 社
RTView ユーザ事例: Smart & Final 社
SL, SL-GMS, GMS, RTView, SL Corporation and the SL logo are trademarks or registered trademarks of Sherrill-Lubinski
Corporation in the United States and other countries. © 1999-2014 Sherrill-Lubinski Corporation. All rights reserved.