見出し画像

IMUG 2022 第2回「Open intra-mart」開催レポート

皆さん、intra-martの運用監視どうしていますか?当社ではこうしてます


NTTデータ イントラマートが運営するユーザー会「IMUG」では、2022年10月26日(水)に今期第二回目となる「Open intra-mart」を開催しました。Open intra-martは、通常の3つの分科会(製品サービス分科会・業務プロセス改革分科会・ビジネスイノベーション分科会)とは異なり、IMUGに加入するユーザーからの要望を中心に毎回自由なテーマ設定で開催するカジュアルな場として、今期から開始しています。今回は、「皆さんintra-martの運用監視どうしてますか?当社はこうしてます」と題して、古野電気株式会社のIT部 データマネジメント課から池上淳也氏に講演頂きました。

とにもかくにも、まずは〇〇を見る!

兵庫県西宮市に本社を構える古野電気株式会社は、古くは1948年に魚群探知機の実用化に世界で初めて成功し、現在では世界80ヵ国超に販売拠点を持つ世界有数の舶用電子機器の総合メーカーです。

今回、自社でのintra-martの運用監視の方法について余すことなくお話し頂いたのは、古野電気株式会社でintra-martをはじめとする社内業務システムの開発・運用を手掛ける池上氏です。ご自身、IMUGの分科会に定期的に参加いただき、「まさか自分がこの場で皆さんにお話しすることになるとは」と笑いながらも、最終的にその講演の内容には他の参加者から多くの共感と質問の嵐が寄せられるものとなりました。

まず冒頭で、池上氏から参加した他のユーザーの方々に問いかけがありました。続けて、その問いかけに対する回答として、自社の「安定運用」の定義が示されました。

〈問いかけ〉
「システムが安定運用できている、ってどういうことでしょうか?」
〈回答〉(=自社で運用監視する上での定義)
「安定運用=ユーザーが問題なく使い続けられている状態」

普段から業務で当たり前のように使っている言葉を、こうして自社なりに定義することによって複数のメンバーとの共通認識を深めることは、本当につくづく重要だと思います。

池上氏は、この「ユーザーが問題なく使い続けられている状態」を維持するための運用監視において、障害発生時の原因の特定が最も大変であり、ひいては最も重要だと言います。では、パフォーマンスに問題が起こった時、何を見て原因を特定しているのでしょうか?

古野電気株式会社では、Webやアプリケーション、DB、インフラからネットワークまでの性能管理が一元的にできる性能監視ツールを利用していると言います。それぞれに専門知識が必要な領域の性能監視が、たとえその知識がなかったとしても全てまとめて計測できるため、原因の特定をいち早く行えるということです。

とはいえ、Webアプリケーションにおけるトランザクション処理の一連の流れには多様なサーバーやファイヤーウォール、負荷分散装置などが関わるため、原因の特定は決して簡単ではありません。そこで池上氏は、何かしら問題が発生している際、これまでの運用監視の経験から優先する対象とパターン化した対応を即時行っています。

〈ともかく、まずはココから切り分けを始める対象〉
・サーバーのCPU/メモリの負荷状況
・ミドルウェアの死活
・ネットワーク

パターン化の一例をご紹介すると、特定の処理でエラーが発生した際は、「とにもかくにも、まずはログを見る!!」に尽きるそうです。意外にもログを見ない人が多いようですが、ビジネスロジックの不具合やデータ異常による不具合にはこれが初動対応として不可欠と池上氏は強調しています。

また、こうした運用監視における日々の取り組みから、今回参加した同じintra-martのユーザーの方々に、ご自身が特に心がけている点として以下を列挙していただきました。

・原因の特定と影響の判断をいかに素早くできるか、がポイント
・素早い原因の特定によって、初動が変わる
・システムの「平常時」の状態を知っていることが大事
・障害が起こってからではなく、常日頃個別に調査し、性能改善につなげる

30分の講演では、もっと多くの非常に参考になる話を聞くことができ、「当社はこうしています」という今回のテーマの通り、余すことなくその知見を共有頂いた池上氏には、この場を借りて改めて感謝いたします。

参加者からは質問の嵐

講演の内容がいかに参加した他のユーザーの方々にとって有意義であったかは、その質問の多さから伺い知ることができました。皆さん、運用監視には様々な課題を抱え、きっと「他社はどうやっているんだろう?」と常々思っていたのだと感じます。

〈参加者からの質問の一部〉
・intra-martならではの運用監視の観点があれば教えて下さい
・監視に利用しているツールを具体的に教えて下さい
・「パフォーマンスが遅い」と判断するために基準は設けていますか?
・基準とする「平時」の定義はありますか?
・肥大化するDBのハウスキーピングは具体的に対策をとっていますか?
・運用監視の体制として何名必要だと考えていますか?
・アプリケーションのログの活用においてログ出力のルールはありますか?

当日はこうした参加者からの質問に講演者の池上氏から一つ一つ丁寧に回答頂きました。

最後に第2回Open intra-martを開催する企画段階での裏話を一つ。実は今回の運用監視のテーマで池上氏に講演を依頼した当初、「弊社のintra-martの導入は他のユーザーの方々に比べると比較的後発だと思うのでどれほど参考になるかどうか」と控えめに仰っていたのですが、蓋を開けてみれば非常に多くの方々がその手法と考え方に甚く感心するほど素晴らしい事例でした。

改めて、業種業態を超えたユーザー同士が直接交流することで、その知見を共有し合うオープンイノベーションの一端を垣間見たような気がします。

IMUGでは今後も参加頂くユーザーの方々から寄せられた関心の高いテーマを取り上げて「Open intra-mart」を開催します。お気軽にご参加下さい。

(IMUG事務局編集部)

--(お問い合わせ)
・イントラマートユーザ会(IMUG)個別説明会のお申し込みはコチラ
https://icotto.intra-mart.jp/imart/event/regist/8gcz9h9yfwcdzdx

・IMUGとは?
https://www.intra-mart.jp/service/imug.html