投稿日

SRE Lounge #8 に参加しました!

みなさまこんにちは!ソラコム OpsDev エンジニアの酒井(kengo) です。好きなサービスはSORACOM Kryptonです。

先日3月13日に行われました SRE Lounge #8 にて OpsDev エンジニアの 五十嵐(ash、あっしゅ と読みます) からソラコムでの取り組みについて発表させていただきましたので今回はその様子をご紹介したいと思います。

SRE Loungeとは

SRE とは Site Reliability Engineer(ing) の略でシステムの信頼性を高めるためのエンジニアリングおよびそれを担当する職種を表します。ソラコムでは SRE に相当する職種を OpsDev エンジニアと呼んでおり、監視システムや運用ツールの開発やコアシステムの保守運用をしています。( ちなみにソラコムの中でもOpsDev エンジニアは絶賛募集中のポジションです! )
SRE Lounge は UZABASE 様の SRE チームが中心となり昨年発足した勉強会でして、他社の SRE と情報交換ができる大変有り難く貴重なコミュニティです。

今回の SRE Lounge はクックパッド様のオフィスで行われました。SRE Lounge は毎回こんな感じで最初に乾杯してから始まります。控えめに言って最高ですね。

f:id:kengon:20190313192216j:plain

ソラコムAPIの裏側で運用チームは何をやってきたのか

最初はソラコム ash の発表です。ashについてはこちらをご覧ください。

ash からはまずソラコムのシステム構成やソラコム流の DevOps について紹介させていただきました。ソラコムでは各機能コンポーネントがマイクロサービス化されていますが、特徴的なのは開発チームがそのサービスの開発と運用に責任を持つことです。一方でOpsDevチームは監視システムの開発や運用作業の効率化のためのツールの開発をメインにしています。プレゼン後の質疑応答の際に「開発チームの中で開発担当と運用担当が別れてしまわない?」というご質問がありましたが、実装したエンジニアが一番そのサービスに詳しいはずでその人が対応した方が早く直せるはず、というポリシーでやっていますので現状は担当は別れていません。ただし今後チームが大きくなっていくとチーム内での知識共有が鍵となってくるかなと思います。
次に OpsDev エンジニアが開発したツールをいくつか紹介させていただきました。ソラコムの OpsDev チームでは slack で “/tel ニックネーム” と打つとその人の電話を鳴らすことができるツールを開発し、システムの障害時などの緊急時に使っています。Live Demo が無事成功し誇らしげな(そしてほっとしている) ash です。

f:id:kengon:20190313194128j:plain

最後に紹介させていただいたのは SRE の Job Description の分析結果です。ソラコムでも OpsDev エンジニアは絶賛募集中! なのですが、人材獲得が上手くいってそうな企業(ash の独断と偏見)の SRE の Job Description を集めて世の中の動向を調査してみた、ということですね。こちらは求められるプログラミング言語スキルの割合です。やはり Golang が伸びていて Python が思ったより少ないという感想を私は持ちましたが皆さまはいかがでしょうか。ちなみにソラコムでは基本的にはエンジニア自身が自由にプログラミング言語を選択できます。(詳しくは こちらの記事 を参照してください。) OpsDev チームでは現状では Python や Golang を使用することが多いですね。

f:id:kengon:20190313194720j:plain

Cookpad Microservice Architecture Overview

続いてクックパッド 吉川さんからはマイクロサービスアーキテクチャに関する発表がありました。
2013年ごろから大きな単一のコードベースだったサービスのマイクロサービス化を進めていかれたお話、その後Availabilityを上げるためにService meshを導入されたお話を共有してくださいました。
私としては特に Monitoring、Observability に関する取り組みが大変参考になりました。マイクロサービス化することで開発速度をあげる一方で、システム自体の複雑度が増してトラブルシューティングも難しくなることもあるかと思います。ソラコムの OpsDev チームでも取り組みたいポイントの一つですね。

f:id:kengon:20190313201422j:plain

割れ窓理論をWebインフラの改善に活用し、チーム内の知識共有を促進している話

最後にはてな id:hokkai7go さんの発表です。
割れ窓理論とは、軽微な犯罪を取り締まることで重大な犯罪も抑止することができる、という理論です。週に一度1時間程度 SRE チームで集まって割れ窓(軽微な問題や技術的負債)に取り組んでいる、副作用としてチーム内での知識共有を促進しているというお話でした。
そういった先送りにされがちな細かなタスクを時間をとってみんなで処理するというのは SRE に限らず他の職種にも有効だなと思いました。ソラコムでもぜひ真似したいですね。

f:id:kengon:20190313203733j:plain

お知らせ

次回のSRE Loungeは5月にサイバーエージェント様で開催予定だそうです。
また、SRE Loungeとは別の試みとして特定のテーマについてディスカッションするタイプの勉強会 SRE Session を4月10日に開催予定とのことでした。

最後に

登壇いただいたみなさま、運営のみなさま、参加者のみなさまのおかげでとても有意義な勉強会となりました!どうもありがとうございました!!

大事なことなので繰り返しますが(汗)、ソラコムでは一緒に信頼性の高いシステムを作っていく OpsDev エンジニアを絶賛募集 しています!カジュアル面談も受け付けていますので、ご興味のある方のご応募お待ちしております!
また、4月8日(月)にエンジニア向けのオープンハウスを開催予定です。OpsDevエンジニア以外の募集ポジションについても詳細をご紹介させていだきますので、ご興味のある方は こちら からご登録をお願いします!

ソラコム kengo