タグ

opsに関するteppeisのブックマーク (23)

  • オンコール対応とは?〜現場担当者が語るオンコール対応の不安解消方法を解説!~|インシデント管理プラットフォーム│PagerDuty

    インシデント管理における「オンコール対応の重要性」オンコールとは、勤務時間外を含めて緊急対応が必要なインシデントに対応できるように、対応者や担当時間を決めておく仕組みです。 現在は、24時間365日稼働が前提となるシステムが多いなか、サービスの信頼性を守るには迅速なインシデント対応が求められます。仮にサービスが停止することになれば、機会喪失や顧客満足度低下を招くことになりかねません。そのため、インシデント管理においては速やかに対応が行える、オンコール対応が重要です。 なお、システムで起こり得るインシデントの種類は、以下の記事でも解説しています。 「インシデント対応」とは? 〜効率的な体制構築のポイントを解説〜 また、インシデント管理については以下の記事で解説しているので、ぜひ併せてご覧ください。 「インシデント管理」とは?〜システム障害を未然に防ごう〜 エンジニアがオンコール対応に不安を感

    オンコール対応とは?〜現場担当者が語るオンコール対応の不安解消方法を解説!~|インシデント管理プラットフォーム│PagerDuty
  • [レポート] #ssmjp 2019/03 〜ヤマサキ春のサメまつり〜 で「運用自動化とは」を聞いてきた | DevelopersIO

    3月 6日に行われた #ssmjp 2019/03 、その中で tcsh 氏による「運用自動化とは」のプレゼンが興味深かったのでレポートします。 はじめに 先月(3月)の 6日に、「ヤマサキ春のサメまつり」と題して開催された #ssmjp 2019/03 。その名の通り JAWS DAYS 2019 の裏話からチョウザメまで様々な「サメ」にまつわるプレゼンテーションが行われたのですが、その中でいちばんアウェイ感の高かった(主観)「運用自動化」の話が個人的に非常に興味深かったので、個人的に重要と思ったところを中心にご紹介します(一ヶ月近く時間が空いてしまいましたがご容赦下さい…)。 #ssmjp 2019/03 - connpass 話者は、 2017 年に有名な 運用自動化、不都合な真実 のプレゼンを行って以来 「不都合」のハタノさん と呼ばれ、今年(2019年)は 正しい「運用自動化」の

    [レポート] #ssmjp 2019/03 〜ヤマサキ春のサメまつり〜 で「運用自動化とは」を聞いてきた | DevelopersIO
  • モブオプスなかなかよかった - Konifar's ZATSU

    最近opsチームに入って、まずは業務を知ることにした。 ドメイン知識とツールの習熟が必要な業務がまあまあ多くてキャッチアップに時間がかかりそうだったので、モブプロ*1ならぬモブオプスをやってみたらどうかと思い実行してみたところ、なかなかよかったのでざっと記録に残しておこうと思う。 やったこと モブプロの説明をする 入社したばかりでキャッチアップ中の人がドライバーとなってops業務を行う ベテランの人は助言や補足をする 自分(開発・ops初心者)はわからないところを聞く 業務の1つが終わる、または1時間経ったら終了 よかったこと opsの業務に対してツールが追いついておらずマジで工夫して何とかしてくれてるのだなということがよく理解できた ツールを改善するにあたり、業務を効率よくキャッチアップできた メモとして書いていったものがそのまま手順書にできそう ドライバーも知識の確認になってよかったと

    モブオプスなかなかよかった - Konifar's ZATSU
  • AWS運用専門の勉強会「Ops JAWS#13」で「IAMの運用 ベストプラクティス」というタイトルで登壇してきました #jawsug #opsjaws | DevelopersIO

    森永です。 Ops JAWS#13で「IAMの運用 ベストプラクティス」というタイトルで登壇しました。 スライド まとめ IAMロールは最高 アクセスキーはつらい ログは必ずとる 上記を守るだけでだいぶ楽になります。権限の管理などは組織に合わせて適切なものを検討しましょう!

    AWS運用専門の勉強会「Ops JAWS#13」で「IAMの運用 ベストプラクティス」というタイトルで登壇してきました #jawsug #opsjaws | DevelopersIO
  • インフラエンジニアのいない会社で働いて 1 年半 - Diary

    インフラエンジニアのいない会社で働いて 1 年半 が経った。 iOS で動く POS レジアプリとその管理インターフェイスの Web アプリケーションを作ってます。 iOS 側のことはほとんど分からなくて、データ同期用 API と Web アプリをずっと作っている。 ところで、 「NoOps」の時代がこない理由という記事が前にあったのですが、この点ぼくが働いている会社は NoOps です。アプリケーションは Heroku に乗っていて、 RDBMSAmazon RDS で一部分析系に Google BigQuery を使っていること以外は全て Heroku 系の何かで動いています。 CI は Travis と circleCI を使っていて、 circleCI については来年初頭にも利用をやめて Travis に一化する予定、というかんじ。 当に自分達でなにもサーバーを管理してい

    teppeis
    teppeis 2016/12/27
  • Quipper におけるリリース作業の負荷を分散するための取り組み - スタディサプリ Product Team Blog

    Web Developer の @yuya-takeyama です。 入社から 1 年と少し経ちました。 Quipper School/スタディサプリ高校講座/大学受験講座の Web 開発を担当していて、帰宅前にバッティングセンターに通うのがほぼ日課です。 今日はリリースに関する話を書きますが、デプロイの自動化とかそういった話ではなく、もうちょっと泥臭い話です。 リリースまでの流れ 前提として、Quipper では番環境へのアプリの自動デプロイはあまり行っていません。 カスタマーサポート用の社内アプリ等は GitHub での master ブランチへのマージ時に自動デプロイを行っていたりもしますが、 エンドユーザ向けのアプリは週に一度、以下のような流れで行います。 その週のリリースに必要な機能が揃ったところでリリース用のブランチを作成し、リリーステスト用の環境にデプロイ テストケースに沿

    Quipper におけるリリース作業の負荷を分散するための取り組み - スタディサプリ Product Team Blog
  • 書評: Site Reliability Engineering

    英語だけどぜひ読んでほしい Site Reliability Engineering: How Google Runs Production Systems 参考になったのでご紹介。Googleのインフラ/Ops系技術チームの働き方や考え方を題材にしたです。GoogleのSREについては断片的に知っていたのですが、まとめて読むと違いますね。背景やストーリーがあって、理解しやすいです。 共感できるネタがどんどん繰り出されるので、一気読みしました。読み込みが浅いところもあったので、改めて読む予定。 以下、印象に残ったこと。 Site Reliability Engineering teamは、インフラ/Ops担当であるが、Unix内部やネットワークなどインフラの知見を持つソフトウェアエンジニアの集団。自分たちのオペレーションを効率的に、迅速に、確実にするために、コードを書く。 インシデント対

  • Linuxサーバにログインしたらいつもやっているオペレーション - ゆううきブログ

    主にアプリケーション開発者向けに、Linuxサーバ上の問題を調査するために、ウェブオペレーションエンジニアとして日常的にやっていることを紹介します。 とりあえず調べたことを羅列しているのではなく、当に自分が現場で使っているものだけに情報を絞っています。 普段使っているけれども、アプリケーション開発者向きではないものはあえて省いています。 MySQLNginxなど、個別のミドルウェアに限定したノウハウについては書いていません。 ログインしたらまず確認すること 他にログインしている人がいるか確認(w) サーバの稼働時間の確認 (uptime) プロセスツリーをみる (ps) NICやIPアドレスの確認 (ip) ファイルシステムの確認(df) 負荷状況確認 top iostat netstat / ss ログ調査 /var/log/messages or /var/log/syslog /

    Linuxサーバにログインしたらいつもやっているオペレーション - ゆううきブログ
  • インフラチーム改め Site Reliability Engineering (SRE) チームになりました | メルカリエンジニアリング

    インフラチーム改めSite Reliability Engineering チームの @kazeburo です。この記事ではまだ馴染みの薄い Site Reliability Engineer とは何かについて紹介したいと思います。 SREとGoogleのSRE Site Reliability Engineerは日語にすると「サイト信頼性エンジニア」となりますが、あまりキャッチーではないので普段は略語の「SRE」を使用しています。SREという職種は日ではあまり聞く事はありませんが、FacebookやAirbnb、Dropboxなどの企業でSREが募集され、それぞれのサービスを支える重要な役割を担っていると思われます。中でもSREのパイオニアとしてGoogleのSREチームが有名です。 GoogleのSREチームはGoogleの検索、広告、Gmail、YouTube、App Engin

    インフラチーム改め Site Reliability Engineering (SRE) チームになりました | メルカリエンジニアリング
    teppeis
    teppeis 2015/11/23
    Site Reliability Engineering
  • Reactioリアクティオ

    Reactioは、システム障害の対応に特化したインシデント管理ツールです。障害発生時に、電話とメールで一斉通知。その後、インシデント管理や対応履歴のタイムラインが残るので、障害報告書の作成に便利です。

    Reactioリアクティオ
  • Immutable Infrastructure の有用性

    Issei Naruta @mirakui Immutable Infrastructure の質は、サーバを使い捨てにできる環境にしていこうぜっていうところにあって、それに比べるとサーバセットアップ後は chef 実行しないよっていうところは些細なことな気がしてきている 2013-11-25 14:33:41 naoya @naoya_ito Immutable Infrastructure は、セットアップ済みのサーバー含めて複雑な状態管理はやめて使い捨てにしてポータビリティ・・・というのかな、そういのをを上げていこうみたいな発想 2013-11-25 14:38:18

    Immutable Infrastructure の有用性
    teppeis
    teppeis 2013/11/25
  • Future of server provisioning

    A method for separating policy definition and behavior control by an intermediate language to achieve optimal server configuration management according to the situation

    Future of server provisioning
  • Sensu | Observability Pipeline

    The Observability Pipeline that delivers monitoring as code on any cloud Consolidate monitoring tools & fill gaps in observability. Eliminate data silos & automate diagnosis & self-healing — from bare metal to Kubernetes. $ sensuctl create -r -f monitoring/ check "node-exporter" created check "tls-cert" created asset "sensu-plugins/sensu-plugins-ssl:1.0.0" created filter "oncall" created handler "

    Sensu | Observability Pipeline
    teppeis
    teppeis 2013/10/31
    nagios的な
  • Improve Transparency with Statuspage | Atlassian

    Eliminate duplicate support tickets & clunky email lists Halt the flood of support requests during an incident with proactive customer communication. Manage subscribers directly in Statuspage and send consistent messages through the channels of your choice (email, text message, in-app message, etc.) Display the status of each part of your service Control which components of your service you show o

    Improve Transparency with Statuspage | Atlassian
    teppeis
    teppeis 2013/10/31
    status.io的な、サービスのステータスを表示するサービス
  • serf/docs/index.html.markdown at master · hashicorp/serf

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    serf/docs/index.html.markdown at master · hashicorp/serf
  • インフラ系技術の流れ - Gosuke Miyashita

    ここ最近のインフラ系技術の流れがおもしろいなー、と思ったので、Puppet が出た辺りぐらいから、振り返って整理してみる。殴り書きなので、後から修正したり書き加えたりするかも。特に後半の方は、あまり考えが整理できてない。 最近のウェブ界隈での「インフラ」という用語の使われ方には、色々異論もあるようだけど、ここではごく最近使われるようになってきた、OS からミドルウェアといったソフトウェアレイヤーを指す言葉としてのインフラについて触れる。(英語圏でも同様の意味で使われているようなので、ある程度市民権を得たと言っても良さそうだし。) プロビジョニングレイヤー まず、前提知識としてプロビジョニングレイヤーと自分が勝手に呼んでるものについて整理。 Chef や Puppet は「プロビジョニングフレームワーク」とも呼ばれているが、以下の議論をより厳密にするために、Lee Thompson 氏による

  • Facebook: MySQL Pool Scannerでの徹底した自動化 - ワザノバ | wazanova.jp

    https://www.facebook.com/notes/facebook-engineering/under-the-hood-mysql-pool-scanner-mps/10151750529723920 Facebookがエンジニアブログで、MySQLの運用を自動化している事例を紹介しています。このレベルまでくると、意思をもった大規模なロボット群みたいで、すごいですね。前半はマスタ/スレーブの基的な自動化の話ですが、後半ではオペレーションの自動化ロジックをどのように自動化して増やすかという手法まで言及してます。 FacebookのMySQL DBクラスタは、2つの大陸にまたがる複数のデータセンタにある数千台のサーバで構成されている。通常、DBアドミンが担当するルーティーンワークは、MySQL Pool Scanner (MPS) で自動化されている。 1) DBノードを詳しく

  • Immutable Infrastracture について - aptheia.info

    ここ最近話題に上がることが多い Immutable Infrastracture と、その他仮想環境周りについての雑感。 Immutable Server や Immutable Infrastracture っていう単語がいろんなところで目に入るようになった。とくに Chad Fowler がブログで取り上げたり、Food Fight に出たり して、世間でも関心が高まった感じがある。 プログラムを書く人にはご存じの通り、この Immutable っていうのは状態が変更出来ないことを指している。Immutable な Infrastracture っていうのは、ざっくり言うと「運用中のサーバーに変更を加えない」っていうアプローチでサーバーを管理しているスタイルのこと。 (ファイルシステムを読み取り専用にする、とかそういう話じゃなくて、あくまでそういう方針でやろうっていう話) サーバーの設

    teppeis
    teppeis 2013/08/11
  • AWS-CloudDesignPattern CDP2.0候補

    AWSクラウドデザインパターンとは? AWSクラウドデザインパターン (AWS Cloud Design Pattern, 略してCDPと呼ぶ)とは、AWSクラウドを使ったシステムアーキテクチャ設計を行う際に発生する、典型的な問題とそれに対する解決策・設計方法を、分かりやすく分類して、ノウハウとして利用できるように整理したものである。 これまで多くのクラウドアーキテクト達が発見してきた、もしくは編み出しきた設計・運用のノウハウのうち、クラウド上で利用が可能なものをクラウドデザインのパターンという形式で一覧化し、暗黙知から形式知に変換したものであるといえる。 パターンの中には、クラウドでなくても実現できるもの、今まででも実現されていたものも含まれているが、クラウド上でも今まで通りのアーキテクチャが実現でき、かつクラウドを利用する事で、より安価にそしてより容易に実現できるものは、CDPとして収

    teppeis
    teppeis 2012/03/05
    これはすごいな。
  • 安全なバッチ処理の作り方 - KAYAC Engineers' Blog

    このまえ登り坂の途中でロードバイクのタイヤが破裂しました。ながたです。 今回はバッチ処理について書いてみようと思います。 バッチ処理? Webサービスの処理開始条件は、大まかに次の2つに分けることができます。 ユーザーのアクションに起因するもの ユーザーのアクションに起因しないもの このうち後者の処理をバッチ処理が担当することになります。 バッチ処理の担当分はさらに、 特定の条件(時間やサービスの状態)で実行するもの 手動で実行するもの の2つに分けられます。 今回はこの「手動で実行するもの」について書きたいと思います。 バッチを手動実行するのはどんなとき? バッチ処理を手動で実行するのは、十中八九イレギュラーな状況が発生したときです。 ルーチンワークや実行の条件が決まっているものは何らかの方法で自動化できるはずです。 そしてイレギュラーな状況のほとんどは不具合が発生したとき。 つまり 重

    安全なバッチ処理の作り方 - KAYAC Engineers' Blog
    teppeis
    teppeis 2011/10/05