[B! ops] teppeisのブックマーク

オンコール対応とは？〜現場担当者が語るオンコール対応の不安解消方法を解説!～|インシデント管理プラットフォーム│PagerDuty

インシデント管理における「オンコール対応の重要性」オンコールとは、勤務時間外を含めて緊急対応が必要なインシデントに対応できるように、対応者や担当時間を決めておく仕組みです。現在は、24時間365日稼働が前提となるシステムが多いなか、サービスの信頼性を守るには迅速なインシデント対応が求められます。仮にサービスが停止することになれば、機会喪失や顧客満足度低下を招くことになりかねません。そのため、インシデント管理においては速やかに対応が行える、オンコール対応が重要です。なお、システムで起こり得るインシデントの種類は、以下の記事でも解説しています。「インシデント対応」とは？〜効率的な体制構築のポイントを解説〜また、インシデント管理については以下の記事で解説しているので、ぜひ併せてご覧ください。「インシデント管理」とは？〜システム障害を未然に防ごう〜エンジニアがオンコール対応に不安を感

teppeis 2024/05/02

リンク

[レポート] #ssmjp 2019/03 〜ヤマサキ春のサメまつり〜で「運用自動化とは」を聞いてきた | DevelopersIO

3月 6日に行われた #ssmjp 2019/03 、その中で tcsh 氏による「運用自動化とは」のプレゼンが興味深かったのでレポートします。はじめに先月（3月）の 6日に、「ヤマサキ春のサメまつり」と題して開催された #ssmjp 2019/03 。その名の通り JAWS DAYS 2019 の裏話からチョウザメまで様々な「サメ」にまつわるプレゼンテーションが行われたのですが、その中でいちばんアウェイ感の高かった（主観）「運用自動化」の話が個人的に非常に興味深かったので、個人的に重要と思ったところを中心にご紹介します（一ヶ月近く時間が空いてしまいましたがご容赦下さい…）。 #ssmjp 2019/03 - connpass 話者は、 2017 年に有名な運用自動化、不都合な真実のプレゼンを行って以来「不都合」のハタノさんと呼ばれ、今年（2019年）は正しい「運用自動化」の

teppeis 2019/04/03

ops
event

リンク

モブオプスなかなかよかった - Konifar's ZATSU

最近opsチームに入って、まずは業務を知ることにした。ドメイン知識とツールの習熟が必要な業務がまあまあ多くてキャッチアップに時間がかかりそうだったので、モブプロ*1ならぬモブオプスをやってみたらどうかと思い実行してみたところ、なかなかよかったのでざっと記録に残しておこうと思う。やったことモブプロの説明をする入社したばかりでキャッチアップ中の人がドライバーとなってops業務を行うベテランの人は助言や補足をする自分(開発・ops初心者)はわからないところを聞く業務の1つが終わる、または1時間経ったら終了よかったこと opsの業務に対してツールが追いついておらずマジで工夫して何とかしてくれてるのだなということがよく理解できたツールを改善するにあたり、業務を効率よくキャッチアップできたメモとして書いていったものがそのまま手順書にできそうドライバーも知識の確認になってよかったと

teppeis 2018/09/04

mobpro
ops

リンク

AWS運用専門の勉強会「Ops JAWS#13」で「IAMの運用ベストプラクティス」というタイトルで登壇してきました #jawsug #opsjaws | DevelopersIO

森永です。 Ops JAWS#13で「IAMの運用ベストプラクティス」というタイトルで登壇しました。スライドまとめ IAMロールは最高アクセスキーはつらいログは必ずとる上記を守るだけでだいぶ楽になります。権限の管理などは組織に合わせて適切なものを検討しましょう！

teppeis 2018/05/21

aws
ops

リンク

インフラエンジニアのいない会社で働いて 1 年半 - Diary

インフラエンジニアのいない会社で働いて 1 年半が経った。 iOS で動く POS レジアプリとその管理インターフェイスの Web アプリケーションを作ってます。 iOS 側のことはほとんど分からなくて、データ同期用 API と Web アプリをずっと作っている。ところで、「NoOps」の時代がこない理由という記事が前にあったのですが、この点ぼくが働いている会社は NoOps です。アプリケーションは Heroku に乗っていて、 RDBMS が Amazon RDS で一部分析系に Google BigQuery を使っていること以外は全て Heroku 系の何かで動いています。 CI は Travis と circleCI を使っていて、 circleCI については来年初頭にも利用をやめて Travis に一本化する予定、というかんじ。本当に自分達でなにもサーバーを管理してい

teppeis 2016/12/27

ops

リンク

Quipper におけるリリース作業の負荷を分散するための取り組み - スタディサプリ Product Team Blog

Web Developer の @yuya-takeyama です。入社から 1 年と少し経ちました。 Quipper School/スタディサプリ高校講座/大学受験講座の Web 開発を担当していて、帰宅前にバッティングセンターに通うのがほぼ日課です。今日はリリースに関する話を書きますが、デプロイの自動化とかそういった話ではなく、もうちょっと泥臭い話です。リリースまでの流れ前提として、Quipper では本番環境へのアプリの自動デプロイはあまり行っていません。カスタマーサポート用の社内アプリ等は GitHub での master ブランチへのマージ時に自動デプロイを行っていたりもしますが、エンドユーザ向けのアプリは週に一度、以下のような流れで行います。その週のリリースに必要な機能が揃ったところでリリース用のブランチを作成し、リリーステスト用の環境にデプロイテストケースに沿

teppeis 2016/10/31

atode
ops

リンク

書評: Site Reliability Engineering

英語だけどぜひ読んでほしい Site Reliability Engineering: How Google Runs Production Systems 参考になったのでご紹介。Googleのインフラ/Ops系技術チームの働き方や考え方を題材にした本です。GoogleのSREについては断片的に知っていたのですが、まとめて読むと違いますね。背景やストーリーがあって、理解しやすいです。共感できるネタがどんどん繰り出されるので、一気読みしました。読み込みが浅いところもあったので、改めて読む予定。以下、印象に残ったこと。 Site Reliability Engineering teamは、インフラ/Ops担当であるが、Unix内部やネットワークなどインフラの知見を持つソフトウェアエンジニアの集団。自分たちのオペレーションを効率的に、迅速に、確実にするために、コードを書く。インシデント対

teppeis 2016/03/29

リンク

Linuxサーバにログインしたらいつもやっているオペレーション - ゆううきブログ

主にアプリケーション開発者向けに、Linuxサーバ上の問題を調査するために、ウェブオペレーションエンジニアとして日常的にやっていることを紹介します。とりあえず調べたことを羅列しているのではなく、本当に自分が現場で使っているものだけに情報を絞っています。普段使っているけれども、アプリケーション開発者向きではないものはあえて省いています。 MySQLやNginxなど、個別のミドルウェアに限定したノウハウについては書いていません。ログインしたらまず確認すること他にログインしている人がいるか確認（w）サーバの稼働時間の確認 (uptime) プロセスツリーをみる (ps) NICやIPアドレスの確認 (ip) ファイルシステムの確認（df）負荷状況確認 top iostat netstat / ss ログ調査 /var/log/messages or /var/log/syslog /

teppeis 2016/02/21

linux
ops

リンク

インフラチーム改め Site Reliability Engineering (SRE) チームになりました | メルカリエンジニアリング

インフラチーム改めSite Reliability Engineering チームの @kazeburo です。この記事ではまだ馴染みの薄い Site Reliability Engineer とは何かについて紹介したいと思います。 SREとGoogleのSRE Site Reliability Engineerは日本語にすると「サイト信頼性エンジニア」となりますが、あまりキャッチーではないので普段は略語の「SRE」を使用しています。SREという職種は日本ではあまり聞く事はありませんが、FacebookやAirbnb、Dropboxなどの企業でSREが募集され、それぞれのサービスを支える重要な役割を担っていると思われます。中でもSREのパイオニアとしてGoogleのSREチームが有名です。 GoogleのSREチームはGoogleの検索、広告、Gmail、YouTube、App Engin

teppeis 2015/11/23

Site Reliability Engineering

ops

リンク

Reactioリアクティオ

Reactioは、システム障害の対応に特化したインシデント管理ツールです。障害発生時に、電話とメールで一斉通知。その後、インシデント管理や対応履歴のタイムラインが残るので、障害報告書の作成に便利です。

teppeis 2015/08/25

リンク

Immutable Infrastructure の有用性

Issei Naruta @mirakui Immutable Infrastructure の本質は、サーバを使い捨てにできる環境にしていこうぜっていうところにあって、それに比べるとサーバセットアップ後は chef 実行しないよっていうところは些細なことな気がしてきている 2013-11-25 14:33:41 naoya @naoya_ito Immutable Infrastructure は、セットアップ済みのサーバー含めて複雑な状態管理はやめて使い捨てにしてポータビリティ･･･というのかな、そういのをを上げていこうみたいな発想 2013-11-25 14:38:18

teppeis 2013/11/25

ops

リンク

Future of server provisioning

A method for separating policy definition and behavior control by an intermediate language to achieve optimal server configuration management according to the situation

teppeis 2013/11/17

リンク

Sensu | Observability Pipeline

The Observability Pipeline that delivers monitoring as code on any cloud Consolidate monitoring tools & fill gaps in observability. Eliminate data silos & automate diagnosis & self-healing — from bare metal to Kubernetes. $ sensuctl create -r -f monitoring/ check "node-exporter" created check "tls-cert" created asset "sensu-plugins/sensu-plugins-ssl:1.0.0" created filter "oncall" created handler "

teppeis 2013/10/31

nagios的な

ops

リンク

Improve Transparency with Statuspage | Atlassian

Eliminate duplicate support tickets & clunky em ail lists Halt the flood of support requests during an incident with proactive customer communication. Manage subscribers directly in Statuspage and send consistent messages through the channels of your choice (em ail, text message, in-app message, etc.) Display the status of each part of your service Control which components of your service you show o

teppeis 2013/10/31

status.io的な、サービスのステータスを表示するサービス

リンク

serf/docs/index.html.markdown at master · hashicorp/serf

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

teppeis 2013/10/29

リンク

インフラ系技術の流れ - Gosuke Miyashita

ここ最近のインフラ系技術の流れがおもしろいなー、と思ったので、Puppet が出た辺りぐらいから、振り返って整理してみる。殴り書きなので、後から修正したり書き加えたりするかも。特に後半の方は、あまり考えが整理できてない。最近のウェブ界隈での「インフラ」という用語の使われ方には、色々異論もあるようだけど、ここではごく最近使われるようになってきた、OS からミドルウェアといったソフトウェアレイヤーを指す言葉としてのインフラについて触れる。（英語圏でも同様の意味で使われているようなので、ある程度市民権を得たと言っても良さそうだし。）プロビジョニングレイヤーまず、前提知識としてプロビジョニングレイヤーと自分が勝手に呼んでるものについて整理。 Chef や Puppet は「プロビジョニングフレームワーク」とも呼ばれているが、以下の議論をより厳密にするために、Lee Thompson 氏による

teppeis 2013/10/29

リンク

Facebook: MySQL Pool Scannerでの徹底した自動化 - ワザノバ | wazanova.jp

https://www.facebook.com/notes/facebook-engineering/under-the-hood-mysql-pool-scanner-mps/10151750529723920 Facebookがエンジニアブログで、MySQLの運用を自動化している事例を紹介しています。このレベルまでくると、意思をもった大規模なロボット群みたいで、すごいですね。前半はマスタ/スレーブの基本的な自動化の話ですが、後半ではオペレーションの自動化ロジックをどのように自動化して増やすかという手法まで言及してます。 FacebookのMySQL DBクラスタは、２つの大陸にまたがる複数のデータセンタにある数千台のサーバで構成されている。通常、DBアドミンが担当するルーティーンワークは、MySQL Pool Scanner (MPS) で自動化されている。 1) DBノードを詳しく

teppeis 2013/10/27

リンク

Immutable Infrastracture について - aptheia.info

ここ最近話題に上がることが多い Immutable Infrastracture と、その他仮想環境周りについての雑感。 Immutable Server や Immutable Infrastracture っていう単語がいろんなところで目に入るようになった。とくに Chad Fowler がブログで取り上げたり、Food Fight に出たりして、世間でも関心が高まった感じがある。プログラムを書く人にはご存じの通り、この Immutable っていうのは状態が変更出来ないことを指している。Immutable な Infrastracture っていうのは、ざっくり言うと「運用中のサーバーに変更を加えない」っていうアプローチでサーバーを管理しているスタイルのこと。 (ファイルシステムを読み取り専用にする、とかそういう話じゃなくて、あくまでそういう方針でやろうっていう話) サーバーの設

teppeis 2013/08/11

ops

リンク

AWS-CloudDesignPattern CDP2.0候補

AWSクラウドデザインパターンとは？ AWSクラウドデザインパターン (AWS Cloud Design Pattern, 略してCDPと呼ぶ)とは、AWSクラウドを使ったシステムアーキテクチャ設計を行う際に発生する、典型的な問題とそれに対する解決策・設計方法を、分かりやすく分類して、ノウハウとして利用できるように整理したものである。これまで多くのクラウドアーキテクト達が発見してきた、もしくは編み出しきた設計・運用のノウハウのうち、クラウド上で利用が可能なものをクラウドデザインのパターンという形式で一覧化し、暗黙知から形式知に変換したものであるといえる。パターンの中には、クラウドでなくても実現できるもの、今まででも実現されていたものも含まれているが、クラウド上でも今まで通りのアーキテクチャが実現でき、かつクラウドを利用する事で、より安価にそしてより容易に実現できるものは、CDPとして収

teppeis 2012/03/05

これはすごいな。

server
ops

リンク

安全なバッチ処理の作り方 - KAYAC Engineers' Blog

このまえ登り坂の途中でロードバイクのタイヤが破裂しました。ながたです。今回はバッチ処理について書いてみようと思います。バッチ処理？ Webサービスの処理開始条件は、大まかに次の2つに分けることができます。ユーザーのアクションに起因するものユーザーのアクションに起因しないものこのうち後者の処理をバッチ処理が担当することになります。バッチ処理の担当分はさらに、特定の条件（時間やサービスの状態）で実行するもの手動で実行するものの2つに分けられます。今回はこの「手動で実行するもの」について書きたいと思います。バッチを手動実行するのはどんなとき？バッチ処理を手動で実行するのは、十中八九イレギュラーな状況が発生したときです。ルーチンワークや実行の条件が決まっているものは何らかの方法で自動化できるはずです。そしてイレギュラーな状況のほとんどは不具合が発生したとき。つまり重

teppeis 2011/10/05

ops

リンク

はてなブックマーク

タグ

関連タグで絞り込む (23)

opsに関するteppeisのブックマーク (23)

お知らせ

今週のはてなブックマーク数ランキング（2025年3月第3週）

今週のはてなブックマーク数ランキング（2025年3月第2週）

月間はてなブックマーク数ランキング（2025年2月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス