cybozu.com 稼働状況を React/Redux で作り直した話

November 3, 2015, 3:00 pm

≫ Next: 竹添さんを呼んでマイクロサービス社内勉強会を開催しました

こんにちは。Sales Systemチームの金子です。Sales Systemチームでは、cybozu.com Store　や、販売管理システム等の開発をしています。

このエントリでは、cybozu.com 稼働状況のフロントエンドをReact/Reduxで作り直した話を書いていきます。「React/ReduxでWebアプリケーションを作ってみようと考えている人」を対象としています。

「cybozu.com 稼働状況」とは?

クラウドサービスはサービスの稼働状況をステータスダッシュボード形式で提供するのが一般的です。 cybozu.com 稼働状況は、弊社が提供しているcybozu.comで過去30日間で発生した障害内容を表示するサービスです。

f:id:cybozuinsideout:20151028114736p:plain

cybozu.com 稼働状況 | サイボウズ製品サイト cybozu.com

※ 記事公開時点ではReact/Reduxで置き換えたcybozu.com稼働状況の運用は始まっておらず、運用開始までに画面イメージを含む仕様変更を行う可能性があります。リリース日は記事公開時点では確定しておりません。

作り直した背景

当初、cybozu.com 稼働状況はインフラチームで開発していました。しかし、インフラチームにはWebアプリのUI開発が得意なメンバーは少なく、また本業であるクリティカルなインフラ運用業務も抱えているため、ビジネスサイドからのUI改善要求にはなかなか対応できませんでした。

そこで、インフラチームは障害情報を提供するサーバAPIのみを担当し、フロントエンド部分はUI開発に慣れているアプリ開発チームが担当するという分担でcybozu.com 稼働状況を再構築することになり、フロントエンド担当としてkintoneチームの天野(@ama_ch)、Sales Systemの私、の二人に話が来ました。

技術概要

弊社は、Google Closure Library/Compilerのイメージが強いと思われますが、今回のような規模のそれほど大きくならないと予想されるアプリケーションにおいては、Google Closure Toolsは少々大げさに感じていました。また、Closure Libraryよりも後発のデータバイディング機能をもつフレームワークのUI開発効率にも魅力を感じていました。

cybozu.com は3か国でサービスを提供しています。そのため、cybozu.com 稼働状況も同様に3か国で提供する必要があります。また、作り直した背景にも書いたように、UI変更に柔軟に対応できる作りにしたいというのがありました。まとめると、cybozu.com 稼働状況フロントエンド部分への要件は以下のようになります。

同じサービスに3種類(3か国)のUIを作成
低コストでUIの変更ができる
ルーティングやサーバからのデータ取得をフロントエンドで完結
Closure Libraryほどではないが、ある程度の堅さ

そこで、天野がkintoneチームで導入していたReactと、Fluxフレームワークをメインに、npmエコシステムを使って開発しようということになりました。

React/Fluxについて

React/Fluxについては、様々な記事が書かれているので詳細は書きませんが特徴をいくつか挙げます。

Viewに相当するComponentと呼ばれるUIパーツ
- 親Componentから渡されたpropsをもとにrenderingを行う
- 関心事は基本renderingのみ
- stateless(であるべき)
- JSXによる宣言的なDOMの木構造定義
Flux architectureに基づくone-way data flow
- UIとユーザインタラクションの関心事を分離
- 状態遷移をさせるロジックを局所化し、データの流れを追いやすくする
one-way data flowのシンプルさに伴うrenderingコストを改善するためのVirtual DOMアルゴリズム
関数型プログラミングに強い影響を受けている

f:id:cybozuinsideout:20151029104931p:plain

画像参照元: React.js architecture - Flux VS Reflux

React/Redux

React/Reduxをメインのフレームワークに採用しました。React/Reduxを採用した理由は以下の通りです。

JSXによりViewレイヤーにロジックが入らず、UI変更コストがマークアップ並に抑えられる
簡単にルーティングを含むシングルページアプリケーションが実装できる
Reactコンポーネントをうまく差し替えれば少ない工数でUIを大幅に変えることが可能
pure Fluxより手軽に乗れるフレームワークがほしかった
各所で評判が良い
loggerなど周辺ツールが充実してる

"dependencies": {"react": "^0.13.3",
  "react-redux": "^3.0.0",
  "redux": "^3.0.0"}

React 0.14からはライブラリ構成が変わっているので、少し注意が必要です。

Routing

作り直す前は、サーバで処理したテンプレートを返すものでしたが、SPA(シングルページアプリケーション)で作り直すことにしました。以下のライブラリを使いました。

"dependencies": {"history": "^1.11.1",
  "react-router": "^1.0.0-rc1"}

これらを使うと、React component等を用いて、数行でBrowser history APIを操作することができます。こんなイメージになります。

index.js

const history = createBrowserHistory();
const store = createStore(dashboard);

React.render(
  <Provider store={store}>
    {() =>
      <Router history={history}>
          <Route component={App} path="/">
          <Route component={App} path="/status/" />
          <Route component={App} path="/status/:subdomain" />
        </Route>
      </Router>
    }</Provider>,
  document.body
);

App.js

class App extends Component {
  handleSubmit(evt) {
    evt.preventDefault();
    const{ subdomain } = this.props;
    this.context.history.pushState(null, `/status/${subdomain}`);
  }
  
  render() {return (
      // blah
    );
  }}

App.contextTypes = {
  history: RouterPropTypes.history
};

history
react-router

Resources

cybozu.com 稼働状況では、ユーザが入力したサブドメインをBrowserに記憶させておき、次回アクセス時にはその値を使用してステータス状況を表示するという仕組みになっています。作り直す前はCookieを使用していましたが、localStorageを使うように変更しました。使ったライブラリは次のようになります。

"dependencies": {"redux-localstorage": "^1.0.0-rc4",
  "redux-localstorage-filter": "^0.1.1"}

redux-localstorageを使うと、StoreのstateとlocalStorageのデータを同期することができます。localStorageによらず、redux-localstorageが定義するstorageのインタフェースを満たしていれば、理論上はなんでも同期できます。詳細は、adaptersのsrcを参照してみてください。

stateのすべてのプロパティをlocalStorageと同期したいわけではないので、redux-localstorage-filterを用いて、同期するプロパティをフィルタリングしています。

// state: dashboardのうち、subdomainプロパティだけlocal storageと同期するconst storage = compose(
  filter(['dashboard.subdomain'])
)(adapter(window.localStorage));

const createPersistentStore = compose(
  persistState(storage, "someKey")
)(createStore);

const store = createPersistentStore(rootReducer, { dashborad: initialState });

これらのライブラリを使用するうえでの注意点は、redux-localstorageのversionです。1.0.0-rc4を採用しました。これは、redux-localstorage-filterを使いたかったからです。

Async

XHRでAPIサーバから稼働状況やお知らせを取得します。Fetch APIでXHRを実現したかったので、以下のライブラリを採用しました。

"dependencies": {"babel-core": "^5.8.25",
  "isomorphic-fetch": "^2.1.1",
  "redux-thunk": "^1.0.0"}

isomorphic-fetchはFetch APIのpolyfillです。

FacebookのFluxでは、action creatorsがdispatchまでやります。

対して、Reduxではaction creatorsはpure functionsで単純にactionを返すものです。これをstore.dispatchでstoreにdispatchするのがReduxのお作法になります。

Actions | Redux

Reduxでは、middlewareという、store.dispatchをWrapした関数を作れる仕組みがあります。 redux-thunkではこの仕組みを用いて、「非同期処理を行い、結果を元にaction creators関数を呼び出す」関数をstore.dispatchでWrapした関数を作ることができます。あとは、アプリケーションの初期化時のReact Lifecycle メソッドや、ユーザインタラクションイベントハンドラ等で、作った関数を呼び出します。実装は、Redux documents/Async Actionsを参考に、Promiseのエラー処理を少し追加しました。

Multilingualization/Localization

cybozu.com 稼働状況には、

日本以外にも米国で同様のcybozu.com 稼働状況サービスを提供(今後は中国も対応予定)
米国のcybozu.com 稼働状況はUIがかなり違う
文言を切り替えるだけじゃなくてコンポーネントレベルで切り替える必要がある

といった要件があります。

f:id:cybozuinsideout:20151028114947p:plain

日本リージョンにおける日本語表示の cybozu.com 稼働状況

f:id:cybozuinsideout:20151028114957p:plain

米国リージョンにおける日本語表示の kintone.com 稼働状況

多言語化対応とロケールを考慮したdatetime操作のために以下のライブラリを導入しました。

"dependencies": {"i18next-client": "^1.10.2",
  "moment": "^2.10.6"}

i18next-client
moment

社内事情ですが、cybozu.com 稼働状況では、日米でステークホルダーが異なります。例えば、米国の担当者から「フッターのこの部分を米国では変えたいんだけど。」といった要望が来ることがあります。これに柔軟に対応するために、日米間で異なるComponentを提供し、それぞれのComponentをWrapしたComponentにリージョン情報を渡すことでレンダリングするComponentを変えるように実装しました。米国の画面修正対応が日本の画面に影響を与えないようになるので、Component単位でのTestが楽になります。

JP,US,CNでFooterを出しわけるコードはこのような感じになります。

class RegionalComponent extends Component {
  render() {const{ regions } = this.props;
    const region = getRegion();
    const el = regions[region];
    invariant(el, 'Component for %s is required.', region);
    return el;
  }}

RegionalComponent.propTypes = {// regionsに各リージョンごとのComponentを受け取る
  regions: PropTypes.shape({
    JP: PropTypes.element.isRequired,
    US: PropTypes.element.isRequired,
    CN: PropTypes.element.isRequired
  }).isRequired
};

class JPFooter extends Component {
  render() {return (
      // blah
    );
  }}// US,CNも同様exportdefaultclass Footer extends Component {
  render() {const regions = {
      JP: <JPFooter/>,
      US: <USFooter/>,
      CN: <CNFooter/>
    };
    return (
      <RegionalComponent regions={regions} />
    );
  }}

ES6

Reactでは、babelを使ったES6開発が当たり前になっていて、Reactを勉強すると、ES6の勉強にもなります。今回のプロジェクトでよく使ったES6 syntaxは以下のようになります。

アロー関数(arrow function)
クラスと継承(class, extends)
let/const
関数のデフォルトパラメータ(default parameter)
スプレッドオペレータ(spread operator)
分割代入(destructuring)

特に、propsや(store.dispatchでWrapした)actionをRoot Componentから下位Componentに渡していく際に、少ない記述で表現できる、スプレッドオペレータ・分割代入にはとてもお世話になりました。

class App extends Component {
  render() {// destructuringconst{ announcements, inputSubdomain, status} = this.props.dashboard;
    const props = {
      announcements,
      inputSubdomain,
      status};
    return (
      {/* spread operator */}<Contents {...props} />
    );
  }}

transferring-props @ React Docs

Utility

React/Redux開発で、stateやactionのpayload情報を追いかけたいときは、redux-loggerが便利です。開発モードフラグを設定すると、 actionの前後のstateやactionに載っているpayloadの情報をBrowser consoleに出力してくれます。

f:id:cybozuinsideout:20151028215326p:plain

redux-logger

また、Reactでは関数型プログラミングが推奨されています。Actionによるstateの変更時には、

をオブジェクトのコピーに使いました。

exportdefaultfunction dashboardReducer(state = {}, action) {switch (action.type) {case ActionTypes.CHANGE_INPUT_SUBDOMAIN:
    const inputSubdomain = action.payload.subdomain.trim();
    returnObject.assign({}, state, {
      inputSubdomain
    });
  default:
    return state;
  }}

Lint

チーム開発をやる上で、主にレビュー工数削減のために、

coding styleを統一したい
静的解析で見つけられるBugやcode smellは取り除きたい

ということがありました。また、天野の経験からもあとから静的解析ツールを入れることは初期時の導入に比べてコストがかかるということがあったため、開発開始段階からESLintを導入しました。

"devDependencies": {"eslint": "^1.5.1",
  "eslint-plugin-react": "^3.4.2"}

最初から最もきついRuleで運用し、Ruleの適用方法を変えたくなったら都度相談するという運用でやりました。

ESLintは先人の知恵がRuleに詰まっていて、

JavaScriptになれない開発者がつまづきそうなポイントが抑えられている
関数で受け取った変数に副作用がないような書き方もある程度強制できる
ES6の書き方も強制できる

といった部分が魅力的でした。

例えば、reducerで前のstateを変更するようなコードがあるとします。

function someReducer(state = initialState, action) {switch (action.type) {case ActionTypes.INIT:
    // 引数のstateを変更
    state.foo = 'reassigned';
    return state;
  default:
    return state;
  }}

.eslintrc に次のような設定を書きます。

{"rules": {"no-param-reassign": 2
  }}

対象ソースにESLintにかけるとRule Disallow Reassignment of Function Parameters (no-param-reassign)に、次のように怒られます。

$ eslint path/to/src --config path/to/.eslintrc
/path/to/somereducer.js
  10:5  error  Assignment to function parameter 'state'  no-param-reassign

✖ 1 problem (1 error, 0 warnings)

ESLint Rules
Disallow Use of undefined Variable (no-undefined)

eslint-plugin-reactを入れるとReact関連のLintもできます。

nodejsのLintにも使われているようです。

Node.js uses ESLint to maintain their code quality. Do you? https://t.co/7CJsgowrXg
— ESLint (@geteslint) 2015, 10月 26

開発当初(9月下旬)は、npm@3で運用していたのですが、ESLint関連の依存解決がうまくいかなかったので、npm@2で運用しています。

github.com/npm/npm issues #9708 Is NPM3 not handling version collisions very well?

Testing

テストにも、ES6を採用しました。主なライブラリの構成は以下のようになりました。

"devDependencies": {"espower-babel": "^3.3.0",
  "jsdom": "^6.5.1",
  "mocha": "^2.3.3",
  "mocha-jsdom": "^1.0.0",
  "power-assert": "^1.0.1"}

reducerのTestはこんな感じで書きます。

describe('dashboard reducer', () => {
  jsdomReact();
  
  it('サブドメインが変更されたら、変更されたサブドメインを返す', () => {const subdomain = 'yusya';
    const action = {
      type: ActionTypes.CHANGED_INPUT_SUBDOMAIN,
      payload: { subdomain }};
    
    const actual = someReducer(initialState, action);
    
    assert(actual.inputSubdomain === 'not-yusya');
  });
});

これをmochaで動かすと次のようなテスト失敗結果が得られます。

$ mocha --compilers js:espower-babel/guess test/**/*.js

  1) dashboard reducer サブドメインが変更されたら、変更されたサブドメインを返す:

      AssertionError:   # test/reducers/dashboard.spec.js:24

  assert(actual.inputSubdomain === 'not-yusya')
         ||||"yusya"false
         Object{announcements:#Array#,changed:true,inputSubdomain:"yusya",notFound:false,status:#Object#,subdomain:""}

  --- [string] 'not-yusya'
  +++ [string] actual.inputSubdomain
  @@ -1,8+1,4 @@
  -not-
   yusy


      + expected - actual

      -false
      +true

      at decoratedAssert (node_modules/power-assert/node_modules/empower/lib/decorate.js:42:30)
      at powerAssert (node_modules/power-assert/node_modules/empower/index.js:58:32)
      at Context.<anonymous> (test/reducers/dashboard.spec.js:24:5)

Sales Systemチームでは、サーバサイドのJavaのTestで、Spockを使っているため、power-assertの

"No API is the best API."の思想
わかりやすいレポート

などexpectにはないメリットが個人的には良かったです。

また、power-assert + ES6 でTestを書く上で、espower-babelのおかげで動かすまでが楽でした。

jsdom
mocha
mocha-jsdom
Writing Tests | Redux

取り組んでみた感想

今回は作り直しということで技術選定に特にしがらみがなく、解決したい問題に対して使いたいものを使えたことは良かったです。

kintoneチームでも天野が主導して一部にReactを導入していますが、Google Closure Libraryとどのように組み合わせると効果的かという部分に試行錯誤しているようです。

そんな中で、小さいプロジェクトではありますが、React/Reduxの導入事例を社内に作れたのは良かったと思っています。 React/Fluxで実装すると、DOM操作をする部分が全くなくなって、どこに何を書いているのかが見通しがよくなるなということを実感できました。また、React/Fluxではドキュメント等に、「どこに何を書くべきか？」といった指針が豊富に示されていて、チームでコードレビューをする際も議論がしやすかったです。

Component Specs and Lifecycle @ React Docs
Smart and Dumb Components @ medium

しいて不安な部分を挙げるとすれば、React/Reduxをもっと大きなプロジェクトに採用する際は、Storeのstateの構成がかなり大きい一枚のJSONになることが予想され、うまくそれを管理できるかが課題になりそうです。

まとめ

長くなってしまいましたが、cybozu.com 稼働状況を React/Redux で作り直した話を技術要素を中心に述べました。

また、課題となっていた、「インフラチームがクリティカルなインフラ業務と並行して、ビジネスサイドからのUI改善要望に対応できない問題」に関しては、UIとAPIサーバに分け、文言等をフロントで持つように実装することで、画面変更への対応にインフラ側への影響なく、デプロイできるようになりました。また、インフラチームの負担が減った分アプリチームの負担は増えましたが、適切なチームが適切な部分を担当することにより、会社全体としての対応コストは下がるのではないかと期待しています。

おわりに

Cybozu, Incでは、Reactでフロントエンド開発やりたいひとを募集しています。

cybozu.co.jp

#     #                                                                      ### #  #  # ######      ##   #####  ######    #    # # #####  # #    #  ####     ### #  #  # #          #  #  #    # #         #    # # #    # # ##   # #    #    ### #  #  # #####     #    # #    # #####     ###### # #    # # # #  # #          #  #  #  # #         ###### #####  #         #    # # #####  # #  # # #  ###        #  #  # #         #    # #   #  #         #    # # #   #  # #   ## #    #    ###  ## ##  ######    #    # #    # ######    #    # # #    # # #    #  ####     ###

↧

竹添さんを呼んでマイクロサービス社内勉強会を開催しました

November 12, 2015, 3:00 pm

≫ Next: JavaScript大規模開発を語りに行ってきた「KOF2015」参加レポート

≪ Previous: cybozu.com 稼働状況を React/Redux で作り直した話

f:id:cybozuinsideout:20151112211037j:plain

こんにちは、開発の佐藤鉄平 (@teppeis) です。

先日、社外講師としてビズリーチの竹添直樹さん (@takezoen) をお招きして、マイクロサービスをテーマにサイボウズの社内勉強会を開催しました。

どうしてこうなった？

ビズリーチさんでは毎週金曜に勉強会を行っているらしく、ひょんなことからその社外ゲスト講師として私にお声がかかり、8月のビズリーチ社内勉強会でES6勉強会をやらせてもらいました。

やられたらやりかえす！ということで、今度は逆に竹添さんにサイボウズの社内勉強会のゲスト講師をオファーしたところ、こころよく引き受けていただいた、というのが開催の経緯です。

マイクロサービス、本当においしいの？

ちょうどサイボウズ社内では「マイクロサービス」がホットなキーワードになっていました。

サイボウズ初のクラウドサービス cybozu.com の立ち上げから5年が経過し、契約社数は12,000社以上に成長した一方で、当初の設計にいくつかひずみが見られるようになりました。

コードの肥大化
コード変更による影響範囲が広がり
サービス間の依存とデプロイ手順の複雑化
サービスのリリースタイミングが他サービスとの調整により制限される

などなど、大規模化したサービスに典型的な問題点が表面化してきました。

そんな背景で、今年サイボウズでは開発チームとインフラチームの合同で現行アーキテクチャを刷新するプロジェクトをスタートしました。その一環として、世を騒がしているマイクロサービスとは何なのか？何を解決するのか？デメリットは何か？ cybozu.com にとりいれるべき点はあるか？などをちょうど議論しているところで、今回の竹添さんの勉強会が開かれました。

知見が山盛り！

竹添さんの講演内容は、こちらの発表をベースに、求人検索エンジン「スタンバイ」の開発運用経験から得られた最新の知見を加えて大幅アップデートしていただいたものでした。

ライブラリとサービスどちらを選択するか？
メッセージフォーマットに何を使うか？JSONで良い？
同期？非同期？
APIのバージョニングどうする？
トランザクションどうする？
組織、チームはどういう構成で開発する？
Scalaやりましょう！
性能どうなの？
障害起きたらどうなるの？
モニタリングどうするの？
結局やってよかった？
Scalaやりましょう！

などなど、論点になりがちなポイントについて、具体的かつ参考になる様々な知見を共有していただきました。特に技術面だけでなく組織面についても多く触れられていて、そういう経験しなければ分からない部分についてお聞きできたのはありがたかったです。

マイクロサービスについて、以前スマートニュースさんで開催された実践Scala勉強会でお話しさせていただいたときは全然意識していなかったんだけど、継続的に運用してきて得た技術面だけでなく組織面での気付きを自分の中で整理するよい機会になった。
— Naoki Takezoe (@takezoen) 2015, 10月 29

講演終了後の質疑でも、マイクの前に行列ができるほど盛り上がりました。

最後は竹添さんに「We are hiring!」をお返しされましたが、サイボウズでも積極採用しておりますので何卒よろしくお願いします！

クローズドな勉強会だとある程度踏み込んだ生々しい話もできるので、パブリックな勉強会とは違った良さがありますね。このような勉強会での交流にご興味のある企業さん、ぜひ @teppeisまでお声がけください。

↧

JavaScript大規模開発を語りに行ってきた「KOF2015」参加レポート

November 15, 2015, 5:27 pm

≫ Next: サイボウズでエンジニアとして働く事の魅力を探る会を開催しました

≪ Previous: 竹添さんを呼んでマイクロサービス社内勉強会を開催しました

どうも、大阪開発部のケノドンです。

11月6日～7日に大阪で開催された「関西オープンフォーラム（KOF）2015」にブース出展しました。今回も、ソフトウェア、ハードウエア、ロボット、OS、データベース等、様々なものが展示されていました。

f:id:cybozuinsideout:20151112181231j:plain:w250

私達のブースは、大きく3つのテーマに分かれていました。

大阪オフィス移転
大規模フロントエンド開発について
悟空ボウズマンを助ける体験

大阪オフィス移転

11月2日から梅田阪急ビルオフィスタワーに移転しました。
近くに居らっしゃったら是非お越しくださいませ！

cybozu.co.jp

大規模フロントエンド開発について

大規模Webアプリケーション「kintone」のフロントエンド開発で利用しているツールや言語について語りました。

kintoneの大規模フロントエンド開発とツール from Yasuharu Sakai

JavaScriptによる開発

JavaScriptの開発に当って、次のような課題が考えられます。

スクリプト言語のため、不具合やコードの異常が、コードを実行するまでわからない
動的型付けなので、エンジニアがコードから型を読み取らなければならない
書き方の自由度が高くて、既存のコードの調査や修正、影響範囲の調査などで、コードを読む時のコストが上がる
DRYが守られない
ブラウザが読み込んで実行する事で読み込むコード量が増えるとダウンロードに時間がかかってしまう

現在の kintone の JavaScript は30万行を超えており、保守にかかるコストが開発リソースを圧迫してもおかしくない程の規模になっています。

Google Closure Compiler

コードの確認

JSDoc で引数や関数の返り値の型の定義をする事によって、Closure Compiler はコードに不整合があることを検知してくれます。

/** * @param {boolean} isBoolean isBooleanの引数が boolean である事を Compiler に教えておく */function logBoolean(isBoolean) {if (isBoolean) {
    console.log('It is true.');
  }else{
    console.log('It is false.');
  }};

logBoolean(false);    // It is false.
logBoolean('false');  // 'false'は boolean ではないため、COMPILE ERROR！

同じように、変数に与えられる値、関数の使い方などを確認します。そのためはちゃんとJSDocを書かなければなりません。他にシンタックスエラー、関数に渡す引数の数、定義されていないプロパティなど、いろいろみてくれます。
このような Closure Compiler による事前解析によって、単純な不具合を防ぐ事が想像できると思います。

コードの圧縮

先ほどの例をもう一度使います。

/** * @param {boolean} isBoolean */function logBoolean(isBoolean) {if (isBoolean) {
    console.log('It is true.');
  }else{
    console.log('It is false.');
  }};

logBoolean(false);
logBoolean(true);

このコードは250byteぐらいあります。Closure Compiler が最適化をしてくれたら下記のようになります。

function a(b){b?console.log('It is true.'):console.log('It is false.')}a(!1);a(!0);

なんと、100byte以下になりました。
圧縮する事で、ブラウザ上の読み込みが速くなって、ユーザにより良いサービスを提供ができます。

Google Closure Library

Closure Tools の一つであり、包括的な JavaScript ライブラリです。

ライブラリでできることはライブラリに任せる
DOM管理が快適
Closure Compiler と相性が良い

ライブラリを使いこなすことで効率的かつ統一的なコードがかけます。

例えば、少し修正した体験アプリのクラス kintone.component.Button をご覧ください。

/** * ボタンのコンストラクタ * * @param {goog.dom.DomHelper=} opt_domHelper * @constructor * @extends {goog.ui.Component} Closure Library のクラスを継承している */
kintone.component.Button = function(anyBoolean, opt_domHelper) {// 親クラスのコンストラクタを呼び出す。
  kintone.component.Button.base(this, 'constructor', opt_domHelper);
};
goog.inherits(kintone.component.Button, goog.ui.Component);

/** * 当クラスの DOM が生成するに呼ばれる関数 *  * 親クラスの goog.ui.Component に定義されているので override アノテーションを設定 * @override */
kintone.component.Button.prototype.createDom = function() {// 次の Closure Template に定義されている kintone.template.soy.buttonDiv のテンプレートから DOM を生成するvar el = goog.soy.renderAsElement(kintone.template.soy.buttonDiv, null, null, this.getDomHelper());
  // 当インスタンスのエレメントを設定する。生成した DOM と JavaScript オブジェクトの連携ができた。this.setElementInternal(el);
};

/** * document に DOM が入れられた時に呼ばれる関数 *  * ボタンにクリックされる事をListenする * * @override */
kintone.component.Button.prototype.enterDocument = function() {
  kintone.component.Button.base(this, 'enterDocument');
  // インスタンスの DOM の第一子エレメントを取得する。var callButton = goog.dom.getFirstElementChild(this.getContentElement());
  // クリックされた時に this.callBozuman を呼び出すように設定する。this.getHandler().listen(callButton, goog.events.EventType.CLICK, this.callBozman);
};

/** * 悟空ボウズマンの画像インスタンスを作成して表示する */
kintone.component.Button.prototype.callBozuman = function() {// 悟空ボウズマンインスタンスを作成するvar goku = new kintone.component.Goku();
  // 悟空ボウズマンを document に入れる
  goku.render();

  // 当ボタン自体はdocumentから破壊するthis.disposeInternal();
};

上記の様に、簡単に DOM の生成、管理ができます。

Google Closure Template

動的なUI生成システムです。

HTMLやUIパーツを再利用可能な塊として扱える
Java と JavaScript から利用できる
パーツ自体はHTMLを拡張したような形で、書きやすく読みやすい

再利用によって、同じような異なるコードを防ぐことができます。

上記に呼び出された kintone.template.soy.buttonDiv テンプレートの中身をみてみましょう。

{namespace kintone.template.soy}

/**
 * 悟空ボウズマンを呼び出すボタン
 */
{template .buttonDiv}
  <div class="content-wrapper">
    <a href="#" class="button">ボウズマンを助ける</a>
  </div>
{/template}

HTMLをパーツとして命名でき、パラメータも設定可能で、共通化しやすいのでとても便利です。

Google Closure Linter

JavaScript のファイルをチェックしてくれます。

セミコロンはある？
規約と異なる書き方されてない？
JsDoc のアノテーションが正しく書けてる？

人による細かいミスを事前に防ぐことができます。

まとめ

静的型付＋圧縮＋最適化したいから Closure Compiler
Closure Compiler と一緒に利用するため Closure Library
Closure Library と相性の良い Closure Template で DOM生成
コード規約を仕組みで縛るために Closure Linter

CSSの管理について

CSSでよく現れる問題

マジックナンバー：意味のわからないpx指定などが増える
いろんなブラウザで同じようなスタイルにするために、大量の記述が必要なことがある
再利用ができなく、冗長したスタイルが増える

という事で、大規模にしてメンテナンスコストが爆発する！対策として、2つのツールを紹介します。

Sass

変数や計算が利用できる　⇒　値に意味をもたせられる
ネスト構造で直感的なスタイル指定　⇒　整理しやすい
コンポネント化が可能　⇒　再利用ができる

autoprefixer

一つのスタイルからすべてのブラウザに必要なスタイルを生成してくれる

実装が楽になり、メンテナンスコストが減るのも、人が書くことによるミスを防げる事がメリットとなります。

サンプル

$great-color: #0a3c59;            // 変数を定義
%common-border {                  // 再利用のためのスタイル定義
  border: 1pxsolid $great-color; // 変数を利用
}.common-button{
  @extend %common-border;         // %common-borderを呼び出す
}.big-button{
  @extend %common-border;         // %common-borderを呼び出す
  border-radius: 6px;
  &:hover {                       // ネスティングを利用
    color: $great-color;          // 変数を利用
  }}

悟空ボウズマンを助ける体験

Google Closure Compiler が具体的にどういう風に役立つかを感じてもらうために、体験アプリを作りました。
githubに公開しているので是非ご覧ください。

f:id:cybozuinsideout:20151110163412j:plain:w400

内容

コードに問題を含んだアプリを用意しました。Closure Compiler を使って、エラーの検知をし、対応していくような体験になります。

全部で5個、エラーを一個ずつ直してみましょう。

1. パースエラー

app/javascript/goku.js:133: ERROR - Parse error. ',' expected
  var el = goog.soy.renderAsElement(kintone.template.soy.gokuMessage, null, null, this.getDomHelper();
                                                                                                     ^

原因

goog.soy.renderAsElementの締め括弧が足りないというエラーになります。

解決

)を足す。

2. 定義されていないプロパティ

  this.getHandler().listen(callButton, goog.events.EventType.CLICK, this.callBozman);
                                                                         ^

原因

すぐ下に定義されているプロパティがあります。kintone.component.Button.prototype.callBozumanは確かにありますが、良くみたら綴りに差が出ています。uが不足しています。

解決

this.callBozmanに uを足す。

3. 引数の数エラー

app/javascript/goku.js:112: ERROR - Function goog.ui.Component.prototype.getContentElement: called with 1 argument(s). Function requires at least 0 argument(s) and no more than 0 argument(s).
        gokuMessage.render(this.getContentElement(true));
                           ^

原因

エラーの内容は this.getContentElementに引数を一つ渡しているけれど、この関数は引数が必要ないということが書いてあります。

解決

引数として渡している trueを消す。

4. 引数型エラー

app/javascript/setup.js:15: ERROR - actual parameter 1 of kintone.component.Button does not match formal parameter
found   : string
required: boolean
  var button = new kintone.component.Button(kintone.setup.anyBoolean());
                                            ^

原因

エラーの内容を見ると、 kintone.component.Buttonは booleanの引数を求めていますが、stringが渡されています。Compiler がなぜそう判断したかというと
* kintone.component.Buttonの Doc に @param {boolean} anyBoolean 意味のないbooleanがある事で、Compiler は booleanを渡す必要性がわかる * kintone.setup.anyBooleanの中身は return true;と書いてあるにも関わらず、 Doc が @return {string}となっているので、Compiler は kintone.setup.anyBooleanが stringを返すと判断するよって、kintone.setup.anyBooleanの名前とその内容から、Doc に問題があるとわかります。

解決

kintone.setup.anyBooleanの Doc に返り値の型を booleanに書き換える。

5. 返り値型エラー

app/javascript/setup.js:27: ERROR - inconsistent return type
found   : boolean
required: string
        return true;
               ^

原因

kintone.setup.anyBooleanは Doc に @return {string}が書いてあるのに return true;をしている事で、問題があると Compiler が判断しました。実は一つ上のエラーを修正で、このエラーも直されました。

解決

kintone.setup.anyBooleanの Doc に返り値の型を booleanに書き換える。

まとめ

スクリプト言語である JavaScript でも Google Closure Tools を利用することで、事前にいろいろのような問題の検知ができる事がわかりました。kintone のように、規模が大きくなるととても大切な仕組みとなってきます。

最後に

二日間だけでしたがいろんな人と出会えてとてもよかったと思います。また、ブースに来てくださった皆様、アドバイスや応援のメッセージをくださった皆様にもありがとうございます！
来年のKOFに向かって皆様に楽しんで頂けるネタを考えて行きたいと思います！

↧

サイボウズでエンジニアとして働く事の魅力を探る会を開催しました

November 17, 2015, 3:00 pm

≫ Next: nginx の設定をレビューするときの観点をまとめてみた

≪ Previous: JavaScript大規模開発を語りに行ってきた「KOF2015」参加レポート

f:id:cybozuinsideout:20151116110347j:plain

こんにちは！東京第2開発部の田中(@yuichielectric)です。

先日、サイボウズでエンジニアとして働くことの魅力はどこにあるのかを探る「ここが良いよね、サイボウズのエンジニア」ワークショップを社内で開催しました。

希望者のみの参加で、業後に2時間の開催ながら35名（エンジニア以外の職種からも8名）が参加し、想像以上に盛り上がり、自分たちの職場の魅力はどこにあるのかを再発見する良い機会となりました。

なぜやったのか

この会の発端は、エンジニア採用チームで2016年度新卒採用活動の振り返りを行っていた時に出た思いつきでした。

エンジニア採用チームは、その名の通りエンジニアの採用活動の企画を行うチームです。メンバーは、人事部のメンバーが2名、東京・大阪・松山のエンジニアマネージャ4名の計6名で構成されています。

このエンジニア採用チーム内で2016年度新卒採用活動の振り返りを行っていて、世の中に多数の魅力的なIT企業がある中でサイボウズにしかない魅力をどのように伝えるのか、という課題が出ました。

この課題に対して、じゃあそもそも今サイボウズで働いているエンジニアはどこに魅力を感じているのか、またエンジニア以外の職種の人から見て、サイボウズのエンジニアに対してどんなイメージを持っているのかワークショップをしてみよう！という話になり、今回のワークショップを企画する事になりました。

事前のアイデア出し

ワークショップ当日にいきなり参加者にサイボウズでエンジニアとして働くことの魅力を書き出してくださいと言っても、なかなかアイデアが出ない可能性もあります。そういったケースを防ぐために、事前にアイデアを登録するためのkintoneアプリを用意しました。kintoneはこのような皆にデータを登録してもらいたいケースに非常に簡単にアプリを作る事ができるので便利ですね！

f:id:cybozuinsideout:20151117105312p:plain

事前にアイデアを登録するアプリを用意した結果、当日までに48件ものアイデアが集まりました。事前に全く何も考えずに参加するメンバーが多少は少なくなると良いかなと思って用意したのですが、思いの外たくさんのアイデアが登録されて、このアプリ上での議論も行われたりと十分な効果を上げることができたと思います。

f:id:cybozuinsideout:20151116115006p:plain

当日の流れ

2016年新卒採用活動の総括

まず、いきなりワークショップを始めるのではなく、参加者全員に今のサイボウズの採用の情報を背景情報と理解してもらうため、人事のメンバーから2016年新卒採用活動の総括と振り返り結果の発表を行いました。

f:id:cybozuinsideout:20151117155122j:plain

2016年採用活動での会社紹介スライドの紹介

その後、今のエンジニア採用活動で使っている会社紹介を、今回のワークショップの参加者向けに行いました。

f:id:cybozuinsideout:20151116130442j:plain

現状行っている会社紹介の内容を紹介することで、ここから更に改善するにはどうしたら良いのだろうと考えるベースとしてもらう効果を狙っています。

アイデア出し

その後、5〜6名のグループに分かれて、ホワイトボード、ポストイット、マーカーを使って、サイボウズでエンジニアとして働くことの魅力の洗い出しを行いました。

f:id:cybozuinsideout:20151116170316j:plain

ここでは、まず個人毎にどんどんアイデアをポストイットに書いていってもらいます。その後、各人が考えたアイデアをグループ内で共有してもらい、似たアイデアをグルーピングしてホワイトボードに貼っていきます。

f:id:cybozuinsideout:20151116170507j:plain

課題発表

ここで、各グループに「採用活動の発表資料にもう1枚、サイボウズでエンジニアとして働くことの魅力を伝えるスライドを追加したいと考えています。そのスライドをグループで作ってください」というお題を発表します。各グループ内でこれまで出てきたアイデアを元に、何をどうエンジニア志望の学生に伝えるべきかを考えてもらいます。

f:id:cybozuinsideout:20151116171057j:plain

最終発表

そして、最後に各グループの発表を行いました。

f:id:cybozuinsideout:20151116172333j:plain

各チームの発表が終わった後に、参加者全員に自分がもっとも共感した発表を投票してもらいました。

もっとも共感を集めたのは

その中で、もっとも共感を集めた（35名中20名以上の共感を集めた）発表はこちらです。

f:id:cybozuinsideout:20151117102044p:plain

タイトルは「開発文化をつくる文化」です。

このタイトルには、サイボウズのエンジニアの開発文化はトップダウンに決まるものではなく、現場のエンジニアが自ら作り出しているのだというメッセージが込められています。

その背景として「営業と開発の信頼関係」、「クラウド開発」、「コミュニケーションツール」が挙げられています。

営業と開発の信頼関係

サイボウズでは、多くのエンジニアが営業と開発の間で信頼関係があると考えています。そのため、営業が要求するものを開発が粛々と実装するという開発の進め方に終始するのではなく、開発側から提案を行って機能を実装したり、自らの開発プロセスやサービスの品質向上の活動に時間を割くことができています。

クラウド開発

サイボウズでは、cybozu.comというクラウドサービスを提供していますが、内部的には複数の内部サービスに分かれて、それぞれ別のチームで開発をする体制になっています。

そのため、チーム間のコミュニケーションを密に行う必要があり、業務上のコミュニケーションだけでなく、共同で勉強会を行ったりもしています。

コミュニケーションツール

サイボウズは、社内での情報共有やチームワークを促進するためのコミュニケーションツールを開発しています。それと同時に、サイボウズ社内でも自社のサービスを非常にヘビーに使っています。そのため、部署やチームをまたいだコミュニケーションや情報共有が非常に活発に行われています。

開発文化をつくる文化

このような背景の結果、スクラム開発の導入やKAIZEN活動（KAIZEN活動、KAIZEN合宿）、チーム横断の勉強会などといった、現場のエンジニアが自主的に始めて定着していった取り組みが数多く産まれました。

また、自社で開発しているコミュニケーションツールによってチームをまたいだコミュニケーションを活発に行うことができるので、あるチームで定着した良い取り組みは他のチームにも広がっていったり、営業などの他の部署もその活動の成果に対してフィードバックをくれるということが頻繁に発生します。その結果、良い取り組みはサイボウズの組織全体の文化として定着していきます。そして、そのより改善された文化のもとで更に良いコミュニケーションツールを開発していき、その結果更に良い開発文化が作り上げられるという、ポジティブなフィードバック・ループが形成されています。

このようにして、自分たちの文化や自分たちの仕事のやり方は自分たちで作り上げて改善していくという文化が根付いています。

こういった文化の中で働くことが出来る点が、サイボウズでエンジニアとして働く上での一番の魅力なのではないか、という発表でした。

この話には非常に多くの共感が寄せられ、また「開発文化をつくる文化」という言葉もサイボウズの開発文化を簡潔に表現できていると評判でした。

まとめ

今回のワークショップ自体も、日頃採用活動に関わっているメンバーが自分たちの問題を解決する上で現場のメンバーの声を聞こうと開催したもので、自分たちの文化を自分たちで作っていく良い例になったと思っています。希望者のみが参加するワークショップだったのですが、そこに35名ものメンバーが参加してくれたり、ワークショップ開催より前に用意していた事前アイデア出しアプリにも沢山の意見を登録してくれたりと、自分たちの仕事の進め方をいかに改善していくかという点に興味を持っているメンバーが非常に沢山いるということも改めて実感することが出来ました。今回のワークショップを踏まえて、今後の採用活動をよりサイボウズの魅力を伝えることができるものにしていこうと思います。

また、採用活動以外でも、今回のようなワークショップをもっと開催しよう！という声も出てきています。このように、自分たちの仕事のやり方や自分たちのサービスの改善の仕方は自ら促進していくという文化は非常に重要なものだと私は思います。今後もこの文化をより強固なものにしていけるよう活動していこうと思います！

エンジニア大募集中！

サイボウズでは、このような開発文化を持つ職場で働きたいエンジニアを東京・大阪・松山の各拠点で絶賛募集中です！

また、こんなサイボウズの開発現場を間近で見てみたい学生さん向けにインターンも募集中です！

おまけ：大阪・松山オフィスからのリモート参加

ちなみに、今回のワークショップでは、大阪オフィスと松山オフィスのメンバーも参加していました。最後に、リモートメンバーも交えてのワークショップの取り組みについても紹介したいと思います。

リモートのメンバーも、他のグループと同様に東京のメンバーと一緒にグループを作って、アイデア出しやグループ内の議論を行いました。

その際、リモート参加のメンバーが居るグループのテーブルには、テレビ会議システムを配置し、アイデア出しのフェーズではkintone上でアイデアを東京側のメンバーと共有し、東京側のメンバーが書き出してホワイトボードに貼るようにしました。

f:id:cybozuinsideout:20151116171355j:plain

また、議論のフェーズでは、ホワイトボードにテレビ会議システムのカメラを向けて、ホワイトボードを見ながら議論を行いました。

f:id:cybozuinsideout:20151116171746j:plain

こうした工夫の結果、結構快適にワークショップを進めることができたそうです。サイボウズ社内でもリモートの会議や、リモートメンバーを含めた少人数での議論は頻繁に行っているのですが、今回のようなホワイトボードを使ったワークショップでリモートメンバーを含めてやるというのは初めてだったので、これは思わぬ収穫でした。

↧

nginx の設定をレビューするときの観点をまとめてみた

November 19, 2015, 3:00 pm

≫ Next: クラウドサービスのセキュリティ対策について講演しました

≪ Previous: サイボウズでエンジニアとして働く事の魅力を探る会を開催しました

こんにちは。インフラチームの野島（@nojima）です。

チームのメンバーに nginx の設定について気をつけるべき点を共有するために、レビュー観点を書きました。せっかくなのでここで公開します。

ほとんどの項目は自分やチームのメンバーの実体験に基いています。

レビュー観点

server

server_nameが他のやつと被っていないか。
- listen する IP アドレスが同じ場合、server_nameで区別できないといけない。
- TLS を使う場合、SNI をサポートしないクライアントでは TLS 用の設定が default_serverのものが使われる点にも注意。
TLS を使う場合、listenディレクティブに sslオプションを書いているか。

location

locationのマッチの順番に注意
- 正規表現の locationは前方一致の locationよりも優先度が高い。意図せず別の locationを隠してしまっていないか確認する。
- また正規表現の location 同士は上に書かれたものが優先されるので正規表現 location 同士でも注意が必要。（前方一致の location の場合、順番は関係なくて、より長い location が一致されるため、普通は大丈夫）
正規表現に注意
- ^とか $を付けるべきか付けないべきか。
- index.htmlじゃなくて index\.html
- 正規表現エンジンに PCRE が使われているので、バックトラックが大量に起こりうる正規表現があると DoS をされる可能性がある。常にバックトラックが起こらない正規表現を書くこと。
location /hoge/と書くと /hogeにアクセスされたときにマッチしない。
- location = /hogeを作って return /hoge/$is_args$args;と書いておくと親切だが、実際のところここまでやってる設定は少ない。
  - ちなみに、rewrite ^/hoge$ /hoge/;のようにして internal redirect で処理してはいけない。相対リンクが壊れるので。

URL デコードに注意

nginx は URL (正確にはパスの部分) を勝手に URL デコードしてしまうことがある。
- リクエストを /prefixをつけた URL にリダイレクトしようとして return 301 /prefix$uri;とやると嵌まる。
  - /hoge%3Fpiyoが /prefix/hoge?piyoにリダイレクトされる。
- $request_uriを returnできないか検討すること。request_uriはデコードされていない URL が格納されている。
  - ちなみに $uriは引数の部分を含まないが $request_uriは引数の部分を含む。紛らわしい。
rewrite ^(.*)$ /prefix$1 redirect;なども似たような問題がある。
- やっぱり /hoge%3Fpiyoが /prefix/hoge?piyoにリダイレクトされる。
- rewriteの場合は単純に URL デコードされるわけではなく、文字によってデコードされたりされなかったりする。
さらに言うと、URL デコードだけでなく、駆け上がり処理 (/hoge/../fugaを /fugaにするようなやつ) とかも行われる。
- 駆け上がり処理は URL デコードした後の文字列で行うので、/../を URL エンコードしたりしても回避できない。
Apache は %2FをURL デコードしないという謎の仕様があるが、nginx にはこの仕様がないので微妙に互換でない。

proxy_pass

proxy_passはホスト名まで書く場合とパスの部分がある場合で挙動が変わる。
- つまり proxy_pass http://foo;と書く場合と proxy_pass http://foo/;は異なる挙動をするということ。
- パスを指定してしまうと %2Fや %2Bなどの一部の文字が勝手にデコードされる問題が発生する。パスを指定しない場合はパスをそのままバックエンドに渡してくれる。
- ということで基本的にパスは書くべきでない。proxy_pass http://foo;の形式を用いるのが安全。
- /hoge.indexを /prefix/hoge.indexにリバースプロキシしたいみたいな場合はどうしてもデコードが避けられない。
- また、proxy_passは URL に変数を含む場合と含まない場合で挙動が変わるが、マニアックなので省略。
- さらに proxy_passを含む locationは挙動が微妙に変わる。これに関してはマニュアルを参照。

フェイズに注意

returnや rewrite, setなどは denyとか allowより先に処理される等、ディレクティブの処理順番に注意。
- deny all;としていても同じ location に return 200 "hello";とか書くと 200 が返ってくる。
- 処理順番はドキュメントに記載されていない場合が多いので、気になる場合は実験するかソースを読むしかない。
基本的に set, rewrite, returnなどのリライト系が最初に処理され、limit_reqなどのリソース制限系が次に処理され、deny, allowなどのアクセス制限系が次に処理され、次に proxy_passなどのレスポンス生成系が処理される。ログの出力は一番最後。
- internal redirect があると内部的にフェイズが巻き戻り、また最初から順番に処理される。

その他

internal redirectなのか普通の redirectなのか。
redirectするときにパスだけ redirectすればいいのか、引数 (?以降のやつ) を引き継ぐ必要があるのか？
- 引き継ぐ必要がある場合、$is_args$argsを末尾に付けないといけない。忘れやすいので注意。
HSTS ヘッダを付けるべきか付けないべきか。付ける場合は includeSubdomainsや preloadを指定するべきかしないべきか。
add_headerをすると、それより上のスコープで add_headerしたやつが全部消える。なので下の階層でヘッダを追加したい場合は、上の階層で add_headerしたやつを全部また add_headerしないといけない。
- error_pageなども同様。
allow, denyを複数書く場合は上から順番にマッチされていく。
- allow all; deny 1.2.3.4;のように書いてしまうと 1.2.3.4は許可されてしまう。
レスポンスの Content-Type ヘッダの値は正しいか。
- typesディレクティブで指定されていない拡張子のファイルがあるかチェック。
  - 現実的には、nginx の設定の管理者とコンテンツの管理者が異なるとチェックはかなり難しいけど。
- Content-Type が間違っているとダウンロードされてほしいところでインライン表示になったり、インライン表示されてほしいことろでダウンロードされたりする。
  - 実際これでよく問題になる。
- gzip_typesなど Content-Type で動作が変わるようなディレクティブもある。
- また、charsetディレクティブで charset も指定すべき。文字化けによる XSS がありうるので。
  - 歴史的事情により文字コードが混在してたりすると辛い。
error_pageの中でエラーが起きないか。
- error_pageディレクティブを使うとエラー時に internal redirect を起こせるが、internal redirect の先で更にエラーが起きた場合、後に起きたエラーのエラーコードがクライアントに返されるので注意。
  - エラー処理の中で起きたエラーを更にエラー処理する設定にもできるけど、ややこしいのであまり使うべきじゃないと思う。

DNS

設定ファイル内にドメイン名をベタに書いた場合、そのドメイン名は nginx 起動時 (または reload 時) に名前解決され、TTL を無視してずっと保持される。
- この名前解決は resolverディレクティブに指定した DNS サーバではなく、OS デフォルトの DNS サーバで行われる。(gethostbynameが使われている)
ドメイン名の指定に変数が指定されている場合、そのドメイン名はリクエストが来たときに名前解決され、TTL は遵守される。
- この名前解決は resolverディレクティブで指定した DNS サーバで行われる。
設定ファイルにドメイン名をベタ書きしたいけど TTL は遵守したい場合、一旦変数にドメイン名を set して、それをディレクティブの引数に指定するなどの工夫が必要。

適用手順

restart すべきか reload すべきか。
- restart すべきなのは以下のような場合のみ：
  - nginx のプログラムを更新するとき。
  - 共有メモリ（SSLのセッションキャッシュとか）のサイズを変更したいとき。
  - リスニングソケットのオプション (setsockoptで弄るようなやつ) を変更したいとき。(ポートの変更とかなら restart しなくてよい)
- これら以外の場合は reload する。
複数回 graceful restart するときは、一個前の graceful restart が完全に終わっていることを確かめる。
- psして古い master がいなくなったことを確かめればよい。
- 一個前の graceful restart が完全に終わる前に新たな graceful restart を始めることは nginx の仕様上できない。
- 例えば１時間掛けてでかいファイルをダウンロードしているクライアントがいる場合、その１時間に１回しか graceful restart はできない。

おわりに

nginx は嵌まりどころが結構多いですが、ちゃんと使うととても優秀な HTTP サーバです。上手く利用して幸せな nginx ライフを送りましょう。

↧

クラウドサービスのセキュリティ対策について講演しました

November 24, 2015, 10:39 pm

≫ Next: TCPとタイムアウトと私

≪ Previous: nginx の設定をレビューするときの観点をまとめてみた

cybozu.com の運用や、サイボウズ社内の情報システムの運用を担当している山本泰宇です。

先日開催された cybozu.com カンファレンスにて、「正しく恐れるクラウドのセキュリティ」と題して、cybozu.com をはじめとするクラウドサービスのセキュリティ対策について講演しました。その講演資料を公開していますので、ブログでも紹介いたします。

docs.com

一般に、企業が利用する情報システムは個人向けのものと比較すると、高いレベルのセキュリティを要求されます（情シスとしての立場から言えば、要求します）。ただ、セキュリティと一口に言ってもその意味するところは非常に広いため、どのようなリスクに、どの程度対応するかを決めていくプロセスが欠かせません。

講演資料では割愛しましたが、実際にセキュリティ対策を考える上では、セキュリティリスクを列挙し分析したあと、必要な対策に優先順位をつけて実施していくことになるでしょう。cybozu.com はサービス開始からおかげさまで４年経ちましたが、大きなセキュリティ事故を起こすことなく運用してこれました。その間に優先順位の高いセキュリティ対策を順々に投入してきた結果をまとめたものが、講演資料で紹介している対策群です。

サイボウズでは、セキュリティに完璧というものはないと考えています。クラウドサービスを提供する側においてもですが、利用する側においても、従業員の行動すべてを徹底的に管理するというのは困難でしょう。完璧はないという前提で、それでもいかに被害を最小限に抑えてうまく利用していくか、その判断の一助になればと思い、資料を作成して講演いたしました。

企業でクラウドサービスのご利用を検討される皆様方におかれましては、ぜひご一読いただけますと幸いです。

今後とも cybozu.com をよろしくお願いいたします！

【cybozu.com】正しく恐れるクラウドのセキュリテイ—山本泰宇

↧

TCPとタイムアウトと私

November 26, 2015, 12:00 am

≫ Next: Java トラブルシューティングガイド

≪ Previous: クラウドサービスのセキュリティ対策について講演しました

本部長や副本部長もプログラミングを（たまに）することで有名なサイボウズの運用本部長、山本泰宇です。有名じゃないかもしれませんが、ブログに書いたので有名になるということでご了承ください。

今回は、先日発生した yrmcds に起因する障害の原因と対策を解説します。 yrmcdsというのは、サイボウズが開発している memcached互換のキーバリューストレージです。

問題の理解のため、まず TCP 通信で、通信先の相手の障害にどう対応するか解説します。

データの送信中に相手が落ちるケース

このケースはさらに二つに分かれます。

相手の OS は生きているが、通信しているプログラムが落ちるケース
相手の OS ごと（あるいはネットワークごと）落ちるケース

1 と 2 の違いは、前者の場合 RSTパケットが返ってくるのに対して、後者ではなにも返ってこない点です。後者の場合、ack されない送信データ（unacked data）がカーネルの送信バッファにたまる状態になります。

前者のケースでは、ソケット API (send等)がエラーを返すので、プログラム上の処理は容易です。後者の場合、対応方法はいくつか考えられます。

カーネルが再送信を諦めるのを待つ
Linux の場合再送信の上限回数は sysctl の net.ipv4.tcp_retries2で設定できます。デフォルトでは 15 回となっており、数十分間は再送を続ける動作となります。
アプリケーションレベルでタイムアウトする
一定時間内に通信相手の応答がない場合はエラーとするようにします。通信プロトコルを自由に設計できる場合は可能な選択肢になります。
ソケットオプションでタイムアウトする
ソケットを非同期にしていない（同期ソケット）場合は、setsockopt(SO_SNDTIMEO)でタイムアウト時間を設定できます。ただしカーネルの送信バッファにまだ余裕がある場合は sendはすぐ返ってくるため、時間内に相手にデータが届いたかは保証できません。
ソケットを非同期にしている場合、setsockopt(TCP_USER_TIMEOUT)が利用できる場合があります。 Linux の場合 2.6.37 以降のカーネルで利用できるようです。

ポータビリティや時間の保証という点を考慮すると、2 のアプリケーションレベルでタイムアウトするのが一番確実と言えるかと思います。

データの待機中に相手が落ちるケース

データ受信については、アプリケーションレベルでタイムアウト処理を実装することが多いと思います。でも中には、無期限にコマンドを待つサーバー実装もあるでしょう。

そういうケースでは、アプリケーションレベルのタイムアウト処理の代わりに、TCP keepaliveという仕組みを利用することが可能です。

TCP keepalive は通信がまったくない場合（ここ重要）に、カーネルがアプリケーションの代わりに通信相手に確認パケットを送ることで、通信相手の存在を自動的に確認してくれる機能です。

Linux の場合 TCP_KEEPIDLE等のソケットオプションを調整することで、TCP keepalive のタイマーの動作を調整可能です。

修正前の yrmcds の実装

さて、懺悔の時間です。yrmcds はレプリケーションを実装しているので、yrmcds のサーバー間で通信をしています。レプリケーション方式は非同期ではあるものの、causality (因果律)を保つため、オブジェクトをロックしている間にレプリケーション先にデータを送信するようになっています。

結論から先に言うと、レプリケーション先（スレーブ）が不意に消失したときに、yrmcds は自前でタイムアウト処理をしていませんでした。また、レプリケーション用のソケットの送信バッファが詰まる場合に備えてアプリケーションレベルでもバッファを確保していたのですが、30 MB の固定サイズとなっており、実際の運用環境では約 15 秒でいっぱいになる状態でした。

結果、スレーブサーバーが不意に落ちたことの検出に、カーネルの再送信がタイムアウト（20分前後）するまでかかってしまい、バッファも不足していたためマスターサーバーの処理が滞留して障害になったものです。

私の勘違いは、TCP keepalive 処理を調整すれば、このような状況でもカーネルが自動検出して速やかにエラーにしてくれるだろうと思い込んでいた点です。yrmcds では TCP keepalive を 5 分程度で動作するようにしていました。実際には、TCP keepalive は再送中のパケットがある場合は動作を開始しないため、送信処理のタイムアウトには利用できないものでした。

yrmcds 1.1.5 の修正内容

yrmcds 1.1.5でこの問題を修正しました。

具体的には、レプリケーションスレーブがアプリケーションレベルでマスターに ping を飛ばし、マスターは ping が一定時間こないときにエラー処理をするようにしています。また、レプリケーション用のバッファサイズについても可変にし、障害検出にかかる時間の間データを貯めておくのに必要なサイズを確保できるようにしています。

また、レプリケーションバッファがいっぱいになったときはログに警告が出るようにもしています。

教訓

TCP の障害検出は、なるべくアプリケーションレベルで実装しましょう
送信バッファサイズのようなパラメータは実運用に必要なサイズを確保できるよう実装しましょう

ご迷惑をおかけしたお客様には、大変申し訳ありませんでした。

↧

Java トラブルシューティングガイド

November 30, 2015, 6:00 pm

≫ Next: Selenium GridをGoogle Cloud Platform上で運用した知見をまとめてみた

≪ Previous: TCPとタイムアウトと私

こんにちは。ミドルウェア開発チームの青木(@a_o_k_i_n_g)です。将来の夢は藤岡弘の弟子になることです。

Cybozu では多くの Java アプリケーションが稼働しており、トラブルも発生します。僕はトラブル対応をすることが多く、今まで大小様々なトラブルを見てきました。その中で得られた知見を社内ドキュメントとして記していましたが、そちらを手直ししたものを本記事で公開します。Cybozu ではインフラ基盤に Ubuntu を用いているので各種ツールの紹介もすべて Ubuntu を前提にしていることをご承知ください。

すぐやること

各種データはトラブルが発生している状態で運用チームに取得してもらいましょう。鮮度が重要なデータも多いので、常日頃運用チームと手を取り合ってトラブル対応できる組織づくりをしておくべし。

モニタリングツールで該当環境のデータを確認

トラブルの原因は多種多様です。解決はともかくとして、まず何が起きているのかを把握するのがまずいちばん最初にやることです。

まずはじめに、どんな現象なのかを簡単に切り分けましょう。CPU 消費, メモリ消費, IO 消費, ネットワーク不通, リソースリーク、スタベーション、など。 JVM のモニタリングには jstatを用います。jstatでヒープの New 領域や Old 領域の容量と使用量を確認したり、GC の回数を確認したりします。とは言っても jstatの結果を目で見るのはキツイので、事前に jstatの結果をモニタリングツールに流しておかなければなりません。

スレッドダンプの取得

スレッドダンプは大変役立つ上に簡単に取得でき、ヒープダンプと違って出力後のサイズも小さいので JVM でトラブルが起きたら必ず貰っておきましょう。

スレッドダンプは jstackで取得できます。注意点として、スレッドダンプの取得は JVM 実行ユーザーと同一でなければいけません。root でも取得できません。

$ sudo -u<USER> jstack $PID> /tmp/jetty.stack.txt

余裕があるときは、数秒おきに何度かスレッドダンプを取ってもらうと尚良いです。なぜならスレッドダンプ1つだけ見た時、あるスレッドが処理が遅くてスレッドダンプに出てきたのか、それともたまたま処理している瞬間に遭遇したものなのか判別しにくいからです。

取得したスレッドダンプの拡張子は .txt にしておきましょう。というのも、会社にいない時のトラブル対応で、スレッドダンプをスマホで見る場合があります。拡張子が .stack のような謎拡張子だとスマホでダウンロードできなかったり開けなかったりすることがあるので、.txt にしておけば安心です。

ヒープダンプの取得

JVM のヒープを取得します。 jmapコマンドで取得可能。

$ sudo -u<USER> jmap -dump:format=b,file=/tmp/app.dump $PID

出力されるヒープダンプは数百 MB から数 GB を超えることもあるので、ダンプする際のディスクの空き容量に注意しましょう。

ヒープダンプはサイズが大きく、かつ、お客様データが含まれるため取り扱いに注意する必要がある等敷居が高く、「すぐやること」とは言えないかもしれません。とはいえトラブル発生時に取得しないと意味がないデータでもあります。まずはスタックトレースや lsof、その他モニタリングツールをざっと流し読みしてわからなかったらヒープダンプを貰う、という流れが良いでしょう。

一旦おさらいです。 jstatでモニタリング、jstackでスレッドダンプ、jmapでヒープダンプ、です。 jstat, jstack, jmapをトラブル解決のための三種の神器と言います[要出典]。

lsof の取得

lsof でリソースリークが無いか確認しましょう。こちらも jstackと同じく、簡単に取得出来てお客様データが混じらないので取り扱いが楽です。

$ lsof -p$PID> /tmp/lsof.txt

プロセスを特定する

CPU 使用率が高い、メモリを大量に使用している、大量にディスク書き込みをしている、などのトラブル時、どのプロセスがリソースを消費しているのか確認しましょう。

CPU を消費している時

topコマンドで CPU カラムでソート。デフォルトで CPU 使用率でソートされているはずですが、そうでない方は f キーを押してソートカラム選択画面に移動、上下キーで %CPU を選択して s キーでセット、q で元の画面に戻ると CPU 使用率でソートされています。

CPU を消費している場合に、やっておくべき重要なことがあります。プロセスの特定だけでなく、スレッドの特定も行っておくべし!!

スレッドの特定の仕方。 top -Hコマンドか、topコマンドでプロセス表示後、Shift + H キーを押してスレッド表示をオンにする。CPU を消費しているスレッドを特定し、スレッド ID (top コマンドでの表示は PID カラム)をメモしておく。あとでこの topコマンドで得たスレッド ID と、スレッドダンプのネイティブスレッド ID (nid=XXX の値)を突き合わせて原因となるスレッドを特定しましょう。ただしこの技が使えるのは特定のスレッドが CPU を消費し続けている時のみです。

ちなみに topコマンドでのスレッド ID は 10 進数表記、スレッドダンプのスレッド ID は 16 進数表記なので Google 先生に "1234 to hex"とか聞いてさくっと変換できます。逆も当然できて、"0xABCD to decimal"とやると 16 進から 10 進に変換してくれます。"0b11011 to hex", "5324 to binary", "0o1234 to decimal", "0xABCD to octal"とかで 2 進数, 8 進数, 10 進数, 16 進数の相互変換可能。

CPU 使用率が高いからと言って、CPU を大量消費する不具合があると考えるのは早計です。何らかの処理がメモリを大量に消費した結果 GC スレッドがあくせく働いて CPU 使用率が高くなるということもあります。つまり JVM においてはメモリ消費は CPU の消費も促すのです。というわけで、CPU 使用率が高くなった時はモニタリングツールで GC の項目を確認し、GC なのかそれ以外なのかを切り分けする癖をつけましょう。

メモリを消費している時

CPU を消費している時と同様、topコマンドでメモリでソートしてプロセスを特定すべし。topコマンドのカラム的には %MEM を指定すれば大丈夫です。VIRT (仮想メモリ)や SHR (共有メモリ)でソートしないようにしましょう。ほとんどのケースでは注目したいのはプロセスが使ってる実メモリなので、%MEM または RES (実メモリ)でソートすべきです。

JVM は、スレッド単位でのメモリ管理はしていないので、CPU 消費時のようにメモリを消費しているスレッドを特定することはできません。

ディスクに書き込みをしている時

ディスクを消費している時は、どのファイルなのかを特定したい。たいてい /tmp にあるので、ls -lS /tmpなどで巨大なファイルが無いか確認しましょう。ファイルが見つかれば大抵プロセスも特定できますが、わからない場合は iotopなんかが使えます。iotopでのソートカラムの選択は topコマンドとは異なり、左右の矢印キーで選択します。

JVM アプリケーションが稼働しているサーバーだからといって犯人が JVM とは限りません。同居している別のプロセスが犯人ということもあるのでプロセスの特定は重要です。Cybozu の過去の例では、ImageMagick という画像変換ツールがディスクを大量消費したケースがありました。

すぐやることの次にやること

必要があればプロセスの再起動

お客様に影響が出ている場合、プロセスを再起動してメモリの状態等一旦クリアすべきですが、逆に、大丈夫な場合はできるだけ再起動せずその状態のまま残しておき、必要な情報を取得できるようにしておきましょう。必要なデータは貰ったと思っても、後から「あのデータが欲しい」と思うことはしばしばあります。

プロセスの起動オプションの取得

これは再起動しても変わらないものが多いのですぐ取得はしなくても大丈夫ですが、トラブル対応時に必要になることもあるので取得しておきましょう。ps aux | grep javaするか、jps -mで。jpsは JVM 実行ユーザーと同一ユーザーでなければなりません。

再・モニタリングツールで該当環境のデータを確認

Zabbix 等で当該環境のデータを確認しましょう。ポイントは 2 つ。

現象の確認(CPU 消費、メモリ消費、etc)
障害が発動した時刻の特定

何が起きているのかを良く見極め、それから時刻を特定し、ログから分析していきます。

モニタリングツールで閲覧する際の注意点がいくつかあります。

時刻のタイムゾーンに注意すべし
基本的にグラフは横軸が時間軸になっていると思います。ただ、この時間が UTC なのか JST なのか、それともそれ以外のタイムゾーンなのかはきちんと把握しておきましょう。これを勘違いすると後述するアクセスログ等での解析時、時間で範囲を絞ったときに痛い目を見ます。

グラフの精度に注意すべし
これは Zabbix の例ですが、1 週間以上古いデータは間引かれて精度が落ちます。また、時間軸のスケールを大きくすると小さな値が正しくプロットされないことがあるので注意です。私はこれで泣きました。

トラブル解決に向けてあらゆる項目を見ましょう。CPU 使用率や JVM のレジデントメモリ使用量、物理メモリの空き容量あたりを見るのは当然として、普段見ないような項目もトラブル対応時くらい見てみましょう。たとえば JVM のメモリ関連の項目を良く見ると、ヒープとしてはまだ空きがあるのに Eden 領域が何故か自動拡張されず、GC が頻発してるというような現象が即座にわかるようになります。ちなみにこれは弊社で実際に起こった事例です。

とにもかくにも、モニタリングツールでの確認はトラブル解決の要なので、穴が空くほどに眺めるべし。眺めていればきっと天啓が舞い降りてくるぞ！

アプリケーションのログを確認

ここに書かずとも当たり前にやることではありますが、ログを確認する。

注意点が１つあります。log4j のログは、時刻順にソートされているわけではありません(きっと logback 等でも同様でしょう)。大体は時刻順ですが、システムの負荷が高い時は数百 ms 以上前後することがあります。

アクセスログで怪しいリクエストを探す

ユーザーからのリクエストが原因と思われる場合、アクセスログから怪しいリクエストを絞りましょう。参考までに、弊社のアクセスログは SQL インターフェースで提供されており、SQL で時刻やサービス、お客様、ステータスコード、処理にかかった時間などなどを元に絞り込めるようになっています。また、アクセスログと JVM が出力するログで、リクエストの紐づけができるようリクエスト ID のようなものを載せておくとよさ気です。

トラブル発生時のアーカイブを確認

当該環境のアーカイブを確認し、どのバージョンでトラブルが発生したのか断定すべし。アーカイブからソースコードへのトレーサビリティが求められます。運用チームのオペレーションログから追ったりリリーススケジュールから追っても良いですが、弊社では JVM アプリケーションがバージョンを返す API を用意しており、それを元に簡単にバージョンを特定できるようになってます。

解析方法

スレッドダンプ

スレッドダンプを取得したら、ひとまず grep tid= jetty.stack.txt | wc -l等でスレッド数の確認をしましょう。

JVM は何も使っていなくて寝ているだけならスレッド数は 20 程度です。そこにアプリケーションが使うスレッドが追加されます。他の環境や過去のデータと比較してスレッド数が怪しくないか確認すべし。普段からモニタリングツールなどで確認しておき、大体のスレッド数を把握しておくと捗ります。

仮に Jetty を使っている場合、Jetty のスレッド (qtp*** で始まるスレッド名) が入ってきます。詳しく追いたい時は Jetty のスレッドプールは org.eclipse.jetty.util.thread.QueuedThreadPoolクラスに実装があるので気になる時はここを見る。Jetty に限らずスレッドプール内の寝てるスレッドは通常 1 分程度で消えることがほとんどですが、すべて消えるのではなく数本のスレッドは残しておく実装になっていることもあります。

次に、遅延系のトラブルの場合、どこかのオブジェクトで wait していないか調べる。grep "waiting to"して同じアドレスを元に複数のスレッドがロックしてないか見るべし。スレッドプールで管理されていて寝てるだけのスレッドも出てくるので混同しないよう注意。

また、寝てるスレッドが多いことがほとんどなので、動いてるスレッドを見るために RUNNABLEで検索して追うと効率的です。スレッドの状態は 6 つほどありますが、RUNNABLEが実行中、BLOCKEDは別のスレッドによってブロックされている、WAITING, TIMED_WAITINGが寝てるスレッドということさえ覚えておけば大丈夫です。 https://docs.oracle.com/javase/jp/8/api/java/lang/Thread.State.html

jstackにはデッドロックを検出する機構があり、Java レベルのデッドロックを検出して表示してくれます。jstackの表示の一番下部に出るので、一応チェックしましょう。

ノウハウとして、スレッド名にトラブル解決のための何かしらの情報を埋め込んでいく方法があります。たとえば弊社のバックグラウンドで稼働する非同期処理アプリケーションでは、スレッド名に顧客 ID を埋め込むことでどのお客様で障害が発生したのかすぐ特定できるようになっています。情報を埋め込む際、間違ってもお客様の個人情報を埋め込まないようにしましょう(普通はやらないはずですが)。

lsof

これは普通に lessで見ましょう。ざっと見て同じような項目がずらーっと並んでなければ大丈夫です。TCP が原因っぽいとわかっている場合は grep TCPして見ても良いですが、やはり生で見るのが一番です。

または、TCP が原因っぽいなら sudo netstat -tnpすると良いでしょう。-p オプションでプロセスを表示してくれます。-p オプション使う時は sudo で。-p オプションを使っていてかつ sudo でない場合でも特にエラーは出ません。

JVM のメモリについて

JVM のメモリの使い方は大別して 4 つ。

Java ヒープ
パーマネント
スタック
C ヒープ

※Java8 からはパーマネント領域はなくなります。

これを覚えておくべし。スタックは 1 スレッドにつきたかだか 1MB 程度しか使わないので、異常なスレッド数でない限り問題は出ません。

メモリの状態を詳しく見たい時は前述の通り jstatを使います。とは言っても手動で jstat実行して数値を眺めるのは目に優しくないので、事前に jstatの項目をモニタリング基盤に流し込んでおく等をして可視化できるようにしておきましょう。手動で実行する場合、表記が若干独特なので慣れておくべし。OU は Old Used, EC は Eden Capacity のように、メモリの用途 + Capacity or Used となっていることが多いです。 http://docs.oracle.com/javase/jp/8/docs/technotes/tools/windows/jstat.html

jstatで手の届かないところは jcmdの NativeTrackingMemoryで見れます。ただし JVM の起動オプションで指定する必要があるので、再起動が必要になります。 https://docs.oracle.com/javase/8/docs/technotes/guides/troubleshoot/tooldescr007.html

JVM に限らない話ですが、プロセスのメモリの状態を見るには /proc/$PID/下の statusや mapsを見るという手もあります。

GC について。 Java 7 から外部から GC 打つことができるようになりました。jcmd $PID GC.runで発行できます。 https://docs.oracle.com/javase/8/docs/technotes/guides/troubleshoot/tooldescr006.html

メモリ系のシビアなケースについて調べている場合、ファイナライザが定義されているオブジェクトの破棄には GC が２回発行される必要があるというのはハマりどころかもしれません。 http://sakuramochi702.hatenablog.com/entry/2013/06/03/125052

ヒープダンプ

Memory Analyzer, JProfiler, Visual VM あたりを使って解析。

調べ方はツールによって異なりますが、Memory Analyer の Leak Suspect で出た部分を追っていけば大丈夫でしょう。ZipFileIndexというクラスのインスタンスが多数あるように見えることがありますが、これらは単にクラスパスの jar を保持しているだけだったりします。Finalizerクラスが多数ある場合でも、それらは GC されれば消えるので無視して大丈夫です。

ヒープダンプ見てもわからない場合、OQL を使いましょう。Object Query Language というもので、SQL ライクにヒープの検索ができます。Memory Analyzer 内で OQL の発行ができるので別途ツールを使う必要はありません。jhat 通して使う OQL と Memory Analyzer 通して使う OQL は異なることに注意。後者のドキュメントはこの辺にあります。でもまぁ、正直あまり出番は無いですね。いざという時のためにお道具箱に忍ばせています。 http://help.eclipse.org/mars/index.jsp?topic=%2Forg.eclipse.mat.ui.help%2Freference%2Foqlsyntax.html

メモリダンプ

メモリリークっぽい場合で、かつ C ヒープに原因がありそうな場合はメモリダンプを取得して解析すべし。メモリダンプは gcoreコマンドで取得する。当然メモリダンプにはお客様データが入っているので取り扱い注意です。

メモリダンプの解析は strings コマンドでバイナリ内の文字列を抜き出して推測するのが一番簡単です。

$ strings -a memory.dump | sort | uniq -c | sort-nr | less

さらに気合があるなら怪しげな場所を目で見るという手もありますが、バイナリを見たところで原因がわかるかというとかなり困難です。それでも見たい場合には hexdump -Cないしは od -Ax -tx1zあたりで見るべし。

メモリダンプは巨大になることがあります。なぜならメモリが怪しい時はたいてい大量消費している時なので。そんなメモリダンプをバイナリエディタで見るのは大変酷なので、splitコマンドで小分けにしましょう。

$ split -b10485760 jetty.gcore split.jetty

で、10MB ごとに小分けにされるので、途中のやつから hexdump -Cする。

メモリダンプ + strings のお話は以前僕が遭遇したケースで、下記記事に記してあるので参考になるかもしれません。 blog.cybozu.io

普段からやっておくこと

モニタリングシステムの整備

今の時代、モニタリングの重要性は今更説くまでもないですね。これが無ければトラブル解決できるものもできません。必ず整備しておきましょう。

弊社の監視・モニタリングの仕組みについては下記記事で一部公開されています。良かったらご参考に。 blog.cybozu.io

ログの整備

トラブル対応をした後に振り返ると、「ログに○○の情報を書いていれば早期解決できた」というようなことがしばしばあると思われます。どのようなログを出すべきか再度検討し、改善しましょう。不要なものは削り、必要なものを入れる。ログの鉄則です。

ツールに慣れ親しんでおく

ここまで記載したトラブルシューティングガイドですが、ここにある方法だけではトラブル解決は難しいです。ケースバイケースで原因の切り分けをしなければならないからです。その際には各種ツールに慣れ親しんでおくと捗るでしょう。日常生活やログ解析時には cat, grep, sort, uniq, tail, awk, ...。挙げたらキリが無いですね。jstack, jps, jmapあたりの Java コマンド系もローカルでひと通り触っておきましょう。パケット解析の tcpdump, プロセスの挙動を監視する strace, バイナリを眺める hexdumpあたりの学習もトラブルシューティング要員は必須項目です。いざトラブルの時に使い方がわからないとダウンタイムが長くなってしまうので、平和な時に学習しておくべし。

それでもわからない時は

トラブル対応していない人に現象を説明すると「ここ調べた？」と言ってくれて意外とそこは盲点だったりすることがしばしばあります。

1人で原因を特定できたらカッコいいですが、サーバーの向こうに困っているお客さんがいることを考えると悠長なことはしていられません。誰かに助けを求めることができる能力というのもトラブル対応をする人が持つべき資質だと思っています。

終わりに

トラブル対応に正解の道はありません。システムごとに仕組みは異なり、原因も多種多様にあるからです。トラブルは基本的に再発防止と共にあるので、一度改修したら次出会うのはまた別のトラブルです。今まで多種多様なトラブルを見てきましたが、振り返ってみればいずれもケースバイケースで調査していました。それでも、Java アプリケーションに限って言えば、ある程度のトラブルシューティングのパターンが出てきます。本記事がトラブル対策時の 1 つの助けになればと思います。

トラブルというものは起きてはならないものなので、それと向き合う時はつらい気持ちになったり申し訳ない気持ちになったりします。でも、落ち着いて調査しましょう。申し訳ない気持ちになったところで障害は直らないですし、人間が書くコードなのでバグが無いというのもありえないのです。

解決できなかったトラブルもあります。そういうものには結構苛まされて、夢に出てきたこともありました。でも一方で、複雑怪奇なトラブルを解明した時の喜びもまた強烈なものがあります。様々な知識を動員して原因を特定していく様は推理小説で犯人を追い詰めるかの如くであり、また、宝探しの如くでもあります。原因を特定できたらヒーローになれることもあります。トラブル対応はやりたがる人があまり多くないかもしれませんが、毎回未知の問題に立ち向かうというのは、結構、チャレンジングで面白いものですよ。

そして何より、お客様のためにつながります。サーバーの向こうで困ったユーザーを助けられるのは僕達プログラマをおいて他にいません。たとえ第三者ライブラリが原因であろうと、外部ネットワーク上の問題であろうと、僕達が作ったサービスにトラブルが起きたらそれを解決するのは僕達であり、解決を諦めてはなりません。何か異常が起きるたびにアプリケーションを再起動するのも立派な 1 つの手段ではありますが、さらなる安定稼働のために、より深く探求してみませんか。

↧

Selenium GridをGoogle Cloud Platform上で運用した知見をまとめてみた

December 7, 2015, 5:44 pm

≫ Next: kintone開発者のこだわりとは？ kintone devCamp 2015でkintone開発の裏側を紹介しました

≪ Previous: Java トラブルシューティングガイド

こんにちは。生産性向上チームの宮田（@miyajan）です。モンハンもう飽きたな、と思いつつ最新作を買ってしまうのが最近の悩みです。

この記事は、Selenium/Appiumアドベントカレンダー2015の8日目の記事です。もう途切れてしまったようですが、気にせずに盛り上げていきましょう！

今回は、Selenium GridをGoogle Cloud Platform上で運用してみた知見を書きます。過去の記事でも少し書いたのですが、今回は実際に運用してみた体験に基づいています。

モチベーション

Selenium Gridは、Seleniumテスト用のブラウザ環境を複数管理するためのツールです。主に、Seleniumテストを並列実行するときに使われます。弊社のkintoneチームでは、過去の記事に書いたように、Dockerを使ってSelenium Gridを構築しています。

Dockerを使っても、数十並列でテストを動かすための大規模なSelenium Gridを構築するとなると、かなりのマシンリソース（主にCPUとメモリ）が必要になります。

また、並行開発のときなど、複数のブランチで同時にSeleniumテストを走らせられるように、一時的に必要なマシンリソースが増えることもあります。

社内で必要なマシンを調達・管理していくのはなかなか大変かつ柔軟性に欠けるので、IaaSを利用してクラウド上にブラウザ環境を用意することにしました。

運用

もろもろ調査した結果、Google Cloud Platformを使い、GCE(Google Compute Engine)のVMインスタンスでSelenium Gridを構築することにしました。全体の流れとしては、Seleniumテストを実行するCIジョブの中で以下を行います。

Selenium Gridを構築するインスタンスの作成
構築されたSelenium Gridを使ってSeleniumテストを実行
インスタンスを削除

上記を実現するために、必要な作業を説明します。

スナップショットの作成

Selenium Grid用インスタンスを作成するために、元となるディスクのスナップショットを作成します。

そのために、スナップショット作成のためのインスタンスを作成し、環境構築を行います。手順は以下のような感じです。

インスタンスの作成
- 作り方はクイックスタートなどをご参考に
- このインスタンスは本運用に使うわけではないですが、動作確認を考えると、マシンタイプはn1-standard-2くらいはリソースがあった方がいいです
- この記事では、OSはUbuntu 14.04を使用しています（単に慣れてるから）
sshでログイン
Dockerのインストール
Docker Composeのインストール
docker-compose.ymlを作成
- 以下のような感じです

hub:
  image: selenium/hub:2.48.2
  ports:
    - "4444:4444"
node:
  image: selenium/node-chrome-debug:2.48.2
  links:
    - hub
  ports:
    - "5900"

これでSelenium Gridが構築できるようになったはずなので、動作確認してみます。docker-compose.ymlを置いたディレクトリで以下を実行してください。

$ docker-compose up -d
$ docker-compose scale node=2

上記を実行後、http://(インスタンスの外部IP):4444/grid/consoleにアクセスしてください。Selenium Gridのコンソールが表示され、ノードが2つ存在していれば設定に問題ありません。

問題なさそうであればインスタンスを停止し、スナップショットを作成します。完了したら、インスタンスは削除しても大丈夫です。

Selenium Grid用インスタンス構築をスクリプト化する

ここまでの操作はコンソールからで問題なかったのですが、CIからGCEを操作するとなるとそういうわけにはいきません。

CIからGCEを利用するために、サービスアカウントを使っています。これは、ユーザーに紐付かない、アプリケーションから利用するためのアカウントです。

サービスアカウントはコンソールから作成でき、Google APIクライアントライブラリから利用するためのjsonファイルをダウンロードできます。コマンドラインツールのgcloudからは、次のように使って認証を有効にすることができます。

$ gcloud auth activate-service-account --key-file service-account.json

コマンドラインだけでなく、pythonのクライアントライブラリでもサービスアカウントを利用できました。他の言語のライブラリでは確認していませんが、おそらく利用できるものと思われます。

認証ができれば、あとはスナップショットからインスタンスを作成するだけです。gcloud computeを使った例を書いておきます。

# スナップショットからディスク作成
$ gcloud compute --project [PROJECT NAME] disks create [DISK NAME] --size "10" --zone "asia-east1-b" --source-snapshot [SNAPSHOT NAME]
# インスタンス作成
$ gcloud compute --project [PROJECT NAME] instances create [INSTANCE NAME] --zone "asia-east1-b" --machine-type [MACHINE TYPE] --metadata-from-file "startup-script=[STARTUP SCRIPT]" --scopes "https://www.googleapis.com/auth/devstorage.read_only","https://www.googleapis.com/auth/logging.write" --disk "name=[DISK NAME]","mode=rw","boot=yes","auto-delete=yes"

上記の[STARTUP SCRIPT]には、インスタンス起動時に実行されるスクリプトファイルを指定します。Selenium Gridを起動する場合、スクリプトの中身は下記のような感じになります。

#!/bin/bash

# 念のためにコンテナをすべて消しておく
docker rm $(docker ps -aq)

# docker-compose.ymlのあるディレクトリへ移動
cd /path/to/directory

docker-compose up -d
docker-compose scale node=[必要なノード数]

これで、インスタンスが生成されます。インスタンスの生成からSelenium Gridの起動までには、だいたい1分前後です。

そして、Seleniumテストで使用するためにSelenium GridのhubのIPを取得します。以下はgcloudとjqコマンドを使った例です。

$ gcloud compute --project [PROJECT NAME] instances list [INSTANCE NAME] --zone "asia-east1-b" --format=json | jq -r '.[].networkInterfaces[].accessConfigs[].natIP'

Seleniumテストが終わったら、インスタンスの削除を忘れずに行いましょう。

$ yes | gcloud compute --project [PROJECT NAME] instances delete [INSTANCE NAME] --zone "asia-east1-b"

このときに注意が必要なのは、削除が実行されないとインスタンスが起動し続け、余計な料金がかかってしまうということです。途中でジョブが失敗したときなどにも必ず削除が実行されるように設定しましょう。

コスト

費用

参考になるか分かりませんが、11月に実行したSeleniumテストケースの数と、実際の請求額について書いてみます。

現状、社内でGCE上のSelenium Gridを使っているのは1チームのみです。そのチームでSeleniumテストを実行するジョブは、11月は約300回実行されました。1営業日平均15回ですね。

そして、ジョブ1回ごとに実行されるSeleniumテストの数はおよそ1,000テストケースです。なので、11月に実行されたSeleniumテストケースの合計は、300×1,000＝300,000なので、30万テストケースになります。

これに対して、11月のGCEの請求額は$200ほどでした。ざっくり計算すると、200÷300,000≒0.00067なので、1テストケースにつき$0.00067、日本円にして約0.083円となります。現状、インスタンスのリソースをかなり余らせているので、まだ費用削減できる余地はあります。

費用の構成要素は、次のような感じです。

インスタンス
- CPUとメモリ数、起動時間で決まります
- 費用の9割以上を占めます
ネットワーク
- インターネット→GCE方向には課金されず、GCE→インターネット方向のみ課金なので、Seleniumテストに使う分には大きな金額を課金されることはありません
- vncでつないで録画とかしてると転送量が大きくなる可能性があるので注意が必要です
ディスク
- Selenium Gridの用途だとほぼ課金されません
- SSDも選択できますが、Seleniumテストの実行時間には影響を与えないので通常のディスクで十分です

予算管理

GCE最大の残念な点として、予算の上限が設定できないことが挙げられます。

BigQueryのように気づいたら150万円溶かしていたということはないですが、間違えてインスタンスを起動しっぱなしにしてしまうと数万円くらいはかかってしまうので（体験済み）、なにかしら対策をしておくのがいいでしょう。

まず第一に考えられるのが、アラートを設定することです。これは、料金の見積もりが設定した閾値の50%、90%、100%を超えた時点で管理者にメール通知を送ります。

しかし、この料金は厳密ではなく推定に基づいているため、いまいち信憑性がありません。また、アラートが飛んできたときにはもう手遅れという心配もあります。

なので、一定時間以上起動しているインスタンスを削除するスクリプトを定期的に実行しています。これなら、消し忘れで余計な費用がかかる問題を早い段階で防げます。

とはいえ、金額の上限設定は安全のためにほしいので、もしGCE関係者がこの記事を見ることがあったら、なにとぞご検討をお願いします。

その他の知見

なぜAWSを使わないのか

EC2も検討しましたが、今回の用途だとEC2インスタンスの最小課金時間が1時間なのがネックになります。自分たちの場合、常にインスタンスが起動しているわけではなく、1回ごとのインスタンスの起動時間は20分くらいなので、かなりの時間が無駄になります。

一方で、GCEの最小課金時間は10分で、それ以降は1分単位の課金になります。これなら無駄になることはほぼありません。

さらに、最近GCEのマシンタイプにカスタムタイプが追加されました。まだベータの機能ですが、インスタンスのCPUのコア数やメモリの量をある程度自由に設定できます。

これまでの定型のマシンタイプだとリソースを余らせ気味でしたが、カスタムタイプだと必要なリソースのみ割り当てることによってコストを下げることができます。長時間使用による割引も細かく計算しているようで、定型のマシンタイプと完全に同じ構成とかにしない限りはお得になります。

このように、現状ではコスト面のメリットが大きいので、GCEを選択しています。

ネットワーク

当たり前ですが、テスト対象のサーバーが社外からアクセスできないネットワークに存在する場合、Google Compute Engine上のインスタンスからはそのままではアクセスできません。インスタンスからアクセスできるようにサーバーのIP制限を変更する、VPNを構築するといった対策が必要になります。

他にも、Seleniumテスト内でブラウザから社内ネットワークなどにアクセスするところがあると同じ問題が発生します。自分たちの場合、社内のVCS上のファイルのURLを参照していたので、修正が必要でした。

権限管理

Google Cloud Platformの残念な点として、権限管理の設定が非常に大雑把です。

まず、アカウントの権限が「オーナー」「編集可能」「閲覧可能」の3つしか選べません。実際に運用してみると、もっと細かい粒度での権限設定がほしくなります。

リスクを減らすためには、「オーナー」「編集可能」権限を持ったアカウントの数を極力少なくするしかないでしょう。

今回のようにCIなどで活用するためには、前述したようにサービスアカウントなどを活用するのがいいでしょう。このとき、API Managerで可能な限りAPIを無効にしておいたほうが無難です。

Google Cloud Platformの変化が激しい

ここ最近、Google Cloud Platformは大きく変化しています。今回この記事を書くときも、UIやリソース割り当てなど大きく変わっていて驚きました。機能が増えていくのは素晴らしいことなのですが、少し前に書かれたベストプラクティスでも現在では最適でない可能性があるということは意識しておく必要があります。

なので、可能な限り、公式のドキュメントを読んで情報を仕入れてから作業しましょう。たまにドキュメントが古くなったままのこともありますが。。

IE

現状、IEではSeleniumテストを実行していません。Windowsはコンテナが利用できないので環境のメンテが大変ですし、Seleniumの挙動も微妙に異なっていてテストコードの修正コストもかかるという問題もあります。IEのみの大きな不具合は発生しているのか、手動テストではカバーしきれないのかなど、チームにおけるIEの自動テストの重要度と照らし合わせて運用するかどうかを決めましょう。どうしても必要となった場合でも、テストケースの数をできる限り絞ることを検討しましょう。

最新のWindows ServerはDocker対応しているという話ですし、Microsoft Edgeもいろいろモダン化されているので、将来的にはIEも手軽に自動テストできる未来が待っているのではないかと思います。Microsoft様どうかよろしくお願いします。

おわりに

Selenium記事でありながら、実体はほとんどGoogle Cloud Platformのノウハウになってしまいました。しかしながら、Seleniumテストを運用するためにはブラウザ環境のインフラ構築が重要なので、IaaS関連の情報を把握しておくことも役に立つことがあると思います。

実際、これまではブラウザ環境のメンテナンスにかなりの労力を費やしていたのですが、GCE移行後はほとんど工数をかけた記憶がありません。Selenium Gridに限らず、社外に出せるものはどんどんクラウドに持っていきたいと考えています。

クラウドをうまく利用して、皆さまもぜひ幸せなSeleniumライフを送りましょう！

↧

kintone開発者のこだわりとは？ kintone devCamp 2015でkintone開発の裏側を紹介しました

December 8, 2015, 5:06 pm

≫ Next: たのしい社内ハッカソン

≪ Previous: Selenium GridをGoogle Cloud Platform上で運用した知見をまとめてみた

こんにちは。kintone開発チームの天野(@ama_ch)です。

12月4日(金) サイボウズ東京オフィスで開催されたイベントkintone devCamp 2015で、「こだわりのkintone -kintone開発の裏側-」というタイトルでkintone開発について発表させていただきました。

資料を公開しましたので、内容を補足しながらご紹介します。

kintone devCampとは

kintone devCampは、サイボウズが主催するdeveloper向けの勉強会です。kintoneカスタマイズ初心者～上級者の方を対象に、ハンズオン形式でkintoneのカスタマイズ方法を学びます。

今年から開始した勉強会ですが、すでに7回開催されており、年末スペシャル版としてコンテンツを拡大したのがkintone devCamp 2015です。

こだわりのkintone -kintone開発の裏側-

kintone devCamp 2015では開発チームで1セッションを担当して、kintone開発の裏側について紹介させていただきました。

90分のセッションでプログラマ、品質保証エンジニア、プロダクトマネージャーが計6人登壇し、それぞれの立場からkintoneのこだわりを語りました。

以下に埋め込まれた資料はすべて同じものですが、発表者ごとにページ番号を変えて表示しています。