Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク(株式会社NTTデータ 猿田 浩輔 土橋 昌 吉田 耕陽 佐々木 徹 都築 正宜 下垣 徹)|翔泳社の本
  1. ホーム >
  2. 書籍 >
  3. Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク

Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク







監修

形式:
書籍
発売日:
ISBN:
9784798142661
定価:
3,520(本体3,200円+税10%)
仕様:
B5変・320ページ
カテゴリ:
データベース
キーワード:
#データ・データベース,#ネットワーク・サーバ・セキュリティ,#システム運用,#開発環境
シリーズ:
NEXT ONE
紙の書籍

Apache Sparkは多数のコンピュータを並列で動かして高速処理を実現する技術です。大量データのバッチ処理や機械学習など、ビッグデータの分野での活用が期待されるOSS(Open Source Software)です。

Apache SparkはUCバークレイで提唱されたRDD(Resilient Distributed Dataset)というデータモデルを採用し、メモリを上手に活用した効率的な処理を実現します。これにより、並列分散処理において高いパフォーマンスが期待できます。また、分散処理フレームワークHadoopとの高い親和性を有しており、YARNやHDFSなどのHadoopシステムの枠組が利用できます。

本書はApache Sparkの概要からRDDによる処理の仕組み、導入やアプリケーション開発までを解説します。また、「SQLインターフェイス」「機械学習」「ストリーム処理」「グラフ」などApache Spark周辺のライブラリの活用についても説明します。

話題のApache Sparkの仕組みとその利用方法を理解することにより、データ処理の新しい潮流を知ることができます。

第1章:Apache Sparkとは
第2章:Sparkの処理モデル
第3章:Sparkの導入
第4章:Sparkアプリケーションの開発と実行
第5章:基本的なAPIを用いたプログラミング
第6章:構造化データセットを処理する - Spark SQL -
第7章:ストリームデータを処理する - Spark Streaming -
第8章:機械学習を行う - MLlib -
Appendix
A. GraphXによるグラフ処理
B. SparkRを使ってみる
C. 機械学習とストリーム処理の連携
D. Web UIの活用

付属データはこちら

お問い合わせ

内容についてのお問い合わせは、正誤表、追加情報をご確認後に、お送りいただくようお願いいたします。

正誤表、追加情報に掲載されていない書籍内容へのお問い合わせや
その他書籍に関するお問い合わせは、書籍のお問い合わせフォームからお送りください。

利用許諾に関するお問い合わせ

本書の書影(表紙画像)をご利用になりたい場合は書影許諾申請フォームから申請をお願いいたします。
書影(表紙画像)以外のご利用については、こちらからお問い合わせください。

追加情報はありません。
この商品の「よくある質問」はありません。
正誤表の登録はありません。

感想・レビュー

toiwata さん

2015-12-26

読み始めてからScalaの知識が要るのではと気がつく始末。非常に大きな生態系を形成しており、端のほうを少しばかりかじり取るわけにはいかないことを実感。Googleの論文で公表された実装に対し平気で別の実装を作って公開できる潤沢な資源に圧倒される。

ショウヤ さん

2016-12-11

Sparkを触る上での最初の1冊に良い感じ。Scalaの文法が前提知識として必要なので、あわせて他の書籍を読むとよい。