マジセミドライブ

ウェビナー関連のニュースやITサービス&ツールの最新情報を随時配信します。

OSS情報

2020.01.01

【OSS情報アーカイブ】Apache Flink

【OSS情報アーカイブ】Apache Flink

※当記事に記載されている情報は、古くなっている場合があります。オフィシャルサイトで最新情報をご確認ください。

「Apache Flink」とは

基本情報

概要

Apache Flink(アパッチフリンク)とは、分散ストリーム処理プラットフォームです。バッチ処理にも対応し、耐障害性/拡張性を備えたストリーム処理基盤です。

基本説明

Apache Flinkは、ストリーム基盤として「データディストリビューション機能」「通信機能」「データストリームフォールトトレランス機能」「柔軟なAPI連携機能」などを備えています。本体はScalaで実装されています。

「ユーザコードによるメモリ枯渇が発生しない」「ガーベージコレクション削減」「効率的ディスクI/O」「ランタイムチューニング不要」「堅牢」「安定パフォーマンス」「機械学習/グラフ処理ライブラリ」などの特徴があります。

「Apache Spark」との相違点

同様な製品として「Apache Spark」があります。

「Spark」はバッチ処理からストリーム処理に派生したイメージです。それに対して「Flink」はストリーム処理からバッチ処理に派生しています。「Flink」は、耐障害性/ストリーミングを最優先しています。

主な特徴

All-in-One構成

Flinkでは同一のランタイムで「ストリーム処理」と「バッチ処理」を実行可能です。「複合イベント処理」「機械学習」「SQLライクAPI」も提供しています。

優れた耐障害性

Flinkは、耐障害性に優れているのが大きな特徴です。各処理をステートフルで扱っており、障害が発生した際には、処理を自動で復旧させる機能を有しています。

Flinkで処理されるイベントは、正確に1回だけ実行する「Exactly-once」ポリシーに基づいて処理されます。

「Chandy-Lamportアルゴリズム」を利用した分散スナップショットにより、高スループットを維持しつつ、耐障害性を実現しています。

高過負荷状態の場合には、イベント処理を中断し、全体がハングアップしないようにするフロー制御機能を有しています。

高パフォーマンス

Yahooが発表したベンチマークによると「Apache Storm」と同等以上の性能を示しています。

イベントタイムサポート

Flinkでは、受信したイベントに対する時間について、「Processing Time(システム時間)」「Event Time(イベントの発生元時間)」「Ingestion Time(イベント取得時間)」の3つの概念で扱えます。

柔軟なAPI

コアAPIとして、ストリーム用「DataStream API」、静的データ用「DataSet API」、SQL発行用「Table API」が用意されています。

オプション(ライブラリ/API)として、複雑なイベント処理用「CEP」、機械学習用「FlinkML」、グラフ操作用「Gelly」も用意されています。

独自のメモリ管理機構

アプリケーションがスケールしても、ガーベージコレクションの影響を回避できるようになっています。

イテレーション機構

機械学習/グラフ処理用に、高速に繰返し計算ができる「イテレーション機構」をサポートしています。

プログラム最適化(バッチ処理)

バッチ処理では、自動で最適化された実行計画を選択します。

他製品との連携

Flinkは、YARN上で動作し、HDFS/Kafka/Hadoop関連のプロダクトと連携できます。

同様製品

同様な機能を提供する製品として、次のようなものがあります。

オープンソース製品:「Apache Spark」「Apache Storm」など。

ライセンス情報

Apache Flinkのライセンスは「Apache License Version 2」です。このライセンスに従うことを条件として、ソースコードの改変と公開が許可されています。

ダウンロード

ダウンロードページ

※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。

この記事のタグ一覧

おすすめの記事

【デジタル寺田の3分用語解説】「 VMWare 問題 」とは?🖥️

デジタル寺田の3分用語解説

2024.11.18

【デジタル寺田の3分用語解説】「 VMWare 問題 」とは?🖥️

「 VMWare 」の仮想化技術は、「ITインフラの効率化」に大きく貢献する技術ですが、Broadcomによる買収後のライセンス変更が大きな問題として注目されています。柔軟で慎重な契約見直しが今後の鍵となります。

【デジタル寺田の3分用語解説】「 経済産業省:コンテンツ制作のための 生成AI 利活用ガイドブック 」とは?📘

デジタル寺田の3分用語解説

2024.11.18

【デジタル寺田の3分用語解説】「 経済産業省:コンテンツ制作のための 生成AI 利活用ガイドブック 」とは?📘

経済産業省による「 生成AI 利活用ガイドブック 」は、企業やクリエイター向けに、安心して「生成AI」を利用するための、「指針」「実例」「注意点」を明示しています。「業務効率化」や「新しいアイデア創出」の支援を目的としています。

【デジタル寺田の3分用語解説】「 2029年問題 」とは?📅

デジタル寺田の3分用語解説

2024.11.18

【デジタル寺田の3分用語解説】「 2029年問題 」とは?📅

「 2029年問題 」とは、高校でのデジタル教育改革により、新入社員と既存社員間でデジタルスキル格差が拡大する懸念を指します。企業は早急に対応が求められています。この格差は、企業競争力や業務効率にも、影響を及ぼす可能性があります。