{データ処理}{データ}{データフレーム}{パース不要}{Apache}(5)

{Apache Arrow K#804C/C264}

Apache Arrow | Apache Arrow

参考ページ

「Apache Arrow 3.0.0」リリース、高性能アプリケーション開発プラットフォームの最新版:CodeZine(コードジン)
Apache Arrow - データ処理ツールの次世代プラットフォーム

  1. Apache Arrow - データ処理ツールの次世代プラットフォーム Powered by Rabbit 2.2.2 Apache Arrowフォーマットの特徴 メモリー上でのフォーマットを変換しない JSONは「数値」を「数字」に変換✓ 例:29(1バイト整数)→"29"(2バイト文字列)✓ ✓ シリアライズ時:変換不要✓ デシリアライズ時:パース不要✓
  2. Apache Arrow - データ処理ツールの次世代プラットフォーム Powered by Rabbit 2.2.2 メモリーマップの活用 メモリーマップ機能 ファイルの内容をメモリー上のデータのように アクセスできる機能 ✓ readせずにデータを使える(データコピー不要)✓ ✓ パース不要+メモリーマップ デシリアライズ時にメモリー確保不要✓ 「転送」コスト削減✓ ✓
  3. Apache Arrow - データ処理ツールの次世代プラットフォーム Powered by Rabbit 2.2.2 高速化のまとめ 速度 遅い処理(データ交換処理)を高速化✓ 速くできる処理(大量データの計算)を最適化✓ ✓ 実装コスト 低いほど効率的✓ ✓
  4. Apache Arrow - データ処理ツールの次世代プラットフォーム Powered by Rabbit 2.2.2 Apache Arrowの向き不向き 向き 大量データの交換✓ メモリー上での大量データの分析処理✓ ✓ 不向き データの永続化 処理結果の一時的なキャッシュならアリなケースもある ✓ OLAPシステムのバックエンド✓ ✓
  5. Apache Arrow - データ処理ツールの次世代プラットフォーム Powered by Rabbit 2.2.2 Apache Arrowが扱えるデータ データフレーム✓ 多次元配列✓
{パース不要}

{}