{開発者}{Apache Arrow}=}(2)

{紹介記事 K#9-804C/A-AB32}

Apache Arrow - データ処理ツールの次世代プラットフォーム

24. Apache Arrow - データ処理ツールの次世代プラットフォーム Powered by Rabbit 2.2.2 Apache Arrowフォーマットの特徴 メモリー上でのフォーマットを変換しない JSONは「数値」を「数字」に変換✓ 例:29(1バイト整数)→"29"(2バイト文字列)✓ ✓ シリアライズ時:変換不要✓ デシリアライズ時:パース不要✓
25. Apache Arrow - データ処理ツールの次世代プラットフォーム Powered by Rabbit 2.2.2 メモリーマップの活用 メモリーマップ機能 ファイルの内容をメモリー上のデータのように アクセスできる機能 ✓ readせずにデータを使える(データコピー不要)✓ ✓ パース不要+メモリーマップ デシリアライズ時にメモリー確保不要✓ 「転送」コスト削減✓ ✓
35. Apache Arrow - データ処理ツールの次世代プラットフォーム Powered by Rabbit 2.2.2 高速化のまとめ 速度 遅い処理(データ交換処理)を高速化✓ 速くできる処理(大量データの計算)を最適化✓ ✓ 実装コスト 低いほど効率的✓ ✓
38. Apache Arrow - データ処理ツールの次世代プラットフォーム Powered by Rabbit 2.2.2 Apache Arrowの向き不向き 向き 大量データの交換✓ メモリー上での大量データの分析処理✓ ✓ 不向き データの永続化 処理結果の一時的なキャッシュならアリなケースもある ✓ OLAPシステムのバックエンド✓ ✓
40. Apache Arrow - データ処理ツールの次世代プラットフォーム Powered by Rabbit 2.2.2 Apache Arrowが扱えるデータ データフレーム✓ 多次元配列✓

=}
{Apache Arrow}=}(1)
{Apache Arrow}
{}