RubyでのCSV処理はApache Arrowが速い

2019-12-21

昨日RubyでのApache Arrowの使い方（Parquetもあるよ）という記事を書いて、Rubyでデータを扱う時に

FastestCSV > Arrow > Parquet > CSV

の順で速くなる、ということを書いた。これにArrowやRubyのCSVの開発者・メンテナーである@kouさんからこんな指摘を貰った。

こっちの方が速いと思います。
amount = 0
Arrow::Table.load(CSVFILE)[4].data.each_chunk do |array|
amount += array.cast(Arrow::https://t.co/S4wh45VLa1).sum
end
puts amount
が、冗長なのでArrow::Table.load(CSVFILE)[4].cast(:int64).sumくらいで書けるようにしておきます。
— す (@ktou) December 21, 2019

each_chunk なんてAPIがあったんだ……！やってみました。

                                        user     system      total        real
CSV（Ruby 標準添付CSVライブラリー）           850541456
 22.359375   0.390625  22.750000 ( 22.763864)
CSV（FastestCSV RubyGem）           850541456
  1.531250   0.140625   1.671875 (  1.718251)
CSV（Red Arrow each_record_batch）  850541456
 10.875000   1.812500  12.687500 ( 10.767980)
CSV（Red Arrow each_record）        850541456
 71.437500   1.171875  72.609375 ( 72.159371)
CSV（Red Arrow 対象カラムだけ each）       850541456
  3.734375   1.843750   5.578125 (  3.226278)
CSV（Red Arrow 対象カラムだけ each_chunk） 850541456
  0.859375   1.437500   2.296875 (  0.478962)
Arrow（each_record_batch）          850541456
  9.859375   0.078125   9.937500 (  9.992725)
Arrow（each_record）                850541456
 72.781250   0.171875  72.953125 ( 73.775244)
Arrow（対象カラムだけ each）               850541456
  2.125000   0.015625   2.140625 (  2.133398)
Arrow（対象カラムだけ each_chunk）         850541456
  0.015625   0.000000   0.015625 (  0.024413)
Parquet（each_record_batch）        850541456
 11.062500   2.078125  13.140625 ( 10.599412)
Parquet（each_record）              850541456
 13.343750   0.906250  14.250000 ( 12.923848)
Parquet（対象カラムだけ each）             850541456
  3.703125   0.718750   4.421875 (  3.152494)
Parquet（対象カラムだけ each_chunk）       850541456
  0.656250   0.468750   1.125000 (  0.243396)

見ての通りArrowが圧倒的に速い。

Arrow > Parquet > FastestCSV > CSV

となってますな。

CSVフォーマットを扱うのでも、FastestCSVよりArrowで each_chunk メソッドを使う方が速い。素晴らしい。

参考リンク

Apache Arrow公式サイト
Red Arrow（ArrowのRubyバインディング）
Red Parquet（Apache ParquetのRubyバインディング）
CSV
FastestCSV

ベンチマークスクリプト

require "benchmark"
require "csv"
require "fastest-csv"
require "arrow"
require "parquet"

CSVFILE = "sample-data.csv"
ARROWFILE = "sample-data.arrow"
PARQUETFILE = "sample-data.parquet"

Benchmark.bmbm do |x|
  x.report "CSV（Ruby 標準添付CSVライブラリー）" do
    amount = 0
    CSV.foreach CSVFILE, headers: true do |row|
      amount += row[4].to_i
    end
    puts amount
  end

  x.report "CSV（FastestCSV RubyGem）" do
    amount = 0
    headers = true
    FastestCSV.foreach CSVFILE do |row|
      if headers
        headers = false
        next
      end
      amount += row[4].to_i
    end
    puts amount
  end

  x.report "CSV（Red Arrow each_record_batch）" do
    amount = 0
    Arrow::Table.load(CSVFILE).each_record_batch do |records|
      records.each do |record|
        amount += record[4].to_i
      end
    end
    puts amount
  end

  x.report "CSV（Red Arrow each_record）" do
    amount = 0
    Arrow::Table.load(CSVFILE).each_record do |record|
      amount += record[4].to_i
    end
    puts amount
  end

  x.report "CSV（Red Arrow 対象カラムだけ each）" do
    amount = 0
    Arrow::Table.load(CSVFILE).find_column(4).each do |record|
      amount += record.to_i
    end
    puts amount
  end

  x.report "CSV（Red Arrow 対象カラムだけ each_chunk）" do
    amount = 0
    Arrow::Table.load(CSVFILE)[4].data.each_chunk do |array|
      amount += array.cast(Arrow::Int64DataType.new).sum
    end
    puts amount
  end

  x.report "Arrow（each_record_batch）" do
    amount = 0
    Arrow::Table.load(ARROWFILE).each_record_batch do |records|
      records.each do |record|

        amount += record[4].to_i
      end
    end
    puts amount
  end

  x.report "Arrow（each_record）" do
    amount = 0
    Arrow::Table.load(ARROWFILE).each_record do |record|
      amount += record[4].to_i
    end
    puts amount
  end

  x.report "Arrow（対象カラムだけ each）" do
    amount = 0
    Arrow::Table.load(ARROWFILE).find_column(4).each do |record|
      amount += record.to_i
    end
    puts amount
  end

  x.report "Arrow（対象カラムだけ each_chunk）" do
    amount = 0
    Arrow::Table.load(ARROWFILE)[4].data.each_chunk do |array|
      amount += array.cast(Arrow::Int64DataType.new).sum
    end
    puts amount
  end

  x.report "Parquet（each_record_batch）" do
    amount = 0
    Arrow::Table.load(PARQUETFILE).each_record_batch do |records|
      records.each do |record|
        amount += record[4].to_i
      end
    end
    puts amount
  end

  x.report "Parquet（each_record）" do
    amount = 0
    Arrow::Table.load(PARQUETFILE).each_record do |record|
      amount += record[4].to_i
    end
    puts amount
  end

  x.report "Parquet（対象カラムだけ each）" do
    amount = 0
    Arrow::Table.load(PARQUETFILE).find_column(4).each do |record|
      amount += record.to_i
    end
    puts amount
  end

  x.report "Parquet（対象カラムだけ each_chunk）" do
    amount = 0
    Arrow::Table.load(PARQUETFILE)[4].data.each_chunk do |array|
      amount += array.cast(Arrow::Int64DataType.new).sum
    end
    puts amount
  end
end

RubyでのApache Arrowの使い方（Parquetもあるよ）

2019-12-20

Apache Arrow、名前は知ってたけど縁遠いなあと思っていた。最近CSV処理するスクリプト書いてて、そういやデータフォーマットでArrowってあったなっと思って、ちょっと触ってみたのでした。

結論、「正しく使えば」、速くなる。

Apache Arrow

まだよく分かってないんだけど、Apache Arrowは新しいデータフォーマット。

インメモリーでデータを扱う時に最適化されたフォーマット
言語やプロセス間でのデータ交換を高速にするのを目標としている
列指向のフォーマット

という特徴を持っているらしい。PythonのPandasの開発者も開発の中心的人物みたい。詳しくは公式サイトで： https://arrow.apache.org/

Arrowでのファイル読み込み

RubyでArrow形式のデータを扱うにはRed Arrowを使う。これはArrow形式のファイル^[1]の他、CSVやParquet形式のファイルも読み込めます。

require "arrow"

table = Arrow::Table.load("sample-data.csv")

という感じ。

CSV、Arrow、Parquetのベンチマーク

「列指向」ってことだから（CSVは反対に行指向フォーマット）、一行一行を舐めるような操作は遅いのかな、とか思ったりしつつも、ほんとのところどうなんだろうとベンチマークを取ってみました。

環境

Ubuntu 18.04 on WSL
Ruby 2.6.5
CSV 3.1.2
Red Arrow 0.15.1
CPUコア 8個

WSLはIOが遅いことで有名なのでその辺は差し引いてください。

対象ファイル

% xsv count sample-data.csv
82141
% ruby -rarrow -rparquet -e 't = Arrow::Table.load("sample-data.csv"); t.save("sample-data.arrow"); t.save("sample-data.parquet")'
% ls -lh sample-data.*
Permissions Size User          Date Modified Name
.rw-r--r--   95M kitaitimakoto 20 Dec 18:28  sample-data.arrow
.rw-rw-rw-   61M kitaitimakoto 20 Dec 18:27  sample-data.csv
.rw-r--r--   33M kitaitimakoto 20 Dec 18:28  sample-data.parquet

というわけで、

CSV 61MiB、Arrow 85MiB、Parquet 33MiBのファイルサイズ
8万行ちょっとのデータ量

のファイルを元にベンチマークを取ってみました。

余談だけど、CSVファイルを調べるならxsvはすごく便利なコマンドなので是非入れよう。

ベンチマーク

後でスクリプトも置くけど、「ある列（数値）の合計値を計算する」という処理を行っています。

最初がRuby標準添付のCSVライブラリーで処理を行った結果、
次がFastestCSVっていうCで実装したgemでの結果、
三番目がRed ArrowのCSV読み込み機能でCSVファイルを読み込んだ時の結果、
以降三つがRed Arrowでの各メソッドでの処理結果、
以降三つがRed Parquestでの同様の結果、

となっている。

% ruby ./arrowbenchmark.rb
(snip)
user     system      total        real
CSV（Ruby 標準添付CSVライブラリー）            850541456
24.625000   0.625000  25.250000 ( 24.844013)
CSV（FastestCSV RubyGem）            850541456
1.343750   0.171875   1.515625 (  1.507318)
CSV（Red Arrow each_record_batch）   850541456
11.609375   4.328125  15.937500 ( 10.657816)
CSV（Red Arrow each_record）         850541456
68.671875   3.078125  71.750000 ( 67.946809)
CSV（Red Arrow 対象カラムだけ each） 850541456
4.281250   2.781250   7.062500 (  2.939687)
Arrow（each_record_batch）           850541456
10.390625   0.125000  10.515625 ( 10.410525)
Arrow（each_record）                 850541456
68.359375   0.078125  68.437500 ( 68.751072)
Arrow（対象カラムだけ each）         850541456
2.203125   0.000000   2.203125 (  2.236634)
Parquet（each_record_batch）         850541456
11.125000   1.968750  13.093750 ( 10.353967)
Parquet（each_record）               850541456
12.828125   1.093750  13.921875 ( 12.133342)
Parquet（対象カラムだけ each）       850541456
4.031250   0.781250   4.812500 (  2.798203)

これ見て分かるのは、

「正しく使えば」 FastestCSV > Arrow > Parquet > CSV の順で速い
Arrowで行操作すると遅い
特に each_record はピュアRubyのCSVより遅いぐらいなので必ず each_record_batch 使うこと
可能なら対象カラムだけ取り出して（ find_column ）操作するべし

ということかな。

追記。「更に正しく使えば」Arrowが圧倒的に速かった。こちらの記事参照：RubyでのCSV処理はApache Arrowが速い

後掲のスクリプト見ると分かるように、取り出したデータに対して to_i を読んでいる。CSVを読み込んで何もせずArrowやParquet形式で保存しているので、対象カラムが文字列のままだからだ。

本当は、ここをuint32とかuint64とかにして保存してやるとさらに高速化できるんだろうなと思いつつ、Arrowのテーブルからそういう別のテーブルを作る方法がいまいち分からないというか、気軽にベンチマークとる上ではめんどそうなので今日はやめました。仕事で使っててどうにもパフォーマンスが欲しいとなったら挑戦するかも。あと何となく時間できた時とか。

ベンチマークスクリプトはこちら：

require "benchmark"
require "csv"
require "fastest-csv"
require "arrow"
require "parquet"

CSVFILE = "sample-data.csv"
ARROWFILE = "sample-data.arrow"
PARQUETFILE = "sample-data.parquet"

Benchmark.bmbm do |x|
  x.report "CSV（Ruby 標準添付CSVライブラリー）" do
    amount = 0
    CSV.foreach CSVFILE, headers: true do |row|
      amount += row[4].to_i
    end
    puts amount
  end

  x.report "CSV（FastestCSV RubyGem）" do
    amount = 0
    headers = true
    FastestCSV.foreach CSVFILE do |row|
      if headers
        headers = false
        next
      end
      amount += row[4].to_i
    end
    puts amount
  end

  x.report "CSV（Red Arrow each_record_batch）" do
    amount = 0
    Arrow::Table.load(CSVFILE).each_record_batch do |records|
      records.each do |record|
        amount += record[4].to_i
      end
    end
    puts amount
  end

  x.report "CSV（Red Arrow each_record）" do
    amount = 0
    Arrow::Table.load(CSVFILE).each_record do |record|
      amount += record[4].to_i
    end
    puts amount
  end

  x.report "CSV（Red Arrow 対象カラムだけ each）" do
    amount = 0
    Arrow::Table.load(CSVFILE).find_column(4).each do |record|
      amount += record.to_i
    end
    puts amount
  end

  x.report "Arrow（each_record_batch）" do
    amount = 0
    Arrow::Table.load(ARROWFILE).each_record_batch do |records|
      records.each do |record|

        amount += record[4].to_i
      end
    end
    puts amount
  end

  x.report "Arrow（each_record）" do
    amount = 0
    Arrow::Table.load(ARROWFILE).each_record do |record|
      amount += record[4].to_i
    end
    puts amount
  end

  x.report "Arrow（対象カラムだけ each）" do
    amount = 0
    Arrow::Table.load(ARROWFILE).find_column(4).each do |record|
      amount += record.to_i
    end
    puts amount
  end

  x.report "Parquet（each_record_batch）" do
    amount = 0
    Arrow::Table.load(PARQUETFILE).each_record_batch do |records|
      records.each do |record|
        amount += record[4].to_i
      end
    end
    puts amount
  end

  x.report "Parquet（each_record）" do
    amount = 0
    Arrow::Table.load(PARQUETFILE).each_record do |record|
      amount += record[4].to_i
    end
    puts amount
  end

  x.report "Parquet（対象カラムだけ each）" do
    amount = 0
    Arrow::Table.load(PARQUETFILE).find_column(4).each do |record|
      amount += record.to_i
    end
    puts amount
  end
end

1. Arrowはそのままの形式で（？）ファイルにも保存できるみたい

Rustのライフタイムが（やっぱり）分からない

2019-12-08

Rust

ずっと何もしてなかったのだけどなんかフラストレーション溜まってきたのでRustを何でもいいからやろうかあ！　って気分になって、ダイクストラ法を実装してみようかと思った。

取り合えず、Rust 2018のモジュールの仕組みを思い出しながら（Rustのモジュールの使い方 2018 Edition版 | κeenのHappy Hacκing Blog）モジュールとしてダイクストラ法をやる場所を作って、それから部品としてのグラフ、ノード、エッジを作ろうと思った。

のだけど、それがもううまくいかない。現行のソースコードは src/dijkstra.rs なんだけど、 cargo clippy で怒られてしまう。

struct Edge<'a> {
    dest: &'a Node<'a>,
    cost: usize,
}

struct Node<'a> {
    edges: Vec<&'a Edge<'a>>,
    solved: bool,
    label: &'a str,
}

impl Node<'_> {
    fn new<'a>(label: &'a str) -> Node<'a> {
        Node {
            edges: Vec::new(),
            solved: false,
            label,
        }
    }

    fn add_edge_to<'a>(&self, dest: &'a Node, cost: usize) {
        let edge = &Edge {dest, cost};
        self.edges.push(&edge);
    }
}

struct Graph<'a> {
    nodes: Vec<&'a Node<'a>>,
}

pub fn run() -> Result<(), ()> {
    Ok(())
}

% cargo clippy
    Checking rust-algorithm v0.1.0 (/home/kitaitimakoto/src/gitlab.com/KitaitiMakoto/rust-algorithm)
error[E0495]: cannot infer an appropriate lifetime for lifetime parameter `'a` due to conflicting requirements
  --> src/dijkstra.rs:22:21
   |
22 |         let edge = &Edge {dest, cost};
   |                     ^^^^
   |
note: first, the lifetime cannot outlive the lifetime 'a as defined on the method body at 21:20...
  --> src/dijkstra.rs:21:20
   |
21 |     fn add_edge_to<'a>(&self, dest: &'a Node, cost: usize) {
   |                    ^^
note: ...so that reference does not outlive borrowed content
  --> src/dijkstra.rs:22:27
   |
22 |         let edge = &Edge {dest, cost};
   |                           ^^^^
note: but, the lifetime must be valid for the lifetime '_ as defined on the impl at 12:11...
  --> src/dijkstra.rs:12:11
   |
12 | impl Node<'_> {
   |           ^^
note: ...so that reference does not outlive borrowed content
  --> src/dijkstra.rs:23:25
   |
23 |         self.edges.push(&edge);
   |                         ^^^^^

error: aborting due to previous error

error: could not compile `rust-algorithm`.

To learn more, run the command again with --verbose.

こういう所でハマるのは、まさにそのために勉強しているわけなので歓迎なんだけど、それにしても分からん。なんでなんだろう……。

何か教えてくださるという親切な方がいらしたらこちらまでお願いします…… https://gitlab.com/KitaitiMakoto/rust-algorithm/issues
あと、実はこっそりSlackのrust-jpチームにもいます。