ビットカウントアルゴリズムの時間を計測してみた

32ビットの2進数の中に存在する1の数をいかにして数えるか。というビットカウントの問題が「ビューティフルコード (THEORY/IN/PRACTICE)」に載っています。あきらかに分割統治法が速いというのは予測がつくのですが(O(log n)だから)、実際に速度を計測してみました。

int main(void) {  
    unsigned int base = 0;  
    for (base = 0; base < 33554432; base++) {  
        count(base);  
    }  
    return 0;  
}  

このcount関数をそれぞれのパターンで変えて計測します。

1.愚直にフルループ
まっさきに思いつく素直な方法。当然、遅いです。

unsigned int count(unsigned int x) {  
    int i;  
    int pop = 0;  
    for (i = 0; i < 32; i++) {  
        if (x & 1) pop = pop + 1;  
        x = x >> 1;  
    }  
    return pop;  
}  

計測結果

/a.out  5.10s user 0.01s system 100% cpu 5.110 total

2.ループカウントをやめる
ループカウントという無駄な処理をやめて、さらに上位の0ビット分はループしません。

unsigned int count(unsigned int x) {  
    int pop = 0;  
    while(x) {  
        pop = pop + (x & 1);  
        x = x >> 1;  
    }  
    return pop;  
}  

計測結果

./a.out  2.69s user 0.00s system 99% cpu 2.700 total  

3.ビットが立っている数だけループする
x & (x-1)が、xの最下位の1ビットを0にした数になることを利用します。

unsigned int count(unsigned int x) {  
    int pop = 0;  
    while(x) {  
        pop = pop + 1;  
        x = x & (x - 1);  
    }  
    return pop;  
}  

計測結果

./a.out  1.73s user 0.01s system 99% cpu 1.740 total  

4.分割統治法を使う
シンプルに2ビットずつ16の部分に分割して並列処理的にカウントする。

unsigned int count(unsigned int x) {  
    x = x - ((x >> 1) & 0x55555555);  
    x = (x & 0x33333333) + ((x >> 2) & 0x33333333);  
    x = (x + (x >> 4)) & 0x0f0f0f0f;  
    x = x + (x >> 8);  
    x = x + (x >> 16);  
    return x & 0x0000003F;  
}  

計測結果

./a.out  0.48s user 0.00s system 100% cpu 0.480 total  

分割統治法の圧勝ですね。ビューティフルコードにはもうひとつ、HAKMEMメモ第169項のアルゴリズムが載っていたのだけど、これがいまひとつまだ理解できていません。頭が悪くなってきていることを実感する今日この頃です。

unsigned int count(unsigned int x) {  
    unsigned int n;  
    n = (x >> 1) & 033333333333;  
    x = x - n;  
    n = (n >> 1) & 033333333333;  
    x = x - n;  
    x = (x + (x >> 3)) & 030707070707;  
    return x % 63;  
}  

計測結果

./a.out  0.49s user 0.01s system 99% cpu 0.500 total  

うーむ。

大石 司

ビットカウントアルゴリズムの時間を計測してみた

大石司