スケジュールナースのブログ: CuPDLPの高速化は難しい

2025年3月8日土曜日

CuPDLPの高速化は難しい

ソースを詳しく検証してみました。

GitHub - COPT-Public/cuPDLP-C: Code for solving LP on GPU using first-order methods

PDLPは、メジャーループとマイナーループをもっています。

マイナーループでは、下で示したブロックが時間を食います。

＜時間計測する場合は、DeviceSynchronoize（）で挟む＞

最初に嵌ったのは、ボトルネック部を見極めるための時間計測の誤りでした。

各ブロック間に、DeviceSynchronoizeを入れないと、時間計測が正しくありません。上図は、DeviceSynchronoizeを各ブロックにいれたものですが、トータルの時間が大きくなってしまいます。 cudaSetDeviceFlags(cudaDeviceScheduleSpin);は、行ってもこれは効いていないようで、終了を待たずに次のブロック処理に入るためのようです。

で、各ブロックを自分なりに手を入れてみたものの、速くなるどころか、オリジナル（COPT)の数分の１の速度にしか出ず、既に最適化したソースになっている、ということが分かりました。

＜double /singleは、２倍程度以下＞

次に行ったのは、double ⇒single float にすることでした。これによる効果は２倍以下でした。

<ボトルネックは、DOTとSPMV>

DOT処理部は、別に検討することにして、メジャーループ・マイナーループ共に必要なのは、SPMVです。余談ですが、PDLPの前身は、PDHGです。

Primal-Dual Hybrid Gradient Algorithm (PDHG) — odl 0.8.1 documentation

PDHGにAdptiveStepSize等を加えたのが、PDLPになります。

2501.07018

＜SPMV時間の検討＞

SPMV処理に関わる転送時間を計算してみます。

　(ＮＮＺ数ｘ３＋ＸＣｏｌｓ数x2 +YRows数x2)*sizeof(cupd_float)

これにＶＲＡＭ帯域