ML周りの基本的な復習がある程度終わった&数年前からの技術的進歩をざっくりキャッチアップできたので、Kaggleで遊ぼうかなあ。
Kaggleは2018年にドハマリして廃人になりかけて生活に影響出るくらいの状態になってしまったので、敢えて封印していたのだが、久々にやりたい欲が出てきた。
ということで、昨今のKaggleのトレンドや開発環境諸々をここ最近は漁っていた。
簡単な開発環境の整備も同時に進めて、ある程度これが良さそうというのを把握。
しかし、Kaggle API(とPython CLIツール)の使い勝手が相変わらず...な感じで、結構ここでハマっていた。
大容量のデータを使うコンペ(画像系とか)のデータDLにおいて、デフォルトの一括DLでは途中で失敗してもう一度やり直しみたいな状況が発生しがちだったので、チャンクでDLできるようににWrapperを書いたりしていたのだが、APIのファイルリスト一覧取得時のpagenationで6000ファイルを超えるとAPIサーバ側?の制約でこれ以上取得できなくなってしまう状況にぶち当たった。数百GBくらい使う画像系コンペだとこのくらいのファイル数は余裕でオーバーするので、どうしたものかと。
他の方法ではZIPファイル一括DLをチャンク化するような方向性を検討したりなども試してはいるが... このあたり歴戦の猛者はどのようにして対応しているのかもう少し調べてみてもいいかもなあ