こんにちは。システムトレーダーの卵ことKenKenです。Kaggleの”Jane Street Market Prediction”に挑戦するということで、前回の記事はAPIからのデータ取得方法の確認とデータセットについて確認を行いました。Kaggleを触り始めて、ローカルのPCにデータを置いておく必要がないことを知ったので、備忘録がてら記事にしておきます。
(追記)メモリやCPU利用制限など制約があり、何も考えずにいるとメモリー不足エラーになること多々ありました。調べたら、dfの型を適切に設定することである程度メモリを節約できるみたいです。詳細は次の記事に掲載します。
手順
1. KaggleのNotebooksのページから[+ New Notebook]ボタンを押す。

2. Jupyter Notebookが立ち上がる。
3. 右側の[+Add data]を選択。

4. Kaggleのクラウド上で使用したいデータセットを選択。今回は、”Jane Street Market Prediction”を追加したいので、”Competition Data”を選ぶ。

5. 偶然にも一番上に”Jane Street Market Prediction”が見つかったので、その横にある[Add]を押す。

6. ここまでで、KaggleのJupyter Notebook上でデータセットを読み込みうことができるようになる。パスの確認方法は、Jupyter Notebookの1段目に書かれているコードをそのまま実行。

7.データセットの読み込みは、上記で表示されたファイルのパスをpandasでそのまま読み込めばOK。以下に例として、train.csvを読み込んだ例を載せておく。(容量が大きいので少し時間がかかった)

8. あとは好きなように分析するだけ
まとめ
Kaggle上だけで分析を済ませたいならこれだけで十分そうですね。今回のコンペのデータセットは2.63Gもあり、ローカルには置きたくないと思ってたので助かりました。ただ、ネットワークにつながっていることが必須になるので、良し悪しはありそう。Kaggle上では、GPUも使えるようなので、基本的にはKaggle上での開発をメインにしていこうと思います。
Kaggleに挑戦する準備は整った。あとは、取り組むだけ。。。
以上