{ "cells": [ { "cell_type": "code", "execution_count": 1, "id": "joint-electric", "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "from tqdm import tqdm" ] }, { "cell_type": "code", "execution_count": 2, "id": "quantitative-beverage", "metadata": {}, "outputs": [], "source": [ "train = pd.read_csv(\"train.csv\")\n", "test = pd.read_csv(\"test.csv\")" ] }, { "cell_type": "code", "execution_count": 3, "id": "twelve-insulin", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
| \n", " | ID_code | \n", "target | \n", "var_0 | \n", "var_1 | \n", "var_2 | \n", "var_3 | \n", "var_4 | \n", "var_5 | \n", "var_6 | \n", "var_7 | \n", "... | \n", "var_190 | \n", "var_191 | \n", "var_192 | \n", "var_193 | \n", "var_194 | \n", "var_195 | \n", "var_196 | \n", "var_197 | \n", "var_198 | \n", "var_199 | \n", "
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | \n", "train_0 | \n", "0 | \n", "8.9255 | \n", "-6.7863 | \n", "11.9081 | \n", "5.0930 | \n", "11.4607 | \n", "-9.2834 | \n", "5.1187 | \n", "18.6266 | \n", "... | \n", "4.4354 | \n", "3.9642 | \n", "3.1364 | \n", "1.6910 | \n", "18.5227 | \n", "-2.3978 | \n", "7.8784 | \n", "8.5635 | \n", "12.7803 | \n", "-1.0914 | \n", "
| 1 | \n", "train_1 | \n", "0 | \n", "11.5006 | \n", "-4.1473 | \n", "13.8588 | \n", "5.3890 | \n", "12.3622 | \n", "7.0433 | \n", "5.6208 | \n", "16.5338 | \n", "... | \n", "7.6421 | \n", "7.7214 | \n", "2.5837 | \n", "10.9516 | \n", "15.4305 | \n", "2.0339 | \n", "8.1267 | \n", "8.7889 | \n", "18.3560 | \n", "1.9518 | \n", "
| 2 | \n", "train_2 | \n", "0 | \n", "8.6093 | \n", "-2.7457 | \n", "12.0805 | \n", "7.8928 | \n", "10.5825 | \n", "-9.0837 | \n", "6.9427 | \n", "14.6155 | \n", "... | \n", "2.9057 | \n", "9.7905 | \n", "1.6704 | \n", "1.6858 | \n", "21.6042 | \n", "3.1417 | \n", "-6.5213 | \n", "8.2675 | \n", "14.7222 | \n", "0.3965 | \n", "
| 3 | \n", "train_3 | \n", "0 | \n", "11.0604 | \n", "-2.1518 | \n", "8.9522 | \n", "7.1957 | \n", "12.5846 | \n", "-1.8361 | \n", "5.8428 | \n", "14.9250 | \n", "... | \n", "4.4666 | \n", "4.7433 | \n", "0.7178 | \n", "1.4214 | \n", "23.0347 | \n", "-1.2706 | \n", "-2.9275 | \n", "10.2922 | \n", "17.9697 | \n", "-8.9996 | \n", "
| 4 | \n", "train_4 | \n", "0 | \n", "9.8369 | \n", "-1.4834 | \n", "12.8746 | \n", "6.6375 | \n", "12.2772 | \n", "2.4486 | \n", "5.9405 | \n", "19.2514 | \n", "... | \n", "-1.4905 | \n", "9.5214 | \n", "-0.1508 | \n", "9.1942 | \n", "13.2876 | \n", "-1.5121 | \n", "3.9267 | \n", "9.5031 | \n", "17.9974 | \n", "-8.8104 | \n", "
5 rows × 202 columns
\n", "| \n", " | ID_code | \n", "target | \n", "var_0 | \n", "var_1 | \n", "var_2 | \n", "var_3 | \n", "var_4 | \n", "var_5 | \n", "var_6 | \n", "var_7 | \n", "... | \n", "var_190_unique | \n", "var_191_unique | \n", "var_192_unique | \n", "var_193_unique | \n", "var_194_unique | \n", "var_195_unique | \n", "var_196_unique | \n", "var_197_unique | \n", "var_198_unique | \n", "var_199_unique | \n", "
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | \n", "train_0 | \n", "0.0 | \n", "8.9255 | \n", "-6.7863 | \n", "11.9081 | \n", "5.0930 | \n", "11.4607 | \n", "-9.2834 | \n", "5.1187 | \n", "18.6266 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
| 1 | \n", "train_1 | \n", "0.0 | \n", "11.5006 | \n", "-4.1473 | \n", "13.8588 | \n", "5.3890 | \n", "12.3622 | \n", "7.0433 | \n", "5.6208 | \n", "16.5338 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
| 2 | \n", "train_2 | \n", "0.0 | \n", "8.6093 | \n", "-2.7457 | \n", "12.0805 | \n", "7.8928 | \n", "10.5825 | \n", "-9.0837 | \n", "6.9427 | \n", "14.6155 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
| 3 | \n", "train_3 | \n", "0.0 | \n", "11.0604 | \n", "-2.1518 | \n", "8.9522 | \n", "7.1957 | \n", "12.5846 | \n", "-1.8361 | \n", "5.8428 | \n", "14.9250 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
| 4 | \n", "train_4 | \n", "0.0 | \n", "9.8369 | \n", "-1.4834 | \n", "12.8746 | \n", "6.6375 | \n", "12.2772 | \n", "2.4486 | \n", "5.9405 | \n", "19.2514 | \n", "... | \n", "0 | \n", "0 | \n", "1 | \n", "1 | \n", "1 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
| ... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
| 199995 | \n", "train_199995 | \n", "0.0 | \n", "11.4880 | \n", "-0.4956 | \n", "8.2622 | \n", "3.5142 | \n", "10.3404 | \n", "11.6081 | \n", "5.6709 | \n", "15.1516 | \n", "... | \n", "0 | \n", "1 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "0 | \n", "0 | \n", "
| 199996 | \n", "train_199996 | \n", "0.0 | \n", "4.9149 | \n", "-2.4484 | \n", "16.7052 | \n", "6.6345 | \n", "8.3096 | \n", "-10.5628 | \n", "5.8802 | \n", "21.5940 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
| 199997 | \n", "train_199997 | \n", "0.0 | \n", "11.2232 | \n", "-5.0518 | \n", "10.5127 | \n", "5.6456 | \n", "9.3410 | \n", "-5.4086 | \n", "4.5555 | \n", "21.5571 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "
| 199998 | \n", "train_199998 | \n", "0.0 | \n", "9.7148 | \n", "-8.6098 | \n", "13.6104 | \n", "5.7930 | \n", "12.5173 | \n", "0.5339 | \n", "6.0479 | \n", "17.0152 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "
| 199999 | \n", "train_199999 | \n", "0.0 | \n", "10.8762 | \n", "-5.7105 | \n", "12.1183 | \n", "8.0328 | \n", "11.5577 | \n", "0.3488 | \n", "5.2839 | \n", "15.2058 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "
200000 rows × 402 columns
\n", "| \n", " | ID_code | \n", "target | \n", "var_0 | \n", "var_1 | \n", "var_2 | \n", "var_3 | \n", "var_4 | \n", "var_5 | \n", "var_6 | \n", "var_7 | \n", "... | \n", "var_190_unique | \n", "var_191_unique | \n", "var_192_unique | \n", "var_193_unique | \n", "var_194_unique | \n", "var_195_unique | \n", "var_196_unique | \n", "var_197_unique | \n", "var_198_unique | \n", "var_199_unique | \n", "
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | \n", "train_0 | \n", "0.0 | \n", "8.9255 | \n", "-6.7863 | \n", "11.9081 | \n", "5.0930 | \n", "11.4607 | \n", "-9.2834 | \n", "5.1187 | \n", "18.6266 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
| 1 | \n", "train_1 | \n", "0.0 | \n", "11.5006 | \n", "-4.1473 | \n", "13.8588 | \n", "5.3890 | \n", "12.3622 | \n", "7.0433 | \n", "5.6208 | \n", "16.5338 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
| 2 | \n", "train_2 | \n", "0.0 | \n", "8.6093 | \n", "-2.7457 | \n", "12.0805 | \n", "7.8928 | \n", "10.5825 | \n", "-9.0837 | \n", "6.9427 | \n", "14.6155 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
| 3 | \n", "train_3 | \n", "0.0 | \n", "11.0604 | \n", "-2.1518 | \n", "8.9522 | \n", "7.1957 | \n", "12.5846 | \n", "-1.8361 | \n", "5.8428 | \n", "14.9250 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
| 4 | \n", "train_4 | \n", "0.0 | \n", "9.8369 | \n", "-1.4834 | \n", "12.8746 | \n", "6.6375 | \n", "12.2772 | \n", "2.4486 | \n", "5.9405 | \n", "19.2514 | \n", "... | \n", "0 | \n", "0 | \n", "1 | \n", "1 | \n", "1 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
| ... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
| 199995 | \n", "train_199995 | \n", "0.0 | \n", "11.4880 | \n", "-0.4956 | \n", "8.2622 | \n", "3.5142 | \n", "10.3404 | \n", "11.6081 | \n", "5.6709 | \n", "15.1516 | \n", "... | \n", "0 | \n", "1 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "0 | \n", "0 | \n", "
| 199996 | \n", "train_199996 | \n", "0.0 | \n", "4.9149 | \n", "-2.4484 | \n", "16.7052 | \n", "6.6345 | \n", "8.3096 | \n", "-10.5628 | \n", "5.8802 | \n", "21.5940 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
| 199997 | \n", "train_199997 | \n", "0.0 | \n", "11.2232 | \n", "-5.0518 | \n", "10.5127 | \n", "5.6456 | \n", "9.3410 | \n", "-5.4086 | \n", "4.5555 | \n", "21.5571 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "
| 199998 | \n", "train_199998 | \n", "0.0 | \n", "9.7148 | \n", "-8.6098 | \n", "13.6104 | \n", "5.7930 | \n", "12.5173 | \n", "0.5339 | \n", "6.0479 | \n", "17.0152 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "
| 199999 | \n", "train_199999 | \n", "0.0 | \n", "10.8762 | \n", "-5.7105 | \n", "12.1183 | \n", "8.0328 | \n", "11.5577 | \n", "0.3488 | \n", "5.2839 | \n", "15.2058 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "
200000 rows × 402 columns
\n", "| \n", " | ID_code | \n", "var_0 | \n", "var_1 | \n", "var_2 | \n", "var_3 | \n", "var_4 | \n", "var_5 | \n", "var_6 | \n", "var_7 | \n", "var_8 | \n", "... | \n", "var_190_unique | \n", "var_191_unique | \n", "var_192_unique | \n", "var_193_unique | \n", "var_194_unique | \n", "var_195_unique | \n", "var_196_unique | \n", "var_197_unique | \n", "var_198_unique | \n", "var_199_unique | \n", "
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 3 | \n", "test_3 | \n", "8.5374 | \n", "-1.3222 | \n", "12.0220 | \n", "6.5749 | \n", "8.8458 | \n", "3.1744 | \n", "4.9397 | \n", "20.5660 | \n", "3.3755 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "
| 7 | \n", "test_7 | \n", "17.3035 | \n", "-2.4212 | \n", "13.3989 | \n", "8.3998 | \n", "11.0777 | \n", "9.6449 | \n", "5.9596 | \n", "17.8477 | \n", "-4.8068 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "
| 11 | \n", "test_11 | \n", "10.6137 | \n", "-2.1898 | \n", "8.9090 | \n", "3.8014 | \n", "13.8602 | \n", "-5.9802 | \n", "5.5515 | \n", "15.4716 | \n", "-0.1714 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "0 | \n", "1 | \n", "
| 15 | \n", "test_15 | \n", "14.8595 | \n", "-4.5378 | \n", "13.6483 | \n", "5.6480 | \n", "9.9144 | \n", "1.5190 | \n", "5.0358 | \n", "13.4524 | \n", "-2.5419 | \n", "... | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "
| 16 | \n", "test_16 | \n", "14.1732 | \n", "-5.1490 | \n", "9.7591 | \n", "3.7316 | \n", "10.3700 | \n", "-21.9202 | \n", "7.7130 | \n", "18.8749 | \n", "0.4680 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
5 rows × 401 columns
\n", "