# MLデータセット

このノートブックは、指定された出力データベースにサンプルのMLデータセットを生成します。

### ワークフローの例

サンプルワークフローは[こちらのTreasure Boxes](https://github.com/treasure-data/treasure-boxes/blob/automl/machine-learning-box/automl/ml_datasets.dig)にあります。

```yaml
+load_datasets:
  ipynb>:
    notebook: ml_datasets
    output_database: ml_datasets
    datasets: all
```

### パラメータ

| パラメータ名 | コンソール上のパラメータ | 説明 | デフォルト値 |
|  --- | --- | --- | --- |
| docker.task_mem | Docker Task Mem | タスクメモリサイズ。契約されているティアに応じて、64g、128g（デフォルト）、256g、384g、または512gの値が使用できます。 | 128g |
| datasets | Datasets | セットアップするデータセットを指定する「all」またはカンマ区切りの文字列。 | all |
| output_database | Output Database | セットアップするデータセット名。 | ml_datasets |
| replace_if_exists | Replace If Exists | テーブルが既に存在する場合に置き換えます。デフォルトではfalseに設定されています。 | false |


### データセットの説明

| データセット | 説明 | 関連するタスク | ターゲット列 | 列数 | 行数 |
|  --- | --- | --- | --- | --- | --- |
| [gluon](https://auto.gluon.ai/stable/tutorials/tabular/tabular-indepth.html) | AutoGluonサンプルデータセット。 | 二値/多クラス分類 | class（二値）、occupation（多クラス） | 15 | 39,073（トレーニング）、9,769（テスト） |
| [bank_marketing](https://www.kaggle.com/datasets/ruthgn/bank-marketing-data-set) | 銀行マーケティングデータセット。 |  |  |  |  |
| クライアントが定期預金を申し込むかどうかを予測します。 | 二値分類 | y | 21 | 28,831（トレーニング）、12,357（テスト） |  |
| [vehicle_coupon](https://archive.ics.uci.edu/dataset/603/in+vehicle+coupon+recommendation) | 車内クーポン推奨データセット。 |  |  |  |  |
| さまざまなシナリオでドライバーにクーポンを推奨します。 | 多クラス分類 | coupon | 26 | 8,878（トレーニング）、3,806（テスト） |  |
| [online_retail](https://archive.ics.uci.edu/ml/datasets/Online+Retail) | オンライン小売トランザクションデータセット。 |  |  |  |  |
| 各顧客のLTVスコアを予測します。 | 回帰（CLTV予測）、RFM | cltv | 11 | 2,230（トレーニング）、956（テスト） |  |
| [telco_churn](https://www.kaggle.com/blastchar/telco-customer-churn/data) | 通信事業者の解約イベントデータセット。 | 二値分類（解約予測） | churn | 21 | 4,930（トレーニング）、2,113（テスト） |
| [california_house](https://scikit-learn.org/stable/datasets/real_world.html#california-housing-dataset) | カリフォルニアの住宅価格データセット。 |  |  |  |  |
| 住宅価格を予測します。 | 回帰 | median_house_value | 10 | 14,448（トレーニング）、6,192（テスト） |  |
| transition_matrix | ウェブアクセスのサンプル遷移データセット。 |  |  |  |  |
| ウェブアクセスの遷移を分析します。 | ネットワーク分析 | - | 3 | 12 |  |
| [ts_airline](https://www.sktime.net/en/stable/api_reference/auto_generated/sktime.datasets.load_airline.html) | 時系列航空旅客データセット。 |  |  |  |  |
| 乗客数を予測します。 | 時系列予測（単変量） | number_of_airline_passengers | 2 | 100（トレーニング）、44（テスト） |  |
| [m4](https://www.kaggle.com/datasets/yogesh94/m4-forecasting-competition-dataset) | M4データセットの四半期時系列。 | 時系列予測（多変量） | v7（または任意のv?） | 867 | 33,600（トレーニング）、14,400（テスト） |
| nba | Next-Best-Actionデータセット。 | Next Best Action | - | 6 | 43,196（トレーニング）、12,829（テスト） |
| [mta](https://dp6.github.io/Marketing-Attribution-Models/) | マーケティングアトリビューションモデルのDP6データセット。 | Multi-Touch Attribution | - | 4 | 500,000 |
| [dermatology](https://archive.ics.uci.edu/ml/datasets/dermatology) | 皮膚科疾患データセット。 |  |  |  |  |
| 6種類のEryhemato-Squamous疾患を判定します。 | 多クラス分類、クラスタリング | class | 35 | 366 |  |
| [creditcard](https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud) | クレジットカード不正利用データセット。 |  |  |  |  |
| 匿名化されたトランザクションを不正または正規として予測します。 | 二値分類（不正検出） | fraud | 29 | 199,364（トレーニング）、85,443（テスト） |  |
| [cluto](http://glaros.dtc.umn.edu/gkhome/views/cluto) | クラスタリング用のClutoデータセット。 | クラスタリング | class | 3 | 10,000 |
| [covtype](https://archive.ics.uci.edu/dataset/31/covertype) | 森林被覆タイプデータセット。 |  |  |  |  |
| ピクセルを7つの森林被覆タイプに分類します。 | 多クラス分類 | target | 55 | 406,708（トレーニング）、174,304（テスト） |  |
| [20newsgroups](http://qwone.com/~jason/20Newsgroups/) | 20ニュースグループドキュメントデータセット。 |  |  |  |  |
| このデータセットは20の異なるニュースグループのデータから構成されています。 | 多クラス分類 | target | 301 | 11,314（トレーニング）、7,532（テスト） |  |
| 4,871（不均衡トレーニング） |  |  |  |  |  |
| [cosmetics_store](https://www.kaggle.com/datasets/mkechinov/ecommerce-events-history-in-cosmetics-shop) | 化粧品店eコマースイベント履歴データセット。 | RFM分析、クラスタリング | - | 5 | 1,287,007 |