おしえて

言語処理100本ノック 2020 第6章: 機械学習について

締切済

質問者：OKUA
質問日時：2021/10/11 11:50
回答数：1件

どうのように質問すれが適切かわからず、今の状況をそのままお伝えいたします、よろしくお願いします
見よう見まねで、以下の命令をGoogleColaboratoryで勉強しています。
↓
import pandas as pd
from sklearn.model_selection import train_test_split
# データの読込
df = pd.read_csv('./newsCorpora_re.csv', header=None, sep='\t', names=['ID', 'TITLE', 'URL', 'PUBLISHER', 'CATEGORY', 'STORY', 'HOSTNAME', 'TIMESTAMP'])
# データの抽出
df = df.loc[df['PUBLISHER'].isin(['Reuters', 'Huffington Post', 'Businessweek', 'Contactmusic.com', 'Daily Mail']), ['TITLE', 'CATEGORY']]
# データの分割
train, valid_test = train_test_split(df, test_size=0.2, shuffle=True, random_state=123, stratify=df['CATEGORY'])
valid, test = train_test_split(valid_test, test_size=0.5, shuffle=True, random_state=123, stratify=valid_test['CATEGORY'])

これを自分が用意したデータに置き換えるとエラーが出ており、どのように修正すればよいのか教えていただきたいです。
データ分割のところで以下のようなエラーが出ます。
ValueError: With n_samples=0, test_size=0.2 and train_size=None, the resulting train set will be empty. Adjust any of the aforementioned parameters.

import pandas as pd
from sklearn.model_selection import train_test_split
# データの読込
df = pd.read_csv('./技術管理.csv', header=None, sep='\t', names=['NO', 'JUDGE', 'STORY'])
# データの抽出
df = df.loc[df['JUDGE'].isin(['aaa']), ['STORY']]
# データの分割
train, valid_test = train_test_split(df, test_size=0.2, shuffle=True, random_state=123, stratify=df['STORY'])
valid, test = train_test_split(valid_test, test_size=0.5, shuffle=True, random_state=123, stratify=valid_test['STORY'])

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (1件)

最新から表示
回答順に表示

参考程度に

No.1

回答者： cametan_42
回答日時：2021/10/11 14:47

> 言語処理100本ノック 2020 第6章: 機械学習について

こんなトコに投稿してもしゃーない。
作者に聞きましょう。

言語処理100本ノック 2020:
https://nlp100.github.io/ja/

ページにツイッターが貼ってるので直接訊いてみるのが有効でしょう。

加えると、ぶっちゃけた話、Google Colabは初心者向けじゃないです。
(「どうのように質問すれが適切かわからず」って言ってる時点で分かります)
ハッキリ言って、その環境使った為に起こるトラブルに関しての質問が多すぎる。
言い換えると、バカな奴らが

「Google Colab使えばプログラミング初心者でも機械学習がオッケー!」

とか無責任な事を言いまわって、でも自分じゃ全然初心者のサポートをWeb上で行う気はない、と。

端的に言うと「最悪」です。

プログラミングのいろはが分からないのに機械学習が大丈夫なわけないじゃない。
プログラミングのいろはが分からないのにブラウザ上「だけで」プログラミングが分かるわけないじゃない。

何言ってんの、ってカンジです。

あなたは騙されてるんですよ。