どうのように質問すれが適切かわからず、今の状況をそのままお伝えいたします、よろしくお願いします
見よう見まねで、以下の命令をGoogleColaboratoryで勉強しています。
↓
import pandas as pd
from sklearn.model_selection import train_test_split
# データの読込
df = pd.read_csv('./newsCorpora_re.csv', header=None, sep='\t', names=['ID', 'TITLE', 'URL', 'PUBLISHER', 'CATEGORY', 'STORY', 'HOSTNAME', 'TIMESTAMP'])
# データの抽出
df = df.loc[df['PUBLISHER'].isin(['Reuters', 'Huffington Post', 'Businessweek', 'Contactmusic.com', 'Daily Mail']), ['TITLE', 'CATEGORY']]
# データの分割
train, valid_test = train_test_split(df, test_size=0.2, shuffle=True, random_state=123, stratify=df['CATEGORY'])
valid, test = train_test_split(valid_test, test_size=0.5, shuffle=True, random_state=123, stratify=valid_test['CATEGORY'])
これを自分が用意したデータに置き換えるとエラーが出ており、どのように修正すればよいのか教えていただきたいです。
データ分割のところで以下のようなエラーが出ます。
ValueError: With n_samples=0, test_size=0.2 and train_size=None, the resulting train set will be empty. Adjust any of the aforementioned parameters.
import pandas as pd
from sklearn.model_selection import train_test_split
# データの読込
df = pd.read_csv('./技術管理.csv', header=None, sep='\t', names=['NO', 'JUDGE', 'STORY'])
# データの抽出
df = df.loc[df['JUDGE'].isin(['aaa']), ['STORY']]
# データの分割
train, valid_test = train_test_split(df, test_size=0.2, shuffle=True, random_state=123, stratify=df['STORY'])
valid, test = train_test_split(valid_test, test_size=0.5, shuffle=True, random_state=123, stratify=valid_test['STORY'])
A 回答 (1件)
- 最新から表示
- 回答順に表示
No.1
- 回答日時:
> 言語処理100本ノック 2020 第6章: 機械学習について
こんなトコに投稿してもしゃーない。
作者に聞きましょう。
言語処理100本ノック 2020:
https://nlp100.github.io/ja/
ページにツイッターが貼ってるので直接訊いてみるのが有効でしょう。
加えると、ぶっちゃけた話、Google Colabは初心者向けじゃないです。
(「どうのように質問すれが適切かわからず」って言ってる時点で分かります)
ハッキリ言って、その環境使った為に起こるトラブルに関しての質問が多すぎる。
言い換えると、バカな奴らが
「Google Colab使えばプログラミング初心者でも機械学習がオッケー!」
とか無責任な事を言いまわって、でも自分じゃ全然初心者のサポートをWeb上で行う気はない、と。
端的に言うと「最悪」です。
プログラミングのいろはが分からないのに機械学習が大丈夫なわけないじゃない。
プログラミングのいろはが分からないのにブラウザ上「だけで」プログラミングが分かるわけないじゃない。
何言ってんの、ってカンジです。
あなたは騙されてるんですよ。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- その他(プログラミング・Web制作) ColabでのPytorchのエラー 1 2022/11/19 20:51
- HTML・CSS ブロックエディターで作りつつ、画像を挿入しつつ、画像にスタイルシートのコードを付ける方法はありますか 1 2022/08/23 18:46
- JavaScript vertical sliderをautoplayしたい 2 2022/08/25 14:47
- PHP PHP一覧表示した項目にリンクをはりたい 1 2023/07/12 17:08
- C言語・C++・C# 質問です 下記のコードを分かりやすく解説お願いします 初心者です #include ‹stdio.h 3 2022/05/26 22:03
- その他(プログラミング・Web制作) VScodeでpythonプログラムの関数を実行したい 2 2022/07/13 19:24
- PHP $_SESSIONについて教えて下さい。 2 2023/03/02 09:18
- Excel(エクセル) Excelの置換が上手くいかない Microsoft® Excel® 2019 MSO (バージョン 5 2022/08/17 22:26
- JavaScript Javascript初心者|jQueryの.val()で値を取得し複数の要素を連結させる方法知りたい 2 2022/06/02 12:06
- Mac OS PATHを使ってcdなどで簡単に移動できるようになりたい 3 2023/05/13 14:22
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
合計3TBのデータのハッシュ値を...
-
教えて下さい
-
配列でデータが入っている要素...
-
【エクセル】測定時間がバラバ...
-
Accessで該当データにフラグを...
-
多量のSUMIF式を軽くしたい
-
[C言語] コメント文字列を無視...
-
メモ帳(テキストデータ)をExc...
-
Excelのマクロでワードのテキス...
-
C言語プログラム変更
-
配列の勉強をしています。使用...
-
ノイズの入った波形をきれいな...
-
VBAを使ってOutlookメール本文...
-
モジュラス103の算出方法について
-
ビットシフトについて
-
win7でvbsファイルが実行できない
-
EXCELVBAでSQLserverからデータ...
-
HTMLでテキストボックスで...
-
CString型の文字列連結について
-
GETはできるがPOSTができない、...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
教えて下さい
-
配列でデータが入っている要素...
-
【エクセル】測定時間がバラバ...
-
メモ帳(テキストデータ)をExc...
-
VBA 空白セルを削除ではない方...
-
多量のSUMIF式を軽くしたい
-
Excelのマクロでワードのテキス...
-
エクセルで2つの時系列のデー...
-
この行は既に別のテーブルに属...
-
VBAを使ってOutlookメール本文...
-
シーケンサにパソコンからアク...
-
EXCELVBAでSQLserverからデータ...
-
ブレーカー落ちで壊れたりしな...
-
[C言語] コメント文字列を無視...
-
オープンチヤットでデータ削除...
-
モジュラス103の算出方法について
-
javaでDBからデータを取ってき...
-
カンマからスラッシュに
-
VBA 毎日取得するデータを順番...
-
Android携帯をUSBメモリ代わりに
おすすめ情報