MySQLのgroup byの選択基準

Question

お世話になります。質問がふたつあります。
このような、IDとTypeのふたつのカラムで重複しているレコードが多いテーブル「tb」があるとします。

ID  Type age
1   1    20
1   2    35
1   3    42
1   2    31
1   3    45
1   2    33
2   1    21
2   3    41
2   1    26
2   2    31
2   1    25
2   1    28

これを、以下のようにしたいのです。

ID  Type age
1   1    20
1   2    35
1   3    42
2   1    21
2   2    31
2   3    41

group by ID, Typeとしたところ、
似たような形にはなったのですが、IDとTypeが重複した
ID  Type age
1   2    35
1   2    31
1   2    33

のうち、group byによってどのような基準でひとつが選択されるのでしょうか？
レコードの追加が新しいものが選ばれるのでしょうか？

また、ageをランダムでひとつを選択するような書き方はできるのでしょうか。
  
よろしくお願いします。

mpro-gram · Accepted Answer

group by 句に無いカラムがどう選択されるかは既にご回答の有るとおり。
要は見つけた順なのだが、indexのアルゴリズムや、挿入削除で物理配置が変わるので、不定となる。

あと、mysql には、集約関数にランダムに取り出す物はないので、サブクエリか、テンポラリーテーブルが必要。mysql 4.1 以降なら、サブクエリでいけそう。最適化も考慮すると以下かな？最後の order by null で既に並んでる物を再度並べ替え作業しないようにして、少々時間短縮。
 select id,Type, age
    from (select id,Type, age from tb order by id,Type, rand()  ) as rand_tbl
    group by id,Type
    order by null ;

yambejp · Answer

きちんとやるならテンポラリなどにおとすことですね

create temporary table tmp(ID int,Type int,age int,unique key(ID,Type));
insert ignore into tmp select * from tb order by rand();
select * from tmp order by ID,Type;

結局SQLでのランダム処理は全データを総なめすることになるので
無駄が多いですけどね。

Gaffgarion · Answer

ちょっと訂正します。

> pk順だったり、insert順だったり、とその時その時の結果の傾向はありますが、
> もう1度同じクエリを発行した結果が同じとは限りません。
> 
pk順っぽい、insert順っぽい、とその時その時の結果の傾向はありますが、
もう1度同じクエリを発行した結果が同じとは限りません。

細かいところですが、なんかミスリードさせそうだったので。

Gaffgarion · Answer

order byなしでのselectの順番は保障されていません。
pk順だったり、insert順だったり、とその時その時の結果の傾向はありますが、
もう1度同じクエリを発行した結果が同じとは限りません。
つまり、保障されてないのでランダムとも言えなくはないでしょう。
mysqlに限らず、他のRDBの多くでそうなってます。

また、group byに関しては、
そもそも、グループ化された列や集計関数以外はselectできません。
例で言うなら、group by id,type なので、
selectできるのはid,typeとあと集計関数と定数のみです。
ただ、mysqlではグループ化していない列もselectできます。
しかし、その結果(どれが表示されるか)は保障されていません。
多分、selectが保障できないので、それをグループ化するから保障できないのでしょう。

その上でランダムで出したいなら、
グループ化する前の結果順をランダムにして、それをgroup byするとどうでしょうか。
もっと他に良い方法ありそうですか、ぱっと思いついたのは以下です。

select t.id,t.type,t.age from (select * from tb order by rand()) t group by t.id,t.type order by t.id,t.type;

良いクエリではないと思うので、データが増えた時の性能には十分に気をつけてください。

bin-chan · Answer

たいてい、group by は、max()、min()、sum()、count()などの集合関数とセットでは？

> これを、以下のようにしたいのです。
これのルールはなんでしょう？

> ageをランダムでひとつを
ACCESSのクエリなら、前記に加え「先頭」「最後」も可能でしょうケド
ランダムは無さそう。

MySQLのgroup byの選択基準

group by 句に無いカラムがどう選択されるかは既にご回答の有るとおり。

きちんとやるならテンポラリなどにおとすことですね

ちょっと訂正します。

order byなしでのselectの順番は保障されていません。

たいてい、group by は、max()、min()、sum()、count()などの集合関数とセットでは？

この回答への補足

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング