SQL PARTITION BYの基本と効率的に集計する便利な方法

PARTITION BYを使った分析関数を使いこなせれば複雑な集計でもシンプルなSQLで実装できます。

以下のサンプルはOracleの構文で紹介していますが、他のデータベースでも基本的には考え方は同じです。

分析関数の基本

以下のテーブルがあるとします。

employee（社員）
id	first_name	last_name	department_id	height
1	一郎	山田	1	170
2	次郎	佐藤	2	175
3	三郎	田中	1	185
4	四郎	鈴木	2	155

以下のように、first_nameと取得したレコード数を同時に取得したいとき、以下のようなSQLではエラーになってしまいます。

SELECT
  last_name,
  COUNT(1) total_count
FROM
  employee

エラー

ORA-00937: 単一グループのグループ関数ではありません。

employeeテーブルの各レコードのデータと、レコードを集計したデータは集計単位が違うので、普通のGROUP BYを使うやり方ではうまくいきません。

以下のように分析関数を使用すれば集計方法が異なる集計結果を１度に取得できます。

SELECT
  last_name,
  COUNT(1) OVER() total_count
FROM
  employee

取得結果
last_name	total_count
山田	4
佐藤	4
田中	4
鈴木	4

OVER句の基本的な使い方

分析関数を使用するにはOVER句を使います。

OVER (PARTITION BY 集計単位 ORDER BY 表示順)のように指定します。

PARTITION BY

PARTITION BYはGROUP BYのイメージで、集計したい列を指定します。

省略した場合は取得対象全体の集計になります。

ORDER BY

ORDER BYは表示順を指定します。

ROW_NUMBER（行番号）など、集計に並び替えが必要な場合は指定します。COUNTやSUMのような集計は並び替えが不要なので省略できます。

使用例

文章での説明ではイメージがわかないと思うので具体的な使用例を紹介します。

employee（社員）
id	first_name	last_name	department_id	height
1	一郎	山田	1	170
2	次郎	佐藤	2	175
3	三郎	田中	1	185
4	四郎	鈴木	2	155

SELECT
  last_name,
  --全体の総件数
  COUNT(1) OVER() total_count,
  --部門ごとの件数
  COUNT(1) OVER(PARTITION BY department_id) section_count,
  --部門ごとの最大身長
  MAX(height) OVER(PARTITION BY department_id) section_max_height,
  --部門ごとの身長順（身長順に並び替えたときの行番号）
  ROW_NUMBER() OVER(PARTITION BY department_id ORDER BY height DESC) section_height_order,
  --全体の身長順（身長順に並び替えたときの行番号）
  ROW_NUMBER() OVER(ORDER BY height DESC) height_order
FROM
  employee
ORDER BY
  id

取得結果
last_name	total_count	section_count	section_max_height	section_height_order	height_order
山田	4	2	185	2	3
佐藤	4	2	175	1	2
田中	4	2	185	1	1
鈴木	4	2	175	2	4

例えばPARTITION BYでdepartment_idを指定したらdepartment_idが集計単位となるため、department_idが同じレコードは全て取得結果が同じになっていることが確認できます。

また、PARTITION BYが未指定時は全体の集計なので全てのレコードが同じ値になっています。

古い記事
SQL MERGE文でSELECTした結果を使ってINSERTまたはUPDATEをする

新しい記事
SQL ある列の値が最大もしくは最小の値のレコードを取得する

VSCodeからSQL Serverに接続してSQLを実行する
VSCodeからSQL Serverに接続してSQLを実行する方法を紹介します。SQL ServerをDockerで起動して別コンテナからアクセスするで、VSCodeからDockerで起動したSQL ...
SQL ServerをDockerで起動して別コンテナからアクセスする
SQL ServerをDockerで起動して別コンテナからアクセスする方法を紹介します。SQL Serverへの接続はVSCodeで行います。ASP.NET（.NET Core）の開発環境をDocke...
SQL WITH句で同じSQLを１つのSQLに共通化する
SQL SELECT句での副問合せの基本的な考え方と注意点で紹介したように、副問合せを使用していると同じようなSQLを複数箇所で行うことがあります。同じようなSQLはWITH句を使用して共通化すればパ...
SQL 重複しているレコードを一括でUPDATEする
ある列の値が同じレコードが複数ある場合に、そのレコードを全てUPDATEする方法を紹介します。重複しているレコードを１行に集約する方法などはよく見かけますが、重複するレコードを一括でUPDATEします...
SQL テーブルと列（カラム）にコメントを設定する方法
SQLでテーブルと列（カラム）にコメントを設定する方法を紹介します。SQL CREATE文でテーブルを新規作成するで紹介した方法で、テーブルを作成する際に、一緒にコメントを論理名として登録することが多...
SQL SELECT句での副問合せの基本的な考え方と注意点
SELECT句での副問合せをうまく利用すれば、集計単位の異なる値を同時に取得できます。以下のようなテーブルがあるとします。SQL GROUP BYで複数の行を集計して１行で取得するで紹介したように、 ...
SQL SELECT句でテーブルから指定した列のデータを取得する
SELECT句はFROM句で指定されたテーブルから、どの列を取得するかを指定するための構文です。（FROM句についてはでSQL FROM句で複数のテーブルを結合するポイント紹介しています。）以下のよう...
SQL 別テーブルをSELECTした結果が存在すればその値を使用してUPDATEする方法
SQL 別テーブルをSELECTした結果をそのままINSERTする方法でSELECTした結果をそのままINSERTする方法を紹介しましたが、同じようにSELECTした結果がすでに存在していればその値で...
SQL UPDATE文で副問い合わせで取得した値を複数列に設定する方法
UPDATE文で、副問い合わせで取得した値を複数列に設定する方法を紹介します。SETで指定する列を()で囲い、副問い合わせのSQLで()で囲った列に対応するようにSELECTで取得します。SELECT...
SQL 別テーブルをSELECTした結果をそのままINSERTする方法
あるテーブル（A）に登録されているデータを利用して別のテーブル（B）にデータを登録したい場合があります。AをSELECTして、取得したデータを１件ごとBにINSERTするのではなく、AをSELECTし...