【k-近傍法入門】シンプルな分類手法の使い方と実装サンプルコードを徹底解説！

2024年9月27日

機械学習入門へようこそ！

みんな、機械学習って聞いたことある？なんか難しそうに思えるけど、実は身近なとこでも使われてるんやで。たとえば、ネットで映画や音楽のおすすめをしてくれるのも、機械学習のおかげやねん。

ここで紹介する「k-近傍法（k-NN）」は、シンプルで分かりやすい分類手法や。これを使うことで、データをグループ分けしたり、新しいデータの特徴を判断したりできるんや。例えば、果物の画像を見て、それがリンゴかオレンジかを判断するのに使えるんやで。

この講座では、k-NNの基本概念から実装、さらには距離の計算方法まで、楽しみながら学んでいくから、みんな一緒に頑張ろうな！

k-NNアルゴリズムの基本概念

k-近傍法（k-NN）は、シンプルなのにパワフルな分類アルゴリズムや。ここでは、その基本的な考え方を見ていこか。

アルゴリズムの仕組み

データポイントの集まり: まずは、分類したいデータの集まり（トレーニングデータ）を用意するねん。このデータには、各データポイントの特徴と正しい分類が含まれてる。
新しいデータの分類: 新しいデータポイントが来たとき、k-NNはそのデータを分類するために、トレーニングデータの中から「近い」データポイントを探すんや。これが「近傍」っていう意味や。
kの選択: 近傍のデータポイントの数を表す「k」を決める必要がある。例えば、k=3なら、最も近い3つのデータポイントを見て、その中でどの分類が多いかを調べるんや。
投票による分類: 最後に、k個の近傍データの中で一番多かった分類を、新しいデータの分類として決定するんや。これ、まるで友達に「どの映画が面白い？」って聞いて、一番多い回答を選ぶみたいなもんやね。

まとめ

k-NNは、近くのデータを参考にして新しいデータを分類する、シンプルで直感的な方法や。これから、実際にこのアルゴリズムを使って分類を行う方法を見ていくで！楽しみにしといてな！

k-NNを用いた分類の実装

さて、次は実際にk-近傍法（k-NN）を使って分類を行う方法について学んでいくで！今回は、Pythonを使ってデータを扱うから、みんなも一緒にやってみてな。

必要なライブラリのインポート

まずは、必要なライブラリをインポートするで。これを使ってデータの処理やモデルの作成をするから、しっかり覚えてな。

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

データの準備

次に、分類に使うデータを準備するで。ここでは、アイリスデータセットを使うことにするわ。このデータセットは、3つの異なるアイリスの花の種類のデータが含まれてるんや。

# アイリスデータセットをロード
iris = load_iris()
X = iris.data  # 特徴量
y = iris.target  # ラベル

# データの分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

k-NNモデルの作成

次は、k-NNモデルを作成するで。ここではk=3に設定するわ。

# k-NNモデルの作成
k = 3
knn = KNeighborsClassifier(n_neighbors=k)

# モデルの訓練
knn.fit(X_train, y_train)

分類の実行と精度の確認

モデルを訓練したら、次はテストデータを使って分類を行うで。そして、その結果がどれくらい正確かを確認するんや。

# テストデータでの予測
y_pred = knn.predict(X_test)

# 精度の計算
accuracy = accuracy_score(y_test, y_pred)
print(f'精度: {accuracy * 100:.2f}%')

まとめ

これで、k-NNを使った分類の実装が完了や！簡単にデータを分類できるのがわかったやろ？これから、kの値の選択やその影響についても学んでいくから、引き続き楽しんでな！

kの値の選択と影響

さあ、次はk-近傍法（k-NN）で重要な要素の一つ、「kの値」の選び方とその影響について学んでいこう！このkの値が、モデルの性能に大きく関わるんやで。

kの値とは？

kの値は、分類するときに参照する近傍のデータポイントの数を表すんや。例えば、k=3なら、最も近い3つのデータポイントを見て、その中で一番多い分類を選ぶってことや。

kの値が小さいとどうなる？

過学習のリスク: kの値が小さいと、データのノイズや外れ値に敏感になってしまう。近くのデータポイントの影響を強く受けるから、正確な分類が難しくなることがあるんや。
高い柔軟性: 一方で、データの変化に対して柔軟に対応できることもある。小さいkの値は、特定のデータポイントに特化した分類を行うことができるんや。

kの値が大きいとどうなる？

一般化の向上: kの値を大きくすると、より多くのデータポイントを参考にするから、全体的な傾向を捉えやすくなる。これにより、モデルが一般化されやすくなるんや。
情報の希薄化: ただし、大きすぎるkの値は、特定のデータの特徴を見逃してしまう可能性がある。多すぎる情報が逆にノイズになって、正確な分類ができなくなることもあるから注意が必要やで。

kの値の選び方

交差検証: kの値を選ぶための一般的な方法は、交差検証を使うことや。いくつかの異なるkの値でモデルを訓練し、テストデータに対する精度を確認して、一番良い結果を出したkを選ぶんや。
経験則: だいたい、kの値は奇数を選ぶとええと言われてる。これにより、投票したときに引き分けがなくなるからや。

まとめ

kの値の選択は、k-NNの性能に大きく影響するから、慎重に考えなあかんで。次は、k-NNの長所と短所について見ていくから、引き続き楽しみにしといてな！

k-NNの長所と短所

次は、k-近傍法（k-NN）の長所と短所について考えてみよう！これは、実際にこのアルゴリズムを使うときに知っておくべき大事なポイントやで。

長所

シンプルで直感的: k-NNは、考え方がシンプルで直感的や。近くのデータを見て分類するだけやから、初心者でも理解しやすいんやで。
柔軟性: 特徴量の数や種類に制約がないため、さまざまな種類のデータに適用できるのがええとこや。数値データでもカテゴリデータでも使えるんや。
オンライン学習が可能: 新しいデータが追加されても、再学習が必要ないから、リアルタイムでの予測に向いてる。データが増えたら、そのまま近傍を参照するだけや。

短所

計算コストが高い: データポイントが多くなればなるほど、計算量が増えて遅くなる。特にリアルタイムでの予測が必要な場合、負担になることがあるんや。
次元の呪い: 特徴量の次元が増えると、データポイントが疎になってしまう。これが「次元の呪い」と呼ばれる現象や。高次元では、距離の計算が難しくなるため、分類精度が低下することがある。
外れ値に敏感: kが小さいと、ノイズや外れ値の影響を受けやすくなる。これが原因で、誤った分類をすることがあるから注意が必要や。

まとめ

k-NNには、シンプルさや柔軟性といった魅力がある一方で、計算コストや次元の呪いといったデメリットもあるんや。これらを理解して、どの場面でk-NNを使うのがベストかを考えることが大切やで。次は、距離の計算方法について詳しく見ていくから、楽しみにしといてな！

距離の計算方法（ユークリッド距離、マンハッタン距離）

さて、次はk-近傍法（k-NN）で使う距離の計算方法について詳しく見ていくで！距離を計算することで、データポイントの近さを評価するんや。ここでは「ユークリッド距離」と「マンハッタン距離」を紹介するわ。

ユークリッド距離

ユークリッド距離は、2点間の直線距離を表す最も一般的な距離の計算方法や。2次元空間の場合、点 (x1, y1) と (x2, y2) のユークリッド距離は、以下のように計算するんや。

[ \text{距離} = \sqrt{(x2 – x1)^2 + (y2 – y1)^2} ]

これを3次元やそれ以上の次元に拡張することもできて、次のような式になるで。

[ \text{距離} = \sqrt{\sum_{i=1}^{n} (x_i – y_i)^2} ]

マンハッタン距離

マンハッタン距離は、2点間を直線ではなく、格子状に移動する距離を表すんや。これを「タクシー距離」って呼ぶこともあるで。2次元空間でのマンハッタン距離は、次のように計算するんや。

[ \text{距離} = |x2 – x1| + |y2 – y1| ]

これも3次元やそれ以上の次元に拡張できて、以下のようになるで。

[ \text{距離} = \sum_{i=1}^{n} |x_i – y_i| ]

距離の選択

ユークリッド距離: データが連続的な場合や、直線的な関係がある場合に使うとええ。外れ値の影響を受けやすいけど、直線距離を計算するため、直感的に理解しやすいのが特徴や。
マンハッタン距離: データが離散的な場合や、障害物があるような状況で使うのが適してる。外れ値の影響を受けにくいから、データの特性によって使い分けることが大事や。

まとめ

距離の計算方法は、k-NNの結果に大きな影響を与えるから、どの距離を選ぶかが重要や。ユークリッド距離とマンハッタン距離の特性を理解して、自分のデータに合った方法を選ぶようにしような。次は、この知識をもとに実際に距離計算を行う実装に進むで！楽しみにしといてな！

【k-近傍法入門】シンプルな分類手法の使い方と実装サンプルコードを徹底解説！

この記事を書いた人

mjflash

【k-近傍法入門】シンプルな分類手法の使い方と実装サンプルコードを徹底解説！

機械学習入門へようこそ！

k-NNアルゴリズムの基本概念

アルゴリズムの仕組み

まとめ

k-NNを用いた分類の実装

必要なライブラリのインポート

データの準備

k-NNモデルの作成

分類の実行と精度の確認

まとめ

kの値の選択と影響

kの値とは？

kの値が小さいとどうなる？

kの値が大きいとどうなる？

kの値の選び方

まとめ

k-NNの長所と短所

長所

短所

まとめ

距離の計算方法（ユークリッド距離、マンハッタン距離）

ユークリッド距離

マンハッタン距離

距離の選択

まとめ

関連

この記事を書いた人

関連記事