داده ها به شکل ها و اشکال مختلفی می آیند. یکی از این شکل ها و فرم ها به داده های طبقه ای معروف است.
این مشکل ایجاد می کند زیرا اکثر الگوریتم های یادگیری ماشین فقط از داده های عددی به عنوان ورودی استفاده می کنند. با این حال، به لطف توابع ساده و به خوبی تعریف شده که آنها را به مقادیر عددی تبدیل می کند، معمولاً کار با داده های طبقه بندی چالشی نیست. اگر هر دوره علوم داده ای را گذرانده اید، با استراتژی تک کدگذاری داغ برای ویژگی های طبقه بندی آشنا خواهید شد. این استراتژی زمانی عالی است که ویژگی های شما دارای دسته بندی های محدودی باشد. با این حال، هنگام کار با ویژگیهای کاردینالیتی بالا (ویژگیهای چند دستهای) با مشکلاتی مواجه خواهید شد.
در اینجا نحوه استفاده از رمزگذاری هدف برای تبدیل ویژگی های دسته بندی به مقادیر عددی آمده است.
در ابتدای هر دوره علم داده، با کدنویسی داغ به عنوان یک استراتژی کلیدی برای مقابله با مقادیر طبقهبندی آشنا میشوید.و درست است، زیرا این استراتژی روی ویژگیهای کم کاردینالیتی (ویژگیهایی با دستههای محدود) بسیار خوب کار میکند.
به طور خلاصه، یک کدگذاری داغ هر دسته را به یک بردار باینری تبدیل می کند، که در آن دسته مربوط به عنوان “درست” یا “1” و همه دسته های دیگر به عنوان “نادرست” یا “0” علامت گذاری شده اند.
import pandas as pd# Sample categorical data
data = {'Category': ['Red', 'Green', 'Blue', 'Red', 'Green']}
# Create a DataFrame
df = pd.DataFrame(data)
# Perform one-hot encoding
one_hot_encoded = pd.get_dummies(df['Category'])
# Display the result
print(one_hot_encoded)
اگرچه این برای ویژگی هایی با دسته بندی های محدود عالی عمل می کند (کمتر از 10-20 دسته)با افزایش تعداد دستهها، بردارهای تک کد طولانیتر و پراکندهتر میشوند و به طور بالقوه منجر به افزایش استفاده از حافظه و پیچیدگی محاسباتی میشوند، اجازه دهید به یک مثال نگاه کنیم.
کد زیر از اعتبارنامه کارمندان آمازون ارسال شده در kaggle استفاده می کند: https://www.kaggle.com/datasets/lucamassaron/amazon-employee-access-challenge
داده ها شامل هشت ستون از ویژگی های طبقه بندی شده است که ویژگی های منبع، نقش و گروه کاری مورد نیاز کارمند در آمازون را نشان می دهد.
data.info()
# Display the number of unique values in each column
unique_values_per_column = data.nunique()print("Number of unique values in each column:")
print(unique_values_per_column)
استفاده از کدگذاری یکطرفه میتواند در مجموعه دادههایی مانند این چالشبرانگیز باشد زیرا تعداد زیادی دستهبندی مجزا برای هر ویژگی وجود دارد.
#Initial data memory usage
memory_usage = data.memory_usage(deep=True)
total_memory_usage = memory_usage.sum()
print(f"\nTotal memory usage of the DataFrame: {total_memory_usage / (1024 ** 2):.2f} MB")
#one-hot encoding categorical features
data_encoded = pd.get_dummies(data,
columns=data.select_dtypes(include="object").columns,
drop_first=True)data_encoded.shape
# Memory usage for the one-hot encoded dataset
memory_usage = data_encoded.memory_usage(deep=True)
total_memory_usage = memory_usage.sum()
print(f"\nTotal memory usage of the DataFrame: {total_memory_usage / (1024 ** 2):.2f} MB")
همانطور که می بینید، رمزگذاری تک شات راه حل مناسبی برای مقابله با ویژگی های دسته بندی با کاردینالیته بالا نیست، زیرا اندازه مجموعه داده را به شدت افزایش می دهد.
در موارد با کاردینالیته بالا، رمزگذاری هدف گزینه بهتری است.
کدگذاری هدف، یک ویژگی طبقهبندی را بدون افزودن ستونهای اضافی به یک ویژگی عددی تبدیل میکند و از تبدیل مجموعه دادهها به مجموعه دادههای بزرگتر و پراکندهتر جلوگیری میکند.
رمزگذاری هدف با تبدیل هر دسته از یک ویژگی طبقهبندی به مقدار مورد انتظار مربوطه کار میکند. رویکرد محاسبه مقدار مورد انتظار به مقداری که میخواهید پیشبینی کنید بستگی دارد.
برای مشکلات رگرسیون، مقدار مورد انتظار صرفاً میانگین آن دسته است.
برای مسائل طبقه بندی، مقدار مورد انتظار احتمال مشروط داده شده به آن دسته است.
در هر دو مورد، ما می توانیم به سادگی با استفاده از تابع ‘group_by’ در پانداها به نتایج دست یابیم.
#Example of how to calculate the expected value for Target encoding of a Binary outcome
expected_values = data.groupby('ROLE_TITLE')['ACTION'].value_counts(normalize=True).unstack()
expected_values
جدول به دست آمده احتمال هر یک را نشان می دهدعمل” نتیجه منحصر به فرد “ROLE_TITLE“شناسه. تنها کاری که باید انجام دهید این است که جایگزین “ROLE_TITLEid با مقادیر احتمالی که “ACTION” در مجموعه داده های اصلی 1 بوده است. (یعنی به جای دسته 117879 مجموعه داده 0.889331 را نشان می دهد)
در حالی که این ممکن است به ما درک درستی از نحوه عملکرد رمزگذاری هدف بدهد، استفاده از این روش ساده خطر پیکربندی مجدد را به همراه دارد.. به خصوص برای دسته های نادر، زیرا در این موارد رمزگذاری هدف اساساً مقدار هدف مدل را ارائه می دهد. همچنین، روش فوق فقط با دستههای دیدهشده کار میکند، بنابراین اگر دادههای آزمایشی شما دسته جدیدی داشته باشد، نمیتواند آن را مدیریت کند.
برای جلوگیری از این خطاها، باید ترانسفورماتور کدگذاری هدف را پایدارتر کنید.
برای قوی تر کردن کدگذاری هدف، می توانید یک کلاس ترانسفورماتور سفارشی ایجاد کنید و آن را با scikit-learn ادغام کنید تا بتوان از آن در هر خط لوله مدلی استفاده کرد.
توجه: کد زیر از “کتاب کاگل” گرفته شده است و می توانید آن را در Kaggle پیدا کنید: https://www.kaggle.com/code/lucamassaron/meta-features-and-target-encoding
import numpy as np
import pandas as pdfrom sklearn.base import BaseEstimator, TransformerMixin
class TargetEncode(BaseEstimator, TransformerMixin):
def __init__(self, categories="auto", k=1, f=1,
noise_level=0, random_state=None):
if type(categories)==str and categories!='auto':
self.categories = [categories]
else:
self.categories = categories
self.k = k
self.f = f
self.noise_level = noise_level
self.encodings = dict()
self.prior = None
self.random_state = random_state
def add_noise(self, series, noise_level):
return series * (1 + noise_level *
np.random.randn(len(series)))
def fit(self, X, y=None):
if type(self.categories)=='auto':
self.categories = np.where(X.dtypes == type(object()))[0]
temp = X.loc[:, self.categories].copy()
temp['target'] = y
self.prior = np.mean(y)
for variable in self.categories:
avg = (temp.groupby(by=variable)['target']
.agg(['mean', 'count']))
# Compute smoothing
smoothing = (1 / (1 + np.exp(-(avg['count'] - self.k) /
self.f)))
# The bigger the count the less full_avg is accounted
self.encodings[variable] = dict(self.prior * (1 -
smoothing) + avg['mean'] * smoothing)
return self
def transform(self, X):
Xt = X.copy()
for variable in self.categories:
Xt[variable].replace(self.encodings[variable],
inplace=True)
unknown_value = {value:self.prior for value in
X[variable].unique()
if value not in
self.encodings[variable].keys()}
if len(unknown_value) > 0:
Xt[variable].replace(unknown_value, inplace=True)
Xt[variable] = Xt[variable].astype(float)
if self.noise_level > 0:
if self.random_state is not None:
np.random.seed(self.random_state)
Xt[variable] = self.add_noise(Xt[variable],
self.noise_level)
return Xt
def fit_transform(self, X, y=None):
self.fit(X, y)
return self.transform(X)
ممکن است در ابتدا دلهره آور به نظر برسد، اما بیایید هر قطعه کد را تجزیه کنیم تا بفهمیم چگونه یک رمزگذار Target قوی ایجاد کنیم.
تعریف کلاس
class TargetEncode(BaseEstimator, TransformerMixin):
این اولین مرحله تضمین میکند که میتوانید از این کلاس ترانسفورماتور در خطوط لوله یادگیری scikit برای پیشپردازش دادهها، مهندسی ویژگیها و گردشهای کاری یادگیری ماشین استفاده کنید. با به ارث بردن از کلاسهای scikit-learn به این امر دست مییابد BaseEstimator و TransformerMixin.
وراثت اجازه می دهد TargetEncode کلاس برای استفاده مجدد یا نادیده گرفتن روش ها و ویژگی های تعریف شده در کلاس های پایه، در این مورد، BaseEstimator و TransformerMixin
BaseEstimator کلاس پایه برای همه برآوردگرهای یادگیری scikit است. تخمینگرها اشیایی هستند که با روشهای «مطابق» برای آموزش روی دادهها و روش «پیشبینی» برای پیشبینیسازی هستند.
TransformerMixin یک کلاس mixin برای ترانسفورماتورها در scikit-learn است، روش های اضافی مانند “fit_transform” را ارائه می دهد که fit و transform را در یک مرحله ترکیب می کند.
ارث از BaseEstimator و TransformerMixin, به TargetEncode اجازه می دهد تا این روش ها را پیاده سازی کند و آن را با API scikit-learn سازگار می کند.
سازنده را تعریف کنید
def __init__(self, categories="auto", k=1, f=1,
noise_level=0, random_state=None):
if type(categories)==str and categories!='auto':
self.categories = [categories]
else:
self.categories = categories
self.k = k
self.f = f
self.noise_level = noise_level
self.encodings = dict()
self.prior = None
self.random_state = random_state
این مرحله دوم سازنده برای را تعریف می کند “TargetEncode” و متغیرهای نمونه را با مقادیر پیش فرض یا تعیین شده توسط کاربر مقداردهی اولیه می کند.
“دسته بندی هاپارامتر ” مشخص می کند که کدام ستون ها در داده های ورودی باید به عنوان متغیرهای طبقه بندی برای رمزگذاری هدف در نظر گرفته شوند. پیشفرض روی «خودکار» تنظیم میشود تا بهطور خودکار ستونهای دستهبندی را در طول فرآیند برازش شناسایی کند.
پارامترهای k، f و noise_level اثر هموارسازی را در طول رمزگذاری هدف و سطح نویز اضافه شده در طول تبدیل را کنترل میکنند.
اضافه کردن نویز
این مرحله بعدی برای جلوگیری از نصب بیش از حد بسیار مهم است.
def add_noise(self, series, noise_level):
return series * (1 + noise_level *
np.random.randn(len(series)))
“اضافه کردن نویزروش ” نویز تصادفی را برای معرفی تنوع و جلوگیری از تنظیم مجدد در مرحله تبدیل اضافه می کند.
“np.random.randn(len(series))” آرایه ای از اعداد تصادفی را از یک توزیع نرمال استاندارد (میانگین = 0، انحراف استاندارد = 1) تولید می کند.
ضرب این آرایه در “نویز_سطح” sنویز تصادفی را بر اساس سطح نویز مشخص شده کاهش می دهد.”
این مرحله به استحکام و تعمیم پذیری فرآیند رمزگذاری هدف کمک می کند.
رمزگذار هدف را سوار کنید
این قطعه کد رمزگذار هدف را بر روی داده های ارائه شده با محاسبه رمزگذاری های هدف برای ستون های طبقه بندی شده و ذخیره آنها برای استفاده بعدی در طول تبدیل آموزش می دهد.
def fit(self, X, y=None):
if type(self.categories)=='auto':
self.categories = np.where(X.dtypes == type(object()))[0]temp = X.loc[:, self.categories].copy()
temp['target'] = y
self.prior = np.mean(y)
for variable in self.categories:
avg = (temp.groupby(by=variable)['target']
.agg(['mean', 'count']))
# Compute smoothing
smoothing = (1 / (1 + np.exp(-(avg['count'] - self.k) /
self.f)))
# The bigger the count the less full_avg is accounted
self.encodings[variable] = dict(self.prior * (1 -
smoothing) + avg['mean'] * smoothing)
اصطلاح هموارسازی به جلوگیری از برازش بیش از حد کمک میکند، بهویژه زمانی که با دستههایی با نمونههای کوچک سروکار داریم.
این روش از قرارداد scikit-learn برای روشهای برازش در ترانسفورماتور پیروی میکند.
با بازرسی و شناسایی ستونهای طبقهبندی و ایجاد یک DataFrame موقت که فقط شامل ستونهای دستهبندی انتخاب شده از ورودی X و متغیر هدف y است، شروع میشود.
مقدار میانگین قبلی متغیر هدف محاسبه و در ویژگی قبلی ذخیره می شود. این مقدار میانگین کلی متغیر هدف را در کل مجموعه داده نشان می دهد.
سپس میانگین و تعداد متغیر هدف را برای هر دسته با استفاده از روش خوشهبندی همانطور که قبلا مشاهده شد محاسبه میکند.
یک مرحله هموارسازی اضافی برای جلوگیری از نصب مجدد دستهها با تعداد نمونه کم وجود دارد. هموارسازی بر اساس تعداد نمونه ها در هر دسته محاسبه می شود. هرچه این عدد بیشتر باشد، اثر صاف کردن کمتر است.
رمزگذاری های محاسبه شده برای هر دسته در متغیر فعلی در فرهنگ لغت رمزگذاری ذخیره می شود. این واژگان بعداً در مرحله تبدیل استفاده خواهد شد.
تبدیل داده ها
این قطعه کد، مقادیر مقولهای اصلی را با مقادیر کد شده هدف مربوطه که در به طور مستقل.
def transform(self, X):
Xt = X.copy()
for variable in self.categories:
Xt[variable].replace(self.encodings[variable],
inplace=True)
unknown_value = {value:self.prior for value in
X[variable].unique()
if value not in
self.encodings[variable].keys()}
if len(unknown_value) > 0:
Xt[variable].replace(unknown_value, inplace=True)
Xt[variable] = Xt[variable].astype(float)
if self.noise_level > 0:
if self.random_state is not None:
np.random.seed(self.random_state)
Xt[variable] = self.add_noise(Xt[variable],
self.noise_level)
return Xt
این مرحله دارای یک بررسی استحکام اضافی است تا اطمینان حاصل شود که رمزگذار هدف میتواند دستههای جدید یا دیده نشده را مدیریت کند. برای این دسته های جدید یا ناشناخته، آنها را با مقدار میانگین متغیر هدف جایگزین می کند در متغیر prior_mean ذخیره می شود.
اگر به مقاومت بیشتری در برابر برازش نیاز دارید، می توانید a را تنظیم کنید سطح_نویز بزرگتر از 0 برای اضافه کردن نویز تصادفی به مقادیر کد شده.
را تناسب_تغییر این روش کارکرد برازش و تبدیل داده را با برازش ترانسفورماتور به داده های آموزشی و سپس تبدیل آن بر اساس رمزگذاری های محاسبه شده ترکیب می کند.
حالا که فهمیدید کد چگونه کار می کند، بیایید آن را در عمل ببینیم.
#Instantiate TargetEncode class
te = TargetEncode(categories="ROLE_TITLE")
te.fit(data, data['ACTION'])
te.transform(data[['ROLE_TITLE']])
رمزگذار هدف جایگزین هر “ROLE_TITLE” شناسه با احتمال برای هر دسته. حالا بیایید همین کار را برای همه عملکردها انجام دهیم و پس از استفاده از Target Encoding میزان مصرف حافظه را بررسی کنیم.
y = data['ACTION']
features = data.drop('ACTION',axis=1)te = TargetEncode(categories=features.columns)
te.fit(features,y)
te_data = te.transform(features)
te_data.head()
memory_usage = te_data.memory_usage(deep=True)
total_memory_usage = memory_usage.sum()
print(f"\nTotal memory usage of the DataFrame: {total_memory_usage / (1024 ** 2):.2f} MB")
رمزگذاری هدف با موفقیت داده های دسته بندی را بدون ایجاد ستون های اضافی یا افزایش استفاده از حافظه به داده های عددی تبدیل می کند.
تا کنون ما کلاس هدف Encoder خود را ایجاد کردهایم، اما شما دیگر نیازی به انجام آن ندارید.
در نسخه 1.3 scikit-learn، در حدود ژوئن 2023، کلاس Target Encoder را به API خود معرفی کردند. در اینجا نحوه استفاده از کدگذاری هدفمند با Scikit Learn آورده شده است
from sklearn.preprocessing import TargetEncoder#Splitting the data
y = data['ACTION']
features = data.drop('ACTION',axis=1)
#Specify the target type
te = TargetEncoder(smooth="auto",target_type="binary")
X_trans = te.fit_transform(features, y)
#Creating a Dataframe
features_encoded = pd.DataFrame(X_trans, columns = features.columns)
توجه داشته باشید که به دلیل پارامتر صافی و تصادفی بودن سطح نویز، نتایج کمی متفاوت از کلاس رمزگذار هدف دستی دریافت می کنیم.
همانطور که می بینید، sklearn انجام تبدیل های کدگذاری هدفمند را آسان می کند. با این حال، برای درک و توضیح نتیجه، ابتدا مهم است که بفهمیم تبدیل زیر کاپوت چگونه عمل می کند.
اگرچه رمزگذاری هدف یک روش رمزگذاری قدرتمند است، اما مهم است که الزامات و ویژگی های خاص مجموعه داده خود را در نظر بگیرید و روش رمزگذاری را انتخاب کنید که به بهترین وجه نیازهای شما و الزامات الگوریتم یادگیری ماشینی را که قصد استفاده از آن را دارید برآورده کند.
[1] Banachewicz، K. & Massaron، L. (2022). کتاب Kaggle: تجزیه و تحلیل داده ها و یادگیری ماشین برای علم داده های رقابتی. بسته>
[2] ماسارون، ال. (2022، ژانویه). چالش دسترسی کارکنان آمازون بازیابی شده در 1 فوریه 2024، از https://www.kaggle.com/datasets/lucamassaron/amazon-employee-access-challenge
[3] Massaron, L. متا ویژگی ها و کدگذاری هدف. بازیابی شده در 1 فوریه 2024، از https://www.kaggle.com/luca-massaron/meta-features-and-target-encoding
[4] Scikit- Learn.sklearn.preprocessing.TargetEncoder
. در scikit-learn: یادگیری ماشین در پایتون (نسخه 1.3). بازیابی شده در 1 فوریه 2024، از https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html