هوش مصنوعی

مهندسی ویژگی یا Feature Engineering چیست؟

بازدید: 70 آخرین به‌روزرسانی: 08 شهریور 1404

مقدمه

یادگیری ماشین (Machine Learning) نقش حیاتی در تبدیل داده‌ها به بینش ارزشمند ایفا می‌کند. اما موفقیت یک مدل یادگیری ماشین نه تنها به الگوریتم‌های پیچیده بستگی دارد، بلکه بیشتر به کیفیت ورودی‌های آن وابسته است. اینجا است که مهندسی ویژگی (Feature Engineering) وارد میدان می‌شود. مهندسی ویژگی فرآیند تبدیل داده‌های خام به ویژگی‌های مفید و معنادار است که مدل‌های یادگیری ماشین بتوانند از آن‌ها برای پیش‌بینی‌های دقیق‌تر استفاده کنند.

طبق گزارش‌های اخیر، مهندسی ویژگی می‌تواند دقت مدل‌ها را تا 23% افزایش دهد(1). این فرآیند نه تنها زمان توسعه مدل را کاهش می‌دهد، بلکه به کاهش پیچیدگی مدل و جلوگیری از بیش‌برازش (Overfitting) کمک می‌کند. در این مقاله، به بررسی تعریف، اهمیت، روش‌ها، روندهای نوین در سال 2025، ابزارها، و مثال‌های کاربردی مهندسی ویژگی می‌پردازیم. هدف این است که خوانندگان بتوانند از این محتوای مفید برای یادگیری و کاربرد عملی بهره ببرند.

تعریف مهندسی ویژگی

مهندسی ویژگی به عنوان یکی از مراحل کلیدی در چرخه یادگیری ماشین، شامل انتخاب، تبدیل، و ایجاد ویژگی‌های جدید از داده‌های خام است. به عبارت ساده، این فرآیند، داده‌ها را از حالت خام و نامنظم به فرمی تبدیل می‌کند که الگوریتم‌های یادگیری ماشین بتوانند به راحتی الگوها را شناسایی کنند.

برای مثال، در داده‌های زمانی، استخراج ویژگی‌هایی مانند روز-هفته یا فاصله زمانی از رویدادها می‌تواند الگوهای پنهان را آشکار سازد. طبق تعریف IBM، مهندسی ویژگی، داده‌های خام را به فرمت قابل خواندن برای ماشین تبدیل می‌کند و عملکرد مدل را بهینه‌سازی می‌نماید. این مرحله اغلب با استفاده از دانش دامنه (Domain Knowledge) انجام می‌شود تا ویژگی‌ها بیشترین ارتباط را با مسئله داشته باشند.

اهمیت مهندسی ویژگی را نمی‌توان نادیده گرفت، زیرا مستقیماً بر عملکرد مدل تأثیر می‌گذارد. مطالعات نشان می‌دهد که ویژگی‌های خوب می‌توانند دقت مدل را به طور قابل توجهی افزایش دهند و پیچیدگی را کاهش دهند. برای نمونه، در یک مطالعه موردی (1)، استفاده از سه ویژگی مهندسی‌شده، نرخ تحویل به‌موقع را از 48% به 56% افزایش داد.

علاوه بر این، مهندسی ویژگی به بهبود تفسیرپذیری مدل کمک می‌کند، که در صنایع حساس مانند بهداشت و مالی ضروری است. طبق گزارش‌های 2025، 57% از آگهی‌های شغلی مهندسان یادگیری ماشین، اولویت را به متخصصان با دانش دامنه می‌دهند، زیرا این دانش مستقیماً به مهندسی ویژگی مرتبط است. بدون مهندسی ویژگی مناسب، حتی بهترین الگوریتم‌ها ممکن است شکست بخورند، زیرا "اگر ورودی زباله و نامعتبر باشد خروجی نیز زباله و نامعتبر است " (Garbage In, Garbage Out).

روش‌های اصلی مهندسی ویژگی

مدیریت داده‌های گمشده:

داده‌های گمشده (Missing Values) زمانی رخ می‌دهند که برخی از مقادیر در مجموعه داده موجود نباشند، مثلاً وقتی یک کاربر در یک فرم اطلاعاتی مانند سن یا درآمد را وارد نکرده است. مدیریت این داده‌ها مهم است، زیرا مدل‌های یادگیری ماشین معمولاً نمی‌توانند با مقادیر گمشده کار کنند. روش‌های مدیریت داده‌های گمشده شامل موارد زیر است:

پر کردن مقادیر گمشده (Imputation):

با استفاده از میانگین یا میانه: برای داده‌های عددی، می‌توان مقادیر گمشده را با میانگین (متوسط) یا میانه (مقدار وسط) کل داده‌ها پر کرد. مثلاً اگر سن برخی افراد در یک مجموعه داده مشخص نباشد، میانگین سنی بقیه افراد را جایگزین می‌کنیم. این روش ساده است اما ممکن است اطلاعات دقیق را کمی مخدوش کند.
روش‌های پیشرفته مانند KNN یا Autoencoders: در روش K-Nearest Neighbors (KNN)، مقادیر گمشده با توجه به داده‌های مشابه (همسایه‌های نزدیک) پر می‌شوند. مثلاً اگر داده سن یک نفر گم شده باشد، میانگین سن افرادی که مشخصات مشابه (مثل شغل یا محل زندگی) دارند استفاده می‌شود. Autoencoders (نوعی شبکه عصبی) نیز می‌توانند الگوهای پیچیده در داده‌ها را یاد بگیرند و مقادیر گمشده را به صورت هوشمند پر کنند.

حذف ردیف‌ها یا ستون‌ها:

اگر تعداد داده‌های گمشده زیاد باشد یا ستونی بیش از حد داده گمشده داشته باشد (مثلاً 70% داده‌ها)، می‌توان آن ردیف یا ستون را حذف کرد. این روش ساده است اما ممکن است اطلاعات مهمی را از دست بدهیم.

استفاده از نشانگرهای گمشده:

به جای پر کردن یا حذف، می‌توان یک ستون جدید ایجاد کرد که نشان دهد آیا داده گمشده است یا خیر (مثلاً 0 برای موجود و 1 برای گمشده). این کار می‌تواند به مدل کمک کند تا الگوهای مرتبط با نبود داده را شناسایی کند.

کدگذاری متغیرهای دسته‌ای

داده‌های دسته‌ای (Categorical Data) شامل مقادیر غیرعددی مثل "رنگ" (قرمز، آبی، سبز) یا "شهر" (تهران، شیراز، مشهد) هستند. مدل‌های یادگیری ماشین معمولاً با اعداد کار می‌کنند، بنابراین باید این داده‌ها را به اعداد تبدیل کنیم. روش‌های کدگذاری عبارتند از:

One-Hot Encoding: برای داده‌های اسمی (داده‌هایی که ترتیب خاصی ندارند، مثل رنگ)، هر دسته به یک ستون باینری (0 یا 1) تبدیل می‌شود. مثلاً برای ستون "رنگ" با مقادیر قرمز، آبی، سبز، سه ستون جدید ایجاد می‌شود: "رنگ_قرمز"، "رنگ_آبی"، "رنگ_سبز". اگر رنگ یک نمونه قرمز باشد، ستون "رنگ_قرمز" مقدار 1 و بقیه 0 می‌گیرند. این روش ساده است اما برای دسته‌های زیاد، تعداد ستون‌ها زیاد می‌شود.

Label Encoding (کدگذاری برچسبی): برای داده‌های ترتیبی (داده‌هایی که ترتیب دارند، مثل "کم"، "متوسط"، "زیاد")، هر دسته به یک عدد اختصاص می‌یابد (مثلاً کم=0، متوسط=1، زیاد=2). این روش برای مدل‌هایی که ترتیب را درک می‌کنند (مثل درخت تصمیم) مناسب است.

Target Encoding (کدگذاری هدف): در این روش، هر دسته با میانگین متغیر هدف (مثلاً فروش یا احتمال خرید) جایگزین می‌شود. مثلاً اگر متغیر هدف "خرید" باشد و میانگین خرید برای دسته "تهران" 0.7 باشد، هر نمونه با شهر تهران به عدد 0.7 کدگذاری می‌شود. این روش قوی است اما باید با احتیاط استفاده شود، زیرا ممکن است باعث نشت داده (Data Leakage) و بیش‌برازش شود.

تبدیل ویژگی‌های عددی (Numerical Transformations)

داده‌های عددی (مثل سن، درآمد، یا وزن) گاهی نیاز به تبدیل دارند تا برای مدل‌های یادگیری ماشین مناسب‌تر شوند. این تبدیل‌ها شامل موارد زیر است:

مقیاس‌بندی (Scaling): داده‌های عددی ممکن است در مقیاس‌های متفاوتی باشند (مثلاً سن بین 0 تا 100، درآمد بین 0 تا چند میلیون). مقیاس‌بندی داده‌ها را به یک محدوده مشخص (مثل 0 تا 1 یا میانگین 0 و انحراف معیار 1) می‌برد. ابزارهای رایج شامل:

StandardScaler: داده‌ها را به میانگین 0 و انحراف معیار 1 تبدیل می‌کند.

MinMaxScaler: داده‌ها را به محدوده 0 تا 1 می‌برد.

این کار باعث می‌شود مدل‌هایی مثل رگرسیون یا شبکه‌های عصبی بهتر عمل کنند.

تبدیل‌های لگاریتمی: برای داده‌هایی که پراکندگی زیادی دارند یا شامل مقادیر خیلی بزرگ (outliers) هستند، تبدیل لگاریتمی (مثل log(x)) می‌تواند داده‌ها را فشرده کند و توزیع را نرمال‌تر کند. مثلاً اگر درآمد برخی افراد خیلی بالا باشد، لگاریتم گرفتن از درآمد می‌تواند اثر آن‌ها را متعادل کند.

پیاله‌بندی (Binning): داده‌های پیوسته (مثل سن) را به دسته‌های گسسته تبدیل می‌کند. مثلاً سن را به دسته‌های "جوان" (0-30)، "میانسال" (30-60)، و "مسن" (60+) تقسیم می‌کنیم. این کار برای ساده‌سازی داده‌ها و کشف الگوهای جدید مفید است.

ایجاد ویژگی‌های تعاملی

ویژگی‌های تعاملی (Interaction Features) ویژگی‌های جدیدی هستند که از ترکیب یا تعامل بین دو یا چند ویژگی موجود ساخته می‌شوند. این کار به مدل کمک می‌کند تا روابط پیچیده‌تر بین داده‌ها را کشف کند. مثلاً اگر دو ویژگی "تعداد کلیک‌ها" و "زمان صرف‌شده" داشته باشید، می‌توانید ویژگی جدیدی به نام "نرخ کلیک" (تعداد کلیک‌ها تقسیم بر زمان) بسازید.

این ویژگی‌ها معمولاً با دانش دامنه ایجاد می‌شوند، زیرا باید منطقی و معنادار باشند. مثلاً در یک وب‌سایت، نرخ کلیک می‌تواند نشان‌دهنده تعامل کاربر باشد.

تکنیک‌های پیشرفته

تکنیک‌های پیشرفته‌تر مهندسی ویژگی برای مسائل پیچیده‌تر یا داده‌های خاص استفاده می‌شوند. این تکنیک‌ها عبارتند از:

ویژگی‌های مبتنی بر زمان:

لگ (Lag): استفاده از مقادیر قبلی یک متغیر زمانی، مثلاً فروش دیروز برای پیش‌بینی فروش امروز.

پنجره‌های غلتان (Rolling Windows): محاسبه میانگین یا مجموع داده‌ها در یک بازه زمانی خاص، مثل میانگین فروش 7 روز گذشته.

رمزگذاری فوریه (Fourier Encoding): برای داده‌های دوره‌ای (مثل فروش فصلی)، از تبدیل فوریه برای استخراج الگوهای سینوسی استفاده می‌شود.

ویژگی‌های متن:

TF-IDF (Term Frequency-Inverse Document Frequency): برای تبدیل متن به اعداد، کلمات مهم‌تر وزن بیشتری می‌گیرند. مثلاً در تحلیل نظرات مشتریان، کلمات کلیدی مثل "کیفیت" مهم‌تر از "و" هستند.

Word Embeddings (مانند Word2Vec یا BERT): کلمات یا جملات را به بردارهای عددی تبدیل می‌کند که معنای آن‌ها را حفظ می‌کنند. مثلاً "خوب" و "عالی" در فضای بردار نزدیک به هم هستند.

کاهش بعدیت (Dimensionality Reduction):

PCA (تحلیل مولفه‌های اصلی): داده‌ها را به تعداد کمتری ویژگی تبدیل می‌کند، در حالی که اطلاعات اصلی حفظ می‌شود.

Autoencoders: شبکه‌های عصبی که داده‌ها را فشرده و بازسازی می‌کنند.

UMAP: روشی مدرن برای کاهش ابعاد، به‌ویژه برای داده‌های پیچیده و غیرخطی.

روندهای نوین در مهندسی ویژگی

سال 2025 شاهد تحولات چشمگیری در مهندسی ویژگی است، که عمدتاً توسط هوش مصنوعی و مدل‌های پایه (Foundation Models) ایجاد می‌شود. برخی روندهای کلیدی عبارتند از:

مهندسی ویژگی خودکار (Automated Feature Engineering): پلتفرم‌های AutoML مانند Google Cloud AutoML یا Featuretools، هزاران ویژگی بالقوه را تولید و ارزیابی می‌کنند، که زمان را تا 50% کاهش می‌دهد. این روند در میان روندهای یادگیری ماشین برجسته است.

ادغام با مدل‌های پایه و یادگیری عمیق: مدل‌هایی مانند GPT-4 و BERT، ویژگی‌ها را به طور خودکار استخراج می‌کنند و نیاز به مهندسی دستی را کاهش می‌دهند. این تغییر، گردش کار یادگیری ماشین را ساده‌تر کرده و به سمت مهندسی پرسش (Prompt Engineering) سوق می‌دهد.

رویکردهای هیبریدی: ترکیب دانش انسانی با مدل‌های بزرگ زبانی (LLMs) برای کشف ویژگی‌های نوین، که بازار یادگیری ماشین را تا بیش از 500 میلیارد دلار تا سال 2030 رشد می‌دهد.

تمرکز بر تفسیرپذیری و داده‌های واقعی‌زمان: با ابزارهایی مانند SHAP برای انتخاب ویژگی و پردازش داده‌های واقعی‌زمان در مهندسی پلتفرم.

این روندها مهندسی ویژگی را پویاتر و یکپارچه‌تر با فناوری‌های نوین می‌کنند.

ابزارها و کتابخانه‌ها

برای اجرای مهندسی ویژگی، ابزارهای قدرتمندی وجود دارد:

پایتون: Pandas برای دستکاری داده، Scikit-learn برای تبدیل‌ها، Feature-engine برای pipeline تولید.

اتوماتیک: Featuretools برای سنتز ویژگی عمیق، DataRobot برای محیط‌های سازمانی.

یادگیری عمیق: TensorFlow یا PyTorch برای embeddings.

این ابزارها، یادگیری و کاربرد را آسان می‌کنند.

کاربردهای مهندسی ویژگی

مهندسی ویژگی، موتور نامرئی پشت برخی از چشمگیرترین کاربردهای هوش مصنوعی است:

سیستم‌های توصیه‌گر تجارت الکترونیک: چطور کانال‌های تلویزیونی دیجیتال می‌دانند شما عاشق یک سریال جنایی ایسلندی کمتر شناخته‌شده خواهید شد؟ فقط به خاطر فیلم‌هایی که تماشا کرده‌اید نیست! این جادو به ویژگی‌هایی مثل «ساعت تماشای فیلم در روز»، «میانگین مدت تماشا در روزهای سه‌شنبه»، و ویژگی‌های تعاملی که تاریخچه تماشای شما را با میلیون‌ها کاربر دیگر ترکیب می‌کند، بستگی دارد. یک مطالعه موردی نشان داد که با درک بهتر الگوهای رفتار کاربران، دقت سیستم توصیه‌گر تا 23% افزایش یافت.

بهبود تشخیص پزشکی در حوزه سلامت: یادداشت‌های یک پزشک، گنجینه‌ای از متن‌های بدون ساختار هستند. با استفاده از پردازش زبان طبیعی (NLP) برای مهندسی ویژگی‌هایی که علائم، تاریخچه بیمار و پاسخ به درمان‌ها را کمی‌سازی می‌کنند، مدل‌ها می‌توانند خطر بیماری را با دقت شگفت‌انگیزی پیش‌بینی کنند.

پیشنهاد می‌شود مقاله پردازش زبان طبیعی را از اینجا مطالعه کنید.

تشخیص تقلب در حوزه مالی: سرعت و زمینه (Context) در این حوزه حرف اول را می‌زنند. ویژگی‌هایی مثل «فرکانس تراکنش‌ها از آدرس‌های IP جدید در یک ساعت گذشته» یا «نسبت مقدار تراکنش فعلی به میانگین 30 روزه» به صورت بلادرنگ ایجاد می‌شوند تا تقلب را قبل از وقوع متوقف کنند.

نگهداری پیش‌بینانه در تولید: داده‌های حسگر از یک موتور جت، فقط جریانی از اعداد هستند. اما وقتی ویژگی‌هایی مثل «امتیاز ناهنجاری لرزش» یا «نرخ افزایش دما در 5 دقیقه گذشته» را مهندسی کنید، می‌توانید خرابی قطعات را هفته‌ها زودتر پیش‌بینی کنید، میلیون‌ها دلار صرفه‌جویی کنید و از فاجعه جلوگیری کنید.

توسعه شغلی و مهارت‌سازی

شرکت‌ها به شدت به دنبال افراد با مهارت‌های قوی در یادگیری ماشین هستند. این مهارت‌ها در 77% از آگهی‌های شغلی دیده می‌شوند و حقوق‌ها هم این تقاضا را نشان می‌دهند. نقش‌های سطح ابتدایی حالا به طور متوسط 152,000 دلار حقوق دارند، که جهشی بزرگ نسبت به سال گذشته است (365 Data Science، 2025). تسلط بر مهندسی ویژگی یکی از مستقیم‌ترین مسیرها برای به دست آوردن یکی از این موقعیت‌های برتر است.

جعبه ابزار حرفه‌ای مهندسی ویژگی:

تسلط بر پایتون: باید در Pandas و Scikit-learn روان باشید. این‌ها زبان این حرفه هستند.

شهود داده‌ای: درک عمیق از انواع داده‌ها و زمان استفاده از هر تبدیل.

ذهنیت کارآگاهی: توانایی نگاه به داده‌ها و پرسیدن: «چه داستانی می‌خواهی به من بگویی؟» اینجا است که تخصص دامنه به ابرقدرت شما تبدیل می‌شود.

دقت آماری: باید توزیع‌ها، آزمون فرضیه‌ها، و تأثیر آماری انتخاب‌هایتان را درک کنید.

تسلط بر اتوماسیون و MLOps: دانستن نحوه استفاده از ابزارهای خودکار برای تسریع جریان کار و ساخت لوله‌کشی‌های قوی برای تولید.

آمار کلیدی:

152,000 دلار: میانگین حقوق مهندسان یادگیری ماشین در سطح ابتدایی (2025)

77%: درصد آگهی‌های شغلی که به مهارت‌های یادگیری ماشین نیاز دارند

محدوده طلایی حقوق در سال 2025 بین 160,000 تا 200,000 دلار است، و نقش‌های ارشد حتی فراتر از این می‌روند. جالب اینجاست که نیویورک حالا در رقابت با سیلیکون ولی پیشتاز است، و کار از راه دور درها را به روی استعدادهای جهانی باز کرده است. برای ترسیم مسیر شغلی‌تان، مطالعه راهنمای مهندس یادگیری ماشین چیست و چگونه یک مهندس یادگیری ماشین شویم از وبلاگ ابررایانه سیمرغ ضروری است.

جمع‌بندی

مهندسی ویژگی، به عنوان ستون فقرات یادگیری ماشین، نقش کلیدی در تبدیل داده‌های خام به مدل‌های قدرتمند ایفا می‌کند. با تکنیک‌های متنوع، روندهای نوین مانند خودکارسازی و ادغام با مدل‌های پایه، و ابزارهای پیشرفته، این حوزه در سال 2025 بیش از پیش اهمیت یافته است. یادگیری این مهارت نه تنها دقت مدل‌ها را افزایش می‌دهد، بلکه فرصت‌های شغلی را گسترش می‌بخشد. پیشنهاد می‌شود با تمرین روی داده‌های واقعی و ابزارهای معرفی‌شده، این دانش را کاربردی کنید. آینده یادگیری ماشین در دست کسانی است که ویژگی‌ها را به درستی مهندسی می‌کنند.