نکته: فرض کنید خطاهای مدل از توزیع نرمال با میانگین صفر و انحراف استاندارد معلوم ، پیروی کنند، آنگاه ماکزیمم کردن تابع درستنمائی بر حسب ، برآورد کمترین مربعات خطا را نتیجه میدهد. اگر فرض شود که خطای مدل ()، دارای تابع چگالی احتمال به فرم
با ذکر شده باشد، در این صورت ماکزیمم کردن تابع درستنمائی مربوطه، معادل با مینیمم کردن function check است. در حقیقت یک چگالی احتمال استاندارد وجود دارد که چگالی لاپلاس نامتقارن نامیده می شود و فرم را دارد.
۲-۵- روش برآوردیابی
مدل رگرسیون چندکی پارامتری
معمولاً برای تعیین رابطه بین متغیر پاسخ و متغیرهای پیش بینیکننده ، فرض می شود که توسط یک ترکیب خطی ساده می تواند مدلبندی شود. به طور مشابه، مدل رگرسیونی چندکی ابتدائی، ارتباط خطی چندکهای شرطی به ازای را تعیین می کند. به بیان دیگر رابطه بین چندکهای %p100 متغیر و متغیرهای پیش بینیکننده ، توسط بیان می شود.
با توجه به مجموعه داده های ، پارامتر از طریق مینیمم کردن
برآورد می شود.
جواب صریح برای ضرایب رگرسیونی تحت این مدل رگرسیونی چندکی پارامتری وجود ندارد. چون check function در مبدا مشتقپذیر نیست. Koenker and D’Orey در سال ۱۹۸۷ الگوریتمی برای مینیمم کردن این تابع ارائه کردند. برنامه های مورد نیاز در S-PLUS و R موجود میباشد. در R دستور مورد نظر rq، rqs و rq.process و package مورد نظر، quantreg میباشد.
تئوری کلاسیک، فقط برای مدلبندی امیدهای شرطی به کار می رود. در حالی که نیاز، آمار را به سوی استفاده و کاربرد رگرسیون چندکی پیش برد. رگرسیون چندکی به صورت گسترده در زمینه های کاربردی مانند پزشکی، آنالیز بقا، آمار مالی و اقتصادی، اقتصاد و … به کار برده می شود. مدلهای رگرسیون چندکی پارامتری، نیمه پارامتری و ناپارامتری سالهاست که معرفی شده اند و به صورت گسترده مورد استفاده قرار میگیرند و در حال پیشرفت و بهبود روشها و الگوریتمها میباشند.
فصل سوم
رگرسیون چندکی خطی تاوانیده
۳-۱- رگرسیون چندکی خطی تاوانیده
نمونه از یک جمعیت ناشناخته را در نظر بگیرید به طوری که باشد. تابع چندکی شرطی (th quantile function conditional ) به گونه ای تعریف می شود که برای داشته باشیم:
Koenker و Bassett در سال ۱۹۷۸، با نامتقارن کردن تابع زیان قدرمطلق، تابع زیانی به نام check function را معرفی کردند که به صورت زیر تعریف می شود:
آنها نشان دادند تابع چندکی شرطی با حل مسئله مینیممگیری زیر می تواند حل شود:
(۱-۳)
برای پرهیز از بیش برازشی از لحاظ تعداد متغیرها و تعمیم رگرسیون چندکی به رگرسیون چندکی تاوانیده، مشابه آنچه Koenker و همکاران در سال ۱۹۹۴ و Koenker در سال ۲۰۰۴ انجام دادند حالت تاوانیده (۱-۳) را به صورت زیر در نظر میگیریم
(۲-۳)
جائی که ۰ پارامتر نظم (regularization parameter) است و تاوان ناهمواری تابع را مشخص می کند.
در این پایان نامه توجه را روی رگرسیون چندکی خطی متمرکز میکنیم یعنی حالتی که:
را در نظر میگیریم جائی که باشد. به عبارت دیگر تابع چندک شرطی، یک تابع خطی از متغیرهای پیش بینیکننده است. با تبدیل مدلهای غیر خطی به مدلهای خطی میتوان مبحث را برای حالت غیرخطی نیز داشت.
برای توابعی به فرم خطی، تعداد زیادی تابع تاوان وجود دارد: تاوان (که به تاوان آنتروپی نیز معروف است) توسط Breiman در سال ۱۹۹۶ در روش انتخاب بهترین زیرمجموعه مورد استفاده قرار گرفت. تاوان (LASSO) که توسط Tibshirani در سال ۱۹۹۶ مورد مطالعه قرار گرفت. تاوان که در رگرسیون ستیغی (ridge) مورد استفاده قرار میگیرد و توسط Horel و Kennard در سال ۱۹۸۸ مورد مطالعه قرار گرفت. ترکیب تاوانهای و که توسط Liu و Wu در سال ۲۰۰۷ مورد بررسی قرار گرفت. تاوانهای () در رگرسیون پلی (bridge regression) که توسط Frank و Freidman در سال ۱۹۹۳ مورد بررسی قرار گرفتند.
Fan و Li در سال ۲۰۰۱ استدلال کردند که یک تاوان خوب باید سه خاصیت نااریبی برای ضرایب بزرگ، تنکی و پیوستگی را در برآورد خود داشته باشد. متأسفانه هیچ کدام از خانواده تاوانهای این سه خاصیت را به طور همزمان ندارند. اما Fan و Li در سال ۲۰۰۱ نشان دادند که تاوان SCAD در زمینه درستنمایی تاوانیده این خواص را دارد. یک تاوان دیگر که جزء دستهبندی آخر است، تاوان LASSO انطباقی است که توسط Zou در سال ۲۰۰۶ مورد بررسی قرار گرفت.
۳-۲- رگرسیون چندکی خطی تاوانیده با تاوان LASSO
LASSO روشی است که به طور همزمان انتخاب متغیر و برآوردیابی را انجام میدهد. برآورد LASSO در رگرسیون چندکی خطی به صورت زیر تعریف می شود:
(۳-۳)
جائی که λ پارامتر نظم نامنفی است. عبارت دوم (۳-۳) تاوان است که برای دستیابی به برآورد LASSO ضروری است. LASSO با بزرگ شدن λ، ضرایب را به طور پیوسته به سمت صفر کوچک می کند و اگر λ به اندازه کافی بزرگ باشد مقدار دقیق بعضی از ضرایب، صفر خواهد شد.
۳-۳- رگرسیون چندکی خطی تاوانیده با تاوان LASSO انطباقی
LASSO انطباقی به عنوان تعمیم تاوان LASSO می تواند در نظر گرفته شود. ایده کار چنین است که ضرایب متغیرهای کمکی (covariates) مختلف در سطحهای مختلف با
وزنهای انطباقی، تاوان داده شوند.
Zou در سال ۲۰۰۶ برای حالت رگرسیون کمترین مربعات پیشنهاد کرد از برآوردهای کمترین مربعات معمولی به ت
وان عددی، به عنوان وزن استفاده شود. تعمیم مستقیم این روش برای رگرسیون چندکی این است که از برآوردهای رگرسیون چندکی ناتاوانیده (non-penalized quantile regression) به عنوان وزن استفاده شود. قرار دهید:
برآورد سازگار برای است. بنابراین رگرسیون چندکی LASSO انطباقی تاوانیده (adaptive-LASSO penalized quantile regression) عبارت زیر را بر حسب مینیمم می کند:
که در آن برای ۰ای که به صورت مناسب اختیار شده، برای j=1,2,…,d داریم:
۳-۴- رگرسیون چندکی خطی تاوانیده با تاوان SCAD
Fan و Li در سال ۲۰۰۱ خواص پیشگویی SCAD را در زمینه انتخاب متغیر نشان دادند و حدس زدند که تاوان LASSO خواص پیشگویی را ندارد. این حدس، پس از آن، توسط Zou درسال ۲۰۰۶ تأیید شد. او LASSO انطباقی را پیشنهاد کرد و خواص پیشگویی آن را در رگرسیون کمترین مربعات تاوانیده نشان داد.
تاوان SCAD بر حسب مشتق اولش تعریف می شود و حول مبدأ متقارن است. برای ۰، مشتق اول آن به صورت زیر است:
(۴-۳)
جایی که ۲ و ۰ ، پارامترهای میزانسازی هستند. توجه داشته باشید که تابع تاوان SCAD، متقارن است، روی بازهی نامحدب است و در مبدأ مشتقپذیر نیست. یک نمونه از تابع تاوان SCAD در نمودار ۵ نشان داده شده است. میتوان مشاهده کرد که حول مبدأ رفتاری شبیه به تاوان LASSO دارد که به خاصیت تنکی میانجامد. اما SCAD ضرایب بزرگ را به طور مساوی و ثابت تاوان میدهد در حالی که تاوان LASSO با افزایش مقدار ضرایب، به صورت خطی افزایش مییابد. از این طریق، تاوان SCAD برآوردهای تاوانیده نااریب را برای ضرایب بزرگ نتیجه میدهد. پس از قرار دادن تاوان SCAD در (۲-۳) با تابع خطی ، رگرسیون چندکی SCAD تاوانیده (SCAD penalized quantile regression)، باید مسئله مینیممگیری زیر را حل کند:
نمودار ۵: نمونه ای از نمودار تابع SCAD برای۷/۳= و ۲=
نمودار ۶: نمودار تابع LASSO
فصل چهارم
خواص مجانبی
۴-۱- خواص مجانبی (asymptotic properties)