ریاضیات روی انگشتان: روش های حداقل مربعات. تقریب داده های تجربی

که بیشترین کاربرد را در زمینه های مختلف علمی و فعالیت عملی پیدا می کند. این می تواند فیزیک، شیمی، زیست شناسی، اقتصاد، جامعه شناسی، روانشناسی، و غیره و غیره باشد. به خواست سرنوشت، من اغلب باید با اقتصاد سر و کار داشته باشم، و بنابراین امروز برای شما سفری به کشوری شگفت انگیز به نام اقتصاد سنجی=) ...چطور نمیخوای؟! آنجا خیلی خوب است - فقط باید تصمیم خود را بگیرید! اما چیزی که احتمالاً قطعاً می خواهید این است که یاد بگیرید چگونه مشکلات را حل کنید روش حداقل مربعات. و به خصوص خوانندگان سخت کوش یاد خواهند گرفت که آنها را نه تنها به طور دقیق، بلکه بسیار سریع حل کنند ;-) اما ابتدا بیان کلی مشکل+ مثال همراه:

اجازه دهید شاخص هایی را در یک حوزه موضوعی خاص مطالعه کنیم که بیان کمی دارند. در عین حال، دلایل زیادی برای این باور وجود دارد که شاخص به شاخص بستگی دارد. این فرض می تواند یک فرضیه علمی یا مبتنی بر عقل سلیم اولیه باشد. با این حال، بیایید علم را کنار بگذاریم و مناطق اشتها آورتر - یعنی فروشگاه های مواد غذایی - را بررسی کنیم. بیایید نشان دهیم:

- منطقه خرده فروشی یک فروشگاه مواد غذایی، متر مربع،
- گردش مالی سالانه یک فروشگاه مواد غذایی، میلیون روبل.

کاملاً واضح است که هر چه مساحت فروشگاه بزرگتر باشد، در اکثر موارد گردش مالی آن بیشتر خواهد بود.

فرض کنید پس از انجام مشاهدات / آزمایش ها / محاسبات / رقص با یک تنبور، داده های عددی در اختیار ماست:

در مورد فروشگاه های مواد غذایی، فکر می کنم همه چیز روشن است: - این منطقه اولین فروشگاه است، - گردش مالی سالانه آن، - منطقه فروشگاه دوم، - گردش مالی سالانه آن و غیره. به هر حال، دسترسی به مواد طبقه بندی شده اصلاً ضروری نیست - ارزیابی نسبتاً دقیقی از گردش مالی تجاری را می توان با استفاده از آمار ریاضی. با این حال، بیایید منحرف نشویم، دوره جاسوسی تجاری قبلاً پرداخت شده است =)

داده های جدولی را نیز می توان به صورت نقطه نوشت و به شکل آشنا به تصویر کشید سیستم دکارتی .

بیایید به یک سوال مهم پاسخ دهیم: برای یک مطالعه کیفی چند امتیاز لازم است؟

هرچه بزرگتر بهتر. حداقل مجموعه قابل قبول شامل 5-6 امتیاز است. علاوه بر این، زمانی که مقدار داده کم باشد، نتایج "غیر عادی" نمی توانند در نمونه گنجانده شوند. بنابراین، برای مثال، یک فروشگاه کوچک نخبه می‌تواند سفارش‌های بزرگ‌تری نسبت به «همکارانش» به دست آورد، در نتیجه الگوی کلی را که باید پیدا کنید، مخدوش می‌کند!

به بیان ساده، باید یک تابع را انتخاب کنیم، برنامهکه تا حد امکان نزدیک به نقاط می گذرد . این تابع نامیده می شود تقریبی (تقریبی - تقریبی)یا عملکرد نظری . به طور کلی، یک "مقابل" آشکار بلافاصله در اینجا ظاهر می شود - یک چند جمله ای درجه بالا، که نمودار آن از تمام نقاط عبور می کند. اما این گزینه پیچیده است و اغلب به سادگی نادرست است. (از آنجایی که نمودار همیشه "حلقه" می شود و روند اصلی را به خوبی منعکس می کند).

بنابراین، تابع جستجو باید کاملاً ساده باشد و در عین حال به اندازه کافی وابستگی را منعکس کند. همانطور که ممکن است حدس بزنید، یکی از روش های یافتن چنین توابعی نامیده می شود روش حداقل مربعات. ابتدا اجازه دهید به ماهیت آن به صورت کلی نگاه کنیم. اجازه دهید برخی از تابع ها داده های تجربی را تقریبی کنند:


چگونه می توان صحت این تقریب را ارزیابی کرد؟ اجازه دهید تفاوت (انحرافات) بین مقادیر تجربی و عملکردی را نیز محاسبه کنیم (ما نقاشی را مطالعه می کنیم). اولین فکری که به ذهن می رسد این است که تخمین بزنیم مجموع چقدر است، اما مشکل اینجاست که تفاوت ها می تواند منفی باشد. (مثلا، ) و انحرافات در نتیجه چنین جمع آوری یکدیگر را خنثی می کنند. بنابراین، به عنوان تخمینی از دقت تقریب، التماس می شود که جمع را در نظر بگیرید ماژول هاانحرافات:

یا فرو ریخت: (در صورتی که کسی نداند: - این نماد جمع است و - یک متغیر کمکی - "counter" که مقادیری از 1 تا را می گیرد).

با تقریب نقاط تجربی با توابع مختلف مقادیر متفاوتی بدست می آوریم و بدیهی است که در جایی که این مجموع کوچکتر است آن تابع دقیقتر است.

چنین روشی وجود دارد و به آن می گویند روش حداقل مدول. با این حال، در عمل بسیار گسترده تر شده است روش حداقل مربعات، که در آن مقادیر منفی احتمالی نه توسط ماژول، بلکه با مربع کردن انحرافات حذف می شوند:

، پس از آن تلاش ها برای انتخاب تابعی به گونه ای است که مجموع انحرافات مجذور باشد تا حد امکان کوچک بود در واقع، نام روش از اینجا آمده است.

و اکنون به یک نکته مهم دیگر باز می گردیم: همانطور که در بالا ذکر شد، تابع انتخاب شده باید کاملاً ساده باشد - اما بسیاری از توابع از این دست نیز وجود دارد: خطی , هذلولی, نمایی, لگاریتمی, درجه دوم و غیره. و البته در اینجا من بلافاصله می خواهم "زمینه فعالیت را کاهش دهم." کدام دسته از توابع را برای تحقیق انتخاب کنم؟ یک تکنیک بدوی اما موثر:

- ساده ترین راه این است که نقاط را به تصویر بکشید بر روی نقاشی و تجزیه و تحلیل مکان آنها. اگر آنها تمایل به دویدن در یک خط مستقیم دارند، پس باید به دنبال آن باشید معادله یک خط با مقادیر بهینه و . به عبارت دیگر، وظیفه یافتن چنین ضرایبی است که مجموع مجذور انحرافات کوچکترین باشد.

اگر نقاط، به عنوان مثال، در امتداد قرار دارند هذلولی، پس واضح است که تابع خطی تقریب ضعیفی به دست می دهد. در این مورد، ما به دنبال "مطلوب ترین" ضرایب برای معادله هذلولی هستیم - آنهایی که حداقل مجموع مربع ها را می دهند .

حال توجه داشته باشید که در هر دو مورد ما صحبت می کنیم توابع دو متغیر، که استدلال های آن است پارامترهای وابستگی جستجو شده:

و اساساً ما باید یک مشکل استاندارد را حل کنیم - پیدا کردن حداقل تابع دو متغیر.

بیایید مثال خود را به خاطر بسپاریم: فرض کنید که نقاط "فروشگاه" در یک خط مستقیم قرار دارند و دلایل زیادی برای این باور وجود دارد که وابستگی خطیگردش مالی از فضای خرده فروشی بیایید چنین ضرایبی "a" و "be" را پیدا کنیم به طوری که مجموع انحرافات مجذور کوچکترین بود همه چیز طبق معمول است - اول مشتقات جزئی مرتبه 1. مطابق با قانون خطی بودنمی توانید درست در زیر نماد جمع متمایز کنید:

اگر می‌خواهید از این اطلاعات برای مقاله یا مقاله ترم استفاده کنید، از پیوند موجود در فهرست منابع بسیار سپاسگزار خواهم بود، چنین محاسبات مفصلی را در چند جا پیدا خواهید کرد.

بیایید یک سیستم استاندارد ایجاد کنیم:

هر معادله را "دو" کاهش می دهیم و علاوه بر این، مجموع را "تقسیم" می کنیم:

توجه داشته باشید : به طور مستقل تجزیه و تحلیل کنید که چرا "a" و "be" را می توان فراتر از نماد جمع خارج کرد. به هر حال، به طور رسمی این را می توان با مجموع انجام داد

بیایید سیستم را به شکل "کاربردی" بازنویسی کنیم:

پس از آن الگوریتم برای حل مشکل ما شروع به ظهور می کند:

آیا مختصات نقاط را می دانیم؟ ما میدانیم. مبالغ آیا می توانیم آن را پیدا کنیم؟ به آسانی. بیایید ساده ترین ها را بسازیم سیستم دو معادله خطی در دو مجهول(«الف» و «بودن»). ما سیستم را حل می کنیم، به عنوان مثال، روش کرامر، در نتیجه یک نقطه ثابت به دست می آوریم. چک کردن شرایط کافی برای یک افراطی، می توانیم تأیید کنیم که در این مرحله تابع دقیقا می رسد کمترین. چک شامل محاسبات اضافی است و بنابراین ما آن را در پشت صحنه رها می کنیم (در صورت لزوم، قاب گم شده قابل مشاهده است). نتیجه نهایی را می گیریم:

تابع بهترین راه (حداقل در مقایسه با هر تابع خطی دیگری)نقاط تجربی را به هم نزدیک می کند . به طور کلی، نمودار آن تا حد ممکن به این نقاط نزدیک می شود. در سنت اقتصاد سنجیتابع تقریبی حاصل نیز نامیده می شود معادله رگرسیون خطی زوجی .

مسئله مورد بررسی اهمیت عملی زیادی دارد. در وضعیت مثال ما، معادله به شما اجازه می دهد تا پیش بینی کنید که چه گردش تجاری ("ایگرک")فروشگاه در یک یا دیگر ارزش منطقه فروش خواهد داشت (یک یا معنای دیگری از "x"). بله، پیش بینی حاصل فقط یک پیش بینی خواهد بود، اما در بسیاری از موارد کاملاً دقیق خواهد بود.

من فقط یک مشکل را با اعداد "واقعی" تجزیه و تحلیل می کنم ، زیرا هیچ مشکلی در آن وجود ندارد - همه محاسبات در سطح برنامه درسی مدرسه کلاس 7-8 است. در 95 درصد موارد، از شما خواسته می شود که فقط یک تابع خطی را پیدا کنید، اما در انتهای مقاله نشان خواهم داد که یافتن معادلات هذلولی بهینه، نمایی و برخی دیگر از توابع دشوارتر نیست.

در واقع، تنها چیزی که باقی می ماند توزیع خوبی های وعده داده شده است - به طوری که می توانید یاد بگیرید که چنین نمونه هایی را نه تنها با دقت، بلکه به سرعت حل کنید. ما استاندارد را با دقت مطالعه می کنیم:

وظیفه

در نتیجه مطالعه رابطه بین دو شاخص، جفت اعداد زیر به دست آمد:

با استفاده از روش حداقل مربعات، تابع خطی را که بهترین تقریب تجربی را دارد، پیدا کنید (با تجربه)داده ها. یک نقاشی بکشید که بر روی آن نقاط آزمایشی و نموداری از تابع تقریبی در یک سیستم مختصات مستطیلی دکارتی ساخته شود. . مجموع مجذور انحرافات بین مقادیر تجربی و نظری را بیابید. ببینید آیا این ویژگی بهتر است یا خیر (از دیدگاه روش حداقل مربعات)نقاط تجربی را به هم نزدیک کنید.

لطفاً توجه داشته باشید که معانی "x" طبیعی هستند و این یک معنای معنی دار مشخصه دارد که کمی بعد در مورد آن صحبت خواهم کرد. اما آنها، البته، می توانند کسری نیز باشند. علاوه بر این، بسته به محتوای یک کار خاص، هر دو مقدار "X" و "بازی" می توانند به طور کامل یا تا حدی منفی باشند. خوب، یک وظیفه "بی چهره" به ما داده شده است و ما آن را شروع می کنیم راه حل:

ما ضرایب تابع بهینه را به عنوان یک راه حل برای سیستم پیدا می کنیم:

به منظور ضبط فشرده تر، متغیر "counter" را می توان حذف کرد، زیرا از قبل واضح است که جمع بندی از 1 تا .

محاسبه مقادیر مورد نیاز به صورت جدول راحت تر است:


محاسبات را می توان بر روی یک ریز محاسبه گر انجام داد، اما استفاده از Excel بسیار بهتر است - هم سریعتر و هم بدون خطا. تماشای یک ویدیوی کوتاه:

بنابراین، موارد زیر را بدست می آوریم سیستم:

در اینجا می توانید معادله دوم را در 3 ضرب کنید و عدد 2 را از معادله 1 کم کنید. اما این شانس است - در عمل، سیستم ها اغلب یک هدیه نیستند و در چنین مواردی باعث صرفه جویی می شود روش کرامر:
، به این معنی که سیستم یک راه حل منحصر به فرد دارد.

بیایید بررسی کنیم. می‌دانم که شما نمی‌خواهید، اما چرا از خطاهایی که نمی‌توان آنها را مطلقاً از دست داد، رد شد؟ اجازه دهید جواب یافت شده را در سمت چپ هر معادله سیستم جایگزین کنیم:

سمت راست معادلات مربوطه به دست می آید که به این معنی است که سیستم به درستی حل شده است.

بنابراین، تابع تقریبی مورد نظر: – از همه توابع خطیاین اوست که داده های تجربی را به بهترین شکل تقریب می کند.

بر خلاف سر راست وابستگی گردش مالی فروشگاه به مساحت آن، وابستگی یافت شده است معکوس (اصل "هرچه بیشتر، کمتر")، و این واقعیت بلافاصله توسط منفی آشکار می شود شیب. تابع به ما می گوید که با افزایش 1 واحد در یک شاخص خاص، مقدار شاخص وابسته کاهش می یابد میانگین 0.65 واحد همانطور که می گویند هر چه قیمت گندم سیاه بیشتر باشد کمتر فروخته می شود.

برای رسم نمودار تابع تقریبی، دو مقدار آن را پیدا می کنیم:

و ترسیم را اجرا کنید:


خط مستقیم ساخته شده نامیده می شود خط روند (یعنی یک خط روند خطی، یعنی در حالت کلی، یک روند لزوما یک خط مستقیم نیست). همه با عبارت "در روند بودن" آشنا هستند و من فکر می کنم که این اصطلاح نیازی به توضیحات اضافی ندارد.

بیایید مجموع انحرافات مجذور را محاسبه کنیم بین ارزش های تجربی و نظری از نظر هندسی، این مجموع مربعات طول بخش های "تمشک" است. (دوتای آنها آنقدر کوچک هستند که حتی دیده نمی شوند).

بیایید محاسبات را در یک جدول خلاصه کنیم:


باز هم، آنها را می توان به صورت دستی انجام داد، برای نکته اول مثالی می زنم:

اما انجام آن به روشی که قبلاً شناخته شده است بسیار مؤثرتر است:

یک بار دیگر تکرار می کنیم: منظور از نتیجه به دست آمده چیست؟از جانب همه توابع خطیتابع y شاخص کوچکترین است، یعنی در خانواده خود بهترین تقریب است. و در اینجا، اتفاقاً، سؤال نهایی مسئله تصادفی نیست: اگر تابع نمایی پیشنهادی چه می‌شود؟ آیا بهتر است نکات تجربی را به هم نزدیک کنیم؟

بیایید مجموع متناظر انحرافات مربع را پیدا کنیم - برای تشخیص، آنها را با حرف "epsilon" نشان می دهم. تکنیک دقیقاً مشابه است:


و دوباره، فقط در مورد، محاسبات برای نقطه 1:

در اکسل از تابع استاندارد استفاده می کنیم انقضا (سینتکس را می توان در راهنمای اکسل یافت).

نتیجه: یعنی تابع نمایی بدتر از یک خط مستقیم به نقاط تجربی تقریب می زند .

اما در اینجا باید توجه داشت که "بدتر" است هنوز به این معنی نیست، چه اشکالی دارد. اکنون من یک نمودار از این تابع نمایی ساخته ام - و همچنین نزدیک به نقاط عبور می کند - به حدی که بدون تحقیق تحلیلی نمی توان گفت کدام تابع دقیق تر است.

این راه حل را به پایان می رساند و من به سؤال ارزش های طبیعی استدلال باز می گردم. در مطالعات مختلف، معمولاً اقتصادی یا جامعه‌شناختی، از «X»های طبیعی برای شماره‌گذاری ماه‌ها، سال‌ها یا سایر فواصل زمانی مساوی استفاده می‌شود. برای مثال مشکل زیر را در نظر بگیرید.

روش حداقل مربعات یک روش ریاضی برای ساخت یک معادله خطی است که با یافتن مقادیر a و b، ضرایب در معادله خط، به بهترین وجه با مجموعه ای از جفت های مرتب شده مطابقت دارد. هدف حداقل مربعات به حداقل رساندن مجذور مجذور کل خطا بین مقادیر y و ŷ است. اگر برای هر نقطه خطای ŷ را تعیین کنیم، روش حداقل مربعات به حداقل می رسد:

که در آن n = تعداد جفت های مرتب شده در اطراف خط. تا حد امکان به داده ها نزدیک شود.

این مفهوم در شکل نشان داده شده است

بر اساس شکل، خطی که به بهترین وجه با داده ها مطابقت دارد، خط رگرسیون، مجذور مجذور کل خطای چهار نقطه در نمودار را به حداقل می رساند. من به شما نشان خواهم داد که چگونه این را با استفاده از حداقل مربعات با مثال زیر تعیین کنید.

زوج جوانی را تصور کنید که اخیراً با هم نقل مکان کرده اند و یک میز روشویی در حمام دارند. مرد جوان متوجه شد که نیمی از میز او به طور اجتناب ناپذیری کوچک می شود و به دلیل موس مو و مجتمع های سویا، جایگاه خود را از دست می دهد. در طول چند ماه گذشته، آن مرد از نزدیک سرعت افزایش تعداد اشیاء کنار میز را زیر نظر داشت. جدول زیر تعداد اقلامی را نشان می دهد که دختر در چند ماه گذشته روی روشویی حمام خود جمع کرده است.

از آنجایی که هدف ما این است که بفهمیم آیا تعداد آیتم ها در طول زمان افزایش می یابد یا خیر، "Month" متغیر مستقل و "Number of آیتم ها" متغیر وابسته خواهد بود.

با استفاده از روش حداقل مربعات، معادله ای را تعیین می کنیم که با محاسبه مقادیر a، y-intercept، و b، شیب خط، به بهترین شکل با داده ها مطابقت دارد:

a = y میانگین - bx میانگین

که در آن x avg مقدار متوسط ​​x، متغیر مستقل، y avg مقدار متوسط ​​y، متغیر مستقل است.

جدول زیر محاسبات مورد نیاز برای این معادلات را خلاصه می کند.

منحنی اثر برای مثال وان حمام ما با معادله زیر ارائه می شود:

از آنجایی که معادله ما دارای شیب مثبت 0.976 است، مرد شواهدی دارد که نشان می دهد تعداد آیتم های روی میز در طول زمان با نرخ متوسط ​​1 مورد در ماه افزایش می یابد. نمودار منحنی اثر را با جفت های مرتب شده نشان می دهد.

انتظار برای تعداد اقلام در شش ماه آینده (ماه 16) به شرح زیر محاسبه می شود:

ŷ = 5.13 + 0.976x = 5.13 + 0.976(16) ~ 20.7 = 21 مورد

بنابراین، وقت آن است که قهرمان ما اقداماتی انجام دهد.

تابع TREND در اکسل

همانطور که احتمالاً قبلاً حدس زده اید، اکسل تابعی برای محاسبه مقادیر توسط آن دارد روش حداقل مربعاتاین تابع TREND نامیده می شود. نحو آن به شرح زیر است:

TREND (مقادیر Y شناخته شده؛ مقادیر X شناخته شده؛ مقادیر X جدید؛ ثابت)

مقادیر Y شناخته شده - آرایه ای از متغیرهای وابسته، در مورد ما، تعداد اشیاء روی جدول

مقادیر شناخته شده X - آرایه ای از متغیرهای مستقل، در مورد ما این ماه است

مقادیر X جدید - مقادیر X جدید (ماه) که برای آن تابع TRENDمقدار مورد انتظار متغیرهای وابسته (تعداد موارد) را برمی گرداند.

const - اختیاری. یک مقدار بولی که مشخص می کند آیا ثابت b باید 0 باشد یا خیر.

به عنوان مثال، شکل تابع TREND را نشان می دهد که برای تعیین تعداد مورد انتظار اقلام روی روشویی حمام برای ماه شانزدهم استفاده می شود.

  • آموزش

معرفی

من یک ریاضی دان و برنامه نویس هستم. بزرگترین جهشی که در کارم انجام دادم زمانی بود که یاد گرفتم بگویم: "من هیچی نمیفهمم!"حالا خجالت نمی کشم به مرشد علم بگویم که برای من سخنرانی می کند، من نمی فهمم او آن بزرگوار به من چه می گوید. و خیلی سخته بله، اعتراف به نادانی خود سخت و شرم آور است. چه کسی دوست دارد اعتراف کند که اصول چیزی را نمی داند؟ با توجه به حرفه ام، مجبورم در تعداد زیادی سخنرانی و سخنرانی شرکت کنم، جایی که، اعتراف می کنم، در اکثر موارد می خواهم بخوابم زیرا چیزی نمی فهمم. اما من نمی فهمم زیرا مشکل بزرگ وضعیت فعلی علم در ریاضیات نهفته است. فرض بر این است که همه شنوندگان کاملاً با تمام زمینه های ریاضیات آشنا هستند (که پوچ است). اعتراف به اینکه نمی دانید مشتق چیست (در مورد چیستی آن کمی بعد صحبت خواهیم کرد) شرم آور است.

اما یاد گرفتم که بگویم نمی دانم ضرب چیست. بله، من نمی دانم جبر فرعی بر جبر دروغ چیست. بله، من نمی دانم چرا معادلات درجه دوم در زندگی مورد نیاز است. به هر حال، اگر مطمئن هستید که می دانید، پس ما باید در مورد آن صحبت کنیم! ریاضیات یک سری ترفند است. ریاضیدانان سعی می کنند مردم را گیج و مرعوب کنند. جایی که هیچ سردرگمی وجود ندارد، شهرت و اقتدار وجود ندارد. بله، صحبت کردن به زبانی انتزاعی تا حد امکان معتبر است، که کاملا مزخرف است.

آیا می دانید مشتق چیست؟ به احتمال زیاد در مورد حد نسبت اختلاف به من خواهید گفت. در سال اول ریاضیات و مکانیک در دانشگاه دولتی سنت پترزبورگ، ویکتور پتروویچ خاوین به من گفت مشخصمشتق به عنوان ضریب اولین جمله از سری تیلور تابع در یک نقطه (این یک ژیمناستیک جداگانه برای تعیین سری تیلور بدون مشتقات بود). مدت زیادی به این تعریف خندیدم تا اینکه بالاخره معنی آن را فهمیدم. مشتق چیزی نیست جز یک اندازه گیری ساده از شباهت تابعی که ما متمایز می کنیم با تابع y=x, y=x^2, y=x^3.

اکنون این افتخار را دارم که برای دانشجویانی که می ترسدریاضیات اگر از ریاضی می ترسید ما در همین مسیر هستیم. به محض اینکه سعی می کنید متنی را بخوانید و به نظرتان می رسد که بیش از حد پیچیده است، بدانید که ضعیف نوشته شده است. من ادعا می کنم که هیچ حوزه ای از ریاضیات وجود ندارد که بدون از دست دادن دقت، "روی انگشتان" مورد بحث قرار نگیرد.

تکلیف برای آینده نزدیک: من به دانش آموزانم وظیفه دادم تا بفهمند تنظیم کننده درجه دوم خطی چیست. خجالتی نباشید، سه دقیقه از زندگی خود را صرف کنید و پیوند را دنبال کنید. اگر چیزی متوجه نشدید، پس ما در همان مسیر هستیم. من (یک ریاضی دان-برنامه نویس حرفه ای) هم چیزی نفهمیدم. و من به شما اطمینان می دهم، می توانید این را "روی انگشتان خود" بفهمید. در حال حاضر نمی‌دانم چیست، اما به شما اطمینان می‌دهم که می‌توانیم آن را کشف کنیم.

بنابراین، اولین سخنرانی ای که می خواهم برای دانش آموزانم داشته باشم بعد از اینکه آنها با وحشت به سمت من می آیند و می گویند که تنظیم کننده خطی-مربع چیز وحشتناکی است که هرگز در زندگی خود به آن مسلط نخواهید شد. روش های حداقل مربعات. آیا می توانید معادلات خطی را حل کنید؟ اگر در حال خواندن این متن هستید، به احتمال زیاد نه.

بنابراین، با توجه به دو نقطه (x0، y0)، (x1، y1)، به عنوان مثال، (1،1) و (3،2)، وظیفه یافتن معادله خطی است که از این دو نقطه می گذرد:

تصویر

این خط باید معادله ای مانند زیر داشته باشد:

در اینجا آلفا و بتا برای ما ناشناخته هستند، اما دو نقطه از این خط شناخته شده است:

می توانیم این معادله را به صورت ماتریسی بنویسیم:

در اینجا باید یک انحراف غزلی انجام دهیم: ماتریس چیست؟ ماتریس چیزی بیش از یک آرایه دو بعدی نیست. این روشی برای ذخیره سازی داده هاست. این دقیقاً به ما بستگی دارد که چگونه یک ماتریس خاص را تفسیر کنیم. من به صورت دوره ای آن را به عنوان یک نگاشت خطی، به صورت دوره ای به عنوان یک فرم درجه دوم، و گاهی اوقات به سادگی به عنوان مجموعه ای از بردارها تفسیر می کنم. این همه در چارچوب روشن خواهد شد.

بیایید ماتریس های بتنی را با نمایش نمادین آنها جایگزین کنیم:

سپس (آلفا، بتا) را می توان به راحتی پیدا کرد:

به طور خاص برای داده های قبلی ما:

که به معادله خطی که از نقاط (1،1) و (3،2) می گذرد، منجر می شود:

خوب، اینجا همه چیز روشن است. بیایید معادله خط عبوری را پیدا کنیم سهنقاط: (x0,y0)، (x1,y1) و (x2,y2):

اوه اوه، اما ما سه معادله برای دو مجهول داریم! یک ریاضیدان استاندارد خواهد گفت که هیچ راه حلی وجود ندارد. برنامه نویس چه خواهد گفت؟ و ابتدا سیستم معادلات قبلی را به شکل زیر بازنویسی می کند:

در مورد ما، بردارهای i، j، b سه بعدی هستند، بنابراین (در حالت کلی) هیچ راه حلی برای این سیستم وجود ندارد. هر بردار (alpha\*i + beta\*j) در صفحه ای قرار دارد که توسط بردارهای (i, j) پوشانده شده است. اگر b به این صفحه تعلق نداشته باشد، هیچ راه حلی وجود ندارد (برابری را نمی توان در معادله به دست آورد). چه باید کرد؟ بیایید به دنبال مصالحه باشیم. بیایید نشان دهیم e (آلفا، بتا)دقیقا چقدر به برابری دست نیافته ایم:

و ما سعی خواهیم کرد این خطا را به حداقل برسانیم:

چرا مربع؟

ما نه تنها به دنبال حداقل هنجار، بلکه به دنبال حداقل مربع هنجار هستیم. چرا؟ حداقل نقطه به خودی خود منطبق است، و مربع یک تابع صاف می دهد (یک تابع درجه دوم از آرگومان ها (آلفا، بتا))، در حالی که به سادگی طول یک تابع مخروطی شکل می دهد که در نقطه حداقل غیر قابل تمایز است. Brr. مربع راحت تر است.

بدیهی است که هنگام بردار خطا به حداقل می رسد همتعامد به صفحه ای که توسط بردارها پوشانده شده است منو j.

تصویر

به عبارت دیگر: ما به دنبال یک خط مستقیم هستیم که مجموع مجذور طول فواصل تمام نقاط تا این خط مستقیم حداقل باشد:

به روز رسانی: من در اینجا یک مشکل دارم، فاصله تا خط مستقیم باید به صورت عمودی اندازه گیری شود، نه با طرح ریزی متعامد. این مفسر درست می گوید.

تصویر

در کلمات کاملاً متفاوت (با دقت، به طور ضعیف رسمی شده است، اما باید واضح باشد): ما همه خطوط ممکن را بین همه جفت نقاط می گیریم و به دنبال خط متوسط ​​بین همه می گردیم:

تصویر

توضیح دیگر ساده است: ما یک فنر بین تمام نقاط داده (در اینجا ما سه نقطه داریم) و خط مستقیمی که به دنبال آن هستیم وصل می کنیم و خط مستقیم حالت تعادل دقیقاً همان چیزی است که به دنبال آن هستیم.

حداقل فرم درجه دوم

بنابراین، با توجه به این بردار بو صفحه ای که توسط بردارهای ستونی ماتریس پوشانده شده است آ(در این حالت (x0,x1,x2) و (1,1,1)) به دنبال بردار هستیم. هبا حداقل مربع طول بدیهی است که حداقل برای بردار قابل دستیابی است ه، متعامد به صفحه ای که توسط بردارهای ستون ماتریس پوشانده شده است آ:

به عبارت دیگر، ما به دنبال یک بردار x=(آلفا، بتا) هستیم که:

به شما یادآوری کنم که این بردار x=(آلفا، بتا) حداقل تابع درجه دوم ||e(آلفا، بتا)||^2 است:

در اینجا یادآوری این نکته مفید است که ماتریس را می توان به صورت یک فرم درجه دوم نیز تفسیر کرد، برای مثال، ماتریس هویت ((1,0),(0,1)) را می توان به عنوان یک تابع x^2 + y^ تفسیر کرد. 2:

فرم درجه دوم

تمام این ژیمناستیک با نام رگرسیون خطی شناخته می شود.

معادله لاپلاس با شرط مرزی دیریکله

اکنون ساده ترین کار واقعی: یک سطح مثلثی مشخص وجود دارد، لازم است آن را صاف کنید. به عنوان مثال، بیایید یک مدل از چهره من را بارگذاری کنیم:

commit اصلی موجود است. برای به حداقل رساندن وابستگی‌های خارجی، کد رندر نرم‌افزارم را که قبلاً روی Habré بود، گرفتم. برای حل یک سیستم خطی، من از OpenNL استفاده می کنم، این یک حل کننده عالی است، با این حال، نصب آن بسیار دشوار است: شما باید دو فایل (.h+.c) را در پوشه پروژه خود کپی کنید. همه صاف کردن با کد زیر انجام می شود:

برای (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&face = faces[i]; برای (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

مختصات X، Y و Z قابل جدا شدن هستند، من آنها را جداگانه صاف می کنم. یعنی من سه سیستم معادلات خطی را حل می کنم که هر کدام تعدادی متغیر برابر با تعداد رئوس مدل من دارند. n سطر اول ماتریس A فقط یک 1 در هر سطر دارند و n سطر اول بردار b مختصات مدل اصلی را دارند. یعنی یک فنر بین موقعیت جدید راس و موقعیت قدیمی راس می بندم - جدیدها نباید خیلی از موقعیت های قدیمی دور شوند.

تمام ردیف‌های بعدی ماتریس A (faces.size()*3 = تعداد یال‌های همه مثلث‌ها در مش) یک رخداد 1 و یک وقوع 1- دارند که بردار b دارای مولفه‌های صفر در مقابل است. این به این معنی است که من یک فنر در هر لبه مش مثلثی خود قرار می دهم: همه لبه ها سعی می کنند راس یکسانی را به عنوان نقطه شروع و پایان خود داشته باشند.

بار دیگر: همه رئوس متغیر هستند و نمی توانند از موقعیت اصلی خود دور شوند، اما در عین حال سعی می کنند شبیه یکدیگر شوند.

در اینجا نتیجه است:

همه چیز خوب خواهد بود، مدل واقعا صاف است، اما از لبه اصلی خود فاصله گرفته است. بیایید کد را کمی تغییر دهیم:

برای (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

در ماتریس A، برای رئوس هایی که روی لبه هستند، یک ردیف از دسته v_i = verts[i][d] اضافه نمی کنم، بلکه 1000*v_i = 1000*verts[i][d] اضافه می کنم. چه چیزی را تغییر می دهد؟ و این شکل درجه دوم خطای ما را تغییر می دهد. اکنون یک انحراف از بالا در لبه نه یک واحد مانند قبل، بلکه 1000 * 1000 واحد هزینه خواهد داشت. یعنی فنر قوی تری را روی رئوس انتهایی آویزان کردیم، راه حل ترجیح می دهد بقیه را قوی تر بکشد. در اینجا نتیجه است:

بیایید قدرت فنر بین رئوس را دو برابر کنیم:
nlCoefficient(face[j], 2); nlCoefficient(face[(j+1)%3], -2);

منطقی است که سطح صاف تر شده است:

و حالا حتی صد برابر قوی تر:

این چیه؟ تصور کنید که یک حلقه سیمی را در آب صابون فرو برده ایم. در نتیجه، فیلم صابون به دست آمده سعی می کند تا حد ممکن کمترین انحنا را داشته باشد و لبه را لمس کند - حلقه سیمی ما. این دقیقاً همان چیزی است که با تعمیر حاشیه و درخواست سطح صاف در داخل به دست آوردیم. تبریک می گویم، ما به تازگی معادله لاپلاس را با شرایط مرزی دیریکله حل کردیم. باحال به نظر می رسد؟ اما در واقعیت، شما فقط باید یک سیستم معادلات خطی را حل کنید.

معادله پواسون

بیایید یک نام جالب دیگر را به یاد بیاوریم.

بیایید بگوییم که من یک تصویر مانند این دارم:

برای همه خوب به نظر می رسد، اما من صندلی را دوست ندارم.

عکس رو نصف میکنم:



و من یک صندلی را با دستانم انتخاب می کنم:

سپس هر چیزی که در ماسک سفید است را به سمت چپ تصویر می کشم و در همان زمان در کل تصویر می گویم که تفاوت بین دو پیکسل همسایه باید برابر با تفاوت بین دو پیکسل همسایه باشد. عکس درست:

برای (int i=0; i

در اینجا نتیجه است:

کد و تصاویر موجود است

مثال.

داده های تجربی در مورد مقادیر متغیرها ایکسو دردر جدول آورده شده است.

در نتیجه تراز آنها، تابع به دست می آید

استفاده كردن روش حداقل مربعات، این داده ها را با یک وابستگی خطی تقریب بزنید y=ax+b(پیدا کردن پارامترها آو ب). دریابید که کدام یک از دو خط بهتر (به معنای روش حداقل مربعات) داده های تجربی را تراز می کند. یک نقاشی بکشید.

ماهیت روش حداقل مربعات (LSM).

وظیفه یافتن ضرایب وابستگی خطی است که در آن تابع دو متغیر است آو ب کمترین مقدار را می گیرد. یعنی داده شده آو بمجموع انحرافات مجذور داده های تجربی از خط مستقیم یافت شده کوچکترین خواهد بود. این نکته کل روش حداقل مربعات است.

بنابراین، حل مثال به یافتن حداکثر یک تابع از دو متغیر ختم می شود.

استخراج فرمول برای یافتن ضرایب.

یک سیستم دو معادله با دو مجهول گردآوری و حل می شود. یافتن مشتقات جزئی یک تابع توسط متغیرها آو ب، این مشتقات را با صفر برابر می کنیم.

ما سیستم معادلات حاصل را با استفاده از هر روشی حل می کنیم (مثلا با روش جایگزینییا روش کرامر) و فرمول های یافتن ضرایب را با استفاده از روش حداقل مربعات (LSM) بدست آورید.

داده شده آو بتابع کمترین مقدار را می گیرد. دلیل این واقعیت ارائه شده است زیر در متن انتهای صفحه.

این کل روش حداقل مربعات است. فرمول یافتن پارامتر آشامل مجموع،،، و پارامتر است n- مقدار داده های تجربی توصیه می کنیم مقادیر این مقادیر را جداگانه محاسبه کنید. ضریب ببعد از محاسبه پیدا شد آ.

وقت آن است که نمونه اصلی را به خاطر بسپارید.

راه حل.

در مثال ما n=5. برای راحتی محاسبه مقادیری که در فرمول های ضرایب مورد نیاز گنجانده شده است، جدول را پر می کنیم.

مقادیر سطر چهارم جدول با ضرب مقادیر سطر دوم در مقادیر سطر 3 برای هر عدد به دست می آید. من.

مقادیر ردیف پنجم جدول با مربع کردن مقادیر ردیف دوم برای هر عدد به دست می آید. من.

مقادیر در آخرین ستون جدول مجموع مقادیر در سراسر سطرها هستند.

برای یافتن ضرایب از فرمول روش حداقل مربعات استفاده می کنیم آو ب. مقادیر مربوطه را از آخرین ستون جدول در آنها جایگزین می کنیم:

از این رو، y = 0.165x+2.184- خط مستقیم تقریبی مورد نظر.

باقی مانده است که بفهمیم کدام یک از خطوط y = 0.165x+2.184یا داده های اصلی را بهتر تقریب می کند، یعنی با استفاده از روش حداقل مربعات تخمین می زند.

تخمین خطای روش حداقل مربعات.

برای انجام این کار، باید مجموع انحرافات مجذور داده های اصلی را از این خطوط محاسبه کنید و ، یک مقدار کوچکتر مربوط به خطی است که داده های اصلی را به معنای روش حداقل مربعات بهتر تقریب می کند.

از آن زمان، سپس مستقیم y = 0.165x+2.184داده های اصلی را بهتر تقریب می کند.

تصویر گرافیکی روش حداقل مربعات (LS).

همه چیز به وضوح در نمودارها قابل مشاهده است. خط قرمز خط مستقیم پیدا شده است y = 0.165x+2.184، خط آبی است ، نقطه های صورتی داده های اصلی هستند.

در عمل، هنگام مدل‌سازی فرآیندهای مختلف - به ویژه اقتصادی، فیزیکی، فنی، اجتماعی - از یک یا دیگر روش برای محاسبه مقادیر تقریبی توابع از مقادیر شناخته شده آنها در نقاط ثابت خاص استفاده می‌شود.

این نوع مشکل تقریب تابع اغلب به وجود می آید:

    هنگام ساخت فرمول های تقریبی برای محاسبه مقادیر مقادیر مشخصه فرآیند مورد مطالعه با استفاده از داده های جدولی به دست آمده در نتیجه آزمایش.

    در ادغام عددی، تمایز، حل معادلات دیفرانسیل و غیره؛

    در صورت لزوم، مقادیر توابع را در نقاط میانی فاصله در نظر گرفته شده محاسبه کنید.

    هنگام تعیین مقادیر مقادیر مشخصه یک فرآیند خارج از بازه در نظر گرفته شده، به ویژه هنگام پیش بینی.

اگر برای مدل‌سازی فرآیند مشخصی که توسط جدول مشخص شده است، تابعی بسازیم که تقریباً این فرآیند را بر اساس روش حداقل مربعات توصیف می‌کند، آن را تابع تقریبی (رگرسیون) می‌نامیم و وظیفه ساخت توابع تقریبی را خود نامیده می‌شود. یک مشکل تقریبی

این مقاله قابلیت های بسته MS Excel را برای حل این نوع مسائل مورد بحث قرار می دهد، علاوه بر این، روش ها و تکنیک هایی برای ساخت (ایجاد) رگرسیون برای توابع جدول بندی شده (که اساس تحلیل رگرسیون است) ارائه می دهد.

اکسل دو گزینه برای ایجاد رگرسیون دارد.

    افزودن رگرسیون های انتخابی (خطوط روند) به نموداری که بر اساس جدول داده برای مشخصه فرآیند مورد مطالعه ساخته شده است (فقط در صورتی که نمودار ساخته شده باشد موجود است).

    با استفاده از توابع آماری داخلی کاربرگ اکسل، به شما امکان می دهد رگرسیون ها (خطوط روند) را مستقیماً از جدول داده های منبع بدست آورید.

اضافه کردن خطوط روند به نمودار

برای جدولی از داده‌ها که یک فرآیند را توصیف می‌کند و با یک نمودار نشان داده می‌شود، اکسل یک ابزار تحلیل رگرسیون موثر دارد که به شما امکان می‌دهد:

    بر اساس روش حداقل مربعات بسازید و پنج نوع رگرسیون را به نمودار اضافه کنید، که فرآیند مورد مطالعه را با درجات مختلف دقت مدل می کند.

    معادله رگرسیون ساخته شده را به نمودار اضافه کنید.

    میزان مطابقت رگرسیون انتخاب شده با داده های نمایش داده شده در نمودار را تعیین کنید.

بر اساس داده های نمودار، اکسل به شما امکان می دهد انواع رگرسیون های خطی، چند جمله ای، لگاریتمی، توانی، نمایی را به دست آورید که با معادله مشخص می شوند:

y = y(x)

که در آن x یک متغیر مستقل است که اغلب مقادیر دنباله ای از اعداد طبیعی (1؛ 2؛ 3؛ ...) را می گیرد و به عنوان مثال، شمارش معکوس زمان فرآیند مورد مطالعه (ویژگی ها) را تولید می کند.

1 . رگرسیون خطی برای مدل‌سازی ویژگی‌هایی که مقادیر آنها با نرخ ثابت افزایش یا کاهش می‌یابد خوب است. این ساده ترین مدلی است که می توان برای فرآیند مورد مطالعه ساخت. مطابق با معادله ساخته شده است:

y = mx + b

که در آن m مماس شیب رگرسیون خطی به آبسیسا است. ب - مختصات نقطه تقاطع رگرسیون خطی با محور ارتین.

2 . یک خط روند چند جمله‌ای برای توصیف ویژگی‌هایی که دارای چندین حد متمایز هستند (حداکثر و حداقل) مفید است. انتخاب درجه چند جمله ای بر اساس تعداد اکسترم های مشخصه مورد مطالعه تعیین می شود. بنابراین، یک چند جمله ای درجه دوم به خوبی می تواند فرآیندی را توصیف کند که تنها یک حداکثر یا حداقل دارد. چند جمله ای درجه سوم - بیش از دو انتها. چند جمله ای درجه چهارم - بیش از سه انتها و غیره.

در این حالت، خط روند مطابق با معادله ساخته می شود:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

که در آن ضرایب c0, c1, c2,...c6 ثابت هایی هستند که مقادیر آنها در حین ساخت تعیین می شود.

3 . خط روند لگاریتمی با موفقیت در مدل سازی مشخصه هایی استفاده می شود که مقادیر آنها در ابتدا به سرعت تغییر می کند و سپس به تدریج تثبیت می شود.

y = c ln(x) + b

4 . خط روند قانون قدرت نتایج خوبی می دهد اگر مقادیر رابطه مورد مطالعه با تغییر ثابت در نرخ رشد مشخص شود. نمونه ای از چنین وابستگی، نمودار حرکت شتاب یکنواخت یک ماشین است. اگر مقادیر صفر یا منفی در داده ها وجود داشته باشد، نمی توانید از خط روند برق استفاده کنید.

مطابق با معادله ساخته شده است:

y = c xb

که در آن ضرایب b و c ثابت هستند.

5 . هنگامی که نرخ تغییر داده ها به طور مداوم در حال افزایش است، باید از خط روند نمایی استفاده شود. برای داده های حاوی مقادیر صفر یا منفی، این نوع تقریب نیز قابل اجرا نیست.

مطابق با معادله ساخته شده است:

y = c ebx

که در آن ضرایب b و c ثابت هستند.

هنگام انتخاب یک خط روند، اکسل به طور خودکار مقدار R2 را محاسبه می کند، که قابلیت اطمینان تقریب را مشخص می کند: هرچه مقدار R2 به وحدت نزدیکتر باشد، خط روند با اطمینان بیشتری به فرآیند مورد مطالعه تقریب می کند. در صورت لزوم، مقدار R2 همیشه می تواند در نمودار نمایش داده شود.

با فرمول تعیین می شود:

برای افزودن خط روند به یک سری داده:

    یک نمودار را بر اساس یک سری داده فعال کنید، یعنی در ناحیه نمودار کلیک کنید. مورد نمودار در منوی اصلی ظاهر می شود.

    پس از کلیک بر روی این مورد، منویی در صفحه ظاهر می شود که در آن باید دستور Add trend line را انتخاب کنید.

با حرکت دادن نشانگر ماوس بر روی نمودار مربوط به یکی از سری های داده و کلیک راست، می توان همین اقدامات را به راحتی اجرا کرد. در منوی زمینه ظاهر شده، دستور Add trend line را انتخاب کنید. کادر محاوره‌ای خط روند با باز شدن تب Type روی صفحه ظاهر می‌شود (شکل 1).

بعد از این شما نیاز دارید:

نوع خط روند مورد نیاز را در زبانه Type انتخاب کنید (نوع Linear به طور پیش فرض انتخاب شده است). برای نوع Polynomial در قسمت Degree درجه چند جمله ای انتخاب شده را مشخص کنید.

1 . فیلد Built on series تمام سری داده ها را در نمودار مورد نظر فهرست می کند. برای افزودن یک خط روند به یک سری داده خاص، نام آن را در قسمت Built on series انتخاب کنید.

در صورت لزوم با رفتن به تب Parameters (شکل 2) می توانید پارامترهای زیر را برای خط روند تنظیم کنید:

    نام خط روند را در نام فیلد منحنی تقریبی (صاف) تغییر دهید.

    تعداد دوره ها (به جلو یا عقب) را برای پیش بینی در قسمت Forecast تنظیم کنید.

    معادله خط روند را در ناحیه نمودار نمایش دهید، که برای آن باید معادله نمایش را در کادر چک نمودار فعال کنید.

    مقدار اعتبار تقریبی R2 را در ناحیه نمودار نمایش دهید، که برای آن باید کادر انتخاب Place the approximation reliability on the diagram (R^2) را فعال کنید.

    نقطه تقاطع خط روند را با محور Y تنظیم کنید، که برای آن باید چک باکس را برای تقاطع منحنی با محور Y در یک نقطه فعال کنید.

    روی دکمه OK کلیک کنید تا کادر محاوره ای بسته شود.

برای شروع ویرایش خط روند از قبل ترسیم شده، سه راه وجود دارد:

    با انتخاب خط روند از منوی Format از دستور Selected trend line استفاده کنید.

    دستور Format line trend را از منوی زمینه انتخاب کنید که با کلیک راست روی خط روند فراخوانی می شود.

    روی خط روند دوبار کلیک کنید.

کادر گفتگوی Trend Line Format روی صفحه ظاهر می شود (شکل 3) که شامل سه زبانه است: View، Type، Parameters و محتویات دو مورد آخر کاملاً با زبانه های مشابه کادر گفتگوی Trend Line مطابقت دارد (شکل 1). -2). در تب View می توانید نوع خط، رنگ و ضخامت آن را تعیین کنید.

برای حذف خط روندی که قبلاً ترسیم شده است، خط روندی که باید حذف شود را انتخاب کنید و کلید Delete را فشار دهید.

مزایای ابزار تحلیل رگرسیون در نظر گرفته شده عبارتند از:

    سهولت نسبی ساخت یک خط روند روی نمودارها بدون ایجاد جدول داده برای آن؛

    فهرست نسبتاً گسترده ای از انواع خطوط روند پیشنهادی، و این فهرست شامل رایج ترین انواع رگرسیون است.

    توانایی پیش بینی رفتار فرآیند مورد مطالعه توسط تعداد دلخواه (در محدوده عقل سلیم) تعداد گام به جلو و همچنین عقب.

    توانایی به دست آوردن معادله خط روند به صورت تحلیلی؛

    امکان به دست آوردن یک ارزیابی از قابلیت اطمینان تقریب، در صورت لزوم.

معایب شامل موارد زیر است:

    ساخت یک خط روند تنها در صورتی انجام می شود که نموداری بر اساس یک سری داده وجود داشته باشد.

    روند تولید سری داده برای مشخصه مورد مطالعه بر اساس معادلات خط روند به دست آمده برای آن تا حدودی درهم است: معادلات رگرسیون مورد نیاز با هر تغییر در مقادیر سری داده های اصلی، اما فقط در محدوده نمودار به روز می شوند. ، در حالی که سری داده های تشکیل شده بر اساس روند معادله خط قدیمی بدون تغییر باقی می ماند.

    در گزارش‌های PivotChart، تغییر نمای نمودار یا گزارش PivotTable مرتبط، خطوط روند موجود را حفظ نمی‌کند، به این معنی که قبل از ترسیم خطوط روند یا فرمت‌بندی گزارش PivotChart، باید مطمئن شوید که طرح‌بندی گزارش الزامات مورد نیاز را برآورده می‌کند.

خطوط روند را می توان برای تکمیل سری داده های ارائه شده در نمودارهایی مانند نمودار، هیستوگرام، نمودارهای مسطح غیر استاندارد، نمودارهای میله ای، نمودارهای پراکنده، نمودارهای حبابی و نمودارهای سهام استفاده کرد.

شما نمی توانید خطوط روند را به سری های داده در نمودارهای سه بعدی، عادی، رادار، پای و دونات اضافه کنید.

استفاده از توابع داخلی اکسل

اکسل همچنین دارای یک ابزار تحلیل رگرسیون برای رسم خطوط روند خارج از منطقه نمودار است. تعدادی از توابع کاربرگ آماری وجود دارد که می توانید برای این منظور از آنها استفاده کنید، اما همه آنها فقط به شما امکان می دهند رگرسیون های خطی یا نمایی بسازید.

اکسل چندین توابع برای ساخت رگرسیون خطی دارد، به ویژه:

    روند؛

  • SLOPE و CUT.

و همچنین چندین تابع برای ساخت یک خط روند نمایی، به ویژه:

    LGRFPRIBL.

لازم به ذکر است که تکنیک های ساخت رگرسیون با استفاده از توابع TREND و GROWTH تقریباً یکسان است. همین را می توان در مورد جفت توابع LINEST و LGRFPRIBL گفت. برای این چهار تابع، ایجاد جدول مقادیر از ویژگی‌های اکسل مانند فرمول‌های آرایه استفاده می‌کند که تا حدودی فرآیند ایجاد رگرسیون را به هم می‌ریزد. اجازه دهید همچنین توجه داشته باشیم که ساخت رگرسیون خطی، به نظر ما، به راحتی با استفاده از توابع SLOPE و INTERCEPT انجام می شود، که در آن اولی شیب رگرسیون خطی را تعیین می کند، و دومی قطعه قطع شده توسط رگرسیون را تعیین می کند. محور y

مزایای ابزار توابع داخلی برای تحلیل رگرسیون عبارتند از:

    یک فرآیند نسبتا ساده و یکنواخت برای تولید سری داده های مشخصه مورد مطالعه برای همه توابع آماری داخلی که خطوط روند را تعریف می کنند.

    روش استاندارد برای ساخت خطوط روند بر اساس سری داده های تولید شده؛

    توانایی پیش بینی رفتار فرآیند مورد مطالعه با تعداد گام های لازم به جلو یا عقب.

معایب شامل این واقعیت است که اکسل توابع داخلی برای ایجاد انواع دیگر خطوط روند (به جز خطی و نمایی) ندارد. این شرایط اغلب امکان انتخاب یک مدل به اندازه کافی دقیق از فرآیند مورد مطالعه و همچنین به دست آوردن پیش بینی های نزدیک به واقعیت را نمی دهد. علاوه بر این، هنگام استفاده از توابع TREND و GROWTH، معادلات خطوط روند مشخص نیست.

لازم به ذکر است که نویسندگان قصد نداشتند درس تحلیل رگرسیون را با درجه ای از کامل ارائه دهند. وظیفه اصلی آن این است که با استفاده از مثال های خاص، قابلیت های بسته اکسل را هنگام حل مسائل تقریبی نشان دهد. نشان دهید که اکسل چه ابزارهای موثری برای ایجاد رگرسیون و پیش بینی دارد. نشان می دهد که چگونه چنین مشکلاتی را می توان به راحتی حتی توسط کاربری که دانش گسترده ای از تحلیل رگرسیون ندارد حل کرد.

نمونه هایی از حل مسائل خاص

بیایید به حل مشکلات خاص با استفاده از ابزارهای فهرست شده اکسل نگاه کنیم.

مشکل 1

با جدول داده ها در مورد سود یک شرکت حمل و نقل موتوری برای 1995-2002. شما باید موارد زیر را انجام دهید:

    یک نمودار بسازید.

    خطوط روند خطی و چند جمله ای (دو و مکعبی) را به نمودار اضافه کنید.

    با استفاده از معادلات خطوط روند، داده های جدولی در مورد سود شرکت برای هر خط روند برای سال های 1995-2004 به دست آورید.

    برای سال های 2003 و 2004 سود شرکت را پیش بینی کنید.

راه حل مشکل

    در محدوده سلول های A4:C11 کاربرگ اکسل، کاربرگ نشان داده شده در شکل را وارد کنید. 4.

    با انتخاب محدوده سلول های B4:C11، یک نمودار می سازیم.

    نمودار ساخته شده را فعال می کنیم و طبق روشی که در بالا توضیح داده شد، پس از انتخاب نوع خط روند در کادر محاوره ای خط روند (نگاه کنید به شکل 1)، به طور متناوب خطوط روند خطی، درجه دوم و مکعبی را به نمودار اضافه می کنیم. در همان کادر محاوره ای، زبانه پارامترها را باز کنید (شکل 2 را ببینید)، در نام قسمت منحنی تقریبی (صاف) نام روند اضافه شده را وارد کنید و در قسمت Forecast forward for: periods، مقدار را تنظیم کنید. مقدار 2، زیرا برنامه ریزی شده است که پیش بینی سود برای دو سال آینده انجام شود. برای نمایش معادله رگرسیون و مقدار قابلیت اطمینان تقریبی R2 در ناحیه نمودار، معادله نمایش را در کادرهای انتخاب صفحه فعال کنید و مقدار قابلیت اطمینان تقریبی (R^2) را روی نمودار قرار دهید. برای درک بصری بهتر، نوع، رنگ و ضخامت خطوط روند ساخته شده را تغییر می دهیم، که برای آن از تب View در کادر محاوره ای Trend Line Format استفاده می کنیم (شکل 3 را ببینید). نمودار حاصل با خطوط روند اضافه شده در شکل نشان داده شده است. 5.

    برای به دست آوردن داده های جدولی در مورد سود شرکت برای هر خط روند برای 1995-2004. بیایید از معادلات خط روند ارائه شده در شکل استفاده کنیم. 5. برای این کار در سلول های محدوده D3:F3 اطلاعات متنی نوع خط روند انتخابی را وارد کنید: روند خطی، روند درجه دوم، روند مکعبی. سپس فرمول رگرسیون خطی را در سلول D4 وارد کنید و با استفاده از نشانگر پر، این فرمول را با ارجاعات نسبی به محدوده سلولی D5:D13 کپی کنید. لازم به ذکر است که هر سلول با فرمول رگرسیون خطی از محدوده سلول های D4:D13 دارای یک سلول مربوطه از محدوده A4:A13 است. به طور مشابه، برای رگرسیون درجه دوم، محدوده سلول های E4:E13 و برای رگرسیون مکعبی، محدوده سلول های F4:F13 را پر کنید. بدین ترتیب پیش بینی سود شرکت برای سال های 2003 و 2004 تدوین شده است. با استفاده از سه گرایش جدول مقادیر حاصل در شکل نشان داده شده است. 6.

مشکل 2

    یک نمودار بسازید.

    خطوط روند لگاریتمی، توان و نمایی را به نمودار اضافه کنید.

    معادلات خطوط روند به دست آمده و همچنین مقادیر قابلیت اطمینان تقریبی R2 را برای هر یک از آنها استخراج کنید.

    با استفاده از معادلات خط روند، داده های جدولی در مورد سود شرکت برای هر خط روند برای سال های 1995-2002 به دست آورید.

    با استفاده از این خطوط روند، سود شرکت را برای سال های 2003 و 2004 پیش بینی کنید.

راه حل مشکل

با پیروی از روش ارائه شده در حل مسئله 1، نموداری به دست می آوریم که خطوط روند لگاریتمی، توان و نمایی به آن اضافه شده است (شکل 7). در مرحله بعد، با استفاده از معادلات خط روند به دست آمده، جدولی از مقادیر سود شرکت را پر می کنیم که شامل مقادیر پیش بینی شده برای سال های 2003 و 2004 می شود. (شکل 8).

در شکل 5 و شکل مشاهده می شود که مدل با روند لگاریتمی با کمترین مقدار پایایی تقریبی مطابقت دارد.

R2 = 0.8659

بالاترین مقادیر R2 مربوط به مدل هایی با روند چند جمله ای است: درجه دوم (R2 = 0.9263) و مکعب (R2 = 0.933).

مشکل 3

با جدول داده‌های سود یک شرکت حمل‌ونقل موتوری برای سال‌های 1995-2002، ارائه شده در کار 1، باید مراحل زیر را انجام دهید.

    سری داده ها را برای خطوط روند خطی و نمایی با استفاده از توابع TREND و GROW بدست آورید.

    با استفاده از توابع TREND و GROWTH، سود شرکت را برای سال های 2003 و 2004 پیش بینی کنید.

    یک نمودار برای داده های اصلی و سری داده های حاصل بسازید.

راه حل مشکل

بیایید از کاربرگ برای مسئله 1 استفاده کنیم (شکل 4 را ببینید). بیایید با تابع TREND شروع کنیم:

    محدوده سلول های D4:D11 را انتخاب کنید که باید با مقادیر تابع TREND مربوط به داده های شناخته شده در مورد سود شرکت پر شود.

    دستور Function را از منوی Insert فراخوانی کنید. در کادر محاوره‌ای Function Wizard که ظاهر می‌شود، تابع TREND را از دسته Statistical انتخاب کنید و سپس روی دکمه OK کلیک کنید. همین عملیات را می توان با کلیک بر روی دکمه (Insert Function) در نوار ابزار استاندارد انجام داد.

    در کادر محاوره‌ای Function Arguments که ظاهر می‌شود، محدوده سلول‌های C4:C11 را در قسمت Known_values_y وارد کنید. در قسمت Known_values_x - محدوده سلول های B4:B11;

    برای اینکه فرمول وارد شده به فرمول آرایه تبدیل شود، از کلید ترکیبی + + استفاده کنید.

فرمولی که در نوار فرمول وارد کردیم به صورت زیر خواهد بود: =(TREND(C4:C11,B4:B11)).

در نتیجه، محدوده سلول های D4:D11 با مقادیر مربوط به تابع TREND پر می شود (شکل 9).

برای پیش بینی سود شرکت برای سال های 2003 و 2004. لازم:

    محدوده سلول های D12:D13 را انتخاب کنید که در آن مقادیر پیش بینی شده توسط تابع TREND وارد می شود.

    تابع TREND را فراخوانی کرده و در کادر محاوره‌ای Function Arguments که ظاهر می‌شود، محدوده سلول‌های C4:C11 را در قسمت Known_values_y وارد کنید. در قسمت Known_values_x - محدوده سلول های B4:B11; و در قسمت New_values_x - محدوده سلول های B12:B13.

    این فرمول را با استفاده از کلیدهای ترکیبی Ctrl + Shift + Enter به فرمول آرایه تبدیل کنید.

    فرمول وارد شده به صورت زیر خواهد بود: =(TREND(C4:C11;B4:B11;B12:B13))، و محدوده سلول های D12:D13 با مقادیر پیش بینی شده تابع TREND پر می شود (شکل 1 را ببینید). 9).

سری داده ها به طور مشابه با استفاده از تابع GROWTH پر می شود که در تجزیه و تحلیل وابستگی های غیرخطی استفاده می شود و دقیقاً به همان روش همتای خطی آن TREND کار می کند.

شکل 10 جدول را در حالت نمایش فرمول نشان می دهد.

برای داده های اولیه و سری داده های به دست آمده، نمودار نشان داده شده در شکل. یازده

مشکل 4

با جدول داده های دریافت درخواست خدمات توسط سرویس اعزام یک شرکت حمل و نقل موتوری برای دوره از اول تا یازدهم ماه جاری، باید اقدامات زیر را انجام دهید.

    دریافت سری داده ها برای رگرسیون خطی: با استفاده از توابع SLOPE و INTERCEPT. با استفاده از تابع LINEST

    با استفاده از تابع LGRFPRIBL یک سری داده برای رگرسیون نمایی بدست آورید.

    با استفاده از توابع فوق، پیش بینی دریافت درخواست ها به سرویس اعزام را برای بازه زمانی 12 تا 14 ماه جاری انجام دهید.

    یک نمودار برای سری داده های اصلی و دریافتی ایجاد کنید.

راه حل مشکل

توجه داشته باشید که برخلاف توابع TREND و GROWTH، هیچ یک از توابع ذکر شده در بالا (SLOPE، INTERCEPT، LINEST، LGRFPRIB) رگرسیون نیستند. این توابع فقط نقش پشتیبانی را ایفا می کنند و پارامترهای رگرسیون لازم را تعیین می کنند.

برای رگرسیون های خطی و نمایی ساخته شده با استفاده از توابع SLOPE، INTERCEPT، LINEST، LGRFPRIB، شکل ظاهری معادلات آنها همیشه مشخص است، برخلاف رگرسیون های خطی و نمایی مربوط به توابع TREND و GROWTH.

1 . بیایید یک رگرسیون خطی با معادله بسازیم:

y = mx+b

با استفاده از توابع SLOPE و INTERCEPT، با شیب رگرسیون m توسط تابع SLOPE، و عبارت آزاد b توسط تابع INTERCEPT تعیین می شود.

برای انجام این کار، اقدامات زیر را انجام می دهیم:

    جدول اصلی را در محدوده سلولی A4:B14 وارد کنید.

    مقدار پارامتر m در سلول C19 تعیین می شود. تابع Slope را از دسته آماری انتخاب کنید. محدوده سلول‌های B4:B14 را در قسمت Known_values_y و محدوده سلول‌های A4:A14 را در قسمت Known_values_x وارد کنید. فرمول در سلول C19 وارد می شود: =SLOPE(B4:B14,A4:A14);

    با استفاده از تکنیک مشابه، مقدار پارامتر b در سلول D19 تعیین می شود. و محتویات آن به صورت زیر خواهد بود: =SEGMENT(B4:B14,A4:A14). بنابراین، مقادیر پارامترهای m و b مورد نیاز برای ساخت رگرسیون خطی به ترتیب در سلول‌های C19، D19 ذخیره می‌شوند.

    سپس فرمول رگرسیون خطی را در سلول C4 به شکل =$C*A4+$D وارد کنید. در این فرمول، سلول های C19 و D19 با ارجاع مطلق نوشته شده اند (آدرس سلول نباید در طول کپی ممکن تغییر کند). علامت مرجع مطلق $ را می توان پس از قرار دادن مکان نما روی آدرس سلول یا از صفحه کلید یا با استفاده از کلید F4 تایپ کرد. با استفاده از دسته پر، این فرمول را در محدوده سلول های C4:C17 کپی کنید. سری داده های مورد نیاز را بدست می آوریم (شکل 12). با توجه به اینکه تعداد برنامه ها یک عدد صحیح است، باید در تب Number پنجره Cell Format، فرمت اعداد را با تعداد ارقام اعشاری روی 0 قرار دهید.

2 . حالا بیایید یک رگرسیون خطی بسازیم که با معادله داده می شود:

y = mx+b

با استفاده از تابع LINEST

برای این:

    تابع LINEST را به عنوان یک فرمول آرایه در محدوده سلولی C20:D20: =(LINEST(B4:B14,A4:A14)) وارد کنید. در نتیجه، مقدار پارامتر m را در سلول C20 و مقدار پارامتر b را در سلول D20 به دست می آوریم.

    فرمول را در سلول D4 وارد کنید: =$C*A4+$D;

    این فرمول را با استفاده از نشانگر پر در محدوده سلولی D4:D17 کپی کنید و سری داده های مورد نظر را دریافت کنید.

3 . با معادله رگرسیون نمایی می سازیم:

با استفاده از تابع LGRFPRIBL به روشی مشابه انجام می شود:

    در محدوده سلولی C21:D21 تابع LGRFPRIBL را به عنوان فرمول آرایه وارد می کنیم: =( LGRFPRIBL (B4:B14,A4:A14)). در این حالت، مقدار پارامتر m در سلول C21 و مقدار پارامتر b در سلول D21 تعیین می شود.

    فرمول در سلول E4 وارد می شود: =$D*$C^A4;

    با استفاده از نشانگر پر، این فرمول در محدوده سلول های E4:E17، جایی که سری داده های رگرسیون نمایی قرار خواهد گرفت، کپی می شود (شکل 12 را ببینید).

در شکل شکل 13 جدولی را نشان می دهد که در آن می توانید توابعی که ما با محدوده سلولی مورد نیاز استفاده می کنیم و همچنین فرمول ها را مشاهده کنید.

اندازه آر 2 تماس گرفت ضریب تعیین.

وظیفه ساخت یک وابستگی رگرسیونی یافتن بردار ضرایب m مدل (1) است که در آن ضریب R حداکثر مقدار را به خود می گیرد.

برای ارزیابی اهمیت R، از آزمون F فیشر استفاده می شود که با استفاده از فرمول محاسبه می شود

جایی که n- حجم نمونه (تعداد آزمایش)؛

k تعداد ضرایب مدل است.

اگر F از مقداری بحرانی برای داده ها فراتر رود nو کو احتمال اطمینان پذیرفته شده، پس مقدار R معنی دار در نظر گرفته می شود. جداول مقادیر بحرانی F در کتاب های مرجع آمار ریاضی آورده شده است.

بنابراین، اهمیت R نه تنها با مقدار آن، بلکه با نسبت بین تعداد آزمایش ها و تعداد ضرایب (پارامترهای) مدل نیز تعیین می شود. در واقع، نسبت همبستگی برای n=2 برای یک مدل خطی ساده برابر با 1 است (شما همیشه می توانید یک خط مستقیم را از طریق 2 نقطه در یک صفحه رسم کنید). با این حال، اگر داده‌های تجربی متغیرهای تصادفی باشند، باید به چنین مقدار R با احتیاط زیاد اعتماد کرد. معمولاً برای به دست آوردن رگرسیون R قابل‌توجه و قابل اعتماد، آنها تلاش می‌کنند تا اطمینان حاصل کنند که تعداد آزمایش‌ها به طور قابل‌توجهی از تعداد ضرایب مدل (n>k) بیشتر است.

برای ساخت یک مدل رگرسیون خطی شما نیاز دارید:

1) فهرستی از n ردیف و m ستون حاوی داده های تجربی تهیه کنید (ستون حاوی مقدار خروجی Yباید اولین یا آخرین لیست باشد). برای مثال، بیایید داده‌های کار قبلی را بگیریم، ستونی به نام دوره شماره اضافه کنیم، اعداد دوره را از 1 تا 12 شماره گذاری کنیم. (اینها مقادیر خواهند بود. ایکس)

2) به منوی Data/Data Analysis/Regression بروید

اگر مورد «تجزیه و تحلیل داده‌ها» در منوی «ابزار» وجود ندارد، باید به آیتم «افزونه‌ها» در همان منو بروید و کادر «بسته تحلیل» را علامت بزنید.

3) در کادر محاوره ای "Regression"، تنظیم کنید:

· فاصله ورودی Y;

· فاصله ورودی X.

· فاصله خروجی - سلول سمت چپ بالای فاصله زمانی که نتایج محاسبات در آن قرار می گیرد (توصیه می شود آنها را در یک کاربرگ جدید قرار دهید).

4) روی "OK" کلیک کنید و نتایج را تجزیه و تحلیل کنید.

100 RURجایزه برای سفارش اول

انتخاب نوع کار کار دیپلم کار درسی چکیده پایان نامه کارشناسی ارشد گزارش تمرین مقاله بررسی کار آزمایشی تک نگاری حل مسئله طرح کسب و کار پاسخ به سوالات کار خلاقانه انشا نقاشی انشا ترجمه ارائه تایپ دیگر افزایش منحصر به فرد بودن متن پایان نامه کارشناسی ارشد کار آزمایشگاهی کمک آنلاین

قیمت را دریابید

روش حداقل مربعات یک تکنیک ریاضی (ریاضی-آماری) است که برای تراز کردن سری های زمانی، شناسایی شکل همبستگی بین متغیرهای تصادفی و غیره استفاده می شود. این روش شامل این واقعیت است که تابعی که یک پدیده معین را توصیف می کند با یک تابع ساده تر تقریب می شود. علاوه بر این، دومی به گونه ای انتخاب می شود که انحراف استاندارد (نگاه کنید به پراکندگی) سطوح واقعی تابع در نقاط مشاهده شده از موارد تراز، کوچکترین باشد.

به عنوان مثال، با توجه به داده های موجود ( xi,یی) (من = 1, 2, ..., n) چنین منحنی ساخته شده است y = آ + bx، که در آن حداقل مجذور انحرافات حاصل می شود

به عنوان مثال، یک تابع بسته به دو پارامتر به حداقل می رسد: آ- قطعه بر روی محور ارتین و ب- شیب خط مستقیم

معادلاتی که شرایط لازم برای کمینه سازی تابع را ارائه می دهند اس(آ,ب)، نامیده می شوند معادلات عادیبه عنوان توابع تقریبی، نه تنها خطی (تراز در امتداد یک خط مستقیم)، بلکه درجه دوم، سهمی، نمایی، و غیره استفاده می شود. M.2، که در آن مجموع فواصل مجذور ( y 1 – ȳ 1)2 + (y 2 – ȳ 2)2 .... کوچکترین است و خط مستقیم حاصله به بهترین وجه روند یک سری مشاهدات دینامیکی از یک شاخص خاص را در طول زمان منعکس می کند.

برای تخمین های OLS بی طرفانه، انجام مهم ترین شرط تحلیل رگرسیون لازم و کافی است: انتظار ریاضی یک خطای تصادفی، مشروط به عوامل، باید برابر با صفر باشد. این شرط به ویژه در صورتی برآورده می شود که: 1-انتظار ریاضی خطاهای تصادفی صفر باشد و 2-عوامل و خطاهای تصادفی متغیرهای تصادفی مستقل باشند. شرط اول را می‌توان برای مدل‌های دارای ثابت همیشه برآورده‌شده در نظر گرفت، زیرا ثابت انتظار ریاضی غیرصفری از خطاها را دارد. شرط دوم - شرط برون زایی عوامل - اساسی است. اگر این ویژگی برآورده نشود، می توانیم فرض کنیم که تقریباً هر تخمینی بسیار رضایت بخش نخواهد بود: آنها حتی سازگار نخواهند بود (یعنی حتی حجم بسیار زیادی از داده ها به ما امکان نمی دهد در این مورد تخمین های با کیفیت بالا به دست آوریم. ).

رایج ترین روش تخمین آماری پارامترهای معادلات رگرسیون، روش حداقل مربعات است. این روش بر اساس تعدادی از مفروضات در رابطه با ماهیت داده ها و نتایج مدل است. اصلی ترین آنها عبارتند از تقسیم واضح متغیرهای اصلی به وابسته و مستقل، عدم همبستگی عوامل موجود در معادلات، خطی بودن رابطه، عدم وجود خود همبستگی باقیمانده ها، برابری انتظارات ریاضی آنها به صفر و ثابت. پراکندگی

یکی از فرضیه‌های اصلی OLS، فرض برابری واریانس‌های انحراف ei، یعنی. گسترش آنها حول میانگین (صفر) مقدار سری باید یک مقدار پایدار باشد. به این خاصیت هموسکداستیسیته می گویند. در عمل، واریانس انحرافات اغلب نابرابر است، یعنی ناهمسانی مشاهده می شود. این ممکن است به دلایل مختلفی باشد. به عنوان مثال، ممکن است خطاهایی در داده های منبع وجود داشته باشد. عدم دقت گاه به گاه در اطلاعات منبع، مانند اشتباه در ترتیب اعداد، می تواند تأثیر قابل توجهی بر نتایج داشته باشد. اغلب، گسترش بزرگتر انحرافات єi با مقادیر زیاد متغیر وابسته (متغیرها) مشاهده می شود. اگر داده ها حاوی خطای قابل توجهی باشند، طبیعتا انحراف مقدار مدل محاسبه شده از داده های اشتباه نیز زیاد خواهد بود. برای خلاص شدن از شر این خطا، باید سهم این داده ها را در نتایج محاسبات کاهش دهیم و وزن کمتری به آنها نسبت به سایرین اختصاص دهیم. این ایده در OLS وزنی پیاده سازی شده است.



آیا مقاله را دوست داشتید؟ با دوستانتان به اشتراک بگذارید!