মডেলিংয়ের জন্য স্কিউ ডেটা কেন পছন্দ করা হয় না?


16

বেশিরভাগ সময় লোকেরা যখন পরিবর্তনশীল রূপান্তর সম্পর্কে কথা হয় (উভয় ক্ষেত্রে ভবিষ্যদ্বাণীকারী এবং প্রতিক্রিয়াশীল ভেরিয়েবলের জন্য), তারা ডেটার স্কিউনেস (যেমন লগ রূপান্তর, বাক্স এবং কক্স ট্রান্সফর্মেশন ইত্যাদি) চিকিত্সার উপায়গুলি নিয়ে আলোচনা করে। আমি যেটা বুঝতে পারি না তা হ'ল স্কিউনেস অপসারণকে এ জাতীয় সাধারণ অভ্যাস হিসাবে বিবেচনা করা হয় কেন? গাছ ভিত্তিক মডেল, লিনিয়ার মডেল এবং অ-লিনিয়ার মডেলগুলির মতো বিভিন্ন ধরণের মডেলের স্কিউনেস কীভাবে প্রভাব ফেলবে? কোন ধরণের মডেলগুলি স্কিউনেস দ্বারা বেশি আক্রান্ত হয় এবং কেন?


2
যুক্তিসঙ্গত উত্তর দেওয়ার জন্য, দয়া করে আপনার কী বোঝানো হয়েছে তা পরিষ্কার করুন: ক) ডেটা, খ) মডেলিং এবং গ) মডেল। মূল প্রশ্ন - যথারীতি - আপনি এটি দিয়ে কী করতে চান তা । তবে এটা কী?
চাঁদের কণা

আমি কিছু প্রাসঙ্গিক উদ্ধৃতি যুক্ত করতে এবং দাবিগুলিতে প্রসারিত করতে আমার উত্তর আপডেট করেছি।
টাভ্রোক

উত্তর:


11

স্কিউনেস অপসারণ করার সময়, রূপান্তরগুলি ডেটাসেটকে গাউসীয় বিতরণকে অনুসরণ করার চেষ্টা করছে। কারণটি হ'ল যদি ডেটাসেটটি পরিসংখ্যানগতভাবে কোনও গাউসিয়ান ডেটাসেটের নিকটবর্তী হয়ে রূপান্তরিত করা যায়, তবে তাদের পক্ষে সম্ভাব্য সবচেয়ে বড় সরঞ্জামগুলি উপলব্ধ। যেমন ANOVA, যেমন টেস্ট t -test, এফ -test, এবং আরও অনেক কিছু ধ্রুবক ভ্যারিয়েন্স (থাকার ডেটার উপর নির্ভর σ2 ) অথবা একটি গসিয়ান বন্টন অনুসরণ করুন। 1

সেখানে মডেলের যে আরো জোরালো হয় 1 সবচেয়ে পরীক্ষা এবং মডেল যা অন্যান্য ডিস্ট্রিবিউশন সাথে ভাল কাজ প্রয়োজন, আপনি কি জানেন যে কি বন্টন, কিন্তু (যেমন পরিবর্তে বার্টলেট এর পরীক্ষার লেভাইন টেস্ট ব্যবহার হিসাবে) হয় সঙ্গে কাজ এবং সাধারণত শুধুমাত্র একটি একক বিতরণের জন্য যথাযথ যেমন.

এনআইএসটি ইঞ্জিনিয়ারিং স্ট্যাটিস্টিক্স হ্যান্ডবুকটি উদ্ধৃত করতে :

রিগ্রেশন মডেলিংয়ে আমরা প্রায়শই নিম্নলিখিত দুটি লক্ষ্য অর্জনের জন্য রূপান্তরগুলি প্রয়োগ করি:

  1. ত্রুটিগুলির জন্য বৈকল্পিক অনুমানের সাদৃশ্য পূরণ করতে।
  2. যথাসম্ভব ফিটকে লিনিয়ারাইজ করতে।

এই দুটি লক্ষ্য দ্বন্দ্ব করতে পারে এমন কিছু যত্ন এবং বিচারের প্রয়োজন। আমরা প্রথমে সমজাতীয় রূপগুলি অর্জন করার চেষ্টা করি এবং তারপরে ফিটকে লিনিয়ারাইজ করার চেষ্টা করার সমস্যাটি সমাধান করি।

এবং অন্য জায়গায়

একটি প্রতিক্রিয়া পরিবর্তনশীল এবং একটি একক স্বতন্ত্র ভেরিয়েবলের সাথে জড়িত একটি মডেলটির ফর্মটি রয়েছে:

Yi=f(Xi)+Ei

যেখানে হ'ল প্রতিক্রিয়া পরিবর্তনশীল, হ'ল স্বাধীন ভেরিয়েবল, লিনিয়ার বা অ-রৈখিক ফিট ফাংশন, এবং এলোমেলো উপাদান। একটি ভাল মডেলের জন্য, ত্রুটি উপাদানটি এমন আচরণ করা উচিত:YXfE

  1. এলোমেলো অঙ্কন (অর্থাত্ স্বাধীন);
  2. একটি নির্দিষ্ট বিতরণ থেকে;
  3. স্থির অবস্থান সহ; এবং
  4. নির্দিষ্ট প্রকরণের সাথে।

তদতিরিক্ত, ফিটিং মডেলগুলির জন্য সাধারণত আরও ধরে নেওয়া হয় যে স্থির বন্টন স্বাভাবিক এবং স্থির অবস্থান শূন্য। একটি ভাল মডেলের জন্য নির্দিষ্ট প্রকরণটি যতটা সম্ভব ছোট হওয়া উচিত। ফিটিং মডেলগুলির একটি প্রয়োজনীয় উপাদানটি ত্রুটি উপাদানটির জন্য এই অনুমানগুলি যাচাই করা এবং ত্রুটির উপাদানটির প্রকরণটি যথেষ্ট পরিমাণে কম কিনা তা নির্ধারণ করা। হিস্টগ্রাম, ল্যাগ প্লট এবং স্বাভাবিক সম্ভাবনার প্লট ত্রুটির উপাদানটির স্থির বন্টন, অবস্থান এবং প্রকরণের অনুমান যাচাই করতে ব্যবহৃত হয়। প্রতিক্রিয়া ভেরিয়েবলের প্লট এবং স্বতন্ত্র ভেরিয়েবলের তুলনায় পূর্বাভাসিত মানগুলি বিভিন্নতা যথেষ্ট পরিমাণে কম কিনা তা নির্ধারণ করতে ব্যবহৃত হয়। স্বাধীন পরিবর্তনশীল এবং পূর্বাভাসিত মান বনাম অবশিষ্টাংশের প্লটগুলি স্বাধীনতা অনুমানটি মূল্যায়ন করতে ব্যবহৃত হয়।

উপরোক্ত অনুমানের দিক দিয়ে ফিটের বৈধতা এবং গুণমান নির্ধারণ করা মডেল-ফিটিং প্রক্রিয়াটির একেবারে গুরুত্বপূর্ণ অঙ্গ is পর্যাপ্ত মডেল বৈধকরণ পদক্ষেপ ব্যতীত কোনও ফিটকে সম্পূর্ণ বিবেচনা করা উচিত নয়।


  1. (সংক্ষেপে) দাবিগুলির জন্য উদ্ধৃতি:
    • ব্রাইফগল তৃতীয়, ফরেস্ট ডাব্লু। ছয় সিগমা প্রয়োগ করছে
    • পাইজডেক, টমাস। সিক্স সিগমা হ্যান্ডবুক
    • মন্টগোমেরি, ডগলাস সি স্ট্যাটিস্টিকাল কোয়ালিটি কন্ট্রোলের পরিচিতি
    • এড। কুবারলি, উইলাইম এইচ এবং বাকেরজান, রামন। সরঞ্জাম এবং উত্পাদন ইঞ্জিনিয়ারদের হ্যান্ডবুক: ডেস্কটপ সংস্করণ

আপনার প্রতিক্রিয়া জন্য ধন্যবাদ Tavrock। তবে যতদূর আমি জানি, আনোভা বা এফ-টেস্টের টি-টেস্ট সিদ্ধান্ত গাছগুলিতে ব্যবহার করা হয় না (কমপক্ষে বিভক্ত করার জন্য)। এছাড়াও, লিনিয়ার রিগ্রেশন মধ্যে বিতরণের আকার সম্পর্কিত বেশিরভাগ অনুমান ত্রুটির সাথে সম্পর্কিত। ত্রুটিগুলি যদি স্কিউড হয় তবে এই পরীক্ষাগুলি ব্যর্থ হয়। সুতরাং, এর অর্থ এই যে ভবিষ্যদ্বাণীকারী ভেরিয়েবলের skewness এই মডেলগুলির জন্য পূর্বাভাসের গুণমানকে প্রভাবিত করবে না। আমি ভুল হলে আমাকে সংশোধন করুন। আবার ধন্যবাদ!!
সৌরভ শেখর

1
আপনি কী আপনার প্রশ্নটি স্পষ্ট করতে পারেন - আপনি কী প্রতিক্রিয়াশীল ভেরিয়েবলকে রূপান্তর করতে চান, বা ভবিষ্যদ্বাণী ভেরিয়েবলগুলি রূপান্তর করতে চান, বা উভয় সম্পর্কে?
গ্রোভি_আরোম

1
@ গ্রোভি_আরোম এটি নির্দেশ করার জন্য ধন্যবাদ thanks এই প্রশ্নে আমি ভবিষ্যদ্বাণীকারী এবং প্রতিক্রিয়া উভয় পরিবর্তনশীল সম্পর্কে উদ্বিগ্ন।
সৌরভ শেখর

আপনি সাধারণত রৈখিক মডেলিং (জিএলএম) খুঁজছেন । লিনিয়ার রিগ্রেশন-এ, আপনি সাধারণত ধরে নেন যে আপনার নির্ভরশীল ভেরিয়েবলটি এক্স এবং র্যান্ডম ভেরিয়েবলের শর্তসাপেক্ষে গাউসীয় বিতরণ অনুসরণ করে । জিএলএম দিয়ে আপনি আপনার নির্ভরশীল ভেরিয়েবল, আপনার স্বতন্ত্র ভেরিয়েবল ( আপনার নির্দিষ্ট একটি লিঙ্ক ফাংশনের মাধ্যমে) যে কোনও ধরণের বিতরণ (প্রায়) বিতরণের অনুমতি দেওয়ার জন্য আপনার মহাবিশ্বকে প্রসারিত করতে পারেন ।
ক্রিস কে

7

এটি প্যারামেট্রিক মডেলের ক্ষেত্রে বেশিরভাগ ক্ষেত্রেই সত্য। যেমন টাভ্রোক বলেছিলেন, প্রতিক্রিয়ার পরিবর্তনশীল যেটি স্কিউড নয় তা গাউসিয়াকে প্যারামিটার অনুমানের কাজকে আরও ভাল করে তোলে, কারণ এই প্রতিসরণ বিতরণ স্কুওয়ের চেয়ে গাউসিতে অনেক দ্রুত রূপান্তরিত করে। এর অর্থ হ'ল, যদি আপনার কাছে ডেটা স্কিউ থাকে তবে রূপান্তরকরণটি প্যারামিটারগুলিতে যথাযথ আত্মবিশ্বাসের ব্যবস্থাগুলি এবং পরীক্ষাগুলি ব্যবহারের জন্য কমপক্ষে ছোট ডেটাসেট তৈরি করবে (ভবিষ্যদ্বাণী অন্তরগুলি এখনও বৈধ হবে না, যদিও আপনার ডেটা এখন প্রতিসাম্যিক হলেও আপনি বলতে পারবেন না) এটি স্বাভাবিক, কেবলমাত্র পরামিতি অনুমানগুলি গাউসিতে রূপান্তরিত হবে)।

এই পুরো বক্তব্যটি প্রতিক্রিয়া ভেরিয়েবলের শর্তযুক্ত বিতরণ সম্পর্কে, আপনি বলতে পারেন: ত্রুটি সম্পর্কে। তবুও যদি আপনার কোনও পরিবর্তনশীল থাকে যা আপনি তাঁর শর্তহীন বিতরণটির দিকে তাকান তখন স্কেল মনে হয়, এর অর্থ সম্ভবত এটির একটি শঙ্কিত শর্তযুক্ত বিতরণ রয়েছে। আপনার ডেটাতে একটি মডেল ফিট করা এতে আপনার মন পরিষ্কার করবে।

সিদ্ধান্তের গাছগুলিতে আমি প্রথমে একটি জিনিস উল্লেখ করব: স্কিউ ব্যাখ্যাযোগ্য ভেরিয়েবলগুলিকে রূপান্তরিত করার কোনও অর্থ নেই, একঘেয়ে কর্মগুলি কোনও জিনিসকে পরিবর্তন করবে না; এটি লিনিয়ার মডেলগুলিতে কার্যকর হতে পারে তবে সিদ্ধান্তের গাছগুলিতে নয়। এটি বলেছিল, কার্ট মডেলগুলি থুতু সঞ্চালনের জন্য বৈকল্পিক বিশ্লেষণ ব্যবহার করে এবং বহিরাগতদের এবং স্কিউড ডেটাতে বৈকল্পিকতা খুব বুদ্ধিমান, এই কারণেই আপনার প্রতিক্রিয়ার পরিবর্তনশীলটি আপনার মডেলের যথার্থতাটিকে যথেষ্ট উন্নত করতে পারে।


1

আমি বিশ্বাস করি এটি গৌসিয়ানদের সুন্দর বৈশিষ্ট্যের কারণে ফিরিয়ে দেওয়ার toতিহ্যের খুব একটা নিদর্শন।

তবে চমৎকার বিতরণের বিকল্প রয়েছে, যেমন সাধারণ গামা যা বিভিন্ন স্কিউড বিতরণ আকার এবং ফর্মগুলির একটি হোস্টকে অন্তর্ভুক্ত করে


1

অন্যান্য পাঠকরা যেমন বলেছেন, আপনি নিজের ডেটা দিয়ে যা অর্জন করার পরিকল্পনা করছেন তার আরও কিছু ব্যাকগ্রাউন্ড সহায়ক হবে।

বলা হচ্ছে, কেন্দ্রীয় সীমাবদ্ধতা উপপাদ্য এবং বিপুল সংখ্যার আইন হিসাবে পরিচিত পরিসংখ্যানের রাজ্যে দুটি গুরুত্বপূর্ণ মতবাদ রয়েছে । এটি বলার অপেক্ষা রাখে না যে, যত বেশি পর্যবেক্ষণ রয়েছে, একটি ডেটাসেটের কাছাকাছি সাধারণ বিতরণ আনুমানিক হবে বলে আশা করা হচ্ছে , একটি সমান গড়, মধ্যম এবং মোড সহ। বিপুল সংখ্যক আইনের অধীনে, এটি প্রত্যাশিত এবং প্রকৃত মানের মধ্যে বিচ্যুতি অবশেষে পর্যাপ্ত পর্যবেক্ষণের পরে শূন্যে নেমে আসবে বলে আশা করা হচ্ছে।

সুতরাং, একটি সাধারণ বিতরণ গবেষককে অন্তর্নিহিত বিতরণটি জানা থাকলে কোনও জনসংখ্যা সম্পর্কে আরও সঠিক ভবিষ্যদ্বাণী করতে দেয় to

অসুবিধা হ'ল যখন কোনও বিতরণ এ থেকে বিচ্যুত হয়, অর্থাত্ কোনও বিচ্যুতিটি ইতিবাচক বা নেতিবাচকভাবে স্কিউড হতে পারে। তবে, কেন্দ্রীয় সীমাবদ্ধ তত্ত্বটি যুক্তি দেয় যে যথেষ্ট পরিমাণ পর্যবেক্ষণের সেট দিয়েছে, ফলাফলটি প্রায় একটি সাধারণ বিতরণ হবে। সুতরাং, যদি বিতরণটি স্বাভাবিক না হয় তবে আপনার উল্লিখিত রূপান্তর পদ্ধতির মাধ্যমে বিতরণের অন্তর্নিহিত কাঠামোটি পরিবর্তন করার চেষ্টা করার আগে প্রথমে আরও বেশি তথ্য সংগ্রহ করার পরামর্শ দেওয়া হয়।


1

Skewness একটি খারাপ জিনিস আছে যখন? প্রতিসম বিতরণ (সাধারণত তবে সর্বদা নয়: উদাহরণস্বরূপ, কাচি বিতরণের জন্য নয়) এর মাঝারি, মোড থাকে এবং একে অপরের খুব কাছে থাকে। সুতরাং বিবেচনা করুন, আমরা যদি একটি জনসংখ্যার অবস্থান পরিমাপ করতে চাই, তবে এটি মাঝারি, মোড এবং একে অপরের নিকটবর্তী হওয়া উপকারী।

ln0=

Www থেকে 25 মিলিয়ন ডলার আয় থেকে উদাহরণ Example

k$	lnk$
28  3.33220451
29  3.36729583
35  3.555348061
42  3.737669618
42  3.737669618
44  3.784189634
50  3.912023005
52  3.951243719
54  3.988984047
56  4.025351691
59  4.077537444
78  4.356708827
84  4.430816799
90  4.49980967
95  4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514

প্রথম কলামটির স্কিউনেস ০.৯৯, এবং দ্বিতীয়টি -0.05। প্রথম কলামটি সম্ভবত স্বাভাবিক নয় (শাপিরো-উইলক পি = 0.04) এবং দ্বিতীয়টি উল্লেখযোগ্যভাবে স্বাভাবিক নয় (পি = 0.57)।

First column    Mean 90.0 (95% CI, 68.6 to 111.3)     Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)

exp[meanln(k$)] 

স্পষ্টতই, এখানে লগ-স্বাভাবিক একটি ভাল মডেল এবং গড় লোগারিদম আমাদের অবস্থানের আরও ভাল পরিমাপ দেয়। এটি পুরোপুরি বোঝা না গেলে এটি সুপরিচিত, "আমি 5-ফিগার বেতন পাওয়ার প্রত্যাশা করছি" এই বাক্যটি দ্বারা চিত্রিত হয়েছে।


0

বেশিরভাগ ফলাফল গাউসীয় অনুমানের উপর ভিত্তি করে। আপনার যদি স্কিউ বিতরণ হয় তবে আপনার গাউসির বিতরণ নেই, তাই সম্ভবত এটির এটিকে রূপ দেওয়ার জন্য আপনার মরিয়া চেষ্টা করা উচিত।

তবে অবশ্যই আপনি জিএলএম দিয়ে চেষ্টা করতে পারেন।


0

আমি মনে করি এটি কেবলমাত্র মডেলিং নয়, তবে আমাদের মস্তিস্ক উচ্চ স্কু ডেটার সাথে কাজ করতে ব্যবহৃত হয় না। উদাহরণস্বরূপ, আচরণগত ফিনান্সে এটি সুপরিচিত যে আমরা খুব কম বা উচ্চ সম্ভাবনার অনুমান করার পক্ষে ভাল নই।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.