লিনিয়ার রিগ্রেশন-এ, প্রকৃত মানগুলির পরিবর্তে স্বতন্ত্র ভেরিয়েবলের লগটি ব্যবহার করা কখন উপযুক্ত?


164

আমি কি প্রশ্নে স্বতন্ত্র ভেরিয়েবলের জন্য আরও ভাল আচরণের বিতরণ খুঁজছি, বা বহিরাগতদের প্রভাব কমাতে বা অন্য কিছু?


1
আপনি কীভাবে বহিরাগতদের প্রভাবকে হ্রাস করবেন বা কিছু ভেরিয়েবলের লগ কখন ব্যবহার করবেন সে সম্পর্কে জিজ্ঞাসা করছেন?
বেনজামিন ব্যানিয়ার

23
আমি মনে করি যে ওপি বলছে "আমি লোকদের ইনপুট ভেরিয়েবলগুলিতে লগ ব্যবহার করতে শুনেছি: তারা কেন এটি করে?"
শেন

শুধু লগ কেন? এই প্রশ্নটি কি এমন কোনও ডেটা ট্রান্সফরমেশন টেকনিকের জন্য প্রযোজ্য নয় যা এমএক্স + বি এর সাথে সম্পর্কিত অবশিষ্টাংশগুলি হ্রাস করতে ব্যবহার করা যেতে পারে?
অসিমল্যাবস

1
@ অ্যাসেমল্যাবস - লগটি রিগ্রেশন-এ বিশেষ হতে পারে, কারণ এটি একমাত্র ফাংশন যা কোনও পণ্যকে সংক্ষেপে রূপান্তর করে।
সম্ভাব্যতা

12
পাঠকদের জন্য একটি সতর্কতা: প্রশ্নটি আইভিগুলি রূপান্তর করার বিষয়ে জিজ্ঞাসা করে, তবে কয়েকটি উত্তর ডিভিএস রূপান্তরিত করার কারণ সম্পর্কে কথা বলছে বলে মনে হয়। এগুলি ভেবে ভ্রান্ত না হয়ে আইভির রূপান্তরিত করার সমস্ত কারণ - কিছু হতে পারে, অন্যরা অবশ্যই তা নয়। বিশেষত, চতুর্থ বিতরণ সাধারণত প্রাসঙ্গিক নয় (আসলে, ডিভির প্রান্তিক বিতরণ হয় না)।
Glen_b

উত্তর:


168

আমি সর্বদা এটির মতো দুর্দান্ত প্রতিক্রিয়াগুলির সাথে একটি থ্রেডে ঝাঁপিয়ে পড়তে দ্বিধা বোধ করি, তবে এটি আমাকে আঘাত করে যে কয়েকটি উত্তর উত্তরকে লোগারিদমকে অন্য কোনও রূপান্তরকে প্রাধান্য দেওয়ার কোনও কারণ সরবরাহ করে যা ডেটা "স্কোয়াশ" যেমন একটি মূল বা পারস্পরিক ক্রিয়াকলাপ হিসাবে উপস্থাপন করে।

এটির আগে, আসুন আমরা আরও সাধারণ উপায়ে বিদ্যমান উত্তরগুলিতে জ্ঞানটি পুনরায় চিত্রিত করি । নিম্নোক্ত যে কোনও প্রয়োগ করার সময় নির্ভরশীল ভেরিয়েবলের কিছু অ-রৈখিক পুনঃপ্রকাশটি নির্দেশিত হয়:

  • অবশিষ্টাংশের একটি বিতর্কিত বিতরণ আছে। রূপান্তরটির উদ্দেশ্য হ'ল অবশিষ্টাংশগুলি যা প্রায় প্রতিসাম্যিকভাবে বিতরণ করা হয় (প্রায় শূন্য প্রায় অবশ্যই)।

  • অবশিষ্টাংশের বিস্তারটি নির্ভরশীল ভেরিয়েবলের মানগুলির সাথে নিয়মিতভাবে পরিবর্তিত হয় ("হেটেরোসেসটাস্টিকটি")। রূপান্তরটির উদ্দেশ্যটি হ'ল আনুষ্ঠানিক "সমকামীতা" অর্জনের মাধ্যমে সেই নিয়মতান্ত্রিক পরিবর্তনকে সরিয়ে নেওয়া।

  • একটি সম্পর্ক লিনিয়ারাইজ করা।

  • যখন বৈজ্ঞানিক তত্ত্ব নির্দেশ করে। উদাহরণস্বরূপ, রসায়ন প্রায়শই লোগারিদম হিসাবে ক্রিয়াকলাপ প্রকাশ করার পরামর্শ দেয় (ক্রিয়াকলাপ দেয় এমনকি সুপরিচিত পিএইচ)।

  • যখন একটি আরও নেবুলাস পরিসংখ্যানগত তত্ত্ব প্রস্তাবিত অবশিষ্টাংশগুলি "এলোমেলো ত্রুটিগুলি" প্রতিফলিত করে যা সংযোজনীয়ভাবে জমা হয় না।

  • একটি মডেল সরল করতে। উদাহরণস্বরূপ, কখনও কখনও লগারিদম "ইন্টারঅ্যাকশন" পদগুলির সংখ্যা এবং জটিলতা সহজ করে তুলতে পারে।

(এই ইঙ্গিতগুলি একে অপরের সাথে বিরোধ করতে পারে; এই জাতীয় ক্ষেত্রে রায় দেওয়া দরকার))

সুতরাং, যখন কোনও লোগারিদম নির্দিষ্টভাবে অন্য কিছু রূপান্তরের পরিবর্তে নির্দেশিত হয়?

  • অবশিষ্টাংশের "দৃ strongly়ভাবে" ইতিবাচকভাবে স্কিউ বিতরণ হয়। ইডিএ সম্পর্কিত তাঁর বইতে জন টুকি অবশিষ্টাংশের র‌্যাঙ্কের পরিসংখ্যানের ভিত্তিতে রূপান্তর (বক্স-কক্সের পরিবারের মধ্যে, বা শক্তি, রূপান্তর) অনুমানের পরিমাণগত উপায় সরবরাহ করে। এটি সত্যই অবতীর্ণ হয় যে লগটি গ্রহণ করলে অবশিষ্টাংশগুলির প্রতিসাম্য ঘটে, এটি সম্ভবত পুনরায় প্রকাশের সঠিক ফর্ম ছিল; অন্যথায়, অন্য কিছু পুনরায় প্রকাশের প্রয়োজন।

  • যখন অবশিষ্টাংশের এসডি ফিটেড মানগুলির সাথে সরাসরি আনুপাতিক হয় (এবং লাগানো মানগুলির কোনও পাওয়ার নয়)।

  • সম্পর্কটি যখন ঘনিষ্ঠ হয়।

  • যখন অবশিষ্টাংশগুলি গুণগতভাবে জমা হওয়া ত্রুটিগুলি প্রতিফলিত করে বলে বিশ্বাস করা হয়।

  • আপনি সত্যই এমন একটি মডেল চান যেখানে বর্ণনামূলক ভেরিয়েবলের প্রান্তিক পরিবর্তনগুলি নির্ভরশীল ভেরিয়েবলের গুণমান (শতাংশ) পরিবর্তনের ক্ষেত্রে ব্যাখ্যা করা হয়।

অবশেষে, পুনঃপ্রকাশটি ব্যবহার করার কিছু -কারণ :

  • আউটলিয়ারকে আউটলিয়ারের মতো দেখায় না। আউটলেটর এমন একটি ডেটুম যা ডেটাগুলির কিছু পার্সোনামিয়াস, তুলনামূলক সহজ বর্ণনা মাপসই করে না। আউটলিয়ারদের আরও ভাল দেখানোর জন্য নিজের বর্ণনাকে পরিবর্তন করা সাধারণত অগ্রাধিকারগুলির একটি ভুল বিপরীত হয়: প্রথমে বৈজ্ঞানিকভাবে বৈধ, পরিসংখ্যানগতভাবে ডেটাটির ভাল বিবরণ অর্জন করুন এবং তারপরে যে কোনও বিদেশী অন্বেষণ করুন। মাঝেমধ্যে আউটলারকে কীভাবে বাকী ডেটা বর্ণনা করতে হবে তা নির্ধারণ করতে দিবেন না!

  • কারণ সফ্টওয়্যারটি স্বয়ংক্রিয়ভাবে এটি করেছে। (যথেষ্ট বলেছ!)

  • কারণ সমস্ত ডেটা ইতিবাচক। (ইতিবাচকতা প্রায়শই ইতিবাচক সঙ্কোচকে বোঝায়, তবে এটি করার দরকার হয় না Furthermore অন্যদিকে, অন্য রূপান্তরগুলি আরও ভালভাবে কাজ করতে পারে For উদাহরণস্বরূপ, একটি মূল প্রায়শই গণনা করা ডেটার সাথে সবচেয়ে ভাল কাজ করে))

  • "খারাপ" ডেটা তৈরি করতে (সম্ভবত নিম্ন মানের) ভাল আচরণ করা প্রদর্শিত হবে।

  • ডেটা প্লট করতে সক্ষম হতে (ক রূপান্তর ডেটা প্লটে বিভক্ত পাবে প্রয়োজন হলে, এটি সম্ভবত এক বা একাধিক ভাল কারণ ইতিমধ্যে উল্লিখিত জন্য প্রয়োজন এর রূপান্তর সত্যিই জন্য একমাত্র কারণ ষড়যন্ত্র, এগিয়ে যান এর জন্য হলে এবং তা -। কিন্তু শুধুমাত্র চক্রান্ত ডেটা। বিশ্লেষণের জন্য ডেটা অপরিবর্তিত রেখে দিন))


1
কোনও অঞ্চলে জনসংখ্যার ঘনত্ব বা প্রতিটি বিদ্যালয় জেলার জন্য শিশু-শিক্ষক অনুপাত বা জনসংখ্যায় 1000 প্রতি হোমসাইডের সংখ্যার মতো চলকগুলি সম্পর্কে কী বলা যায়? আমি প্রফেসররা এই ভেরিয়েবলগুলির লগ নিতে দেখেছি। কেন তা আমার কাছে পরিষ্কার নয়। উদাহরণস্বরূপ, হত্যাকাণ্ডের হারটি কি ইতিমধ্যে শতাংশ নয়? লগ কি হারের শতাংশ পরিবর্তন হবে? শিশু-শিক্ষক অনুপাতের লগ কেন পছন্দ হবে? সত্যিকারের কার্যকরী রূপ সম্পর্কে কোনও অন্তর্নিহিত তত্ত্ব না থাকলে প্রতিটি অবিচ্ছিন্ন পরিবর্তনশীলটির জন্য লগ রূপান্তর গ্রহণ করা উচিত?
ব্যবহারকারী 1690130

1
@ জিজি ছোট অনুপাতগুলিতে বিতরণ বিতর্কিত ঝোঁক রয়েছে; লোগারিদম এবং শিকড়গুলি এগুলিকে আরও প্রতিসামন্ডিত করে তুলতে পারে। শতকরা সম্পর্কিত আপনার প্রশ্নগুলি আমি বুঝতে পারছি না: সম্ভবত আপনি শতাংশের বিভিন্ন ব্যবহারের বিবাদ করছেন (একটিকে একটি সামগ্রীর অনুপাত হিসাবে কিছু প্রকাশ করার জন্য এবং অন্যটি আপেক্ষিক পরিবর্তনটি প্রকাশ করার জন্য)? আমি বিশ্বাস করি না যে লোগারিদম সর্বদা প্রয়োগ করা উচিত - আমি এর থেকে অনেক দূরে! সুতরাং আমি আপনার শেষ প্রশ্নের ভিত্তি বুঝতে পারি না।
হোয়াট

2
"যখন অবশিষ্টাংশগুলি গুণিত্বকভাবে জমা হওয়া ত্রুটিগুলি প্রতিফলিত করে বলে বিশ্বাস করা হয়।" এই বাক্যাংশটি ব্যাখ্যা করতে আমার সমস্যা হচ্ছে। এটি অন্য একটি বাক্য বা দুটি দিয়ে সামান্য কিছুটা সম্ভব? আপনি কী জমে উল্লেখ করছেন?
হাটসেপসুট

অনুপাত এবং ঘনত্বের জন্য @ ব্যবহারকারী 1690130, এগুলি সাধারণত এক্সপোজারের জন্য অফসেট সহ গণনাগুলির জন্য পোয়েসন-ফ্যামিলি বিতরণ হিসাবে লাগানো উচিত। উদাহরণস্বরূপ লোক সংখ্যা গণনা, এবং অফসেটটি অঞ্চলের ক্ষেত্রফল। একটি উত্তম ব্যাখ্যার জন্য এই প্রশ্নটি দেখুন - stats.stackexchange.com/questions/11182/…
মাইকেল বার্টন

2
@ হাটসেপসুটটি বহুগুণে জমা হওয়া ত্রুটির একটি সাধারণ উদাহরণ হ'ল নির্ভরশীল পরিবর্তনশীল হিসাবে ভলিউম এবং প্রতিটি লিনিয়ার মাত্রার পরিমাপের ত্রুটি।
abalter

73

আমি সবসময়ই শিক্ষার্থীদের বলি প্রাকৃতিক লোগারিদম গ্রহণ করে একটি পরিবর্তনশীল রূপান্তরিত করার জন্য তিনটি কারণ রয়েছে। ভেরিয়েবল লগ করার কারণ নির্ধারণ করবে যে আপনি স্বতন্ত্র ভেরিয়েবল (গুলি) নির্ভর করতে পারেন বা উভয় লগ করতে চান। পরিষ্কার হয়ে যাওয়ার জন্য আমি প্রাকৃতিক লোগারিদম নেওয়ার কথা বলছি।

প্রথমত, অন্যান্য পোস্টার হিসাবে উল্লেখ করা হয়েছে মডেল ফিট উন্নত। উদাহরণস্বরূপ, যদি আপনার অবশিষ্টাংশগুলি সাধারণত বিতরণ না করা হয় তবে স্কিউ ভেরিয়েবলের লগারিদম গ্রহণ করলে স্কেল পরিবর্তন করে এবং ভেরিয়েবলটিকে আরও "সাধারণভাবে" বিতরণ করে ফিটের উন্নতি হতে পারে। উদাহরণস্বরূপ, উপার্জনটি শূন্যের উপরে কাটা হয় এবং প্রায়শই ইতিবাচক স্কিউ প্রদর্শন করে। যদি ভেরিয়েবলটির নেতিবাচক স্কিউ থাকে তবে আপনি প্রথমে লগারিদম নেওয়ার আগে ভেরিয়েবলটি উল্টাতে পারেন। আমি এখানে বিশেষত লিকার্ট স্কেলগুলি নিয়ে ভাবছি যা ধারাবাহিক চলক হিসাবে প্রবেশ করা হয়। যদিও এটি নির্ভরশীল ভেরিয়েবলের ক্ষেত্রে সাধারণত প্রযোজ্য আপনি মাঝে মাঝে একটি স্বাধীন ভেরিয়েবল দ্বারা সৃষ্ট অবশিষ্টাংশগুলি (যেমন: হেটেরোসিসেস্টাস্টিটি) নিয়ে সমস্যায় পড়ে যা কখনও কখনও সেই পরিবর্তনশীলটির লগারিদম গ্রহণ করে সংশোধন করা যায়। উদাহরণস্বরূপ এমন একটি মডেল চালানোর সময় যা প্রভাষকদের একটি সংকলনে প্রভাষক মূল্যায়ন ব্যাখ্যা করে এবং শ্রেণিটি "পরিবর্তনশীল শ্রেণীর আকার" (অর্থাত্ বক্তৃতায় শিক্ষার্থীর সংখ্যা) বহিরাগত ছিল যা ভিন্ন ভিন্ন কারণকে প্ররোচিত করেছিল কারণ প্রভাষকের মূল্যায়নের প্রকরণটি বৃহত্তর চেয়ে ছোট ছিল ছোট কোহোর্টের তুলনায় কোহোর্টস। শিক্ষার্থীর ভেরিয়েবল লগ করা সাহায্য করবে, যদিও এই উদাহরণে রবস্ট স্ট্যান্ডার্ড ত্রুটিগুলি গণনা করা বা ভারী স্বল্প স্কোয়ার ব্যবহার করা ব্যাখ্যাকে সহজ করে তুলতে পারে।

β β

ওয়াই এবং এক্স - এক্সের এক ইউনিট বৃদ্ধি হতে পারেβ

β

β100

β/100

এবং অবশেষে এটি করার একটি তাত্ত্বিক কারণ থাকতে পারে। উদাহরণস্বরূপ কয়েকটি মডেল আমরা অনুমান করতে চাই যেগুলি গুণক এবং অতএব ননলাইনার। লোগারিদম গ্রহণ করা এই মডেলগুলিকে লিনিয়ার রিগ্রেশন দ্বারা অনুমান করা যায়। এর ভাল উদাহরণগুলির মধ্যে রয়েছে অর্থনীতিতে কোব-ডগলাস উত্পাদন ফাংশন এবং শিক্ষায় মিনসর সমীকরণ। কোব-ডগলাস উত্পাদন ফাংশন ব্যাখ্যা করে যে কীভাবে ইনপুটগুলি আউটপুটগুলিতে রূপান্তরিত হয়:

Y=ALαKβ

কোথায়

Y

A

L

K

αβ

এর লগারিদম গ্রহণের ফলে ওএলএস লিনিয়ার রিগ্রেশন ব্যবহার করে ফাংশনটি অনুমান করা সহজ হয়:

log(Y)=log(A)+αlog(L)+βlog(K)

5
"লগ ওয়াই এবং এক্স - এক্সে এক ইউনিট বৃদ্ধি Y ∗ 100% বৃদ্ধি / ওয়াইয়ের হ্রাস" বাড়ে ": আমি মনে করি এটি তখনই প্রযোজ্য হবে যখন small ছোট হয় তাই এক্সপ্রেস (β) + 1 + β
আইডা

1
সুন্দর এবং স্পষ্ট ধন্যবাদ! একটি প্রশ্ন, লগ ওয়াই এবং এক্স ক্ষেত্রে আপনি কীভাবে ইন্টারসেপ্টগুলি ব্যাখ্যা করবেন? এবং সাধারণত আমি কীভাবে লগ রুপান্তরিত প্রতিক্রিয়ার প্রতিবেদন করব তা নিয়ে সমস্যায়
পড়েছি

2
আমি অর্থনীতির উদাহরণগুলির সাথে উত্তরগুলির জন্য চুষছি ["" আপনি আমাকে ' কোব-ডগলাস প্রোডাকশন ফাংশন " এ পেয়েছিলেন "] .... একটি জিনিস, যদিও: আপনার দ্বিতীয় সমীকরণের লগপতনের জন্য ইন্টারসেপ্ট শব্দটি পরিবর্তন করা উচিত (এ ) এটি প্রথম সমীকরণের সাথে সামঞ্জস্যপূর্ণ করতে।
স্টিভ এস

100×(eβ1)

21

লোগারিদমকে অন্য কিছু রূপান্তর যেমন শিকড় বা পারস্পরিক ক্রিয়াকলাপের কাছে অগ্রাধিকার দেওয়ার জন্য, তবে অন্যান্য রূপান্তরগুলির তুলনায় লগ-ট্রান্সফর্মেশনের ফলে রিগ্রেশন সহগের অনন্য ব্যাখ্যাযোগ্যতার দিকে মনোনিবেশ করার কারণগুলির বিষয়ে whuber এর দুর্দান্ত পয়েন্টটি সম্পর্কে আরও দেখুন:

অলিভার এন কেইন লগ রূপান্তর বিশেষ। মেডিসিনে পরিসংখ্যান 1995; 14 (8): 811-819। ডিওআই: 10.1002 / সিম.4780140810 । (সন্দেহজনক বৈধতার পিডিএফ http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/ বক্তৃতা / পঠন / লগ.পিডিএফ এ উপলব্ধ )।

আপনি লগ ইন করুন যদি স্বাধীন পরিবর্তনশীল x এর বেস , আপনি নির্ভরশীল পরিবর্তনশীল পরিবর্তন যেমন রিগ্রেশন সহগ (এবং ci) ব্যাখ্যা করতে পারেন Y প্রতি মধ্যে ধা বৃদ্ধি এক্স । (বেস 2 লগ তারা পরিবর্তন মিলা তাই প্রায়ই উপযোগী Y মধ্যে দ্বিগুন প্রতি এক্স , অথবা লগ বেস 10 যদি এক্স মাত্রার, যা দুর্লভ হয় অনেক আদেশ উপর পরিবর্তিত হয়)। বর্গমূলের মতো অন্যান্য রূপান্তরগুলির এত সহজ ব্যাখ্যা নেই।

আপনি লগ ইন করুন যদি নির্ভরশীল পরিবর্তনশীল Y (মূল প্রশ্ন কিন্তু এক যা পূর্ববর্তী উত্তর বিভিন্ন সুরাহা হয়েছে), তারপর আমি 'sympercents' এর টিম কোল এর ধারণা ফলাফল উপস্থাপন জন্য আকর্ষণীয় (ঝ এমনকি একবার একটি কাগজে তাদের ব্যবহৃত) খুঁজে যদিও তারা মনে হয় না যে তারা এতগুলি ব্যাপকভাবে ধরা পড়েছে:

টিম জে কোল। প্রতিবিম্ব: 100 লগ (ই) স্কেলে প্রতিসম শতাংশের পার্থক্য লগ রূপান্তরিত ডেটার উপস্থাপনাটিকে সহজ করে তোলে। মেডিসিন 2000 এ পরিসংখ্যান ; 19 (22): 3109-3125। ডিওআই: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: এইড-সিম 558> 3.0.CO; 2-এফ [আমি খুব খুশি যে স্টেট মেড ডিআইআই হিসাবে এসআইসিআই ব্যবহার বন্ধ করে দিয়েছে ...]


1
রেফারেন্স এবং খুব ভাল পয়েন্ট জন্য ধন্যবাদ। আগ্রহের প্রশ্নটি হল যে এই সমস্যাটি কেবল লগগুলিতে নয়, সমস্ত রূপান্তরগুলিতে প্রযোজ্য। আমাদের কাছে পরিসংখ্যান / সম্ভাবনা ততটুকু কার্যকর কারণ এটি কার্যকর পারফরম্যান্সের পূর্বাভাস বা কার্যকর মানদণ্ড / দিকনির্দেশকে মঞ্জুরি দেয়। বছরের পর বছর ধরে আমরা অবশিষ্ট ট্রান্সফর্মেশনগুলি (অন্য নামে লগগুলি), বহুবচনীয় রূপান্তরকরণ এবং অন্যান্যগুলি (এমনকি টুকরোগুলি রূপান্তর) ব্যবহার করেছি অবশিষ্টাংশগুলি হ্রাস করার জন্য, আত্মবিশ্বাসের ব্যবধানগুলিকে আরও কঠোর করতে এবং সাধারণত প্রদত্ত ডেটা সেট থেকে ভবিষ্যদ্বাণীপূর্ণ ক্ষমতা উন্নত করতে চেষ্টা করি। আমরা কি এখন বলছি এটি ভুল?
AsymLabs

1
@ অ্যাসেমল্যাবস, ব্রেইম্যানের দুটি সংস্কৃতি (প্রায় ভবিষ্যদ্বাণীকারী এবং মডেলার) কতটা পৃথক? Cf. দুটি সংস্কৃতি - বিতর্কিত।
ডেনিস

15

একটি সাধারণত ইনপুট ভেরিয়েবলের লগ গ্রহণ করে এটি স্কেল করে এবং বিতরণ পরিবর্তন করতে (যেমন এটি সাধারণত বিতরণ করা)। এটি অন্ধভাবে করা যায় না; ফলাফলগুলি এখনও ব্যাখ্যামূলকভাবে নিশ্চিত হয় তা নিশ্চিত করার জন্য কোনও স্কেলিং করার সময় আপনার সতর্কতা অবলম্বন করা উচিত।

এটি বেশিরভাগ সূচনা পরিসংখ্যান পাঠ্যে আলোচনা করা হয়। এ সম্পর্কে আলোচনার জন্য আপনি "দুটি স্ট্যান্ডার্ড বিচ্যুতি দ্বারা ভাগ করে স্কেলিং রিগ্রেশন ইনপুট" সম্পর্কিত অ্যান্ড্রু গেলম্যানের কাগজটিও পড়তে পারেন । "রিগ্রেশন এবং মাল্টিলেভেল / হায়ারার্কিকাল মডেলগুলি ব্যবহার করে ডেটা অ্যানালাইসিস" এর শুরুতে এ নিয়ে তাঁর খুব সুন্দর আলোচনা হয়েছে ।

খারাপ ডেটা / আউটলিয়ারদের মোকাবেলার জন্য লগ নেওয়া কোনও উপযুক্ত পদ্ধতি নয়।


12

যখন অবশিষ্টাংশগুলিতে কোনও সমস্যা হয় তখন আপনি ডেটা লগ নিতে চান tend উদাহরণস্বরূপ, আপনি যদি কোনও নির্দিষ্ট কোভেরিয়েটের বিরুদ্ধে অবশিষ্টাংশ প্লট করেন এবং ক্রমবর্ধমান / হ্রাস প্যাটার্ন (একটি ফানেল আকার) পর্যবেক্ষণ করেন তবে একটি রূপান্তর উপযুক্ত হতে পারে। অ-র্যান্ডম অবশিষ্টাংশগুলি সাধারণত আপনার মডেল অনুমানগুলি ভুল, অর্থাৎ অ-স্বাভাবিক ডেটা নির্দেশ করে।

কিছু ডেটা প্রকার স্বয়ংক্রিয়ভাবে লোগারিদমিক ট্রান্সফর্মেশনগুলিতে leণ দেয়। উদাহরণস্বরূপ, ঘনত্ব বা বয়স নিয়ে কাজ করার সময় আমি সাধারণত লগগুলি নিয়ে যাই।

যদিও রূপান্তরগুলি প্রাথমিকভাবে আউটলিয়ারদের মোকাবেলায় ব্যবহার করা হয় না, লগগুলি গ্রহণ করা আপনার ডেটা স্কোয়াশ করার কারণে তারা সহায়তা করে।


1
তবে তবুও, লগ ব্যবহার করে মডেলটিকে পরিবর্তন করে - লিনিয়ার রিগ্রেশনটির জন্য এটি y ~ a * x + b, লগের ক্ষেত্রে লিনিয়ার রিগ্রেশন এটি y ~ y0 * এক্সপ্রেস (x / x0)।

1
আমি সম্মত - লগ এর পরিবর্তন আপনার মডেল গ্রহণ। তবে আপনাকে যদি আপনার ডেটা রুপান্তর করতে হয় তবে এর থেকে বোঝা যায় যে আপনার মডেলটি প্রথম স্থানে উপযুক্ত ছিল না।
csgillespie

2
@cgillespie: ঘনত্ব, হ্যাঁ; কিন্তু বয়স? অদ্ভুত।
whuber

@ শুভঃ: আমি মনে করি এটি খুব ডেটা নির্ভরশীল, তবে আমি যে ডেটা সেট ব্যবহার করেছি সেটি আপনি 10 থেকে 18 বছরের পুরানো মধ্যে একটি বড় পার্থক্য দেখতে পাবেন, তবে 20 এবং 28 বছরের পুরানো মধ্যে একটি সামান্য পার্থক্য দেখতে পাবেন। এমনকি ছোট বাচ্চাদের ক্ষেত্রে 0-1 বছরের পুরানো পার্থক্যটি 1-2-এর মধ্যে পার্থক্যের মতো নয়।
csgillespie

1
@ ল্যান্ড্রোনি এটি সংক্ষেপে বলা হয়েছে ed আমি এটি দরিদ্র বলব না, সম্ভবত এটি "উদাহরণস্বরূপ" এর পরিবর্তে "অর্থাত্" এর পরিবর্তে উদ্দেশ্য করা হয়েছিল "অর্থাত" "এখানে" এলোমেলো "ব্যবহারটি" স্বতন্ত্র এবং অভিন্নভাবে বিতরণ করা "অর্থে বুঝতে পেরেছি যা প্রকৃতপক্ষে ধারনা করা সবচেয়ে সাধারণ ধারণা OLS ঔজ্জ্বল্যের প্রেক্ষাপটে। ইন কিছু সেটিংস মানুষ অতিরিক্ত অনুমান এই সাধারণ অন্তর্নিহিত বন্টন স্বাভাবিক, কিন্তু যে অভ্যাস বা তত্ত্ব কঠোরভাবে প্রয়োজন নেই: সব প্রয়োজনীয় যে প্রাসঙ্গিক পরিসংখ্যান স্যাম্পলিং ডিস্ট্রিবিউশন স্বাভাবিক বন্ধ হতে হয়।
হোয়বার

10

XXX

XXX3rmsXx

require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f))  # plot spline of cr(X) against X

X3X


E[Y|X]=f(X)

9

আমি ব্যবহারকারীর 1690130 এর প্রশ্নের জবাব দিতে চাই যা 26 অক্টোবর '12 এর প্রথম উত্তরের মন্তব্য হিসাবে রেখেছিল এবং নীচে লেখা হয়েছে: "কোনও অঞ্চলে জনসংখ্যার ঘনত্ব বা প্রতিটি বিদ্যালয়ের জেলা বা শিশু-শিক্ষার অনুপাতের মতো চলকগুলি সম্পর্কে কী? জনসংখ্যায় প্রতি ১০০০ জন হত্যাকাণ্ডের সংখ্যা? আমি দেখেছি অধ্যাপকরা এই পরিবর্তনশীলগুলির লগ নিতে পারেন why কেন এটি আমার কাছে পরিষ্কার নয় For উদাহরণস্বরূপ, হত্যাকাণ্ডের হারটি ইতিমধ্যে শতকরা হার নয় কেন? লগটি শতাংশের শতাংশের পরিবর্তন হবে হার? শিশু-শিক্ষক অনুপাতের লগকে কেন অগ্রাধিকার দেওয়া হবে? "

আমি একটি অনুরূপ সমস্যার উত্তর দিতে চেয়েছিলাম এবং আমার পুরানো পরিসংখ্যানের পাঠ্যপুস্তকটি কীটি ভাগ করে নিতে চেয়েছিলাম ( জেফরি ওয়াল্ড্রিজ । 2006. পরিচিতি একনোমেট্রিক্স - একটি আধুনিক পদ্ধতি, চতুর্থ সংস্করণ। অধ্যায় 6 একাধিক রিগ্রেশন বিশ্লেষণ: আরও ইস্যু। 191 ) এ সম্পর্কে যা বলেছে। ওয়াল্ড্রিজ পরামর্শ দেয়:

বৈকল্পিক যা অনুপাত বা শতাংশ আকারে উপস্থিত হয়, যেমন বেকারত্বের হার, পেনশনের পরিকল্পনায় অংশ গ্রহণের হার, একটি প্রমিত পরীক্ষায় পাস করা শিক্ষার্থীর শতাংশ এবং রিপোর্ট করা অপরাধের গ্রেফতারের হার - মূল বা লোগারিথমিক ফর্মের মধ্যে উপস্থিত হতে পারে , যদিও তাদের স্তর ফর্ম ব্যবহার করার জন্য একটি প্রবৃত্তি । এর কারণ এটি হ'ল মূল পরিবর্তনশীল জড়িত যে কোনও রিগ্রেশন সহগ - এটি নির্ভরশীল বা স্বতন্ত্র ভেরিয়েবল - শতাংশের পয়েন্ট পরিবর্তনের ব্যাখ্যা থাকবে। যদি আমরা ব্যবহার করি, বলুন, লগ ( আনমম ) কোনও রিগ্রেশনে ব্যবহার করুন, যেখানে আনম বেকার ব্যক্তিদের শতাংশ , সেখানে শতাংশ পয়েন্ট পরিবর্তন এবং শতাংশের পরিবর্তনের মধ্যে পার্থক্য করার জন্য আমাদের অবশ্যই খুব সতর্কতা অবলম্বন করতে হবে। মনে রাখবেন, যদি অসম8 থেকে 9 এ চলে যায়, এটি এক শতাংশ পয়েন্টের বৃদ্ধি, তবে প্রাথমিক বেকারত্বের স্তর থেকে 12.5% ​​বৃদ্ধি। লগটি ব্যবহারের অর্থ হ'ল আমরা বেকারত্বের হারের শতকরা পরিবর্তনটির দিকে তাকিয়ে আছি: লগ (9) - লগ (8) = 0.118 বা 11.8%, যা আসল 12.5% ​​বৃদ্ধির লগারিদমিক প্রায়।

এর উপর ভিত্তি করে এবং ব্যবহারকারী 1690130 এর প্রশ্নে ভুবারের আগের মন্তব্যের উপর ভিত্তি করে, আমি ঘনত্ব বা শতাংশের হারের পরিবর্তনশীলটির লগারিদম ব্যবহার এড়াতে পারব যদি না লগ ফর্মটি ব্যবহার করে ঘনত্বের স্কিউনেস হ্রাস করতে পারে এমন বড় ট্রেডঅফ তৈরি না হয় বা হার পরিবর্তনশীল।


প্রায়শই শতাংশের জন্য (অর্থাত্ (0,1) তে অনুপাতের জন্য, একটি লজিট ট্রান্সফর্ম ব্যবহার করা হয় This এটি কারণ কারণ সমানুপাতিক তথ্যগুলি প্রায়শই অবশিষ্টগুলির স্বাভাবিকতা অনুমানকে লঙ্ঘন করে,
কোনওভাবে

3

শেনের বক্তব্য যে খারাপ ডেটা মোকাবেলা করতে লগ নেওয়া ভালভাবে নেওয়া হয়। যেমন কলিনের স্বাভাবিক অবশিষ্টাংশের গুরুত্ব সম্পর্কিত। অনুশীলনে আমি দেখতে পেয়েছি যে ইনপুট এবং আউটপুট ভেরিয়েবলগুলি তুলনামূলকভাবে স্বাভাবিক হলে সাধারণত আপনি সাধারণ অবশিষ্টাংশগুলি পেতে পারেন। অনুশীলনের অর্থ হ'ল রূপান্তরিত এবং অপরিকল্পিত ডেটাসেটের বিতরণকে চোখের সামনে তাকাতে এবং নিজেকে আশ্বস্ত করে যে তারা আরও স্বাভাবিক হয়ে গেছে এবং / অথবা স্বাভাবিকতার পরীক্ষা চালিয়েছে (যেমন শাপিরো-উইলক বা কোলমোগোরভ-স্মারনভ পরীক্ষা) এবং ফলাফলটি আরও স্বাভাবিক কিনা তা নির্ধারণ করে। ব্যাখ্যা এবং abতিহ্যও গুরুত্বপূর্ণ। উদাহরণস্বরূপ, জ্ঞানীয় মনোবিজ্ঞানের মধ্যে প্রতিক্রিয়ার সময়ের লগ রূপান্তরগুলি প্রায়শই ব্যবহৃত হয়, তবে আমার কাছে কমপক্ষে একটি লগ আরটি এর ব্যাখ্যা অস্পষ্ট। তদ্ব্যতীত,


2
উত্তরগুলি ভোটের ভিত্তিতে পুনরায় সাজানো হবে, সুতরাং দয়া করে অন্যান্য উত্তরগুলি উল্লেখ না করার চেষ্টা করুন।
Vebjorn Ljosa

4
স্বাভাবিকতার একটি পরীক্ষা সাধারণত খুব গুরুতর হয়। প্রায়শই প্রতিসম্পর্কিতভাবে বিতরণকৃত অবশিষ্টাংশগুলি পাওয়া যথেষ্ট। (
বাস্তবে, অবশিষ্টাংশগুলি দৃ suspect়ভাবে

@ ভুবার: একমত সে কারণেই আমি "আরও সাধারণ হয়ে উঠি" উল্লেখ করেছি। পরীক্ষার পি-ভ্যালুর উপর ভিত্তি করে সিদ্ধান্ত গ্রহণ বা প্রত্যাখ্যানের পরিবর্তে পরিবর্তনের জন্য পরীক্ষার পরিসংখ্যানগুলি লক্ষ্য করা উচিত।
রাসেলপিয়ের্স

যথাযথ হিসাবে অন্যের উত্তরগুলি অবশ্যই সর্বদা উল্লেখ করা উচিত!
অবল্টার

@ বাবল্টার? আমি অনুসরণ করি না
রাসেলপিয়ের্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.