কেন আমরা স্কিউড ডেটাগুলিকে একটি সাধারণ বিতরণে রূপান্তর করি


15

আমি কাগল ( হাউস মূল্য সম্পর্কিত হিউম্যান অ্যানালগের কার্নেল: অ্যাডভান্স রিগ্রেশন টেকনিকস ) এর আবাসন মূল্য প্রতিযোগিতার একটি সমাধানের মধ্য দিয়ে যাচ্ছিলাম এবং এই অংশটি পেরিয়ে এসেছি:

# Transform the skewed numeric features by taking log(feature + 1).
# This will make the features more normal.
from scipy.stats import skew

skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float)))
skewed = skewed[skewed > 0.75]
skewed = skewed.index

train_df_munged[skewed] = np.log1p(train_df_munged[skewed])
test_df_munged[skewed] = np.log1p(test_df_munged[skewed])

স্কিউড ডিস্ট্রিবিউশনটিকে একটি সাধারণ বিতরণে রূপান্তরিত করার জন্য প্রয়োজনীয়তা সম্পর্কে আমি নিশ্চিত নই। দয়া করে, কেউ কি বিস্তারিতভাবে ব্যাখ্যা করতে পারেন:

  1. এখানে কেন এটি করা হচ্ছে? বা এটি কীভাবে সহায়ক?
  2. বৈশিষ্ট্য-স্কেলিং থেকে এটি কীভাবে আলাদা?
  3. বৈশিষ্ট্য-প্রকৌশল জন্য এটি কি প্রয়োজনীয় পদক্ষেপ? আমি এই পদক্ষেপটি বাদ দিলে কি ঘটতে পারে?

2
সুতরাং অবশিষ্টাংশগুলি হ'ল গাউসিয়ান (এবং গড় হিসাবে এটি বাতিল হয়ে যেতে পারে), বৈকল্পিক স্থিতিশীল, এবং পূর্ববর্তী অবস্থাটি রূপান্তরকে ত্বরান্বিত করার জন্য অপ্টিমাইজারকে পূর্বনির্ধারিত করতে হবে। en.wikedia.org/wiki/Power_transform
এমরে

উত্তর:


12

আপনি আপনার সহগের ব্যাখ্যা করতে চাইতে পারেন। এটি হ'ল, "যদি আমি আমার পরিবর্তনশীল দ্বারা 1 বাড়িয়ে তুলি , তবে, গড় এবং অন্য সব কিছু সমান হয়, ওয়াইয়ের উচিত β 1 বৃদ্ধি করা উচিত "।এক্স1ওয়াইβ1

আপনার সহগের ব্যাখ্যাযোগ্য হওয়ার জন্য, লিনিয়ার রিগ্রেশন অনেকগুলি জিনিস ধরে নেয়।

এই জিনিসগুলির মধ্যে একটি হ'ল বহুবিধ লাইন। অর্থাৎ, আপনার ভেরিয়েবলগুলি একে অপরের সাথে সম্পর্কযুক্ত হওয়া উচিত নয়।এক্স

আরেকটি হমোসেসডেস্টিটি । ত্রুটি আপনার মডেল করে একই ভ্যারিয়েন্স থাকা উচিত, অর্থাৎ আপনি নিশ্চিত করা উচিত রৈখিক রিগ্রেশনের কম মানের জন্য ছোট ত্রুটি দেখা যায় না এবং উচ্চতর মানের জন্য বড় ত্রুটি এক্স । অন্য কথায়, আপনি কি ভবিষ্যদ্বাণী করা মধ্যে পার্থক্য ওয়াই এবং সত্য মান ওয়াই ধ্রুবক হওয়া উচিত। আপনি নিশ্চিত করতে পারেন যে ওয়াই কোনও গাউসীয় বিতরণ অনুসরণ করে। (প্রমাণটি অত্যন্ত গাণিতিক।)এক্সএক্সওয়াই^ওয়াইওয়াই

আপনার ডেটার উপর নির্ভর করে আপনি এটিকে গাউসিয়ান করতে সক্ষম হতে পারেন। সাধারণ রূপান্তরগুলি বিপরীত, লোগারিদম বা বর্গমূলগুলি নিচ্ছে। অন্য অনেকগুলি অবশ্যই বিদ্যমান, এটি আপনার ডেটার উপর নির্ভর করে। আপনাকে আপনার ডেটা দেখতে হবে এবং তারপরে হিস্টোগ্রাম করতে হবে বা একটি স্বাভাবিকতা পরীক্ষা করতে হবে , যেমন শাপিরো-উইলক পরীক্ষা।

নিরপেক্ষ অনুমানক তৈরি করার জন্য এগুলি সমস্ত কৌশল । আমি মনে করি না যে এর রূপান্তরকরণের সাথে অন্যেরা যেমন বলেছে তেমন কিছু করার আছে (কখনও কখনও আপনি নিজের ডেটাও সাধারণ করতে চাইতে পারেন তবে এটি একটি আলাদা বিষয়)।

আপনি যদি সহগতির ব্যাখ্যা করতে চান বা আপনি যদি আপনার মডেলটিতে পরিসংখ্যানগত পরীক্ষা ব্যবহার করতে চান তবে লিনিয়ার রিগ্রেশন অনুমানগুলি অনুসরণ করা গুরুত্বপূর্ণ। অন্যথায়, এটি সম্পর্কে ভুলবেন না।

Y^-Y2Ynormalize


3

এখানে স্কিউড ডেটা একটি যুক্ত করে স্বাভাবিক করা হচ্ছে (একটি যোগ করা হয়েছে যাতে শূন্যগুলি 0 এর লগ হিসাবে সংজ্ঞায়িত করা হয় না) এবং প্রাকৃতিক লগ গ্রহণ করে। স্কোয়ার রুট বা পারস্পরিক বা লোগারিথম গ্রহণের মতো রূপান্তর কৌশল ব্যবহার করে ডেটা প্রায় স্বাভাবিক করা যায়। এখন, এটি কেন প্রয়োজন। প্রকৃতপক্ষে ডেটাতে থাকা অনেক অ্যালগরিদম ধরে থাকে যে ডেটা বিজ্ঞান স্বাভাবিক এবং এটি ধরে নিয়ে বিভিন্ন পরিসংখ্যান গণনা করে। সুতরাং ডেটা যত বেশি স্বাভাবিকের কাছাকাছি থাকে ততই অনুমানের সাথে মানিয়ে যায়।


3
এখানের অ্যালগরিদমগুলি গ্রেডিয়েন্ট বুস্টিং এবং লাসো রিগ্রেশন। আমি মনে করি এই উত্তরটি আরও সহায়ক হবে যদি এটি যদি দেখাতে পারে যে এটি কীভাবে নির্দিষ্টভাবে এই দুটি অ্যালগোরিদমের সাথে সম্পর্কিত (বা নয়)।
oW_

আমার দৃষ্টিকোণ থেকে, কোনও মডেল যখন তারা লিনিয়ার রিগ্রেশন বা কিছু সিদ্ধান্ত গাছ (শক্তিশালী থেকে আউটিলার) হয় কিনা তা প্রশিক্ষণ দেওয়া হয়, তখন স্কিউ ডেটা একটি মডেলকে ডেটাতে একটি সঠিক প্যাটার্ন সন্ধান করা কঠিন করে তোলে কারণ আমাদের একটি স্কিউ ডেটা বানাতে হবে স্বাভাবিক বা গাউসিয়ান এক মধ্যে।
গোল্ডী রানা

1

কারণ তথ্য বিজ্ঞান দিনের শেষে কেবল পরিসংখ্যান, এবং পরিসংখ্যানগুলির মূল অনুমানগুলির মধ্যে একটি হ'ল কেন্দ্রীয় সীমাবদ্ধ উপপাদ্য । সুতরাং এই পদক্ষেপটি করা হচ্ছে কারণ পরবর্তী কিছু পদক্ষেপ তার উপর নির্ভর করে এমন পরিসংখ্যান কৌশলগুলি ব্যবহার করে।


1
একটি উপপাদ্য একটি অনুমান নয়। কেন্দ্রীয় সীমাবদ্ধ তত্ত্বটি প্রকৃতপক্ষে গ্যারান্টি দেয় যে স্বতন্ত্র র্যান্ডম ভেরিয়েবলগুলির গড় প্রায় সাধারণভাবে বিতরণ করা হয় এমনকি স্বতন্ত্র র্যান্ডম ভেরিয়েবলগুলি সাধারণত বিতরণ না করা হলেও ।
ইলিয়াস স্ট্রেলে

1
এটি যুক্তিগুলির একটি অত্যন্ত ত্রুটিযুক্ত চেইন। এটি এর মতো: "- আমি লোকে আপেল খাওয়ার আগে খোসা ছাড়তে দেখেছি Why কেন? - ওহ, কারণ আপেল ফল এবং মূল ফলগুলির মধ্যে একটি কমলা এবং আপনি সর্বদা একটি কমলা খোসা করেন!"!
অায়োরগো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.