ইনপুট ডেটাতে বৈশিষ্ট্যটির রূপান্তর


22

আমি এই ওটিটিও কেগল চ্যালেঞ্জের সমাধান সম্পর্কে পড়ছিলাম এবং প্রথম স্থানের সমাধানটি ইনপুট ডেটা এক্সের জন্য বেশ কয়েকটি রূপান্তর ব্যবহার করেছে বলে মনে হচ্ছে, উদাহরণস্বরূপ লগ (এক্স + 1), স্কয়ার্ট (এক্স + 3/8), ইত্যাদি কি আছে? বিভিন্ন শ্রেণিবদ্ধে কোন ধরণের রূপান্তরগুলি প্রয়োগ করতে হবে সে সম্পর্কে সাধারণ নির্দেশিকা?

আমি গড়-ভেরি এবং নূন্যতম সর্বাধিক নরমালাইজের ধারণাটি বুঝতে পারি। যাইহোক, উপরের রূপান্তরগুলির জন্য, আমার অনুমান যে লগ এবং স্কয়ার্ট ডেটার গতিশীল পরিসরকে সংকুচিত করতে ব্যবহৃত হয়। এবং এক্স-অক্ষটি শিফটটি কেবল ডেটা পুনর্বার করে। তবে লেখক বিভিন্ন শ্রেণিবদ্ধে খাওয়ানোর সময় একই ইনপুট এক্সের জন্য সাধারণকরণের বিভিন্ন পদ্ধতি ব্যবহার করতে পছন্দ করেন। কোন ধারনা?


1
এই ধরণের সূত্রগুলি সম্ভবত কী প্রস্তাব করতে পারে তা ধারণা নেই তবে আপনি বাক্স-কক্স রূপান্তরগুলি দেখতে চাইতে পারেন, যা ভেরিয়েবলের জন্য এক্সপোটেন্টগুলি প্রস্তাব করে।
anymous.asker

উত্তর:


19

আমরা স্বাভাবিক ফর্মটি পছন্দ করি

বেশিরভাগ ক্ষেত্রে আমরা তাদেরকে স্বাভাবিকের মতো করে দেওয়ার চেষ্টা করি। এটি শ্রেণিবদ্ধের দৃষ্টিকোণ নয় বরং এর বৈশিষ্ট্য নিষ্কাশন দর্শন!

কোন রূপান্তর ?

রূপান্তরটি বেছে নেওয়ার মূল মাপদণ্ডটি: ডেটা দিয়ে কী কাজ করে? উপরের উদাহরণগুলি ইঙ্গিত হিসাবে, পাশাপাশি দুটি প্রশ্ন বিবেচনা করা গুরুত্বপূর্ণ।

শারীরিক (জৈবিক, অর্থনৈতিক, যাই হোক না কেন) বোধ তৈরি করে, উদাহরণস্বরূপ মূল্যবোধগুলি খুব ছোট বা খুব বড় হওয়ার সাথে সাথে আচরণকে সীমাবদ্ধ করার ক্ষেত্রে? এই প্রশ্নটি প্রায়শই লগারিদমগুলির ব্যবহারের দিকে পরিচালিত করে।

আমরা কী মাত্রা এবং ইউনিটগুলিকে সহজ এবং সুবিধাজনক রাখতে পারি? যদি সম্ভব হয় তবে আমরা পরিমাপের স্কেলগুলি পছন্দ করি যা সম্পর্কে চিন্তা করা সহজ।

একটি ভলিউমের কিউব রুট এবং কোনও অঞ্চলের বর্গমূল উভয়ের দৈর্ঘ্যের মাত্রা রয়েছে, জটিল বিষয়গুলি থেকে দূরে, এ জাতীয় রূপান্তরগুলি এটিকে সহজতর করতে পারে। পূর্বে উল্লিখিত হিসাবে রসিপোক্রালের সাধারণত সাধারণ ইউনিট থাকে। প্রায়শই, তবে কিছুটা জটিল ইউনিট একটি বলি হয় be

কখন কী ব্যবহার করবেন ?

প্রারম্ভিক ডেটা বিশ্লেষণে সর্বাধিক দরকারী রূপান্তরগুলি হ'ল পারস্পরিক, লোগারিদম, কিউব রুট, বর্গমূল এবং বর্গক্ষেত্র। এরপরে কীভাবে জোর দেওয়া হয় না, তবুও ধারণা করা হয় যে রূপান্তরগুলি কেবলমাত্র পরিসীমাগুলির উপর ব্যবহার করা হয় যার ফলস্বরূপ তারা (সসীম) আসল সংখ্যা দেয়।

  • পারস্পরিক ক্রিয়াকলাপ : x থেকে 1 / x এর ভাইরাসের সাথে পারস্পরিক ক্ষতি, এক্স থেকে -1 / এক্স, ভাইবোনের সাথে বিতরণ আকারের উপর কঠোর প্রভাব সহ একটি খুব শক্তিশালী রূপান্তর। এটি শূন্য মানগুলিতে প্রয়োগ করা যায় না। যদিও এটি নেতিবাচক মানগুলিতে প্রয়োগ করা যেতে পারে তবে সমস্ত মান ধনাত্মক না হলে এটি কার্যকর নয়। অনুপাতের পরস্পরকে প্রায়শই অনুপাত হিসাবে সহজেই ব্যাখ্যা করা যায়: উদাহরণ:
    • জনসংখ্যার ঘনত্ব (ইউনিট প্রতি জন লোক) জন প্রতি ব্যক্তি হয়ে যায়
    • ডাক্তার প্রতি ব্যক্তি প্রতিটি ব্যক্তি হিসাবে ডাক্তার হয়
    • ক্ষয়ের হারগুলি ইউনিটের গভীরতা নষ্ট করার সময় হয়ে যায়

(বাস্তবে, আমরা পরিচালনা করতে সহজ যে সংখ্যাগুলি পেতে 1000 বা 10000 এর মতো কিছু ধ্রুবক দ্বারা পারস্পরিক গ্রহণের ফলাফলগুলি গুণিত বা বিভক্ত করতে চাই, তবে এটির স্কিউনেস বা লিনিয়ারিটির কোনও প্রভাব নেই))

পারস্পরিক ক্রিয়াকলাপ একই চিহ্নের মানগুলির মধ্যে ক্রমকে বিপরীত করে: বৃহত্তম বৃহত্তম হয়, ইত্যাদি Theণাত্মক পারস্পরিক ক্রম একই চিহ্নের মানগুলির মধ্যে অর্ডার সংরক্ষণ করে।


  • লোগারিদম : লোগারিদম, এক্স লগ 10 এক্স, বা এক্স লগ প্রাক্তন বা এলএন এক্স, বা এক্স লগ 2 এক্স, বিতরণ আকারে একটি বড় প্রভাব সহ একটি শক্তিশালী রূপান্তর। এটি ডান স্কিউনেস হ্রাস করার জন্য সাধারণত ব্যবহৃত হয় এবং পরিমাপযোগ্য ভেরিয়েবলগুলির জন্য প্রায়শই উপযুক্ত। এটি শূন্য বা নেতিবাচক মানগুলিতে প্রয়োগ করা যায় না। লগারিদমিক স্কেলের একটি ইউনিট মানে লোগারিদমগুলি ব্যবহারের ভিত্তি দ্বারা গুণ করা। তাত্পর্যপূর্ণ বৃদ্ধি বা হ্রাস।

    • y=aexp(bx)

lny=lna+bxx=0y=aexp(0)=a যাতে a হল পরিমাণ বা গণনা যখন x = 0 হয় তবে a এবং b> 0 হয়, তবে y দ্রুত এবং দ্রুত হারে বৃদ্ধি পায় (যেমন যৌগিক সুদ বা চেক না করা জনসংখ্যা বৃদ্ধি), তবে যদি a> 0 এবং b <0, y হয় একটি ধীর এবং ধীর হারে হ্রাস (যেমন তেজস্ক্রিয় ক্ষয়) ay


  • পাওয়ার ফাংশন :
  • y=axblogy=loga+blogx
    x=0b>0

  • y=axb=0

    • Y = p / q অনুপাত বিবেচনা করুন যেখানে p এবং q উভয় অনুশীলনে ইতিবাচক।
  • উদাহরণগুলি হ'ল:

    • পুরুষ / মহিলা
    • নির্ভরশীল / শ্রমিক
    • ডাউন স্ট্রিম দৈর্ঘ্য / ডাউনভ্যালি দৈর্ঘ্য
  • তারপরে y কোথাও 0 এবং অনন্তের মধ্যে, বা শেষ ক্ষেত্রে, 1 এবং অসীমের মধ্যে রয়েছে। যদি পি = কিউ হয়, তবে y = 1. এই ধরণের সংজ্ঞাগুলি প্রায়শই স্কিউড ডেটার দিকে পরিচালিত করে, কারণ এখানে একটি স্পষ্ট নিম্ন সীমা এবং কোনও পরিষ্কার উপরের সীমা নেই। লগারিদম, যদিও, যথা

  • লগ y = লগ পি / কিউ = লগ পি - লগ কিউ, কোথাও-ইনফিনিটি এবং অনন্তের মধ্যে রয়েছে এবং পি = কিউ মানে লগ y = 0. সুতরাং এই জাতীয় অনুপাতের লগারিদম আরও প্রতিসাম্যভাবে বিতরণ হওয়ার সম্ভাবনা রয়েছে।


  • কিউব রুট : কিউব রুট, x 1/3 । এটি বিতরণের আকারের যথেষ্ট প্রভাব সহ মোটামুটি শক্তিশালী রূপান্তর: এটি লগারিদমের চেয়ে দুর্বল। এটি ডান স্কিউনেস হ্রাস করার জন্যও ব্যবহৃত হয় এবং এর শূন্য এবং নেতিবাচক মানগুলিতে প্রয়োগ করা যেতে পারে এমন সুবিধাও রয়েছে। নোট করুন যে একটি ভলিউমের কিউব মূলের দৈর্ঘ্যের একক রয়েছে। এটি সাধারণত বৃষ্টিপাতের তথ্যগুলিতে প্রয়োগ হয়।

    • নেতিবাচক মানগুলিতে প্রযোজ্যতার জন্য একটি বিশেষ নোট প্রয়োজন। বিবেচনা করুন
      (2) (2) (2 ) = 8 এবং (-2) (- 2) (- 2) = -8। এই উদাহরণগুলি দেখায় যে
      negativeণাত্মক সংখ্যার কিউব মূলের নেতিবাচক চিহ্ন এবং
      সমান ধনাত্মক সংখ্যার কিউব রুটের সমান পরম মান রয়েছে। অনুরূপ সম্পত্তি অন্য যে কোনও মূল দ্বারা দখল করা হয় যার শক্তিটি
      বিজোড় ধনাত্মক পূর্ণসংখ্যার (পার্টিশনগুলি 1/3, 1/5, 1/7, ইত্যাদি) এর পারস্পরিক

    • এই সম্পত্তিটি কিছুটা নাজুক। উদাহরণস্বরূপ, 1/3 থেকে কেবল একটি স্মিডজেন শক্তিটি পরিবর্তন করুন এবং আমরা আর তিনটি শর্তাবলীর ফলাফল হিসাবে ফলাফলটি আর परिभाषित করতে পারি না। তবে, সম্পত্তিটি যদি কাজে লাগে তবে তা শোষণ করতে হবে।


  • x(1/2)

  • x2

    y=a+bx+cx2



    চতুর্ভুজগুলি সাধারণত একমাত্র ব্যবহৃত হয় কারণ তারা
    ডেটা অঞ্চলের মধ্যে একটি সম্পর্ক নকল করতে পারে । এই অঞ্চলের বাইরে তারা
    খুব খারাপ আচরণ করতে পারে , কারণ তারা এক্সের চূড়ান্ত মানগুলির জন্য নির্বিচারে বৃহত্তর মূল্যবোধ গ্রহণ করে এবং যদি ইন্টারসেপ্ট এ 0 হয় না তবে তারা অবাস্তবগতভাবে উত্সের কাছাকাছি আচরণ করতে পারে।
    • (x)2x2


পোস্টের জন্য ধন্যবাদ. সত্যিই সহায়ক। আপনি সম্ভবত এটি কয়েকটি উদাহরণ এবং পরিসংখ্যানের সাথে পরিপূরক করতে পারেন যে এটি কীভাবে মূল উপাত্তকে বর্ধিত ডেটাতে রূপান্তরিত করে?
এমভিকেট

1
@ এসভেকে: আমি কেবল বোঝার মতো এমনভাবে ফর্ম্যাট করেছি, আমার ধারণা হাদীই সেই ব্যক্তি ছিলেন যিনি উত্তর লিখেছিলেন। যদি আমার অনুমান সঠিক হয় তবে তিনি হয়ত কোনও বই থেকে অনুলিপি করেছেন। আসুন দেখি তিনি কিছু জবাব দিয়েছিলেন / কোনও পরামর্শ দেন কিনা।
অন্যটি

2
যেমন @ টরোস ৯৯ বলেছে, এটি বিভিন্ন উত্সের সংমিশ্রণ, আমি কীভাবে ডেটা বিজ্ঞান প্রতিযোগিতা জিততে হবে তা দেখার জন্য আমি অত্যন্ত পরামর্শ দিচ্ছি : শীর্ষস্থানীয় কাগলারের কাছ থেকে এবং স্টাটা ডকস
হাদী গরিবি

alrite। যদিও আপনার মধ্যে কেউ দয়া করে x অক্ষকে কীভাবে স্কুআরট বা কিউব রুট স্কেলে রূপান্তর করবেন সে সম্পর্কে অজগর বা মতলবতে কিছু উদাহরণ কোড পোস্ট করুন। মাতলাব লগ স্কেলের জন্য লগলগ প্লট আছে। তবে অন্যান্য স্কেলগুলির জন্য, এই রূপান্তরিত অক্ষগুলির সাথে প্লট করা সহায়ক হবে
এমভিকেট

1

এই নির্দিষ্টগুলি খাঁটি ধর্মীয় হতে পারে। চিত্রগুলির জন্য যদিও এটি বেশ মানসম্পন্ন: আরজিবিটিকে বিজিআরতে পরিবর্তন করুন এবং প্রতি পিক্সেল থেকে গড়টি বিয়োগ করুন। এটি প্রতিযোগিতা / ডেটাসেটের মতো ইমেজেনেট, পাস্কাল ভিওসি, এমএস কোকোতে ব্যবহৃত হয়। কারণটি হ'ল নেটওয়ার্কটি একটি মানকযুক্ত ডেটাসেটের সাথে উপস্থাপিত হয়, কারণ সমস্ত চিত্র খুব আলাদা হতে পারে।


0

এখানে একই - ধারণা নেই, এটি আগে দেখেনি। আমি অনুমান করি যে তারা বিভিন্ন রূপান্তর চেষ্টা করেছে এবং সবচেয়ে ভাল কাজ করেছে এমন একটি বেছে নিয়েছে। যেহেতু রিপোর্টে তারা বলেছে যে আরও কিছু রূপান্তরও ঠিক আছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.