কেন বিনা পয়সায় সব খরচ এড়ানো উচিত?


10

সুতরাং কেন বিনাশকে সর্বদা এড়ানো উচিত সে সম্পর্কে কয়েকটি পোস্ট পড়েছি । এই লিঙ্কটি হ'ল দাবিটির জন্য একটি জনপ্রিয় রেফারেন্স ।

মূল পটকাটি হ'ল বেনিং পয়েন্টগুলি (বা কাটপয়েন্টস) বরং স্বেচ্ছাচারী এবং ফলস্বরূপ তথ্যের ক্ষতির কারণ এবং সেই স্প্লাইনগুলি অগ্রাধিকার দেওয়া উচিত।

যাইহোক, আমি বর্তমানে স্পটিফাই এপিআইয়ের সাথে কাজ করছি, যা তাদের বেশ কয়েকটি বৈশিষ্ট্যের জন্য নিবিড় আত্মবিশ্বাসের ব্যবস্থা করে।

"ইন্সট্রুমুলেশন" এর একটি বৈশিষ্ট্য, উল্লেখগুলি উল্লেখ করে:

একটি ট্র্যাকের ভোকাল নেই কিনা তা ভবিষ্যদ্বাণী করে। "ওহ" এবং "আহ" শব্দগুলি এই প্রসঙ্গে সহায়ক হিসাবে বিবেচিত হয়। র‌্যাপ বা কথ্য শব্দ ট্র্যাকগুলি স্পষ্টভাবে “ভোকাল”। উপকরণের মানটি যত কাছাকাছি হয় 1.0, ট্র্যাকের কোনও ভোকাল সামগ্রী নেই এর বেশি সম্ভাবনা। 0.5 এর উপরে মানগুলি ইন্সট্রুমেন্টাল ট্র্যাকগুলি উপস্থাপনের উদ্দেশ্যে তৈরি করা হয় তবে মানটি 1.0 এর কাছে যাওয়ার সাথে আত্মবিশ্বাস বেশি higher

আমার ডেটাগুলির খুব বাম দিকের বিতরণ দেওয়া (নমুনাগুলির প্রায় 90% সবেমাত্র 0 এর উপরে, আমি এই বৈশিষ্ট্যটিকে দুটি শ্রেণীবদ্ধ বৈশিষ্ট্যে রূপান্তরিত করে বোধগম্য হতে পেরেছি: "উপকরণ" (0.5% এর চেয়ে বেশি মানের সমস্ত নমুনা) এবং "অ-মাসিক "(0.5 এর নিচে মান সহ সমস্ত নমুনার জন্য)।

এটা কি ভুল? এবং বিকল্পটি কী হত, যখন আমার প্রায় সমস্ত (ধারাবাহিক) ডেটা একক মানের চারপাশে ঘুরছে? স্প্লাইজ সম্পর্কে আমি যা বুঝি সেগুলি থেকে তারা শ্রেণিবদ্ধকরণ সমস্যাগুলি (আমি কী করছি) নিয়ে কাজ করবে না।


10
আপনি যে সেটআপটি বর্ণনা করেছেন তাতে বোঝা যাচ্ছে না যে বিনিং একটি ভাল ধারণা। আপনি নিজেই বলেছিলেন যে মানটি কতটা কাছাকাছি হয় তার তথ্য রয়েছে। আইএমএইচও আপনি একটি ধারাবাহিক বৈশিষ্ট্যটি উপস্থাপনের সম্ভাবনার সাথে সম্পর্কিত যা ভাল করতে চান। সম্ভবত আপনি আপনার প্রশ্নের প্রসারিত করতে পারেন।
ফ্র্যাঙ্ক হ্যারেল

আমার প্রশ্নটি মূলত যখন বেনিং ব্যবহার করা ঠিক হয়, যদি তা হয়। আমার ক্ষেত্রে, আমি এটি ডোমেনের ভিত্তিতে ব্যবহার করেছি (উপকরণ / উপকরণ নয়), যেহেতু আমি বিশ্বাস করি যে ট্র্যাকটি উপকরণ হওয়ার কতটা নিকটবর্তী (যেহেতু একটি ট্র্যাক হয় বা উপকরণ নয়) বলার চেয়ে আরও অনুমানযোগ্য। আপনি আপনার পোস্টের 8 ম পয়েন্টে তবে এই যুক্তিটির বিরুদ্ধে তর্ক করেছিলেন। আমি একজন শিক্ষানবিস হিসাবে, কেন এমনটি হতে হবে তা বোঝার জন্য খুব কঠিন সময় পেলাম।
পাঠক

1
ভবিষ্যদ্বাণীপূর্ণ মডেলিংয়ের প্রসঙ্গে আমি এ সম্পর্কে একটি দীর্ঘ পোস্ট লিখেছিলাম: মাদ্রিয়.github.io/jekyll/update/statistics/2017/08/04/…
ম্যাথিউ

খুব তথ্যপূর্ণ এবং পুরোপুরি, ধন্যবাদ। যাইহোক, আমি আমার প্রশ্নের সম্পর্ক দেখতে পাচ্ছি না (যদিও আমি এখনও কিছু নতুন অন্তর্দৃষ্টি অর্জন করেছি, তাই সব ঠিক আছে!)। আপনার নিবন্ধটি রিগ্রেশন সমস্যাগুলিতে ভবিষ্যদ্বাণীকারী পরিবর্তনশীলকে বিন্যস্ত করার বিষয়ে কথা বলছে এবং কেন এটি একটি খারাপ ধারণা (যা আপনার নিবন্ধটি দৃinc়তার সাথে তর্ক করেছিল) এবং কেন স্প্লাইসগুলি ব্যবহার করে মডেলিংয়ের প্রতিরোধকে সহায়তা করে। আমি জিজ্ঞাসা করছিলাম কেন একটি শ্রেণিবদ্ধকরণ সমস্যাটিতে ক্রমাগত বৈশিষ্ট্য (একটি ইনপুট) এর মানগুলি কেন খারাপ করা খারাপ (যার পূর্বাভাসক ভেরিয়েবলগুলি সহজাত "বিনগুলি", অর্থাৎ শ্রেণিগুলি)।
পাঠক

2
যদি আপনার প্রায় সমস্ত বৈশিষ্ট্য এক পর্যায়ে থাকে তবে আপনি যা কিছু করেন না কেন এটি আপনার মডেলটির পক্ষে অসন্তুষ্ট হওয়ার সম্ভাবনা রয়েছে।
সংগৃহীত

উত্তর:


15

এটা বলা সামান্য বাড়াবাড়ি যে বিনা পয়সা যে কোনও মূল্যে এড়ানো উচিত , তবে এটি অবশ্যই বেনিং এমন বিন পছন্দগুলির সাথে পরিচয় করিয়ে দেয় যা বিশ্লেষণে কিছু স্বেচ্ছাসেবীর পরিচয় দেয়। আধুনিক পরিসংখ্যানগত পদ্ধতিগুলির সাথে সাধারণত বিন্নে জড়িত হওয়া প্রয়োজন হয় না, যেহেতু বিযুক্ত "বিযুক্ত" ডেটাতে যা করা যায় তা সাধারণত অন্তর্নিহিত অবিচ্ছিন্ন মানগুলিতে করা যেতে পারে।

পরিসংখ্যানগুলিতে "বিনিং" এর সর্বাধিক সাধারণ ব্যবহার হিস্টোগ্রাম নির্মাণে। হিস্টোগ্রামগুলি কার্নেল ঘনত্বের অনুমানকারীগুলির (ডিপিএল) সাধারণ শ্রেণীর অনুরূপ, যেমন তারা নির্বাচিত বাক্সগুলিতে ধাপের ক্রিয়াকলাপকে একত্রিত করে, অন্যদিকে কে। ডি। কে মসৃণ কার্নেলের সমষ্টি জড়িত। হিস্টোগ্রামে ব্যবহৃত ধাপের কাজটি কোনও মসৃণ ফাংশন নয় এবং সাধারণত কে-কে পদ্ধতিতে আরও ভাল কার্নেল ফাংশন বেছে নেওয়া যেতে পারে যা স্বতঃস্ফূর্তভাবে অন্তর্নিহিত ঘনত্বের আরও ভাল অনুমান করে। আমি প্রায়শই শিক্ষার্থীদের বলি যে একটি হিস্টগ্রাম কেবলমাত্র "দরিদ্র ব্যক্তির কেডিএ"। ব্যক্তিগতভাবে, আমি কখনই এটি ব্যবহার করব না, কারণ ডেটা বিনা ব্যতীত কোনও কে-ডি-ই পাওয়া সহজ, এবং এটি বিনা বাক্সের পছন্দ ছাড়াই উচ্চতর ফলাফল দেয়।

"বিনিং" এর আর একটি সাধারণ ব্যবহার ঘটে যায় যখন কোনও বিশ্লেষক বিশ্লেষণযোগ্য কৌশলগুলি ব্যবহার করে যা পৃথক মানগুলি ব্যবহার করে যাতে ধারাবাহিক তথ্যকে বিন্দুতে বিচ্ছিন্ন করতে চায়। এটি ভোকাল শব্দের পূর্বাভাস সম্পর্কে আপনার উদ্ধৃতি বিভাগে পরামর্শ দেওয়া হচ্ছে বলে মনে হচ্ছে। এই ধরনের ক্ষেত্রে বিনিং দ্বারা কিছুটা স্বেচ্ছাচারিতা চালু করা হয় এবং তথ্যের ক্ষতিও হয়। যদি সম্ভব হয় তবে তা এড়ানো ভাল, বিযুক্ত-বিযুক্ত "বিনাশিত" মানের উপর একটি মডেল গঠনের পরিবর্তে অন্তর্নিহিত অবিচ্ছিন্ন মানগুলির উপর সরাসরি মডেল গঠনের চেষ্টা করে।

একটি সাধারণ নিয়ম হিসাবে, পরিসংখ্যানবিদদের বিশ্লেষণাত্মক কৌশলগুলি এড়ানো বাঞ্ছনীয় যেগুলি নির্বিচারে অনুমানগুলি প্রবর্তন করে, বিশেষত এমন ক্ষেত্রে যেখানে বিকল্প কৌশলগুলি সহজেই এই অনুমানগুলি এড়ানোর জন্য উপলব্ধ রয়েছে। সুতরাং আমি এই সংবেদনের সাথে একমত যে বেনিং সাধারণত অপ্রয়োজনীয়। এটি অবশ্যই কোনও মূল্যে এড়ানো উচিত নয় যেহেতু ব্যয়গুলি গুরুত্বপূর্ণ, তবে এটি সাধারণত এড়ানো উচিত যখন কোনও সহজ বিকল্প কৌশল থাকে যা কোনও গুরুতর অসুবিধা ছাড়াই এড়ানো যায়।


আমি দেখি. প্রশ্ন অনুসরণ করুন, যদিও: উপরে বর্ণিত উদাহরণের বিতরণের দিকে তাকান এখানে দেখুন (ব্যঙ্গাত্মকভাবে একটি হিস্টোগ্রাম), আমি কেবল একটি ক্রমাগত ভেরিয়েবলের ইউফেলনেসগুলি দেখতে ব্যর্থ হয়েছি যেখানে প্রায় সমস্ত নমুনা একটি মানের (এখানে 0 হচ্ছে) চারপাশে ঘোরে, যা হ'ল প্রথমত যা আমাকে এই বৈশিষ্ট্যটি বিন্যস্ত করতে পরিচালিত করেছিল। আপনি বিকল্পধারার কথা উল্লেখ করেছেন - আপনি দয়া করে আমাকে আরও সঠিকভাবে জানতে বা সঠিক দিকটির দিকে নির্দেশ করবেন?
পাঠক


আমি সেই হিস্টোগ্রামটি সমস্ত জায়গাতেই মানগুলি দেখতে পাই (তবে, হ্যাঁ, বেশিরভাগ শূন্যের কাছাকাছি)। একটি স্প্লাইন ফিট ব্যবহারে কোনও অসুবিধা হওয়া উচিত নয় এবং এটি অবশ্যই আরও তথ্য দেবে। লাগানো স্প্লাইন প্লট করুন! এবং, যদি কোনও কারণে আপনাকে অবশ্যই বিযুক্ত করা উচিত , তবে এই চক্রান্ত কীভাবে আপনাকে সহায়তা করতে পারে। এটি ঠিক এটি হতে পারে, আপনার নির্দিষ্ট ব্যবহারের জন্য, 0.5 এর চেয়ে আরও একটি কাটপয়েন্ট ভাল।
কেজেটিল বি হালওয়ারসেন

2
একটি হিস্টোগ্রামকে কেডিএ হিসাবে সঠিকভাবে অনুমান করা যায় না। কার্নেলটি কী হবে?
whuber

1
আপনার তৃতীয় অনুচ্ছেদের প্রতি শ্রদ্ধা জানাতে আমি যখন একই সাথে কিছু সংখ্যক ডেটা দিয়ে তথ্য লাভের গণনা করার চেষ্টা করছিলাম তখন আমি একইরকম প্রশ্ন উত্থাপিত হয়েছিল। আপনি এই প্রশ্নটি তাকান এবং এই পরিস্থিতিতে কী করতে পারেন তা ব্যাখ্যা করতে পারেন? stats.stackexchange.com/questions/384684/…
astel

4

অন্যের উল্লেখযোগ্য ফ্র্যাঙ্ক হ্যারেল যে কারণে ভালভাবে প্রকাশ করেছেন তার জন্য আমি সাধারণত ধারাবাহিক পরিবর্তনশীলগুলির শ্রেণিবদ্ধকরণের বিরুদ্ধে দৃ strongly়ভাবে তর্ক করব। এই ক্ষেত্রে স্কোরগুলি উত্পন্ন করার প্রক্রিয়া সম্পর্কে নিজেকে জিজ্ঞাসা করা যদিও এটি সহায়ক হতে পারে। দেখে মনে হচ্ছে বেশিরভাগ স্কোর কার্যকরভাবে শূন্য হয় কিছু শব্দ যোগ করার সাথে। তাদের মধ্যে কয়েকজন বরং শোরগোল দিয়ে আবার unityক্যের কাছাকাছি। খুব কম লোকই এর মাঝে শুয়ে আছে। এই ক্ষেত্রে শ্রেণিবদ্ধকরণের জন্য আরও ন্যায়সঙ্গততা বলে মনে হয় যেহেতু কেউ বলতে পারে যে গোলমালটি এটি একটি বাইনারি পরিবর্তনশীল mod যদি কেউ এটি একটি অবিচ্ছিন্ন পরিবর্তনশীল হিসাবে ফিট করে তবে সহগের পূর্বাভাসের পরিবর্তনশীলের পরিবর্তনের ক্ষেত্রে এটির অর্থ হতে পারে তবে এই ক্ষেত্রে তার পরিসরের বেশিরভাগ অংশে ভেরিয়েবলটি খুব কমই জনবহুল বলে মনে হয় যা অপ্রিয়রকম বলে মনে হয়।


4
বিনিং কখন ব্যবহার করা ঠিক হবে তার সম্পর্কে আমার সংক্ষিপ্ত উত্তরটি হ'ল: যখন বিচ্ছিন্নতার বিন্দুগুলি ডেটা দেখার আগেই জানা হয়ে থাকে (এগুলি বিন বিন্দু) এবং যদি জানা থাকে যে প্রতিটি বিনের মধ্যে x এবং y এর মধ্যে সম্পর্ক রয়েছে যা অ-শূন্য দৈর্ঘ্য সমতল।
ফ্রাঙ্ক হ্যারেল 16

2

কল্পনা করুন যে আপনার একটি ঘড়ি আছে যা কেবলমাত্র কয়েক ঘন্টা দেখায়। কেবলমাত্র আমি বলতে চাইছি এটির কেবলমাত্র ঘন্টা তীর রয়েছে যে একবারে একবারে 1/12 লাফিয়ে অন্য এক ঘন্টা চলে যায়, এটি সহজে চলে না। এই ধরনের ঘড়ি খুব কার্যকর হবে না, যেহেতু আপনি জানেন না যে এটি সাড়ে পাঁচটা, আড়াইটা বা দশ থেকে তিনটি কিনা। বিন্যস্ত ডেটাতে এটিই সমস্যা , এটি বিশদ হারায় এবং "জম্পি" পরিবর্তনগুলি প্রবর্তন করে।


1
(+1) হ্যাঁ, এবং এতে যোগ করুন যে অতিরিক্ত সমস্যাটি ঘড়ি-নির্মাতারা প্রতি ঘন্টা ইনক্রিমেন্ট বাছাই করতে পারে না, তবে নির্বিচারে সিদ্ধান্ত নিতে পারে যে তার ঘড়িটি 19 মিনিটের ইনক্রিমেন্টে হবে এবং কেবলমাত্র তথ্য ক্ষতির বাইরেও আপনার একটি অতিরিক্ত সমস্যা রয়েছে ।
বেন - মনিকা পুনরায়

2

কিছু অ্যাপ্লিকেশনের জন্য, আপনি সম্ভবত যা ভাবছেন তা অন্তর্ভুক্ত করে, বিনিং কঠোরভাবে প্রয়োজনীয় হতে পারে। স্পষ্টতই কোনও শ্রেণিবদ্ধকরণের সমস্যাটি সম্পাদন করার জন্য, আপনাকে অবশ্যই কোনও সময় আপনার মডেল থেকে শ্রেণিবদ্ধ তথ্য প্রত্যাহার করতে হবে এবং যদি না আপনার ইনপুটগুলি সমস্ত শ্রেণীবদ্ধ হয় তবে আপনাকে বিনিং সঞ্চালন করতে হবে। একটি উদাহরণ বিবেচনা করুন:

একটি পরিশীলিত এআই পকার খেলছে। এটি অন্যান্য খেলোয়াড়দের হাতের চেয়ে hand০% হিসাবে হাত বাড়ানোর সম্ভাবনাটি মূল্যায়ন করেছে। এটি বাজি ধরার পালা, তবে বলা হয়েছে যে এটি বিনা পয়সায় বিনা এড়ানো উচিত, এবং ফলস্বরূপ কখনই বাজি রাখে না; এটি ডিফল্টভাবে ভাঁজ হয়।

যাইহোক, আপনি যা শুনেছেন তা সত্য হতে পারে, অস্থায়ীভাবে মধ্যবর্তী মানগুলি বেনিংয়ে এমন তথ্য সমর্পণ করা হয় যা সংরক্ষণ করা যেতে পারে। যদি আপনার প্রকল্পের চূড়ান্ত উদ্দেশ্যটি আপনি প্রশ্নে থাকা গানটি "পছন্দ" করবেন কিনা তা নির্ধারণ করা হয়, যা দুটি কারণ দ্বারা নির্ধারিত হতে পারে: "যন্ত্রের" এবং "রকটিটিউড", আপনি যতক্ষণ না অবধি অবিরত পরিবর্তনশীল হিসাবে ধরে রাখতে আরও ভাল করতে পারেন একটি শ্রেণিবদ্ধ ভেরিয়েবল হিসাবে "পছন্দ" টেনে আনা দরকার।

like={0rockitude3+instrumentalness2<31rockiটিতোমার দর্শন লগ করা*3+ +আমিএনগুলিটিRতোমার দর্শন লগ করামিএনটিএকটিএনগুলিগুলি*23

বা যেগুলি সহগকে আপনি সবচেয়ে উপযুক্ত বলে মনে করেন বা অন্য যে কোনও মডেল যথাযথভাবে আপনার প্রশিক্ষণের সেটকে ফিট করে।

যদি এর পরিবর্তে আপনি সিদ্ধান্ত নেন যে কোনও কিছু "যন্ত্রের" (সত্য বা মিথ্যা) এবং "শিলা" (সত্য বা মিথ্যা), তবে আপনার 4 বিভাগগুলি আপনার আগে দিনের মতো স্পষ্ট করে দেওয়া আছে:

  1. যন্ত্র, পাথর
  2. অ-যন্ত্রের, শিলা
  3. যন্ত্র, কোন শিলা নেই
  4. অ-যন্ত্র, কোন শিলা নেই

তবে তারপরে আপনি যে 4 টি বিভাগ "পছন্দ" করেছেন তার মধ্যে কোনটি আপনাকে সিদ্ধান্ত নিতে হবে। আপনি আপনার চূড়ান্ত সিদ্ধান্তে নমনীয়তার কাছে আত্মসমর্পণ করেছেন।

বিন বা বিন না করা সিদ্ধান্ত সম্পূর্ণ আপনার লক্ষ্য উপর নির্ভর করে। শুভকামনা।


2

আর

আর{1এন}আমি=[আমি,তোমার দর্শন লগ করাআমি]আমিতোমার দর্শন লগ করাআমিআমি

=0W0তোমার দর্শন লগ করা0=0+ +WW(Wমিআমিএন,Wমিএকটিএক্স)

পি(আর)=ΣW=WমিআমিএনWমিএকটিএক্সΣ=00+ +Wপি(আর|,W)পি(,W)পি(,W)~2(তোমার দর্শন লগ করা0-0)Wমিএকটিএক্স+ +Wমিআমিএন×(Wমিএকটিএক্স-Wমিআমিএন)

অবশ্যই, এখন আপনি ডাব্লু চালু করেছেনWমিএকটিএক্স,Wমিআমিএন,0পি(আর)পি(আর|Wমিএকটিএক্স,Wমিআমিএন,0)পি(আর)P(R|wmax,wmin,l0)=P(R)

ওপি-র প্রশ্নের প্রসঙ্গে আমি সন্তুষ্ট হব যদি স্বেচ্ছাসেবী থ্রেশহোল্ড 0.5 হ'ল বিশ্বাসযোগ্য ন্যূনতম এবং সর্বাধিক মানগুলির মধ্যে বিভিন্ন মান নির্ধারণ করা হয় এবং তার বিশ্লেষণের প্রাথমিক ফলাফলগুলি নির্বাচনের তুলনায় মূলত স্বাধীন are

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.