এলোমেলো বন শ্রেণিবদ্ধকরণের আগে উচ্চ-মাত্রিক পাঠ্য ডেটাতে পিসিএ?


14

এলোমেলো বন শ্রেণিবদ্ধকরণ করার আগে পিসিএ করা কি বোধগম্য?

আমি উচ্চ মাত্রিক পাঠ্য ডেটা নিয়ে কাজ করছি, এবং মাত্রিকতার অভিশাপ এড়াতে সহায়তা করতে আমি বৈশিষ্ট্য হ্রাস করতে চাই, তবে র্যান্ডম অরণ্যগুলি ইতিমধ্যে কোনও ধরণের মাত্রা হ্রাস করার পক্ষে নয়?


7
আরএফ অ্যালগরিদম সত্যিই উচ্চ সংখ্যক ভবিষ্যদ্বাণী নিয়ে ভোগেন না কারণ এটি mtryপ্রতিটি গাছ তৈরি করতে কেবল তাদের একটি এলোমেলো উপসেট (তথাকথিত প্যারামিটার) নেয়। আরএফ অ্যালগরিদমের উপরে নির্মিত একটি পুনরাবৃত্ত বৈশিষ্ট্য বিলোপ করার কৌশলও রয়েছে (এতে ভার্সেলআরএফ আর প্যাকেজ এবং রেফারেন্স দেখুন)। তবে প্রাথমিকভাবে ডেটা হ্রাস স্কিম যুক্ত করা অবশ্যই সম্ভব, যদিও এটি ক্রস-বৈধকরণ প্রক্রিয়ার অংশ হওয়া উচিত। সুতরাং প্রশ্নটি হল: আপনি কি আপনার বৈশিষ্ট্যগুলির একটি লিনিয়ার সংমিশ্রণটি আরএফ-এ যুক্ত করতে চান?
chl

কত বৈশিষ্ট্য / মাত্রা, এফ? > 1K? > 10K? বৈশিষ্ট্যগুলি কি স্বতন্ত্র বা অবিচ্ছিন্ন, উদাহরণস্বরূপ শব্দ-ফ্রিকোয়েন্সি, টিফিডাফ, সাদৃশ্য মেট্রিক্স, শব্দ ভেক্টর বা কী? পিসিএ রানটাইম এফ থেকে চতুর্ভুজ হয়
স্মিচ


উত্তর:


12

লিও ব্রেইম্যান লিখেছিলেন যে "মাত্রিকতা আশীর্বাদ হতে পারে"। সাধারণভাবে, এলোমেলো বন সমস্যা ছাড়াই বড় ডেটা সেটগুলিতে চলতে পারে। আপনার ডেটা কত বড়? বিষয়গুলি জ্ঞানের উপর নির্ভর করে বিভিন্ন ক্ষেত্রগুলি বিভিন্ন উপায়ে জিনিসগুলি পরিচালনা করে। উদাহরণস্বরূপ, জিনের এক্সপ্রেশন স্টাডিতে জিনগুলি প্রায়শই অ-নির্দিষ্ট ফিল্টারিং নামে পরিচিত এমন একটি প্রক্রিয়ায় স্বল্প বৈকল্পের (ফলাফলের দিকে তাকাতে হয় না) ভিত্তিতে ফেলে দেওয়া হয়। এটি এলোমেলো বনগুলিতে চলমান সময়ের সাথে সহায়তা করতে পারে। তবে এটি প্রয়োজন হয় না।

জিনের অভিব্যক্তি উদাহরণের সাথে আঁকিয়ে রাখা, কখনও কখনও বিশ্লেষকরা জিনের এক্সপ্রেশন পরিমাপ উপস্থাপনের জন্য পিসিএ স্কোর ব্যবহার করেন। ধারণাটি হ'ল একই স্কোরগুলি এমন একটি স্কোরের সাথে প্রতিস্থাপন করা যা সম্ভবত কম অগোছালো। এলোমেলো বনগুলি মূল ভেরিয়েবল বা পিসিএ স্কোর (ভেরিয়েবলগুলির জন্য একটি সারোগেট) উভয়ই চালানো যায়। কিছু এই পদ্ধতির সাথে আরও ভাল ফলাফল রিপোর্ট করেছেন, তবে আমার জ্ঞানের সাথে ভাল তুলনা নেই।

মোটকথা, আরএফ চালানোর আগে পিসিএ করার দরকার নেই। তবে আপনি পারেন। আপনার লক্ষ্যগুলির উপর নির্ভর করে ব্যাখ্যাটি পরিবর্তন হতে পারে। যদি আপনি যা করতে চান তার সবই যদি ভবিষ্যদ্বাণী করা হয় তবে ব্যাখ্যাটি কম গুরুত্বপূর্ণ হতে পারে।


প্রতিক্রিয়ার জন্য আপনাকে ধন্যবাদ. গতি একটি ইস্যু, আরও বেশি কারণ আমার একটি বহু-লেবেল সমস্যায় কয়েক হাজার সম্ভাব্য লেবেল রয়েছে। অ্যাপ্লিকেশনটি টুইটার এবং বিশ্লেষকদের নির্দিষ্ট কিছু ঘটনার বিবরণ থেকে প্রাপ্ত টেক্সট ডেটার একটি কর্পাসকে শ্রেণিবদ্ধ করছে। আমি টিএফ-আইডিএফ ওজন এবং শব্দের মডেল ব্যাগ ব্যবহার করছি।
মৌস

9

বিদ্যমান উত্তরগুলি অসম্পূর্ণ বলে আমি ভেবেছিলাম যেহেতু আমি এটিতে আমার দুটি সেন্ট যুক্ত করতে চাই।

পারফরম্যান্স পিসিএ একটি নীচের ছবিতে চিত্রিত একটি বিশেষ কারণে র্যান্ডম বন (বা লাইটজিবিএম, বা অন্য কোনও সিদ্ধান্ত গাছ ভিত্তিক পদ্ধতি) প্রশিক্ষণের আগে বিশেষভাবে কার্যকর হতে পারে especially

মূলত, সর্বোচ্চ প্রশিক্ষণের দিকনির্দেশ সহ আপনার প্রশিক্ষণ সেটটি সারিবদ্ধ করে এটি নিখুঁত সিদ্ধান্তের সীমানা সন্ধানের প্রক্রিয়াটিকে আরও সহজ করে তুলতে পারে।

সিদ্ধান্ত গাছগুলি ডেটার ঘোরার জন্য সংবেদনশীল, যেহেতু তারা তৈরি সিদ্ধান্ত সীমানা সর্বদা উল্লম্ব / অনুভূমিক (অর্থাত অক্ষগুলির একটিতে লম্ব) হয়। সুতরাং, যদি আপনার ডেটা বাম ছবিটির মতো মনে হয় তবে এই দুটি ক্লাস্টার পৃথক করতে অনেক বড় গাছ লাগবে (এক্ষেত্রে এটি একটি 8 স্তর গাছ)। তবে আপনি যদি নিজের ডেটাটির মূল উপাদানগুলি (ডান পিকের মতো) বরাবর সারিবদ্ধ করেন তবে আপনি কেবল একটি স্তর দিয়ে নিখুঁত পৃথকীকরণ অর্জন করতে পারেন!

অবশ্যই, সমস্ত ডেটাসেটগুলি এই জাতীয়ভাবে বিতরণ করা হয় না, তাই পিসিএ সর্বদা সহায়তা নাও করতে পারে তবে এটি চেষ্টা করে দেখুন এটি ব্যবহার করে কিনা তা এখনও কার্যকর। এবং কেবলমাত্র একটি অনুস্মারক, পিসিএ করার আগে আপনার ডেটাসেটটিকে ইউনিট বৈকল্পিকতায় স্বাভাবিক করতে ভুলবেন না!

পিএস: মাত্রিকতা হ্রাস হিসাবে, আমি অন্যান্য লোকদের সাথে একমত হব যে এটি অন্যান্য অ্যালগরিদমের মতো এলোমেলো বনাঞ্চলের জন্য সমস্যা হিসাবে এতটা বড় নয়। তবে তবুও এটি আপনার প্রশিক্ষণটি কিছুটা গতি বাড়িয়ে তুলতে পারে। সিদ্ধান্ত গাছ প্রশিক্ষণের সময় হ'ল ও (এন মি লগ (এম)), যেখানে এন প্রশিক্ষণের উদাহরণগুলির সংখ্যা, এম - মাত্রার সংখ্যা। এবং যদিও এলোমেলোভাবে বনগুলি প্রশিক্ষণ দেওয়ার জন্য প্রতিটি গাছের জন্য মাত্রাগুলির একটি উপসেট বেছে নিয়েছে, আপনি যে পরিমাণ মাত্রা বেছে নিয়েছেন তার কম ভগ্নাংশ, ভাল পারফরম্যান্স অর্জনের জন্য আপনার আরও বেশি গাছ প্রশিক্ষণের প্রয়োজন।

এখানে চিত্র বর্ণনা লিখুন


1

এলোমেলো অরণ্যের আগে পিসিএ মাত্রিকতা হ্রাসের জন্য নয় তবে আপনাকে ডেটা এমন একটি আকৃতি দেওয়ার জন্য কার্যকর হতে পারে যেখানে এলোমেলো বন আরও ভাল অভিনয় করতে পারে।

আমি নিশ্চিন্ত যে সাধারণভাবে আপনি যদি পিসিএর সাথে আপনার ডেটাটিকে মূল ডেটার একই মাত্রা ধরে রেখে রূপান্তর করেন তবে এলোমেলো বনের সাথে আপনার আরও ভাল শ্রেণিবদ্ধকরণ হবে


পিসিএ রানটাইমটি ফিচার সংখ্যার চতুর্ভুজ এফ, তাই এটি সর্বদা সস্তা নয়।
স্মি

পারফোমেন্স দ্বারা আমি ভবিষ্যদ্বাণী পারফোমেন্সস বোঝাতে চাইছিলাম। আমি গণনার সময় উল্লেখ করছি না
ডোনবিও

2
আপনি কি আপনার দাবিতে কিছু যুক্তি যুক্ত করতে পারেন? দেখে মনে হচ্ছে পিসিএ সবসময় ফলাফলের উন্নতি করে না। উদাহরণস্বরূপ, যখন সিদ্ধান্তের সীমানা আবর্তনের (যেমন একটি বৃত্ত) অবিচ্ছিন্ন হয়, তখন পিসিএ সঞ্চালন কেবল ডেটা (এবং সেইজন্য, বৃত্ত )টিকে পুনরুদ্ধার করে এবং ঘোরান।
সাইকোরাক্স মনিকাকে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.