24,000 বিভাগ সহ একটি শ্রেণি কীভাবে এনকোড করা যায়?


10

আমি বর্তমানে জিনোমিক্সের জন্য একটি লজিস্টিক রিগ্রেশন মডেল নিয়ে কাজ করছি। একটি ইনপুট ক্ষেত্রগুলির মধ্যে আমি একটি কোভারিয়েট হিসাবে অন্তর্ভুক্ত করতে চাই genes। প্রায় 24,000 টি জিন রয়েছে। কম্পিউটেশনাল বায়োলজিতে এই স্তরের পরিবর্তনশীলতার সাথে অনেকগুলি বৈশিষ্ট্য রয়েছে এবং কয়েক লক্ষ লক্ষ নমুনা প্রয়োজন।

  • আমি যদি LabelEncoder()সেই 24 কে জিন করি
  • এবং তারপরে OneHotEncoder()...

24,000 কলামগুলি কি আমার 2.2 গিগাহার্জ কোয়াড কোর আই 7 সিপিইউর জন্য প্রশিক্ষণের সময়কে অযৌক্তিক করে তুলবে?

যদি তা হয়, তবে আমি এটির সাথে নিতে পারি এমন এনকোডিংয়ের জন্য কি আলাদা পদ্ধতি আছে?

আমি কি কোনওভাবে এই বৈশিষ্ট্যটিতে আমার মডেলের একটি স্তর উত্সর্গ করার চেষ্টা করব?

এর অর্থ কি আমার 24K ইনপুট নোড দরকার?


VAE ব্যবহার করে উপস্থাপনা কেন শিখবেন না? আমি মনে করি জিন সিকোয়েন্সে উপস্থাপনা শিখতে (যেমন
এনএলপিতে

উত্তর:


10

হ্যাঁ, 24k বৈশিষ্ট্যগুলিতে ওয়ান-হট এনকোডিং ব্যবহারের জন্য 24k ইনপুট নোড দরকার। তবে কেরাস (বা অন্য কোনও গভীর শিক্ষার পাঠাগার) এর ক্ষেত্রে সমস্যা হওয়া উচিত নয়। প্রাকৃতিক ভাষা প্রক্রিয়াজাতকরণ প্রায়শই একই বলপার্কে ভোকাবুলারি আকারের শব্দের সাথে এক-হট এনকোডিং ব্যবহার করে।

আপনি যদি "গভীর" মডেল ব্যবহার করেন তবে আপনার কোনও লুকানো স্তরকে আপনার ডেটার মাত্রিকতা হ্রাস করার যত্ন নেওয়া উচিত। একটি পৃথক প্রাক প্রক্রিয়াজাতকরণ ধাপ সাধারণত প্রয়োজন হয় না।

প্রশিক্ষণের সময়টি অযৌক্তিক হওয়া উচিত নয়।


স্যানিটি চেক করার জন্য আপনাকে ধন্যবাদ।
হ্যাশরকেটসিন্ট্যাক্স 3:25

আমি লক্ষ্য করেছি যে আপনি স্ক্লারনে পিসিএ নয়, একটি স্তর উল্লেখ করেছেন। মাত্রিকতা হ্রাস একটি ফর্ম হিসাবে আপনি স্বয়ংক্রিয়কোডারদের সুপারিশ করবেন?
হ্যাশরকেটসিন্ট্যাক্স

2
আপনি উল্লেখ করেছেন যে আপনি কেরাস ব্যবহার করেছেন, তাই আপনি ঠিক কোনওরকম নিউরাল নেটওয়ার্ক ব্যবহার করছেন? যদি আপনার নেটওয়ার্কে অন্য কোথাও আপনার ইনপুটের চেয়ে কম সংখ্যক নোডের একটি স্তর থাকে, নেটওয়ার্ক স্বয়ংক্রিয়ভাবে মাত্রিকতা হ্রাস সম্পাদন করছে। আমি ধরে নিলাম আপনার কাছে কেবলমাত্র একটি (বা অল্প সংখ্যক) রিগ্রেশন আউটপুট রয়েছে। সুতরাং একটি সহজ উপায় হ'ল ইনপুট স্তর (d = 24 কে), এক বা একাধিক মধ্যবর্তী স্তর (d = 1 কে বা এর মতো কিছু) এবং আপনার আউটপুট স্তর (d = 1)।
সি। ইয়ুডাকলি

যদিও এনএলপিতে একই আকারের স্তরগুলি সাধারণ, তবে সিপিইউতে আধুনিক এনএলপি মডেলগুলি প্রশিক্ষণ দেওয়া অযৌক্তিক, শক্তিশালী জিপিইউগুলি সত্যই ছোট 'খেলনা "মডেলের বাইরে কোনও কিছুর জন্য এনএলপিতে টেবিলের দড়ি akes অন্যদিকে, এটি কোনও বড় বাধা নয়, কারণ শারীরিক এবং ক্লাউড উভয়ই জিপিইউ বেশ সহজেই উপলব্ধ।
পিটারিস

6

শ্রেণিবদ্ধ ভেরিয়েবলগুলির জন্য সত্তা এম্বেডিং ( মূল পেজার ) এখানে খুব উপযুক্ত পন্থা হবে। এখানে বা এখানে পড়ুন । আমি আসলে এখান থেকে কোডের টুকরো রেখেছি এবং একটি সম্পূর্ণ চলমান বাস্তবায়ন করেছি, এই গিট রেপোটি দেখুন। এটি সহজেই নিউরাল নেটওয়ার্কগুলি ব্যবহার করে খুব উচ্চ কার্ডিনাল শ্রেণিবদ্ধ ভেরিয়েবলগুলি পরিচালনা করে। আমি ওএইচই এর উপকারিতা এবং বিভক্তদের তালিকা করব না, আপনি কেবল এটি গুগল, তবে এর অন্যতম প্রধান ত্রুটি esp। যখন খুব উচ্চ কার্ডিনাল শ্রেণিবদ্ধ ভেরিয়েবল থাকে তখন এটি আপনার বৈশিষ্ট্যের স্থান অহেতুক বাড়িয়ে দেয় যা আমার মতে আদর্শ নয়। এবং আরও গুরুত্বপূর্ণ, ওহ, আমার জ্ঞানের কাছে, যদি এমন সম্পর্ক বিদ্যমান থাকে তবে বিভাগগুলির মধ্যে অর্থপূর্ণ সম্পর্কের জন্য অ্যাকাউন্ট করে না! তবে এনটিপিতে ওয়ার্ড এম্বেডিংয়ের জন্য এনটিপি এম্বেডিং একটি ধারণা, যে বিভাগগুলি এনকোড করতে শিখছে সেগুলি সম্ভাব্যভাবে অন্তর্-বিভাগীয় সম্পর্কগুলি ক্যাপচার করতে পারে।


3

সাধারণত, জিনের সংখ্যাটি অর্থবহ বৈশিষ্ট্যগুলির চেয়ে অনেক ছোট সেটকে কমাতে হবে। তারপরে, হ্রাস বৈশিষ্ট্য সেটটি মডেলটিতে ব্যবহার করা যেতে পারে। উদাহরণস্বরূপ, প্রিন্সিপাল কম্পোনেন্ট অ্যানালাইসিস (পিসিএ) হ্রাস করার অন্যতম সাধারণ কৌশল এবং এটি জিনের এক্সপ্রেশন ডেটার জন্য ব্যবহৃত হয়

" জীববিজ্ঞান এবং মেডিসিনে ডেটা সংহত করার জন্য মেশিন লার্নিং: নীতিমালা, অনুশীলন এবং সুযোগগুলি" জিটনিকা এট আল দ্বারা। জিনের জন্য বিভিন্ন বৈশিষ্ট্যযুক্ত ইঞ্জিনিয়ারিং কৌশলগুলি কভার করে।


আপনাকে বোঝার জন্য ধন্যবাদ। প্রাসঙ্গিক জিনগুলির সংখ্যার (এবং ডাব্লুএইজে নিয়ন্ত্রক অঞ্চল) এর বৈশিষ্ট্যের স্থান হ্রাস করুন।
হ্যাশরকেটসিন্ট্যাক্স

কোন ধরণের মাত্রিকতা হ্রাস আপনি সুপারিশ করবেন তা জিজ্ঞাসা করা কি খুব বেশি প্রশ্ন করার মতো প্রশ্ন ?: পিসিএ, বহুগুণ, গুচ্ছ / ঘনত্ব, একরকম নিউরাল নেট?
হ্যাশরকেটসিন্ট্যাক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.