ছোট নমুনা ক্লিনিকাল স্টাডিতে মেশিন শেখার কৌশলগুলির প্রয়োগ Application


15

শ্রেণিবিন্যাসের প্রসঙ্গে আকর্ষণীয় ভবিষ্যদ্বাণীকারীদের বিচ্ছিন্ন করার উদ্দেশ্য যখন ছোট নমুনা ক্লিনিকাল স্টাডিতে র্যান্ডম অরণ্য বা দণ্ডিত রিগ্রেশন (এল 1 বা এল 2 পেনাল্টি সহ, বা এর সংমিশ্রণ) এর মতো মেশিন লার্নিং কৌশলগুলি প্রয়োগ করার বিষয়ে আপনি কী ভাবেন? এটি মডেল নির্বাচনের বিষয়ে কোনও প্রশ্ন নয় বা আমি পরিবর্তনশীল প্রভাব / গুরত্বের সর্বোত্তম প্রাক্কলনটি কীভাবে খুঁজে পাব সে সম্পর্কে জিজ্ঞাসা করছি না। আমি দৃ strong়ভাবে অনুমান করার পরিকল্পনা করি না তবে কেবল মাল্টিভারিয়েট মডেলিং ব্যবহার করি, তাই প্রতিটি ভবিষ্যদ্বাণীকে একবারে আগ্রহের ফলাফলের বিরুদ্ধে পরীক্ষা করা এবং তাদের আন্তঃসম্পর্ককে বিবেচনায় নেওয়া এড়িয়ে চলি।

আমি কেবল ভাবছিলাম যে এই বিশেষ চরম ক্ষেত্রে যদি ইতিমধ্যে এই জাতীয় দৃষ্টিভঙ্গি প্রয়োগ করা হয়েছিল, তবে 10-30 বিভাগযুক্ত বা অবিচ্ছিন্ন ভেরিয়েবলের ডেটা সহ 20-30 বিষয় বলুন say এটি ঠিক কেস নয় এবং আমি মনে করি যে এখানে সমস্যাটি আমরা বোঝানোর চেষ্টা করার ক্লাসগুলির সংখ্যার (যা প্রায়শই ভালভাবে সুষম হয় না) এবং (খুব) ছোট এন এর সাথে সম্পর্কিত। বায়োইনফরম্যাটিকসের প্রসঙ্গে আমি এই বিষয়ে বিশাল সাহিত্যের বিষয়ে সচেতন, তবে আমি সাইকোমেট্রিকভাবে পরিমাপ করা ফিনোটাইপস (যেমন নিউরোসাইকোলজিকাল প্রশ্নাবলীর জুড়ে) সহ বায়োমেডিকাল স্টাডির সাথে সম্পর্কিত কোনও রেফারেন্স পাইনি।np

প্রাসঙ্গিক কাগজগুলিতে কোনও ইঙ্গিত বা পয়েন্টার?

হালনাগাদ

এই ধরণের ডেটা বিশ্লেষণের জন্য আমি অন্য কোনও সমাধানের জন্য উন্মুক্ত, যেমন সি 4.5 অ্যালগরিদম বা এর ডেরাইভেটিভস, অ্যাসোসিয়েশন বিধি পদ্ধতি এবং তদারকি বা আধা-তত্ত্বাবধানে শ্রেণিবদ্ধকরণের জন্য কোনও ডেটা মাইনিং কৌশল।


কেবল পরিষ্কার করার জন্য: আপনার প্রশ্নটি ডেটার আকার সম্পর্কে, সেটিং সম্পর্কে নয়, সঠিক?
শেন

সঠিকভাবে, আমি আশ্চর্য হয়েছি যে "ক্ষুদ্রতম" এন (কোনও উচ্চ সংখ্যক ভেরিয়েবলের নিকট) সম্পর্কে কোনও উল্লেখ রয়েছে, বা আরও স্পষ্টভাবে যদি কোনও ক্রস-বৈধকরণ কৌশল (বা আরএফগুলির মতো পুনর্নির্মাণ কৌশল) যদি এইরকম চরম ক্ষেত্রে কার্যকর থাকে? ।
chl 20

উত্তর:


7

বায়োইনফরম্যাটিকস / মেশিন লার্নিংয়ের বাইরেও আমি এটি ব্যবহার করে দেখিনি তবে আপনি সম্ভবত প্রথম হতে পারেন :)

বায়োইনফরম্যাটিক্স থেকে ছোট নমুনা পদ্ধতি পদ্ধতির একটি ভাল প্রতিনিধি হিসাবে, এল 1 নিয়মিতকরণের সাথে লজিস্টিক রিগ্রেশন একটি ভাল ফিট দিতে পারে যখন পর্যবেক্ষণের সংখ্যায় পরামিতিগুলির সংখ্যা তাত্পর্যপূর্ণ হয়, অ-অ্যাসিম্পটোটিক আত্মবিশ্বাসের অন্তরগুলি চেরনফ-ধরণের অসমতাগুলি ব্যবহার করে তৈরি করা যেতে পারে (যেমন, দুদিক, (2004) উদাহরণস্বরূপ)। ট্রেভর হাস্টি জিনের মিথস্ক্রিয়া সনাক্তকরণে এই পদ্ধতিগুলি প্রয়োগ করে কিছু কাজ করেছেন। নীচের কাগজটিতে, তিনি 2200 পর্যবেক্ষণের নমুনায় মানানসই 310,637 অ্যাডজেটেবল পরামিতি সহ একটি মডেল থেকে উল্লেখযোগ্য প্রভাবগুলি সনাক্ত করতে এটি ব্যবহার করেন

"জেসোম-ওয়াইড অ্যাসোসিয়েশন বিশ্লেষণ দ্বারা লাসো দণ্ডিত লজিস্টিক রিগ্রেশন" " লেখক: হস্টি, টি; সোবেল, ই; উ, টি। টি; চেন, ওয়াই এফ; ল্যাঙ্গে, কে বায়োইনফরম্যাটিকস ভলিউম: 25 ইস্যু: 6 আইএসএসএন: 1367-4803 তারিখ: 03/2009 পৃষ্ঠা: 714 - 721

ভিক্টোরিয়া স্টডডেন সম্পর্কিত সম্পর্কিত উপস্থাপনা ( পর্যবেক্ষণের তুলনায় অনেক বেশি ভেরিয়েবলের সাথে মডেল নির্বাচন )


হ্যাঁ, উ ইট আল। ২০০৯ একটি দুর্দান্ত কাগজ। ঘটনাচক্রে, আমি গত দুই বছর ধরে জিডাব্লুএএস এবং এমএল-এ কাজ করছি; এখন আমি ক্লিনিকাল পড়াশোনায় ফিরে যাওয়ার চেষ্টা করছি যেখানে বেশিরভাগ সময় আমাদের অসম্পূর্ণ পরিমাপ, তথ্য হারিয়ে যাওয়া এবং অবশ্যই ... পদার্থবিজ্ঞানের দৃষ্টিকোণ থেকে অনেক আকর্ষণীয় পরিবর্তনশীল!
chl

বিটিডাব্লু, আমি কেবল একটি কাগজ জুড়ে এসেছি যা আমাকে এই প্রশ্নটি সম্পর্কে ভাবতে বাধ্য করেছে ... মেশিন লার্নিংয়ের কাগজের পক্ষে আত্মবিশ্বাসের অন্তর সম্পর্কে কথা বলা খুব বিরল, তবে এখানে একটি উল্লেখযোগ্য ব্যতিক্রম ncbi.nlm.nih.gov/pubmed/19519325
ইয়ারোস্লাভ বুলাটোভ

nnpnপি

এটি একটি খুব আকর্ষণীয় প্রশ্ন। আমি এগুলি এবং আমার সাথে থাকা অন্য কিছু নিবন্ধগুলি একটি ব্লগ পোস্টে সংগ্রহ করেছি (আশা করি আপনি আপত্তি করবেন না)। আমি নিশ্চিত যে সেখানে আরও কিছু আছেন।
অ্যান্ড্রু

5

আমার কাছে 15 টি ভবিষ্যদ্বাণীকারী এবং 20 এর একটি নমুনা আকার নিয়ে অনুসন্ধান বিশ্লেষণের ফলাফলগুলির সাধারণীকরণের উপর আমার খুব কম আস্থা থাকবে।

  • প্যারামিটার অনুমানের আস্থার ব্যবধানগুলি বড় হবে। উদাহরণস্বরূপ, এন = 20 এর সাথে r = .30 এর 95% আত্মবিশ্বাসের ব্যবধান হ'ল -0.17 থেকে 0.66।
  • যখন আপনার একাধিক পূর্বাভাসকারী অনুসন্ধান এবং ডেটা চালিত উপায়ে ব্যবহার করা হয় তখন বিষয়গুলি আরও জটিল হয় compound

এই ধরনের পরিস্থিতিতে, আমার পরামর্শটি সাধারণত বিশ্লেষণকে দ্বিখণ্ডিত সম্পর্কের মধ্যে সীমাবদ্ধ রাখার জন্য হবে। আপনি যদি বায়সিয়ান দৃষ্টিকোণ গ্রহণ করেন, তবে আমি বলব যে আপনার পূর্বের প্রত্যাশাগুলি সমান যেমন ডেটাটির চেয়ে গুরুত্বপূর্ণ না হয়।


4

শ্রেণিবদ্ধের ক্ষেত্রে সামঞ্জস্যযোগ্য পরামিতি থাকায় থাম্বের একটি সাধারণ নিয়ম হ'ল প্রশিক্ষণের ডেটা উদাহরণগুলির সংখ্যার (কোনও পরীক্ষার / বৈধকরণের ডেটা ইত্যাদির কথা না বলা ইত্যাদি) কমপক্ষে 10 গুণ হওয়া। মনে রাখবেন যে আপনার এমন একটি সমস্যা রয়েছে যার মধ্যে আপনার কেবল পর্যাপ্ত ডেটা নয়, প্রতিনিধি ডেটাও থাকা দরকার। শেষ পর্যন্ত, কোনও নিয়মতান্ত্রিক নিয়ম নেই কারণ এই সিদ্ধান্ত নেওয়ার সময় অনেকগুলি ভেরিয়েবল রয়েছে। যেমন হস্টি, তিবশিরানী এবং ফ্রেডম্যান স্ট্যাটিস্টিকাল লার্নিংয়ের উপাদানগুলিতে বলেছেন (অধ্যায়) দেখুন):

প্রশিক্ষণের ডেটা কতটা যথেষ্ট তা সম্পর্কে সাধারণ নিয়ম দেওয়া খুব কঠিন; অন্যান্য জিনিসের মধ্যে এটি অন্তর্নিহিত ফাংশনের সংকেত-থেকে-শব্দের অনুপাতের উপর নির্ভর করে, এবং মডেলগুলির জটিলতার সাথে ডেটা মাপসই করা যায়।

আপনি যদি এই ক্ষেত্রে নতুন হন, আমি বায়োমেডিকাল ইঞ্জিনিয়ারিং এর এনসাইক্লোপিডিয়া থেকে এই সংক্ষিপ্ত "প্যাটার্ন রিকগনিশন" পেপারটি পড়ার পরামর্শ দিচ্ছি যা তথ্য সম্পর্কিত কয়েকটি সমস্যার সংক্ষিপ্তসার দেয়।


ধন্যবাদ! আমার কাছে হ্যাসির বই এবং সি বিশপের বই (প্যাটার্ন রিকগনিশন এবং মেশিন লার্নিং) রয়েছে। আমি জানি যে এ জাতীয় একটি ছোট্ট উত্সাহী বা অবিশ্বাস্য (জেরোমি অ্যাংলিমের মন্তব্য দেখুন) সংঘবদ্ধ হতে পারে। তবে, ব্রেইমান কর্তৃক প্রয়োগ করা আরএফ অ্যালগরিদম প্রতিটি সময় গাছ বাড়ার ক্ষেত্রে সীমিত সংখ্যক বৈশিষ্ট্যগুলির সাথে লড়াই করতে দেয় (আমার ক্ষেত্রে, 3 বা 4) এবং যদিও ওওবি ত্রুটির হার বরং উচ্চতর (তবে এটি আশা করা উচিত) বিশ্লেষণ করে পরিবর্তনশীল গুরুত্ব আমাকে এই উপসংহারে নিয়ে যায় যে আমি বিভায়ারিয়েট টেস্ট ব্যবহার করে (ক্রমুয়েশন পরীক্ষা সহ) অনুরূপ সিদ্ধান্তে পৌঁছতে পারি।
chl

1
থাম্বের সেই নিয়মটি মূলত ক্লাসিকাল পদ্ধতিতে প্রযোজ্য যেমন এল 2 নিয়মিত সর্বোচ্চ সম্ভাবনা, এল 1 নিয়মিত পদ্ধতি কার্যকরভাবে শিখতে পারে যখন সামঞ্জস্যযোগ্য পরামিতির সংখ্যা পর্যবেক্ষণের সংখ্যায় তাত্পর্যপূর্ণ হয় (যেমন, মিরোস্লাভ দুদিক, 2004 সিওএলটি পেপার)
ইয়ারোস্লাভ বুলাটোভ

3

আমি আপনাকে আশ্বস্ত করতে পারি যে আরএফ সেই ক্ষেত্রে কাজ করবে এবং এর গুরুত্ব পরিমাপটি বেশ অন্তর্দৃষ্টিযুক্ত হবে (কারণ স্ট্যান্ডার্ড (এন << পি) এর মতো বিভ্রান্তিমূলক গুরুত্বহীন গুণাবলীর কোনও বড় লেজ থাকবে না)। আমি এখন অনুরূপ সমস্যার সাথে মোকাবিলা করা কোনও কাগজ স্মরণ করতে পারি না, তবে আমি এটি সন্ধান করব।


1
ধন্যবাদ! আমি গত মাসে আইভিথ ইএএম-এসএমএবিএস সম্মেলনে যোগ দিয়েছিলাম, এবং একজন স্পিকার বায়োমেডিকাল স্টাডিতে এমএলের আবেদন উপস্থাপন করেছিলেন; দুর্ভাগ্যক্রমে, এটি N ~ 300 বিষয় এবং পি = 10 ভবিষ্যদ্বাণীকারীদের সাথে কিছুটা "স্ট্যান্ডার্ড" অধ্যয়ন ছিল। তিনি স্টাটিস্টিকস ইন মেডিসিনে একটি কাগজ জমা দিতে চলেছেন । আমি যা খুঁজছি তা নিছক নিবন্ধ / রেফারেন্স আর্ট t স্ট্যান্ডার্ড ক্লিনিকাল স্টাডি, যেমন বহিরাগত রোগীদের সাথে, যেখানে ফলাফলগুলির সাধারণীকরণের বিষয়টি এতটা সমস্যা নয়।
chl

আপনি শেষ পর্যন্ত কোন কাগজ খুঁজে পেয়েছেন?
chl

@ chl এখনও হয়নি; কিন্তু অনুস্মারক জন্য ধন্যবাদ।

কোনও হুড়োহুড়ি নেই :) আমি আকর্ষণীয় কিছু খুঁজে পাইনি; সম্ভবত প্রকাশিত এই বিশেষ ক্ষেত্রে সঠিক অনুসন্ধান ইঞ্জিন নয় ...
chl

@ সিএইচএল এখানেও আমার সমস্যা। আসলেই এটি এন << p বায়োমেড ডেটার প্রতিশব্দ হয়ে গেছে seems

0

আপনার যদি আলাদা ইনপুট থাকে তবে আমি পূর্ববর্তী ইনপুটগুলি দেওয়া বাইনারি ইনপুটটির অনুপস্থিত মানগুলির পূর্বাভাস দেওয়ার জন্য একটি প্রোগ্রাম লিখছি। যে কোনও বিভাগ যেমন, "6 এর 1", বাইনারি বিটে রূপান্তরিত হতে পারে এবং এটি ঠিক কাজ করবে; এটি এটি প্রভাবিত করবে না।

আমি যে অ্যালগরিদমটি লিখছি তার উদ্দেশ্য হ'ল যত দ্রুত সম্ভব গাণিতিকভাবে শেখা। ফলস্বরূপ এটির খুব খারাপ সময় এবং স্থান জটিলতা (ও (4 ডিগ্রি এন) সম্পর্কে স্পেস জটিলতা) রয়েছে।

তবে তার জন্য আপনি মূলত 1-অফ লার্নিং পান, এমন কোনও সিস্টেমের জন্য যার রাজ্যটি কিছুটা ভেক্টর হিসাবে প্রকাশ করা যায়। উদাহরণস্বরূপ, একটি পূর্ণ-সংযোজকের 8 টি স্বতন্ত্র ইনপুট রাজ্য রয়েছে। অ্যালগরিদম কেবলমাত্র 8 টি পৃথক প্রশিক্ষণের নমুনার পরে একটি সম্পূর্ণ অ্যাড্রেয়ারকে শিখবে। কেবল তা-ই নয়, তবে আপনি এটির উত্তর দিতে পারেন এবং এটি প্রশ্নের পূর্বাভাস দিতে পারেন বা উত্তরটির একটি অংশ এবং প্রশ্নের অংশ দিতে পারেন এবং বাকীটি পূরণ করতে পারেন।

যদি ইনপুট ডেটাতে প্রচুর পরিমাণে বিট থাকে তবে তা বেশ গণনা এবং মেমরির নিবিড়। তবে আপনি যদি খুব কম নমুনা পেয়ে থাকেন, - বা নকশার লক্ষ্যটি - এটি আপনাকে সম্ভাব্য সেরা পূর্বাভাসের নিকটে পৌঁছে দেবে।

আপনি কেবল এটি বিট ভেক্টর সহ প্রশিক্ষণ দিন, যার মধ্যে একটি বিট ভেক্টর রয়েছে যার বিটগুলি অজানা। ভবিষ্যদ্বাণীটি পেতে, আপনি একইভাবে এটি কিছুটা ভেক্টরকে খাওয়ান, কোনটি বিট অজানা এবং কোন বিটগুলি আপনি এটি পূর্বাভাস দিতে চান।

উত্স কোড এখানে উপলভ্য: https://sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferencesEngine/src/_version2/

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.