বৈশিষ্ট্য নির্বাচনের জন্য মিডিয়ান পোলিশ ব্যবহার


9

একটি গবেষণাপত্রে আমি সম্প্রতি পড়ছিলাম আমি তাদের ডেটা বিশ্লেষণ বিভাগের নিম্নলিখিত বিটটি দেখতে পেয়েছি:

ডেটা টেবিলটি তখন টিস্যু এবং সেল লাইনগুলিতে বিভক্ত হয় এবং দুটি উপশমকে পৃথকভাবে মাঝারি পালিশ করা হত (একক টেবিলের সাথে পুনরায় যোগদানের আগে সারি এবং কলামগুলি পুনরাবৃত্তভাবে মাঝারি 0 হতে সামঞ্জস্য করা হয়েছিল)। পরিশেষে আমরা জিনের উপসেটের জন্য নির্বাচিত হয়েছি যার পরীক্ষিত নমুনাগুলির মধ্যে কমপক্ষে তিনটিতে এই নমুনা সেটটিতে মধ্য থেকে কমপক্ষে 4-গুনের দ্বারা পৃথক পৃথক প্রকাশ ঘটে

আমাকে বলতে হবে যে আমি এখানে যুক্তিটি সত্যিই অনুসরণ করি না। আমি ভাবছিলাম যে আপনি আমাকে নিম্নলিখিত দুটি প্রশ্নের উত্তর দিতে সহায়তা করতে পারেন:

  1. এটি ডেটাসেটগুলিতে মিডিয়াকে সামঞ্জস্য করার জন্য কেন বাঞ্ছনীয় / সহায়ক? কেন এটি বিভিন্ন ধরণের নমুনার জন্য আলাদাভাবে করা উচিত?

  2. এটি কীভাবে পরীক্ষামূলক ডেটা সংশোধন করছে না? এটি একটি বিশাল সংখ্যক ডেটা থেকে প্রচুর জিন / ভেরিয়েবল বাছাই করার একটি পরিচিত উপায়, না এটি বরং অ্যাডহক?

ধন্যবাদ,


আপনি / তারা কী ধরণের ডেটা খুঁজছেন তা কী আপনি বিস্তারিতভাবে বর্ণনা করতে পারেন? আমি মনে করি আপনি যা উদ্ধৃত করেছেন তা বিচার করে - আমার কাছে - পদ্ধতিটি খুব অ্যাডভাক্ট বলে মনে হচ্ছে।
সানকুলসু

@ সানকুলসু: আপনি যদি ধারণার সাথে পরিচিত হন তবে এটি মাইক্রোয়ারে ডেটা। যদি তা না হয় তবে আমি সম্ভবত এটি সংক্ষেপে বলতে পারতাম; কোন জিন প্রকাশিত হয়, অধ্যয়নকৃত নমুনাগুলিতে কতটা পরিমাণে। এখানে আরও ভাল ব্যাখ্যা আছে: en.wikipedia.org/wiki/Gene_expression_profiling
posdef

@ সানকুলসু প্রায় অবশ্যই জিন এক্সপ্রেশন বিশ্লেষণ ডেটা।
ক্রেইগার

ঠিক আছে - আমি নিশ্চিত ছিলাম না, নেক্সট-জেন সিকোয়েন্সিংও জনপ্রিয়।
সানকুলসু

উত্তর:


10

টুকি মেডিয়ান পোলিশ, অ্যালগরিদমটি মাইক্রোরেজের আরএমএর স্বাভাবিকায়নে ব্যবহৃত হয় । আপনারা যেমন সচেতন থাকতে পারেন, মাইক্রোআরাই ডেটা বেশ গোলমাল, সুতরাং তদন্ত এবং মাইক্রোআরাইয়ের পর্যবেক্ষণের বিষয়টি বিবেচনায় রেখে তদন্তের তীব্রতা নির্ণয়ের আরও শক্তিশালী উপায় প্রয়োজন তাদের। এটি অ্যারে জুড়ে প্রোবের তীব্রতা স্বাভাবিক করার জন্য ব্যবহৃত একটি আদর্শ মডেল।

Yij=μi+αj+ϵij
i=1,,Ij=1,,J

কোথায় হয় জন্য রুপান্তরিত অপরাহ্ণ তীব্রতা উপর প্রোব অ্যারে। background ব্যাকগ্রাউন্ড শব্দের এবং এগুলি সাধারণ লিনিয়ার রিগ্রেশন-এর শব্দের সাথে মিলিত বলে ধরে নেওয়া যায়। যাইহোক, একটি বিভাজক ধৃষ্টতা নিয়ন্ত্রণমূলক হতে পারে, তাই আমরা Tukey মধ্যমা পোলিশ ব্যবহার অনুমান পেতে এবং । এটি অ্যারেগুলিতে সাধারণকরণের একটি শক্তিশালী উপায়, কারণ আমরা অ্যারের প্রভাব থেকে signal , তদন্তের কারণে তীব্রতা, সংকেত পৃথক করতে চাই । অ্যারে প্রভাব for এর জন্য সাধারণকরণের মাধ্যমে আমরা সংকেতটি পেতে পারিYijlogithjthϵijϵμi^αj^ααj^সমস্ত অ্যারে জন্য। সুতরাং, আমরা কেবল অনুসন্ধানের প্রভাবগুলি এবং কিছু এলোমেলো শব্দের সাথেই রয়েছি।

আমি আগে যে লিঙ্কটি উদ্ধৃত করেছি সেগুলি তদন্ত প্রভাব দ্বারা র‌্যাঙ্কিং করে পৃথকভাবে প্রকাশিত জিন বা "আকর্ষণীয়" জিনগুলি অনুমান করতে টুকি মিডিয়ান পোলিশ ব্যবহার করে। যাইহোক, কাগজটি বেশ পুরানো, এবং সম্ভবত সেই সময় লোকেরা মাইক্রোআরাই ডেটা কীভাবে বিশ্লেষণ করতে পারে তা বের করার চেষ্টা করছিল। ইফ্রনের নন-প্যারাম্যাট্রিক ইমিরিকাল বায়েশিয়ান পদ্ধতিগুলির কাগজ 2001 সালে এসেছিল, তবে সম্ভবত এটি ব্যাপকভাবে ব্যবহৃত হয়নি।

তবে, এখন আমরা মাইক্রোয়ারে (পরিসংখ্যানগতভাবে) সম্পর্কে অনেক কিছু বুঝতে পারি এবং তাদের পরিসংখ্যান বিশ্লেষণ সম্পর্কে বেশ নিশ্চিত।

মাইক্রোয়ারে ডেটা বেশ গোলমাল এবং আরএমএ (যা মিডিয়ান পোলিশ ব্যবহার করে) একটি সর্বাধিক জনপ্রিয় নরমালাইজেশন পদ্ধতি, এর সরলতার কারণে হতে পারে be অন্যান্য জনপ্রিয় এবং পরিশীলিত পদ্ধতি হ'ল: জিসিআরএমএ, ভিএসএন। আগ্রহটি প্রোব ইফেক্ট এবং অ্যারে এফেক্ট না হওয়ায় এটি স্বাভাবিক করা গুরুত্বপূর্ণ ।

যেমনটি আপনি প্রত্যাশা করেছেন, বিশ্লেষণটি এমন কিছু পদ্ধতি দ্বারা উপকৃত হতে পারে যা জিনগুলি জুড়ে তথ্য bণ গ্রহণের সুবিধা নেয়। এর মধ্যে বায়েশিয়ান বা অভিজ্ঞতামূলক বায়েশিয়ান পদ্ধতি অন্তর্ভুক্ত থাকতে পারে। আপনি যে কাগজটি পড়ছেন তা পুরানো এবং এই কৌশলগুলি তখন অবধি বাইরে ছিল না।

আপনার দ্বিতীয় বিষয় সম্পর্কে, হ্যাঁ তারা সম্ভবত পরীক্ষামূলক ডেটা পরিবর্তন করছে mod তবে, আমি মনে করি, এই পরিবর্তনটি আরও ভাল কারণের জন্য, সুতরাং ন্যায়সঙ্গত। কারণ হচ্ছে

ক) মাইক্রোয়ারে ডেটা বেশ গোলমাল। যখন আগ্রহের তদন্ত প্রভাব হয়, তখন আরএমএ, জিসিআরএমএ, ভিএসএন ইত্যাদির মাধ্যমে ডেটা স্বাভাবিককরণ করা প্রয়োজনীয় এবং ডেটাগুলির কোনও বিশেষ কাঠামোর সুবিধা গ্রহণ করা ভাল। তবে আমি দ্বিতীয় অংশটি এড়াতে চাই। এটি মূলত কারণ যদি আমরা কাঠামোটি আগেই জানতাম না তবে এটি প্রচুর অনুমান চাপিয়ে দেওয়া ভাল নয়।

খ) মাইক্রোরেইর বেশিরভাগ পরীক্ষাগুলি তাদের প্রকৃতির অন্বেষণ করে, অর্থাৎ গবেষকরা আরও বিশ্লেষণ বা পরীক্ষা-নিরীক্ষার জন্য কয়েকটি আকর্ষণীয় জিনকে সংকুচিত করার চেষ্টা করছেন। যদি এই জিনগুলির একটি দৃ signal় সংকেত থাকে তবে নরমালাইজেশনের মতো পরিবর্তনগুলি চূড়ান্ত ফলাফলগুলিকে প্রভাবিত করে না (যথেষ্ট পরিমাণে)।

সুতরাং, পরিবর্তনগুলি ন্যায়সঙ্গত হতে পারে। তবে আমার অবশ্যই মন্তব্য করতে হবে, সাধারণীকরণের অতিরিক্ত মাত্রায় ভুল ফলাফল হতে পারে।


+1 এটি আমার প্রচেষ্টার চেয়ে অনেক ভাল উত্তর। ধন্যবাদ।
ক্রেইগার

@posdef। আমি ভাবছি কাগজের পরিসংখ্যান বিশ্লেষণের সাথে যদি কোনও পরিসংখ্যানবিদ জড়িত ছিল কি না।
সানকুলসু

আপনার পুরো উত্তর জন্য ধন্যবাদ। আমি মনে করি যে এটি প্রাক-প্রক্রিয়াজাতকরণের পদক্ষেপটি কাগজে সঠিকভাবে ব্যাখ্যা করা হয়নি (বা কেবল সুপরিচিত হিসাবে ধরে নেওয়া হয়েছে)। যার কথা বলতে গিয়ে, গবেষণাপত্রটি 2000 সালে প্রকাশিত হয়েছিল (প্রকৃতিতে) তাই আমি অনুমান করি যে তারা লেখার সাথে জড়িত না থাকলে তাদের পদ্ধতিগুলি সম্পর্কে কমপক্ষে কিছু পরিসংখ্যানবিদ ছিলেন had তবে অবশ্যই আমি অনুমান করতে পারি .. :)
পোস্টেফ

@posdef। ঠিক আছে - শীতল অনেক প্রশ্নের উত্তর দেয়। 2000 সময় এমন ছিল যখন লোকেরা মাইক্রোরেই ডেটা কীভাবে বিশ্লেষণ করতে যায় তা নির্ধারণ করতে থাকে। এফডিআর তখন অভিনব ছিল না :-)
সানকুলসু

4

আপনি পৃষ্ঠাগুলি 4 এবং 5 এর মধ্যে কিছু সংকেত সনাক্ত করুন খুঁজে পেতে পারেন এই

এটা তোলে মডেল জন্য অবশিষ্টাংশ গণক একটি পদ্ধতি মান গণনা করে , এবং যাতে যদি ট্যাবুলেটেড হয় , প্রতিটি সারি এবং প্রতিটি কলামের মাঝারি 0 হয়।

yi,j=m+ai+bj+ei,j
maibjei,j

আরো প্রচলিত পদ্ধতির মান গণক পরিমাণ , এবং যাতে প্রতিটি সারির গড় (অথবা সমষ্টি) এবং অবশিষ্টাংশ প্রতিটি কলাম 0।maibj

মিডিয়ান ব্যবহারের সুবিধা হ'ল অল্প সংখ্যক বিদেশিদের কাছে দৃust়তা; অসুবিধাটি হ'ল আপনি যদি কোনও প্রকার বাইরে না থাকেন তবে সম্ভাব্য দরকারী তথ্য ফেলে দিচ্ছেন।


উত্তর এবং রেফারেন্স লিঙ্কের জন্য ধন্যবাদ। তবে আমি দেখতে পাচ্ছি না যে এই মডেলটি কীভাবে হাতের সমস্যার জন্য প্রযোজ্য। প্রদত্ত যে ডেটা তুলনামূলক এক্সপ্রেশন মান (পড়ুন: প্রাচুর্য) কীভাবে কেউ , এবং সংজ্ঞায়িত করতে পারে ? aibjei,j
পোস্টেফ

পরিবর্তে আপনি যদি বা মতো একটি মতো একটি প্রাচুর্য মডেল গ্রহণ করেন তারপরে আপনি প্রতিটি একই সারির এবং প্রতিটি কলামের রেজিডিয়াল টেবিলের ০. এর সমতুল্য তৈরি করে মূলত একই জিনিসটি করতে পারেনni,j=niqj+ei,jlog(ni,j)=log(n)+log(pi)+log(qj)+ei,j
হেনরি

@ হেনরি কোনও "আউটলিয়ার" না থাকলে মিডিয়ান পোলিশ দিয়ে কোন তথ্য "নিক্ষেপ" করা হয় (এবং যাইহোক "আউটলেটর" বলতে কী বোঝায়)? সর্বোপরি, আপনি গ্র্যান্ড মিডিয়ান, সারি এবং কলাম মিডিয়ান এবং অবশিষ্টাংশগুলির মাধ্যমে হুবহু তথ্য পুনর্গঠন করতে পারেন , যার সবকটিই মিডিয়ান পোলিশের আউটপুট গঠন করে। যদি আপনি বোঝাতে চান যে অবশিষ্টাংশগুলি বাতিল করে দেওয়া হয়, তবে "অর্থে পোলিশ" (ওএলএস এর সমতুল্য) কোন ক্ষেত্রে এই বিষয়ে আলাদা?
whuber

@ হুইবার: বাকী দুটি ক্ষেত্রেই রাখা হয়। মিডিশ পোলিশ কেন্দ্র থেকে পর্যবেক্ষণগুলি কত দূরে রয়েছে তা বিবেচনা করে (এক অর্থে, এটি অবশিষ্টাংশের ওজনকে ভারসাম্য বজায় রাখে) যখন মিডিয়ান পোলিশ কেবল সেগুলি কেন্দ্রের উপরে বা নীচে রয়েছে কিনা তা দেখায় (এক অর্থে, এটি ভারসাম্যহীন) অবশিষ্টাংশের সংখ্যা)। সুতরাং মাঝারিটিকে কেন্দ্র হিসাবে ব্যবহার করার সময় ওজন সম্পর্কিত তথ্য অব্যবহৃত হয়; এটি ভাল হতে পারে যখন কয়েকটি পর্যাপ্ত ওজন / অবশিষ্টাংশ এতটাই সন্দেহজনক হয় যে কেন্দ্রের ফলাফলটিকে বিশ্বাস করা যায় না, তবে তথ্য না ব্যবহারের সাথে জড়িত।
হেনরি

@ হেনরি যদি আপনি পোলিশ থেকে সমস্ত মূল তথ্য পুনরুদ্ধার করতে পারেন তবে "তথ্য" কীভাবে "ব্যবহৃত হয় না"? বিটিডাব্লু, মিডিয়ান পোলিশ আপনার বর্ণনা হিসাবে মনে হয় এমন আচরণ করে না: এর অবশিষ্টাংশগুলি হ'ল মানগুলির মধ্যে পার্থক্যগুলি , তথ্যের সাথে তালিকায় নয়।
শুক্র

3

দেখে মনে হচ্ছে আপনি কোনও কাগজ পড়ছেন যাতে কিছু জিনের ডিফারেনশিয়াল এক্সপ্রেশন বিশ্লেষণ রয়েছে। মাইক্রোয়ারে চিপস জড়িত কিছু গবেষণা করার পরে, মিডিয়ান পোলিশ ব্যবহার সম্পর্কে আমার যে সামান্য জ্ঞান আছে (আশা করি সঠিক) তা ভাগ করে নিতে পারি।

মাইক্রোয়ারে প্রিপ্রোসেসিংয়ের সংক্ষিপ্তকরণের ধাপের সময় মিডিয়ান পোলিশ ব্যবহার করা নিখুঁত ম্যাচের তদন্ত কেবল চিপস (অন্তত আরএমএর জন্য) এর সাথে বহিরাগতদের ডেটা মুক্ত করার কিছুটা মানক উপায়।

মাইক্রোয়ারে ডেটার জন্য মিডিয়ান পোলিশ হ'ল আপনার সারি এবং কলামগুলির হিসাবে আপনার চিপ প্রভাব এবং তদন্ত প্রভাব রয়েছে:

এক্স চিপসে প্রতিটি প্রোব সেট (একই প্রোবের এন সংখ্যা নিয়ে গঠিত) জন্য:

         chip1    chip2    chip3   ...  chipx
probe1      iv       iv       iv   ...     iv
probe2      iv       iv       iv   ...     iv 
probe3      iv       iv       iv   ...     iv
...
proben      iv       iv       iv   ...     iv

যেখানে iv হল তীব্রতার মান values

তদন্তের তীব্রতার পরিবর্তনশীলতার কারণে, সংক্ষিপ্তকরণের আগে মাইক্রোরে ডেটার প্রায় সমস্ত বিশ্লেষণ কিছু প্রকারের পটভূমি সংশোধন এবং স্বাভাবিককরণ ব্যবহার করে প্রাক প্রসেস করা হয়।

এখানে বায়োসি মেলিং তালিকার থ্রেডগুলির কয়েকটি লিঙ্ক রয়েছে যা অন্যান্য পদ্ধতিগুলির তুলনায় মিডিয়ান পোলিশ ব্যবহারের বিষয়ে কথা বলে:

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html

টিস্যু এবং সেল লাইনগুলি থেকে প্রাপ্ত ডেটাগুলি সাধারণত পৃথকভাবে বিশ্লেষণ করা হয় কারণ যখন কোষগুলি সংস্কৃতিযুক্ত হয় তখন সংগ্রহ করা টিস্যুর নমুনাগুলি থেকে তাদের এক্সপ্রেশন প্রোফাইলগুলি নাটকীয়ভাবে পরিবর্তিত হয়। বেশি কাগজ না থাকলে নমুনাগুলি আলাদাভাবে প্রক্রিয়াকরণ করা উপযুক্ত কিনা তা বলা মুশকিল।

সাধারণীকরণ, পটভূমি সংশোধন এবং বিশ্লেষণ পাইপলাইনের সংক্ষিপ্তকরণের পদক্ষেপগুলি পরীক্ষামূলক তথ্যগুলির সমস্ত পরিবর্তন, তবে এটি অপসারণিত অবস্থায়, চিপ এফেক্টস, ব্যাচ ইফেক্টস, প্রসেসিং এফেক্টগুলি বিশ্লেষণের জন্য কোনও সংকেতকে ছাপিয়ে দেয়। এই মাইক্রোআর পরীক্ষাগুলি ফলাফলগুলি নিশ্চিত করার জন্য জিনগুলির তালিকা তৈরি করে যা পরীক্ষার (কিউপিসিআর, ইত্যাদি) অনুসরণের প্রার্থী।

অ্যাড-হক হিসাবে, 5 জনকে জিজ্ঞাসা করুন যে কোনও জিনকে আলাদাভাবে প্রকাশিত বিবেচনা করার জন্য কোন ভাঁজটির পার্থক্য প্রয়োজন এবং আপনি কমপক্ষে 3 টি পৃথক উত্তর নিয়ে আসবেন।


আপনার উত্তরের আপডেটের জন্য ধন্যবাদ, আমি মনে করি আমি এখনই একটি ধারণা পেতে শুরু করি। সুতরাং যদি আমি সঠিকভাবে বুঝতে পারি তবে মিডিয়ান পলিশিংটি প্রোব এবং চিপের সাথে সম্পর্কিত প্রযুক্তিগত পরিবর্তনশীলতার মূল্যায়ন করতে ব্যবহৃত হয়? ... পরীক্ষার বিভিন্ন শর্তে জিনের জন্য 1 টি ম্যাট্রিক্স হোল্ডিং এক্সপ্রেশন মানগুলি সংক্ষিপ্ত করার আগে?
পোস্টেফ

@ পোষ্টেফ আমার বোঝা থেকে হ্যাঁ। একটি চিপে প্রতিটি প্রোবসেটের জন্য (একই ক্রমের প্রোবগুলি) জুড়ে ছড়িয়ে ছিটিয়ে থাকা প্রোব রয়েছে। চিপগুলির কয়েকটি সিউডো চিত্রের জন্য plmimagegallery.bmbolstad.com । একটি একক চিপের মধ্যে পরিবর্তনশীলতা ছাড়াও, চিপগুলির মধ্যে পরিবর্তনশীলতা রয়েছে। প্রযুক্তিগত পরিবর্তনশীলতার কারণে, পরীক্ষার জন্য একটি একক "এক্সপ্রেশন মান" পেতে আলগোরিদিমগুলি কাঁচা তীব্রতার মানগুলিতে চালিত হয়। এই মানগুলির ম্যাট্রিক্স তখন জিনগুলি বিভিন্ন অবস্থার অধীনে পৃথকভাবে প্রকাশ করা হয় কিনা তা নির্ধারণ করতে উপযুক্ত।
ক্রিিগগার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.