পিসিএ / চিঠিপত্র বিশ্লেষণে "ঘোড়াগুলির প্রভাব" এবং / অথবা "আর্চ এফেক্ট" কী?


20

বহুমাত্রিক তথ্য বিশ্লেষণের ডেটা বিশ্লেষণের জন্য বাস্তুসংস্থার পরিসংখ্যানগুলির অনেক কৌশল রয়েছে। এগুলিকে বলা হয় 'অর্ডিনেশন' কৌশল। অনেকগুলি একই বা ঘনিষ্ঠভাবে পরিসংখ্যানগুলির অন্যত্র সাধারণ কৌশলগুলির সাথে সম্পর্কিত। সম্ভবত প্রোটোটাইপিকাল উদাহরণটি হবে মূল উপাদানগুলির বিশ্লেষণ (পিসিএ)। পরিবেশবিদরা 'গ্রেডিয়েন্টস' অন্বেষণ করতে পিসিএ এবং সম্পর্কিত কৌশলগুলি ব্যবহার করতে পারেন (গ্রেডিয়েন্ট কী তা আমি পুরোপুরি পরিষ্কার করছি না তবে আমি এটি সম্পর্কে কিছুটা পড়ছি))

উপর এই পৃষ্ঠার অধীন শেষ আইটেম প্রিন্সিপাল উপাদান বিশ্লেষণ (পিসিএ) লেখা আছে:

  • পিসিএ গাছপালা ডেটা জন্য একটি গুরুতর সমস্যা আছে: ঘোড়া জুতো প্রভাব। এটি গ্রেডিয়েন্ট সহ প্রজাতির বিতরণগুলির বক্ররেখা দ্বারা ঘটে থাকে। যেহেতু প্রজাতির প্রতিক্রিয়া বক্ররেখা সাধারণত ইউনিমোডাল (অর্থাত্ খুব দৃ strongly়ভাবে বক্ররেখার), তাই ঘোড়াগুলির প্রভাব সাধারণ।

পৃষ্ঠার আরও নিচে চিঠিপত্র বিশ্লেষণ বা পারস্পরিক গড় (আরএ) এর অধীনে এটি "খিলান প্রভাব" বোঝায়:

  • আরএর একটি সমস্যা রয়েছে: খিলান প্রভাব। গ্রেডিয়েন্টগুলি বন্টনকে অরেখরতার কারণে এটিও ঘটে।
  • খিলানটি পিসিএর ঘোড়াশক্তির প্রভাব হিসাবে ততটা গুরুতর নয়, কারণ গ্রেডিয়েন্টের শেষগুলি সংশ্লেষিত হয় না।

কেউ এই ব্যাখ্যা করতে পারেন? আমি সম্প্রতি প্লটগুলিতে এই ঘটনাটি দেখেছি যা নিম্ন মাত্রিক স্থানে (যেমন, চিঠিপত্র বিশ্লেষণ এবং ফ্যাক্টর বিশ্লেষণ) ডেটা পুনরায় উপস্থাপন করে।

  1. একটি "গ্রেডিয়েন্ট" আরও সাধারণভাবে (উদাহরণস্বরূপ, একটি নন-বাস্তুতান্ত্রিক প্রসঙ্গে) এর সাথে কী মিলবে?
  2. যদি আপনার ডেটার সাথে এটি ঘটে তবে এটি "সমস্যা" ("গুরুতর সমস্যা")? কি জন্য?
  3. একটি ঘোড়াওয়ালা / খিলানটি যেখানে প্রদর্শিত হবে তাকে কীভাবে ব্যাখ্যা করা উচিত?
  4. প্রতিকার কি প্রয়োগ করা দরকার? কি? মূল তথ্য রূপান্তরগুলি সাহায্য করবে? ডেটা যদি অর্ডিনাল রেটিং হয়?

উত্তরগুলি সেই সাইটের অন্যান্য পৃষ্ঠায় থাকতে পারে (যেমন, পিসিএ , সিএ এবং ডিসিএর জন্য )। আমি তাদের মাধ্যমে কাজ করার চেষ্টা করা হয়েছে। তবে আলোচনাগুলি যথেষ্ট অপরিচিত পরিবেশগত পরিভাষা এবং উদাহরণগুলির দ্বারা বোঝানো হয়েছে যে বিষয়টি বোঝা শক্ত hard


1
(+1) অর্ডিনেশন.ওস্টেট.ইডু / পিসিএ এইচটিএম এ আমি যুক্তিসঙ্গতভাবে পরিষ্কার উত্তর পেয়েছি । আপনার উদ্ধৃতিতে "বক্ররেখা" ব্যাখ্যা সম্পূর্ণ ভুল - যা এটিকে এত বিভ্রান্ত করে তোলে।
whuber

2
ডায়াকোনিস এবং আরও দেখুন। (২০০৮), বহু-মাত্রিক স্কেলিং এবং স্থানীয় কার্নেল পদ্ধতিতে ঘোড়াগুলি , আন। Appl। তাত্ক্ষণিকবাজার। , খণ্ড। 2, না। 3, 777-807।
কার্ডিনাল

আমি আপনার প্রশ্নের উত্তর দেওয়ার চেষ্টা করেছি কিন্তু আমি নিশ্চিত নই যে আমি বাস্তুতত্ত্ববিদ এবং গ্রেডিয়েন্ট হিসাবে দেখছি যে আমি এই বিষয়গুলি সম্পর্কে কীভাবে ভাবছি how
মনিকা পুনরায় ইনস্টল করুন - জি সিম্পসন

@ শুভ: উদ্ধৃত "বক্ররেখা" ব্যাখ্যাটি বিভ্রান্তিকর হতে পারে এবং খুব পরিষ্কার নয়, তবে আমি এটি "সম্পূর্ণ ভুল" বলে মনে করি না। সত্য "গ্রেডিয়েন্ট" বরাবর অবস্থানের ক্রিয়াকলাপ হিসাবে যদি প্রজাতির প্রাচুর্যগুলি (আপনার লিঙ্ক থেকে উদাহরণ ব্যবহার করে) সমস্ত লিনিয়ার (সম্ভবত কিছু শব্দে দূষিত) হয়ে থাকে তবে পয়েন্টগুলির মেঘটি হবে (প্রায়) ত্রিমাত্রিক এবং পিসিএ এটি খুঁজে পেতে হবে। পয়েন্টগুলির মেঘটি বাঁকানো / বাঁকা হয়ে যায় কারণ কার্যগুলি লিনিয়ার নয়। স্থানান্তরিত গাউসিয়ানদের একটি বিশেষ ক্ষেত্রে হর্সশি বাড়ে।
অ্যামিবা বলেছেন মোনিকা

@ আমোবা তবুও, ঘোড়াঘটিত প্রভাব প্রজাতির গ্রেডিয়েন্টগুলির বক্ররেখার ফলে আসে না: এটি বিতরণ অনুপাতের অরেখরতা থেকে উদ্ভূত হয় । উদ্ধৃতি, গ্রেডিয়েন্টগুলির আকারগুলিতে এফেক্টটি দায়ী করার জন্য, ঘটনার কারণটি সঠিকভাবে সনাক্ত করতে পারে না।
হোবার

উত্তর:


19

চতুর্থাংশ 1

পরিবেশবিদরা সারাক্ষণ গ্রেডিয়েন্টের কথা বলেন। এখানে প্রচুর ধরণের গ্রেডিয়েন্ট রয়েছে তবে আপনি যেগুলি পরিবর্তনশীল (গুলি) চান তা বা প্রতিক্রিয়ার জন্য গুরুত্বপূর্ণ এটির কিছু সমন্বয় হিসাবে তাদের মনে করা ভাল think সুতরাং একটি গ্রেডিয়েন্ট সময়, বা স্থান, বা মাটির অম্লতা, বা পুষ্টিকর উপাদান বা আরও জটিল কিছু হতে পারে যেমন কোনওভাবে প্রতিক্রিয়া দ্বারা প্রয়োজনীয় প্রতিক্রিয়াগুলির একটি রৈখিক সংমিশ্রণ।

আমরা গ্রেডিয়েন্টগুলি নিয়ে কথা বলি কারণ আমরা স্থান বা সময় প্রজাতি পর্যবেক্ষণ করি এবং সেই স্থান বা সময়ের সাথে পুরো হোস্টের বিভিন্নতা থাকে।

Q2 এর

আমি এই সিদ্ধান্তে পৌঁছেছি যে অনেক ক্ষেত্রে পিসিএর ঘোড়াটি কোনও গুরুতর সমস্যা নয় যদি আপনি বুঝতে পারেন যে এটি কীভাবে উত্থিত হয় এবং যখন "গ্রেডিয়েন্ট" আসলে পিসি 1 এবং পিসি 2 দ্বারা প্রতিনিধিত্ব করা হয় তখন পিসি 1 নেওয়ার মতো নির্বোধ কাজগুলি করেন না (ভাল এটি উচ্চতর পিসিগুলিতেও বিভক্ত হয় তবে আশা করি একটি 2-ডি উপস্থাপনা ঠিক আছে)।

সিএতে আমি অনুমান করি আমিও এটিই ভাবি (এখন এটি সম্পর্কে কিছুটা ভাবতে বাধ্য করা হয়েছে)। সমাধানটি একটি খিলান তৈরি করতে পারে যখন ডেটাগুলিতে শক্তিশালী দ্বিতীয় মাত্রা না থাকে যেমন সিএ অক্ষগুলির অরথোগোনালটির প্রয়োজনীয়তা পূরণকারী প্রথম অক্ষের একটি ভাঁজ সংস্করণ, ডেটাতে অন্য দিকের চেয়ে আরও "জড়তা" ব্যাখ্যা করে। এটি আরও গুরুতর হতে পারে কারণ এটি কাঠামোযুক্ত তৈরি হয়েছে যেখানে পিসিএ সহ খিলানটি একক প্রভাবশালী গ্রেডিয়েন্ট বরাবর সাইটে প্রজাতির প্রাচুর্য উপস্থাপনের এক উপায়।

আমি দৃ quite়ভাবে বুঝতে পারি নি কেন লোকেরা শক্তিশালী ঘোড়াওয়ালা দিয়ে পিসি 1 ধরে ভুল ক্রম নিয়ে এত চিন্তা করে। আমি পাল্টা বলব যে এই ধরণের ক্ষেত্রে আপনার কেবল পিসি 1 নেওয়া উচিত নয় এবং তারপরে সমস্যাটি চলে যায়; পিসি 1 এবং পিসি 2 তে স্থানাঙ্কগুলির জোড়া দুটি অক্ষের যে কোনও একটিতে বিপরীতগুলি থেকে মুক্তি পায়।

চতুর্থাংশ 3

যদি আমি কোনও পিসিএ বাইপ্লটে ঘোড়াটিকে দেখে থাকি তবে আমি ডেটাটিকে একক প্রভাবশালী গ্রেডিয়েন্ট বা তারতম্যের দিক হিসাবে ব্যাখ্যা করতাম।

আমি যদি খিলানটি দেখে থাকি তবে আমি সম্ভবত এটিই শেষ করতাম তবে সিএ অক্ষ 2 টি ব্যাখ্যা করার চেষ্টা করার ক্ষেত্রে আমি খুব সতর্ক থাকব।

আমি ডিসিএ প্রয়োগ করব না - এটি কেবল খিলানটিকে দূরে মুছে ফেলে (সেরা পরিস্থিতিতে) যেমন আপনি 2-ডি প্লটে অদ্ভুততা দেখেন না, তবে বেশিরভাগ ক্ষেত্রে এটি হীরা বা শিংগা আকারের মতো অন্যান্য মজাদার কাঠামো তৈরি করে ডিসিএ স্পেসে নমুনাগুলির ব্যবস্থা। উদাহরণ স্বরূপ:

library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA

এখানে চিত্র বর্ণনা লিখুন

আমরা প্লটের বাম দিকে স্যাম্পল পয়েন্টগুলির বাইরে একটি সাধারণ ফ্যানিং দেখতে পাই।

Q4 ই

আমি পরামর্শ দেব যে এই প্রশ্নের উত্তর আপনার বিশ্লেষণের লক্ষ্যগুলির উপর নির্ভর করে। যদি খিলান / ঘোড়াটি কোনও একক প্রভাবশালী গ্রেডিয়েন্টের কারণে হয়, তবে এটি পিসিএ অক্ষ হিসাবে উপস্থাপন করার পরিবর্তে , যদি আমরা একক ভেরিয়েবলের অনুমান করতে পারি যা গ্রেডিয়েন্টের সাথে সাইটগুলি / নমুনাগুলির অবস্থানের প্রতিনিধিত্ব করে।m

এটি ডেটার উচ্চ-মাত্রিক স্থানটিতে একটি অ-লাইন দিক খুঁজে পাওয়ার পরামর্শ দিবে। এর মধ্যে একটি পদ্ধতি হস্টি এবং স্টুজেলের মূল বক্ররেখা, তবে অন্যান্য অ-রৈখিক বহুবিধ পদ্ধতি উপলব্ধ যা যথেষ্ট হতে পারে।

উদাহরণস্বরূপ, কিছু প্যাথলজিকাল ডেটার জন্য

এখানে চিত্র বর্ণনা লিখুন

আমরা একটি শক্তিশালী অশ্বারোহী দেখতে। প্রধান বক্ররেখা এই তথ্যের মূল মাত্রাগুলিতে একটি মসৃণ বক্ররেখার মাধ্যমে নমুনার অন্তর্নিহিত গ্রেডিয়েন্ট বা বিন্যাস / ক্রম পুনরুদ্ধার করার চেষ্টা করে। নীচের চিত্রটি দেখায় যে পুনরাবৃত্তিমূলক অ্যালগরিদম অন্তর্নিহিত গ্রেডিয়েন্টের কাছাকাছি কিছুতে রূপান্তর করে। (আমি মনে করি এটি চক্রান্তের শীর্ষে থাকা ডেটা থেকে দূরে সরে যায় যাতে উচ্চ মাত্রায় ডেটা আরও কাছাকাছি থাকে এবং আংশিকভাবে একটি বক্রকে প্রধান বক্র হিসাবে ঘোষিত করার জন্য স্ব-ধারাবাহিকতার মানদণ্ডের কারণে))

এখানে চিত্র বর্ণনা লিখুন

আমার ব্লগ পোস্টে কোড সহ আরও বিশদ রয়েছে যা থেকে আমি এই চিত্রগুলি নিয়েছি। তবে এখানে মূল বক্তব্য হ'ল প্রধান কার্ভগুলি সহজেই স্যাম্পলগুলির জ্ঞাত ক্রম পুনরুদ্ধার করে যেখানে নিজেরাই PC1 বা PC2 থাকে না।

পিসিএ ক্ষেত্রে, বাস্তুশাস্ত্রে ট্রান্সফরমেশনগুলি প্রয়োগ করা সাধারণ। জনপ্রিয় রূপান্তরগুলি হ'ল রূপান্তরিত ডেটাতে ইউক্লিডিয়ান দূরত্ব গণনা করা হলে কিছু ইউক্লিডিয়ান দূরত্ব ফিরে আসার কথা ভাবা যেতে পারে। উদাহরণস্বরূপ, হ্যালিঞ্জার দূরত্ব

DHellinger(x1,x2)=j=1p[y1jy1+y2jy2+]2

যেখানে নমুনা ম প্রজাতির প্রাচুর্য , ম নমুনাতে সমস্ত প্রজাতির প্রাচুর্যের যোগফল । আমরা যদি ডেটাগুলিকে অনুপাতে রূপান্তর করি এবং একটি স্কোয়ার-রুটের রূপান্তর প্রয়োগ করি তবে ইউক্লিডিয়ান দূরত্ব-সংরক্ষণকারী পিসিএ আসল ডেটাতে হ্যালিঞ্জার দূরত্বকে উপস্থাপন করবে। j i y i + iyijjiyi+i

ঘোড়াটি বাস্তুশাস্ত্রে দীর্ঘকাল ধরে পরিচিত এবং অধ্যয়ন করা হয়েছে; প্রথম দিকের সাহিত্যের কয়েকটি (আরও আধুনিক চেহারা)

প্রধান প্রধান বক্র রেফারেন্স হয়

প্রাক্তনটি খুব পরিবেশগত উপস্থাপনা হওয়ার সাথে।


ধন্যবাদ, গ্যাভিন ডেটাসেট ডাব্লু / প্রশ্ন যেমন: "আমি আমার ডাক্তারকে পছন্দ করি", এবং "আমার চিকিত্সক যেমন একজন ব্যক্তি হিসাবে আমার সম্পর্কে যত্নবান হন" বলে আমার সাধারন রেটিংগুলি বিবেচনা করুন। এগুলি স্থান বা সময় উভয়ই অর্থপূর্ণভাবে বিতরণ করা হয় না। এখানে 'গ্রেডিয়েন্ট' কী হবে?
গুং - মনিকা পুনরায়

ডাব্লু / একটি 5x5 টেবিল এবং উচ্চ এন, ডেটা ভিজ্যুয়ালাইজ করার একটি উপায় হ'ল ডাব্লু / সিএ। ডেটা অর্ডিনাল, তবে সিএ তা স্বীকার করে না; সুতরাং আমরা সংলগ্ন সারি / কলামগুলি আরও পৃথক পৃথক স্থানে রয়েছে কিনা তা পরীক্ষা করে দেখতে পারি। উভয় বিন্দু যথাযথ ক্রমে একটি স্পষ্ট লাইন বরাবর পড়ে, তবে রেখাটি এমনভাবে বক্ররেখা যায় যে 2 ডি স্পেসের মিডপয়েন্টের চেয়ে চূড়াগুলি একে অপরের আরও কাছাকাছি থাকে। কীভাবে তা ব্যাখ্যা করা উচিত?
গুং - মনিকা পুনরায়

CA উভয় সারি (নমুনা) এবং ভেরিয়েবল (কলস) উভয়ের জন্য একটি ক্রম সন্ধান করে যা নমুনা "স্কোর" এর বিস্তারকে সর্বাধিক করে তোলে। এটি একটি সুপ্ত পরিবর্তনশীল (ভেরিয়েবলগুলির একটি রৈখিক সংমিশ্রণ) সন্ধান করে যা সেই বিস্তৃতি সর্বাধিক করে তোলে। আমরা সেই সুপ্ত পরিবর্তনশীলকে গ্রেডিয়েন্ট বলি।
মনিকা পুনরায় ইনস্টল করুন - জি সিম্পসন

সংক্ষেপণটি আবার বলুন, আপনি কি সিএ অক্ষ 1 এ একে অপরের কাছাকাছি বা বাইপ্লটের স্কেলে ইউক্লিডিয়ান দূরত্বের ক্ষেত্রে একে অপরের কাছাকাছি? যে কোনও উপায়ে, এটি একটি নিম্ন মাত্রিক স্থানে ডেটা প্রকাশের ক্ষেত্রে সত্যই একটি সমস্যা। ডিসিএ অচলিত ডিসিএ অক্ষ 1 এর শেষে নমুনাগুলি টানা এবং উত্সের কাছাকাছি নমুনাগুলি সংক্ষেপ করে এই প্রভাবটিকে পূর্বাবস্থায় ফেলার চেষ্টা করে। সুতরাং হ্যাঁ, এটি একটি সমস্যা, তবে অন্তর্নিহিত গ্রেডিয়েন্টটি যথাযথভাবে ক্যাপচার করার পদ্ধতিটির অবিচ্ছিন্নতার কারণে এটি। আমরা এটির সাথে বেঁচে থাকতে পারি বা আরও নমনীয় পন্থা (অন্তত বাস্তুবিদ্যায়) ব্যবহার করতে পারি।
মনিকা পুনরায় ইনস্টল করুন - জি সিম্পসন

1
আপনি যদি আরও মাত্রায় এটি দেখেন, সমস্যাটি চলে যাবে। আমি মনে করি এটি পদ্ধতির সীমাবদ্ধতা; এটি অনেক ক্ষেত্রে ঠিক আছে তবে অন্যগুলিতে ব্যর্থ হয়।
মনিকা পুনরায় ইনস্টল করুন - জি সিম্পসন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.