বিষয় মডেলগুলিতে বিষয় স্থিতিশীলতা


23

আমি এমন একটি প্রকল্পে কাজ করছি যেখানে আমি ধারাবাহিক ওপেন-এন্ড প্রবন্ধের বিষয়বস্তু সম্পর্কে কিছু তথ্য বের করতে চাই। এই বিশেষ প্রকল্পে, 148 জন একটি বৃহত্তর পরীক্ষার অংশ হিসাবে একটি অনুমান ছাত্র সংগঠন সম্পর্কে প্রবন্ধ লিখেছিলেন। যদিও আমার ক্ষেত্রে (সামাজিক মনোবিজ্ঞান), এই তথ্যগুলির বিশ্লেষণের সাধারণ উপায়টি হ'ল প্রবন্ধগুলি কোড করা, আমি এই পরিমাণগতভাবে করতে চাই, যেহেতু হাতের কোডিং উভয়ই শ্রম-নিবিড় এবং আমার পক্ষে কিছুটা বিষয়ভিত্তিক স্বাদ।

মুক্ত প্রতিক্রিয়ার ডেটা পরিমাণগতভাবে বিশ্লেষণ করার উপায়গুলি সম্পর্কে আমার তদন্তকালে আমি টপিক মডেলিং (বা ল্যাটেন্ট ডিরিচলেট বরাদ্দ, বা এলডিএ) নামক একটি পদ্ধতির উপর ঝাঁপিয়ে পড়েছিলাম । টপিক মডেলিং আপনার ডেটা (একটি শব্দ-ডকুমেন্ট ম্যাট্রিক্স) এর ব্যাগ অফ-শব্দের উপস্থাপনা নেয় এবং ডেটাটির সুপ্ত বিষয়গুলি বের করতে সহ-উপস্থিতি শব্দটি সম্পর্কিত তথ্য ব্যবহার করে। এই পদ্ধতির আমার অ্যাপ্লিকেশন জন্য নিখুঁত বলে মনে হচ্ছে।

দুর্ভাগ্যক্রমে, যখন আমি আমার ডেটাতে টপিক মডেলিং প্রয়োগ করেছি তখন আমি দুটি বিষয় আবিষ্কার করেছি:

  1. টপিক মডেলিংয়ের মাধ্যমে অনাবৃত বিষয়গুলি মাঝে মাঝে ব্যাখ্যা করা শক্ত
  2. যখন আমি আমার বিষয়গুলির মডেলগুলি অন্যরকম এলোমেলো বীজের সাথে আবার চালিত করি তখন বিষয়গুলি নাটকীয়ভাবে পরিবর্তিত হবে বলে মনে হয়

2 সংখ্যাটি বিশেষত আমাকে উদ্বেগিত করে। অতএব, আমার দুটি সম্পর্কিত প্রশ্ন রয়েছে:

  1. ব্যাখ্যা এবং স্থায়িত্বের জন্য আমার মডেল ফিট পদ্ধতিটি অনুকূল করতে আমি এলডিএ পদ্ধতিতে কিছু করতে পারি? ব্যক্তিগতভাবে, আমি সর্বনিম্ন বিভ্রান্তি এবং / অথবা সেরা মডেল ফিটের সাথে মডেলটি সন্ধান করার বিষয়ে তেমন যত্ন নিই না - এই গবেষণায় অংশগ্রহণকারীরা তাদের প্রবন্ধগুলিতে কী লিখেছেন তা বোঝার এবং বৈশিষ্ট্যযুক্ত করার জন্য আমি মূলত এই পদ্ধতিটি ব্যবহার করতে চাই। যাইহোক, আমি অবশ্যই আমার ফলাফলগুলি এলোমেলো বীজের একটি নিদর্শন হিসাবে না চাই!
  2. উপরোক্ত প্রশ্নের সাথে সম্পর্কিত, আপনার এলডিএ করার জন্য কতটা ডেটা দরকার তার কোনও মানদণ্ড রয়েছে? আমি দেখেছি যে বেশিরভাগ কাগজপত্র এই পদ্ধতিটি ব্যবহার করেছে তা বৃহত্তর কর্পোরাকে বিশ্লেষণ করে (উদাহরণস্বরূপ, বিগত 20 বছর থেকে সমস্ত বিজ্ঞানের কাগজপত্রের সংরক্ষণাগার), তবে, যেহেতু আমি পরীক্ষামূলক ডেটা ব্যবহার করছি, তাই আমার নথিগুলির করপাসটি আরও ছোট।

যে কেউ তার হাত নোংরা করতে চায় তার জন্য আমি এখানে রচনা ডেটা পোস্ট করেছি এবং আমি নীচে যে আর কোডটি ব্যবহার করছি তা পেস্ট করেছি।

require(tm)
require(topicmodels)

# Create a corpus from the essay 
c <- Corpus(DataframeSource(essays))
inspect(c)

# Remove punctuation and put the words in lower case
c <- tm_map(c, removePunctuation)
c <- tm_map(c, tolower)

# Create a DocumentTermMatrix.  The stopwords are the LIWC function word categories
# I have a copy of the LIWC dictionary, but if you want to do a similar analysis,
# use the default stop words in tm
dtm <- DocumentTermMatrix(c, control = list(stopwords = 
  c(dict$funct, dict$pronoun, dict$ppron, dict$i, dict$we, dict$you, dict$shehe, 
    dict$they, dict$inpers, dict$article, dict$aux)))

# Term frequency inverse-document frequency to select the desired words
term_tfidf <- tapply(dtm$v/rowSums(as.matrix(dtm))[dtm$i], dtm$j, mean) * log2(nDocs(dtm)/colSums(as.matrix(dtm)))
summary(term_tfidf)

dtm <- dtm[, term_tfidf >= 0.04]

lda <- LDA(dtm, k = 5, seed = 532)
perplexity(lda)
(terms <- terms(lda, 10))
(topics <- topics(lda))

সম্পাদনা:

nstartমন্তব্যে ফ্লাউন্ডারারের পরামর্শ অনুসারে আমি সংশোধন করার চেষ্টা করেছি । দুর্ভাগ্যক্রমে, নীচে প্রদর্শিত হিসাবে, এমনকি nstartএলোমেলো বীজ থেকে এলোমেলো বীজের ক্ষেত্রে নাটকীয়ভাবে পরিবর্তিত হওয়া বিষয়গুলিতে 1000 টি ফলাফলের সেট করা। কেবল আবার জোর দেওয়ার জন্য, নীচের দুটি মডেলের অনুমানের মধ্যে আমি কেবলমাত্র পরিবর্তন করছি মডেল অনুমান শুরু করতে ব্যবহৃত এলোমেলো বীজ এবং তবুও বিষয়গুলি এই দুটি রানের সাথে সামঞ্জস্যপূর্ণ বলে মনে হয় না।

lda <- LDA(dtm, k = 5, seed = 535, control = list(nstart = 1000))
(terms <- terms(lda, 10))

      Topic 1         Topic 2      Topic 3      Topic 4       Topic 5      
 [1,] "international" "ethnicity"  "free"       "credit"      "kind"       
 [2,] "communicate"   "true"       "team"       "mandatory"   "bridge"     
 [3,] "gain"          "asians"     "cooperate"  "music"       "close"      
 [4,] "use"           "hand"       "order"      "seen"        "deal"       
 [5,] "big"           "hold"       "play"       "barrier"     "designed"   
 [6,] "communication" "effective"  "big"        "stereotypes" "effort"     
 [7,] "america"       "emphasis"   "beginning"  "asians"      "implemented"
 [8,] "chinese"       "halls"      "china"      "fantastic"   "websites"   
 [9,] "ethnicity"     "minorities" "difference" "focusing"    "planned"    
[10,] "networks"      "population" "easier"     "force"       "body"

lda <- LDA(dtm, k = 5, seed = 536, control = list(nstart = 1000))
(terms <- terms(lda, 10))

      Topic 1       Topic 2         Topic 3        Topic 4       Topic 5    
 [1,] "kind"        "international" "issue"        "willing"     "play"     
 [2,] "easier"      "ethnicity"     "close"        "use"         "trying"   
 [3,] "gain"        "communication" "currently"    "hand"        "unity"    
 [4,] "websites"    "communicate"   "implemented"  "networks"    "decision" 
 [5,] "credit"      "bridge"        "particularly" "stereotypes" "gap"      
 [6,] "effort"      "america"       "credit"       "communicate" "normally" 
 [7,] "barriers"    "connection"    "fulfill"      "came"        "asians"   
 [8,] "effects"     "kind"          "grew"         "asians"      "created"  
 [9,] "established" "order"         "perspectives" "big"         "effective"
[10,] "strangers"   "skills"        "big"          "budget"      "prejudice"

2
আপনার তথ্য ভাগ করে নেওয়ার জন্য আপনাকে ধন্যবাদ! এটি দেখতে খুব আকর্ষণীয় ছিল। আপনার প্রশ্নের উত্তরগুলির আমার কাছে ভাল উত্তর নেই তবে আমি কিছু বিষয় প্রস্তাব করতে চাই। প্রশ্ন 1 এর জন্য, আপনি প্যাকেজে LDAফাংশনে নিয়ন্ত্রণ পরামিতিগুলি সামঞ্জস্য করতে চেষ্টা করতে পারেন topicmodels। বিশেষত, আপনি আরও nstartবড় করার চেষ্টা করতে পারেন । এটি আপনার ফলাফলগুলিকে আরও স্থিতিশীল করার গ্যারান্টিযুক্ত , কারণ এলডিএ ফাংশনটি বিভিন্ন এলোমেলো বীজের সাথে বারবার চলবে এবং তারপরে সেরা ফলাফলটি ফিরিয়ে দেবে। দুর্ভাগ্যক্রমে, nstartবলার অপেক্ষা রাখে যে 1000 অ্যালগরিদমকে আরও 1000 গুণ বেশি কাজ করবে (চালিয়ে যাবে)
ফ্লাউন্ডারিয়ার

1
সুতরাং এটি অনেক ধীর হবে। এবং এটি স্থিতিশীল হওয়ার কোনও গ্যারান্টি নেই পর্যাপ্ত । পুনরায়: উভয় প্রশ্ন, আমার কাছে মনে হয় এলডিএ প্রকৃতপক্ষে অদৃশ্য নথিগুলিকে শ্রেণিবদ্ধ করার জন্য তৈরি করা হয়েছে যখন কোনও প্রক্রিয়া করার জন্য খুব বেশি ডেটা থাকে। এর জন্য, যদি ভিইএম অ্যালগরিদম কেবলমাত্র "যথেষ্ট ভাল" উত্তর দেয় যা এক রান থেকে অন্যে পরিবর্তিত হতে পারে তা ঠিক। তবে আপনার জন্য, এটি পছন্দসই নয় এবং তাই এলডিএ সেরা পছন্দ নাও হতে পারে। শালিজির কোর্সের প্রথম কয়েকটি বক্তৃতায় এখানে কিছু দুর্দান্ত বিকল্প রয়েছে: স্ট্যাটাস.কম.ইডু / এসচালিজি / 50৫০ , উদাহরণস্বরূপ, আপনি প্রতিটি (বিবাদী) রূপান্তর করতে পারেন
ফ্লাউন্ডিরার

2
ব্যাগ-অফ-ওয়ার্ড ভেক্টরকে রচনা করুন এবং তারপরে ফলাফলগুলির জন্য একটি পিসিএ করুন, তারপরে গুচ্ছগুলি সন্ধান করুন। আপনার কর্পসটি যথেষ্ট বড় কিনা, সত্য কথা বলতে ভেমের পক্ষে নির্ভরযোগ্য ফলাফল দেওয়া যদি খুব বড় হয় তবে আমি অবাক হব না। সম্ভবত আমি কেবল তিক্ত, তবে অনুরূপ লেখকরা অন্য মডেলটির জন্য এই পদ্ধতিটি অর্জনের চেষ্টা করার জন্য আমি প্রচুর সময় ব্যয় করেছি এবং ছোট উদাহরণগুলি ব্যবহার করার পরেও এটি রান থেকে চালানো থেকে পুরোপুরি বেমানান। আমার জানা মতে, এমন অনেকগুলি কাগজপত্র নেই যা এই জাতীয় অ্যালগরিদমগুলির জন্য সূচনা পয়েন্টগুলি বেছে নেওয়ার বিষয়ে আলোচনা করে।
ফ্লাউন্ডারিয়ার

ফ্লাউন্ডারার, আপনার ইনপুটটির জন্য আপনাকে অনেক ধন্যবাদ! এলডিএ সম্পর্কে সুনির্দিষ্টভাবে আরও গাইডলাইন নেই বলে শুনে আমার পক্ষে কিছুটা হতাশার বিষয়, তবে আমি মনে করি যে এটি একটি অচলিত পদ্ধতির অঞ্চল নিয়ে আসে। আমি nstartকোর্স ওয়েবসাইটটি সামঞ্জস্য করতে এবং দেখার চেষ্টা করব either যেগুলির মধ্যে কোনওটি কার্যকর উপার্জন করে কিনা তা দেখার জন্য। (বিটিডাব্লু, আপনি যদি কোনও উত্তরে আপনার মন্তব্য সন্নিবেশ করেন তবে আমি এটিই ভোটাভুটি করব anything আমি কোনও কিছু গ্রহণ করার আগে অন্য কারও কাছে পরামর্শ আছে কিনা তা দেখতে চাই তবে আমি মনে করি আপনার মন্তব্যগুলি উত্তর হিসাবে গণনা করার পক্ষে যথেষ্ট)।
প্যাট্রিক এস ফার্সচার

আমি আপনার সামাজিক-বিজ্ঞানের গ্রান্ট ওয়ার্ক ব্যথা অনুভব করছি, প্যাট্রিক, তবে আমি মনে করি যে আপনার পদ্ধতির শুরুটা ভুল। আপনি যদি পরিসংখ্যানগত পরীক্ষা ব্যবহার করতে চান, আপনার শ্রেণিবদ্ধকরণের ত্রুটি হার পেতে মানবেরা তাদের একটি অংশের কোড তৈরি করতে হবে, আপনি (ব্যক্তিগতভাবে) এটি করেছেন? যদি তা হয় তবে আপনি কী কী বৈশিষ্ট্যগুলি সর্বাধিক বিশিষ্ট তা জানবেন এবং আপনি আরও ভাল অ্যালগরিদম ডিজাইন / চয়ন করতে পারেন।
ইন্ডোলারিং

উত্তর:


6

আমার নিজের কৌতূহলের জন্য, আমি একটি ক্লাস্টারিং অ্যালগরিদম প্রয়োগ করেছি যা আমি এই ডেটাসেটটিতে কাজ করছি।

আমি অস্থায়ীভাবে ফলাফলগুলি এখানে রেখেছি (প্রবন্ধগুলি ডেটাসেটটি চয়ন করুন)।

দেখে মনে হচ্ছে সমস্যাটি প্রাথমিক পয়েন্ট বা অ্যালগরিদম নয়, তবে ডেটা। আপনি 'যুক্তিসঙ্গতভাবে' (বিষয়গতভাবে, আমার সীমাবদ্ধ অভিজ্ঞতায়) 147 টি উদাহরণ সহ ভাল ক্লাস্টার পেতে পারেন যতক্ষণ না কিছু লুকানো বিষয় / ধারণা / থিম / গোষ্ঠী (আপনি যা বলতে চান)।

যদি ডেটাতে ভালভাবে আলাদা করা বিষয় না থাকে তবে আপনি যে কোনও অ্যালগরিদম ব্যবহার করুন না কেন, আপনি ভাল উত্তর পেতে পারেন না।


@ সিদ্ধার্থ।গোপাল সাড়া দেওয়ার জন্য অনেক অনেক ধন্যবাদ! এটি সত্য যে সমস্ত অংশগ্রহণকারীরা একটি অনুমান ছাত্র সংগঠন (যা আমরা "ব্যাজারকনেক্ট" নামে অভিহিত করেছি) বর্ণনা করছে এমন ক্লাস্টারে কিছুটা ওভারল্যাপ আশা করব expect সুতরাং, উদাহরণস্বরূপ, বিজ্ঞানের গবেষণাপত্রগুলিতে টপিক মডেলিংয়ের একটি অ্যাপ্লিকেশন, যেখানে কিছু বিষয় কাগজ থেকে কাগজের তুলনায় সম্পূর্ণ আলাদা, বিষয়গুলি কিছুটা সামান্য similar তবে এটি সত্য যে কয়েকটি প্রবন্ধটি ব্যাজারকনেক্টের পক্ষে এবং কিছুগুলি ব্যাজারকনেক্টের বিপরীতে লেখা হয়েছে।
প্যাট্রিক এস ফার্সচার

এটাও সত্য যে প্রবন্ধগুলি যে ধরণের আর্গুমেন্ট উপস্থাপন করে এবং কীভাবে যুক্তি উপস্থাপন করা হয় তার মধ্যে বিস্তৃতভাবে পরিবর্তিত হয়। আমি যদি সম্ভব হয় তবে তার কিছু পরিবর্তনশীলতা ক্যাপচার করতে চাই। এই ধরণের কয়েকটি পার্থক্য ধরা সম্ভব কিনা (আপনার ধারণা আছে কি, খুব কমপক্ষে, এই অনুমান ছাত্র প্রোগ্রামের বিরুদ্ধে রচনা এবং প্রবন্ধের মধ্যে পার্থক্য)? এছাড়াও, যখন আপনি বিভিন্ন এলোমেলো বীজ ব্যবহার করেছিলেন তখন কি আপনার ক্লাস্টারিং ফলাফলগুলি স্থিতিশীল ছিল?
প্যাট্রিক এস ফার্সচার

1
1. আপনি যদি অ্যালগরিদমের স্থায়িত্ব সম্পর্কে বিশুদ্ধ হয়ে থাকেন - বহুবার অ্যালগরিদম চালানোর চেষ্টা করুন এবং সর্বাধিক সম্ভাবনা সহ মডেলটি চয়ন করুন with
সিদ্ধার্থ গোপাল

1
(যদিও স্থিতিশীলতা এখানে দ্বিতীয় বিষয় হিসাবে মনে হচ্ছে)। ২. আর্গুমেন্ট এবং মতামতের ভিত্তিতে আপনি যা আশা করেন তার বিবরণ দেওয়া, প্রবন্ধকে একটি ব্যাগ-অফ-শব্দের হিসাবে উপস্থাপন করা এই প্রসঙ্গে কোনও ভাল ধারণা নয়। ইনফ্যাক্ট বিষয় মডেল নিজেই এটির জন্য ভাল সরঞ্জাম নাও হতে পারে। আমি আপনাকে পরামর্শ দিচ্ছি যে আপনি কয়েকটি কী-শব্দ বাছাই করুন যা আপনার আগ্রহী (যেমন জাতি, খাদ্য, আস্তানা ইত্যাদি) এবং শব্দটি যে বাক্যটি সংঘটিত হয় তার অনুভূতি বিশ্লেষণ করার চেষ্টা করুন। উদাহরণস্বরূপ একটি ডেমো জন্য এখানে একবার দেখুন ।
সিদ্ধার্থ গোপাল

1
পাইথনের একটি দুর্দান্ত এনএলপি সরঞ্জামকিট রয়েছে যার নাম এনল্টক। আপনি এটি কী অফার করে তা একবার দেখতে চান। টিএফ-আইডিএফ সম্পর্কিত, 'প্রযুক্তিগতভাবে', এলডিএতে ইনপুটটি কেবল শব্দ সংখ্যা হিসাবে বিবেচিত হওয়া উচিত কারণ বহুজাতিক নাম্বার বিতরণ স্বেচ্ছাসেবী সংখ্যার জন্য সংজ্ঞায়িত করা হয় না।
সিদ্ধার্থ গোপাল

10
  1. তথাকথিত "টপিক মডেলগুলিতে" বিষয়গুলির ধারণাটি বিভ্রান্তিকর। মডেলটি একেবারে শব্দার্থগতভাবে সুসংগত "বিষয়গুলি" জানার জন্য বা নকশাকৃত নয়। "বিষয়" কেবলমাত্র টোকেন (শব্দ) এর উপর বিতরণ। অন্য কথায়, মডেলটি শর্তাবলীর উচ্চ-অর্ডার সহ-উপস্থিতিটি কেবল ক্যাপচার করে। এই কাঠামোগুলি কিছু বোঝায় বা না তা মডেলটির উদ্দেশ্য নয়।

  2. "এলডিএ" মডেলের দুটি অংশ রয়েছে (মূলত সমস্ত গ্রাফিকাল মডেল): ক) মডেল সংজ্ঞা এবং খ) ইনফার / এস্টেট মডেল পরামিতিগুলিতে অনুমানের আলগোরিদিম প্রয়োগ। আপনি যে জিনিসটি উল্লেখ করেছেন সেটি "এলডিএ" মডেলের সমস্যা হতে পারে বা নাও হতে পারে তবে আপনি যে নির্দিষ্ট প্রয়োগটি ব্যবহার করেছেন (আর প্যাকেজ) তার কিছু বাগ / ত্রুটি / মিসকনফিগ হতে পারে।

  3. "এলডিএ" এর প্রায় সব বাস্তবায়নের জন্য কিছু র্যান্ডমাইজেশন প্রয়োজন। এবং ইনফারেন্স অ্যালগরিদম (যেমন, এমসিসিএম বা ভেরিয়েশনাল ইনফারেন্স) এর প্রকৃতির দ্বারা, আপনি স্থানীয় ন্যূনতম সমাধান বা অনেকগুলি সমাধানের বিতরণ পাবেন। সুতরাং, সংক্ষেপে, আপনি যা পর্যবেক্ষণ করেছেন তা কোনওভাবে প্রত্যাশিত।

ব্যবহারিক পরামর্শ:

  1. বিভিন্ন আর প্যাকেজ চেষ্টা করুন: উদাহরণস্বরূপ, এই প্যাকেজটি ডেভিড ব্লির প্রাক্তন স্নাতক শিক্ষার্থী দ্বারা সম্পন্ন হয়েছে। অথবা, এমনকি অন্য পরিবেশ, যেমন চেষ্টা এই এক । আপনি যদি এই সমস্ত স্থিতিশীল প্যাকেজগুলি থেকে অনুরূপ ফলাফল পান তবে কমপক্ষে, আপনি সমস্যাটি কিছুটা কমিয়ে আনতে পারেন।

  2. থামার শব্দগুলি না সরিয়ে কিছুটা খেলতে চেষ্টা করুন। যুক্তিটি হ'ল, এই স্টপ-শব্দগুলি এ জাতীয় ছোট কর্পাসের (উদাহরণস্বরূপ, 100 বা তাই নিবন্ধগুলি) অর্থবোধের অর্থ সংযোগ করতে গুরুত্বপূর্ণ ভূমিকা পালন করে। এছাড়াও, ফিল্টারিং জিনিস না চেষ্টা করুন।

  3. বিভিন্ন সংখ্যক বিষয়ের মতো হাইপার-প্যারামিটারগুলির সাথে কিছুটা খেলতে চেষ্টা করুন।

বিষয় সমন্বয় সম্পর্কিত কাগজপত্র:

  1. http://www.aclweb.org/anthology-new/D/D12/D12-1087.pdf

  2. http://people.cs.umass.edu/~wallach/publications/mimno11optimizing.pdf


আপনার প্রতিক্রিয়ার জন্য ধন্যবাদ. আমি আপনার মন্তব্যে একবারে সাড়া দেব। (1) আমি বুঝতে পারি যে মডেলগুলি বিষয়গুলি সম্পর্কে কিছুই জানে না, তবে আপনার মতামতটি যে বিষয়গুলি মডেলগুলি দ্বারা উদ্ঘাটিত কাঠামোগুলি (এবং এই কাঠামোগুলিগুলির অর্থ এই মডেলগুলির উদ্দেশ্য নয় কিনা) সরাসরি ডেভিড ব্লেইয়ের এই পর্যালোচনা কাগজের সাথে বিরোধী, টপিক মডেলগুলির স্রষ্টা। আমার কাছে মনে হচ্ছে টপিক মডেলগুলির উদ্দেশ্য হ'ল পাঠ্য ডেটা অন্বেষণ / বৈশিষ্ট্যযুক্ত করা, যা আমি এই প্রকল্পে ঠিক তাই করতে চাই।
প্যাট্রিক এস ফার্সচার

(২) যদিও এটি সম্ভবত সম্ভব যে আমার ফলাফলগুলি বাগের কারণে হয়েছিল তবে আমি মনে করি যে এটি সম্ভবত আমার শেষের দিকে কিছুটা ত্রুটির কারণে হয়েছে (এবং যদি এটি মনে হয় তবে দয়া করে আমাকে বলুন!)। আমি আর এর মধ্যে topicmodelsপ্যাকেজটি ব্যবহার করছি , যা মূলত ব্লেই এবং সহকর্মীদের দ্বারা বাস্তবায়িত মূল অ্যালগরিদমের একটি আর ইন্টারফেস।
প্যাট্রিক এস ফার্সচার

(৩) আমি জানি যে এলডিএর কিছুটা র‌্যান্ডমাইজেশন প্রয়োজন, সুতরাং আমি রান থেকে চালানোর জন্য সঠিক ফলাফলের জন্য বলছি না, তবে আমি বিভিন্ন র্যান্ডম বীজ ব্যবহার করে অনুরূপ বিষয়ের প্রত্যাশা করা যুক্তিসঙ্গত বলে মনে করি (সত্যই, আমি বিশ্বাস করি যে এটি একটি আদর্শ প্রত্যাশা যখন লোক এলোমোথিম ব্যবহার করে এলোমেলোকরণের ভিত্তিতে)। আমি যা জানতে চাই তা হল ফলাফলগুলিতে কীভাবে স্থিতিশীলতা অর্জন করা যায়।
প্যাট্রিক এস ফার্সচার

@ প্যাট্রিকস.ফোরচার আপনার প্রথম মন্তব্যটির জন্য: না এটি বিপরীত। "বিষয়" নামটি হ'ল আমরা মানুষ হিসাবে শব্দের এই বিতরণের উপর লেবেল রেখেছি। এই গুচ্ছ কাঠামো বাস্তব-বিশ্বের, মানব পাঠযোগ্য বিষয়গুলির সাথে সম্পর্কিত হতে পারে বা নাও হতে পারে। সঠিক সমস্যাটি হ্রাস করতে টপিক মডেলগুলিতে সুসংহতকরণের জন্য প্রচুর কাগজপত্র রয়েছে।
লিয়াংজি হংক

@ প্যাট্রিকস.ফোরচার আপনার দ্বিতীয় মন্তব্যে: আপনি অনুরূপ (অযৌক্তিক ফলাফল) পান কিনা তা দেখার জন্য কিছু আলাদা বাস্তবায়ন চেষ্টা করুন। উদাহরণস্বরূপ, UMASS মাললেট।
লিয়াংজি হংক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.