ট্রান্সফর্মার মডেলটিতে অবস্থানগত এনকোডিং কী?


23

আমি এমএল এ নতুন এবং এটি আমার এখানে প্রথম প্রশ্ন, তাই দুঃখিত যদি আমার প্রশ্নটি মূর্খ হয়।

আমি কাগজটি পড়ার এবং বোঝার চেষ্টা করছি আপনার দৃষ্টি আকর্ষণ করা দরকার এবং এটিতে একটি চিত্র রয়েছে:

এখানে চিত্র বর্ণনা লিখুন

অবস্থানগত এনকোডিং কী তা আমি জানি না । কিছু ইউটিউব ভিডিও শুনে আমি জানতে পেরেছি যে এটি একটি শব্দের অর্থ এবং অবস্থান উভয়ই এম্বেডিং এবং এর সাথে কিছু করার আছেsin(x) অথবা cos(x)

তবে আমি বুঝতে পারি না এটি আসলে কী এবং এটি ঠিক কীভাবে করছে। তাই আমি এখানে কিছু সাহায্যের জন্য আছি। আগাম ধন্যবাদ.

উত্তর:


31

উদাহরণস্বরূপ, শব্দের জন্য w অবস্থান pos[0,L1] ইনপুট ক্রম w=(w0,,wL1), 4-মাত্রিক এমবেডিং সহ ew, এবং dmodel=4, অপারেশন হবে

ew=ew+[sin(pos100000),cos(pos100000),sin(pos100002/4),cos(pos100002/4)]=ew+[sin(pos),cos(pos),sin(pos100),cos(pos100)]

যেখানে অবস্থানগত এনকোডিংয়ের সূত্রটি নীচে রয়েছে

PE(pos,2i)=sin(pos100002i/dmodel),
PE(pos,2i+1)=cos(pos100002i/dmodel).
সঙ্গে dmodel=512 (সুতরাং i[0,255]) মূল কাগজে।

প্রস্তাবিত আর্কিটেকচারে ওয়ার্ড অর্ডার (1 ম শব্দ, 2 য় শব্দ, ..) এর কোনও ধারণা না থাকায় এই কৌশলটি ব্যবহৃত হয় । ইনপুট সিকোয়েন্সের সমস্ত শব্দ কোনও বিশেষ অর্ডার বা অবস্থান (সাধারণ আরএনএন বা কনভনেট আর্কিটেকচারের বিপরীতে) ছাড়াই নেটওয়ার্ককে খাওয়ানো হয়, সুতরাং, শব্দগুলি কীভাবে অর্ডার করা হয়েছে তা মডেলটির কোনও ধারণা নেই। ফলস্বরূপ, প্রতিটি শব্দ-এম্বেডিংয়ে শব্দের ক্রমকে অন্তর্ভুক্ত করতে একটি অবস্থান-নির্ভর সংকেত যুক্ত করা হয়। পরীক্ষাগুলির উপর ভিত্তি করে, এই সংযোজন কেবল এম্বেডিং তথ্যকে ধ্বংস করা এড়িয়ে যায় না তবে গুরুত্বপূর্ণ অবস্থান সম্পর্কিত তথ্যও যোগ করে। আরএনএন-এর ক্ষেত্রে আমরা শব্দগুলি ক্রমানুসারে আরএনএনকে খাওয়াই, অর্থাৎn-পরি শব্দটি ধাপে খাওয়ানো হয় n, যা শৃঙ্খলায় মডেলকে সহায়তা করে।

জে আলমমার এই নিবন্ধটি দুর্দান্ত ভিজ্যুয়ালাইজেশন সহ কাগজটি ব্যাখ্যা করে। দুর্ভাগ্যক্রমে, অবস্থানগত এনকোডিংয়ের জন্য এর উদাহরণটি এই মুহূর্তে ভুল (এটি ব্যবহার করে)sin এমবেডিং মাত্রা এবং প্রথমার্ধের জন্য cos দ্বিতীয়ার্ধের পরিবর্তে, ব্যবহারের পরিবর্তে sin এমনকি সূচকের জন্য এবং cos বিজোড় সূচকগুলির জন্য)।



6

পজিশনাল এনকোডিং একটি শব্দের মূল্যবোধ এবং একটি বাক্যে এর অবস্থানের পুনঃপ্রতিনিধিত্ব (প্রদত্ত যে শেষে বা মাঝখানে যে শুরুর দিকে নয়)

তবে আপনাকে বিবেচনায় রাখতে হবে যে বাক্যগুলি যে কোনও দৈর্ঘ্যের হতে পারে, সুতরাং "X" শব্দটি বাক্যটির তৃতীয় হয় 'বিভিন্ন দৈর্ঘ্যের বাক্য থাকলে তা বোঝা যায় না: 3-বাক্য বাক্যে 3 য় সম্পূর্ণরূপে একটি 20-শব্দ বাক্য মধ্যে তৃতীয় থেকে পৃথক।

অবস্থানগত এনকোডার যা করে তা হ'ল চক্রীয় প্রকৃতির সহায়তা পাওয়া sin(x) এবং cos(x) একটি বাক্যে একটি শব্দের অবস্থানের তথ্য ফিরিয়ে আনার জন্য কাজ করে।


2
ধন্যবাদ. এই অবস্থানিক এনকোডারটি কীভাবে এটি এর সাথে করে তা আপনি কী ব্যাখ্যা করতে পারেনগুলিআমিএন এবং গুলি?
পেইম্যান

1

অন্যান্য উত্তরের সাথে যোগ করতে, ওপেনএআইএফের রেফারেশন বাস্তবায়ন প্রাকৃতিক লগ-স্পেসে এটি গণনা করে (নির্ভুলতার উন্নতি করতে, আমি মনে করি they তারা বেস 2 এ লগইন করতে পারত কিনা তা নিশ্চিত নয়)) তারা এনকোডিং নিয়ে আসে নি। এখানে ফোর-ফর লুপ হিসাবে সিটিতে পুনর্লিখন করা PE লুক টেবিল প্রজন্মটি রয়েছে:

int d_model = 512, max_len = 5000;
double pe[max_len][d_model];

for (int i = 0; i < max_len; i++) {
   for (int k = 0; k < d_model; k = k + 2) {
      double div_term = exp(k * -log(10000.0) / d_model);
      pe[i][k] = sin(i * div_term);
      pe[i][k + 1] = cos(i * div_term);
   }
}
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.