আমি কৌতূহলী যে কেউ কীভাবে একটি স্বেচ্ছাসেবী আইডিএন হোস্টনাম ( আরএফসি 5890 দ্বারা সংজ্ঞায়িত ) ডোমেনটি খুব সংক্ষিপ্তভাবে সংকুচিত করতে পারে এবং সন্দেহ করা যায় যে এটি একটি আকর্ষণীয় চ্যালেঞ্জ হতে পারে। একটি ইউনিকোড হোস্ট বা ডোমেন নাম (ইউ-লেবেল) ইউনিকোড অক্ষরগুলির একটি স্ট্রিং নিয়ে গঠিত হয়, সাধারণত শীর্ষ-স্তরের ডোমেনের উপর ভিত্তি করে একটি ভাষাতে আবদ্ধ থাকে (উদাহরণস্বরূপ গ্রীক অক্ষর ) যার দ্বারা শুরু হয় ( এসএসসিআইএসআই) স্ট্রিংটিতে এনকোড থাকে একটি লেবেল)।.gr
xn--
কেউ কেবল আনুষ্ঠানিক প্রয়োজনীয়তা থেকে ডেটা মডেল তৈরি করতে পারে
প্রতিটি অ-ইউনিকোড লেবেল স্ট্রিং মেলানো হতে পারে
^[a-z\d]([a-z\d\-]{0,61}[a-z\d])?$
;প্রতিটি এ-লেবেল স্ট্রিং মেলানো হতে পারে
^xn--[a-z\d]([a-z\d\-]{0,57}[a-z\d])?$
; এবংপুরো ডোমেনের মোট দৈর্ঘ্য (এ-লেবেল এবং নন-আইডিএন লেবেলগুলি '।' ডেলিফিটর দিয়ে সজ্জিত) 255 টি অক্ষরের বেশি নয়
তবে বিভিন্ন হিউরিস্টিকস থেকেও:
লোয়ার অর্ডার ইউ-লেবেল প্রায়ই আভিধানিক চিহ্নগুলি সিন্টেক্সের এবং শব্দার্থগতভাবে সংজ্ঞাবাচক বিশেষ্য এবং সংখ্যা (হাইফেন ছাড়া বিরামচিহ্নহীন, হোয়াইটস্পেস ছিনতাই এবং প্রতি গুটান সহ কিছু প্রাকৃতিক ভাষা বৈধ বাক্যাংশ হয়, Nameprep ), খাটো বাক্যাংশ জন্য পছন্দ সঙ্গে; এবং
উচ্চ-অর্ডার লেবেলগুলি এসএলডি এবং টিএলডি অভিধান থেকে অঙ্কিত হয় এবং নিম্ন-অর্ডার লেবেলে কোন প্রাকৃতিক ভাষা ব্যবহৃত হয় তা অনুমানের জন্য প্রসঙ্গ সরবরাহ করে।
আমি আশঙ্কা করি যে ডেটাগুলির এই নির্দিষ্ট বৈশিষ্ট্যগুলি বিবেচনা না করে এই জাতীয় ছোট স্ট্রিংগুলির ভাল সংক্ষেপণ অর্জন করা কঠিন হবে এবং তদুপরি, বিদ্যমান লাইব্রেরিগুলি তাদের আরও সাধারণ ব্যবহারের ক্ষেত্রে সামঞ্জস্য করার জন্য অপ্রয়োজনীয় ওভারহেড তৈরি করবে।
ম্যাট মাহুনির অনলাইন বই ডেটা কমপ্রেসন ব্যাখ্যা করে পড়া , এটি স্পষ্ট যে উপরোক্ত (এবং / অথবা অন্যান্য) মডেলিং অনুমানগুলির সুবিধা গ্রহণের জন্য প্রচুর বিদ্যমান কৌশল ব্যবহার করা যেতে পারে যার ফলস্বরূপ কম নির্দিষ্ট সরঞ্জামগুলির তুলনায় অনেক উচ্চতর সংকোচনের ফলস্বরূপ।
প্রসঙ্গক্রমে, এই প্রশ্নটি এসও-র পূর্বের কোনওটির অফসুট ।
প্রাথমিক চিন্তা
এটি আমাকে আঘাত করে যে এই সমস্যাটি অফলাইন প্রশিক্ষণের জন্য সেরা প্রার্থী এবং আমি নিম্নলিখিত লাইনের সাথে একটি সংকোচিত ডেটা ফর্ম্যাটটি কল্পনা করেছি:
" পাবলিক প্রত্যয় " এর একটি হাফম্যান কোডিং, ডোমেন নিবন্ধকরণ বা ট্রাফিক ভলিউমের কোনও প্রকাশিত উত্স থেকে সম্ভাব্যতার অঙ্কিত;
একটি হাফম্যান কোডিং যার (প্রাকৃতিক ভাষা) মডেলটি বাকী ইউ-লেবেলগুলির জন্য ব্যবহৃত হয়, ডোমেন প্রত্যয়ের প্রসঙ্গে প্রদত্ত ডোমেন নিবন্ধের ট্রাফিক ভলিউম থেকে প্রকাশিত উত্স থেকে সম্ভাব্যতা আঁকা হয়;
নির্দিষ্ট প্রাকৃতিক ভাষার মডেল থেকে অভিধান-ভিত্তিক কিছু রূপান্তর প্রয়োগ করুন; এবং
ইউ-লেবেলে প্রতিটি চরিত্রের একটি গাণিতিক কোডিং, প্রাসঙ্গিকভাবে অভিযোজিত প্রাকৃতিক ভাষার মডেলগুলি অফলাইন প্রশিক্ষণ থেকে নেওয়া (এবং সম্ভবত অনলাইনেও, যদিও আমি সন্দেহ করি যে ডেটাটি কোনও অর্থবোধক অন্তর্দৃষ্টি দেওয়ার পক্ষে খুব কম হতে পারে?)।
.in-addr.arpa
; আইপি কখনও পরিবর্তন হয় যদি এছাড়াও বিরতি।