পাঠ্য সংক্ষেপণ এবং সংক্ষেপণ - "কখনই নয়।"


38

কোড গল্ফে সংক্ষেপণের সরঞ্জামগুলির ব্যবহার সম্পর্কে সাম্প্রতিক আলোচনার সাথে , আমি ভেবেছিলাম আপনার নিজের পাঠ্য সংকোচককারী এবং ডিকম্প্রেসারটি লেখা ভাল চ্যালেঞ্জ হবে।

চ্যালেঞ্জ:

দুটি প্রোগ্রাম লিখুন : একটি ASCII পাঠ্যকে বাইটের ক্রমতে সংকুচিত করতে এবং অন্যটি এটি সংক্ষেপিত করতে। প্রোগ্রামগুলি একই ভাষায় হওয়া উচিত নয়।

প্রথম প্রোগ্রামটিতে ASCII পাঠের একটি টুকরো পড়তে হবে (কোনও ফাইল থেকে বা স্ট্যান্ডার্ড ইনপুট থেকে, বা ভাষার পক্ষে যেকোন প্রক্রিয়া ব্যবহার করা উচিত) এবং এর সংকীর্ণ সংস্করণ আউটপুট করা উচিত। (সংকুচিত আউটপুটটিতে বা স্বেচ্ছাসেবী বাইট থাকতে পারে; এটি পড়ার দরকার নেই)) দ্বিতীয় প্রোগ্রামটির প্রথম আউটপুটটি পড়তে হবে এবং মূল ইনপুট পাঠ্যটি পুনরায় তৈরি করা উচিত।

স্কোরিং:

একটি সমাধানের স্কোর নিম্নলিখিত তিনটি সংখ্যার যোগফল হবে :

  1. সংকোচকারী দৈর্ঘ্য অক্ষর প্রোগ্রাম।
  2. আউটপুট দৈর্ঘ্য সংকোচকারী এর বাইটে পরীক্ষা ইনপুট নিচে দেওয়া।
  3. Decompressor দৈর্ঘ্য অক্ষর প্রোগ্রাম (যদি সংকোচকারী থেকে আলাদা)।

আপনার উত্তরে আপনার তিনটি সংখ্যা এবং তাদের যোগফল নোট করা উচিত। যেহেতু এটি কোড গল্ফ, তত কম স্কোর।

বিধি এবং বিধিনিষেধসমূহ:

  • আপনি কোনও প্রাক-বিদ্যমান সংক্ষেপণ বা ডিকম্প্রেশন সরঞ্জাম বা লাইব্রেরি ব্যবহার করতে পারবেন না , এমনকি যদি তারা আপনার নির্বাচিত ভাষার সাথে বান্ডিল হয়। যদি কোনও প্রদত্ত সরঞ্জাম বা ফাংশন অনুমোদিত কিনা তা নিয়ে সন্দেহ থাকলে দয়া করে জিজ্ঞাসা করুন।

  • আপনার সংক্ষিপ্তকারী প্রোগ্রামটি অবশ্যই ট্যাব (ASCII 9) এবং লাইন ফিডস (ASCII 10) সহ যে কোনও মুদ্রণযোগ্য ASCII পাঠ্য সমন্বিত ইনপুট পরিচালনা করতে সক্ষম হতে হবে । আপনি স্বেচ্ছাসেবী ইউনিকোড এবং / অথবা বাইনারি ইনপুট পরিচালনা করতে পারেন, কিন্তু প্রয়োজন হয় না।

  • আপনার ডিকম্প্রেসার প্রোগ্রামটি অবশ্যই ইনপুট হিসাবে সংকোচকারীকে দেওয়া ঠিক একই আউটপুট উত্পাদন করতে পারে । বিশেষত, ইনপুটটি না থাকলে ট্রেলিং লাইন ফিড আউটপুট না দেওয়ার বিষয়ে খেয়াল রাখুন। (নীচের পরীক্ষার ইনপুটটিতে একটি পিছনের লাইনের ফিড রয়েছে, সুতরাং আপনার এটির জন্য আলাদাভাবে পরীক্ষা করা দরকার Golf গল্ফস্ক্রিপ্টের জন্য পরামর্শ '':n:)

  • আপনার সংক্ষিপ্তকারক এবং ডিকম্প্রেসার একই প্রোগ্রাম হতে পারে (যথাযথ মোড নির্বাচিত যেমন কমান্ড লাইন সুইচ সহ)। সেক্ষেত্রে, তার দৈর্ঘ্য শুধুমাত্র একবার গণনা করা হয়

  • প্রোগ্রামগুলি খুব ধীরে ধীরে বা স্মৃতির ক্ষুধার্ত হওয়া উচিত নয় । যদি হয় পরীক্ষার ইনপুটটি সংকুচিত করা বা সংক্রামিত করা আমার অ-নতুন-নতুন ডেস্কটপে (২.২ গিগাহার্টজ এএমডি অ্যাথলোন X৪ এক্স 2) একগুণের বেশি সময় নেয় বা র‍্যামের গিগাবাইটের চেয়ে বেশি গ্রহণ করে, আমি সমাধানটিকে অবৈধ করতে চলেছি। এই সীমাগুলি ইচ্ছাকৃতভাবে শিথিল - দয়া করে এগুলি না ঠেকানোর চেষ্টা করুন। (নীচের সংশোধনী দেখুন: আপনার এই সীমাগুলির মধ্যে কমপক্ষে 100 কেবি ইনপুট পরিচালনা করতে সক্ষম হওয়া প্রয়োজন))

  • যদিও কেবল টেস্ট ইনপুটটি স্কোরিংয়ের জন্য গুরুত্বপূর্ণ, আপনার কমপক্ষে স্বেচ্ছাচারিত ইনপুট পাঠ্যকে সংকুচিত করার চেষ্টা করা উচিত । একটি সমাধান যা কেবলমাত্র পরীক্ষার ইনপুটগুলির জন্য একটি শালীন সংকোচনের অনুপাত অর্জন করে এবং অন্য কোনও কিছুর জন্য নয়, প্রযুক্তিগতভাবে বৈধ তবে তা আমার কাছ থেকে উত্সাহ পেতে চলেছে না।

  • আপনার সংকোচকারী এবং ডিকম্প্রেসার প্রোগ্রামগুলি স্ব-অন্তর্ভুক্ত হওয়া উচিত । বিশেষত, যদি তারা এমন কোনও ফাইল বা নেটওয়ার্ক সংস্থান পড়তে সক্ষম হন যা আপনার নির্বাচিত ভাষার স্ট্যান্ডার্ড রানটাইম পরিবেশের অংশ নয়, তবে ফাইল বা সংস্থানটির দৈর্ঘ্য প্রোগ্রাম (গুলি) এর দৈর্ঘ্যের অংশ হিসাবে গণনা করা উচিত। (এটি হ'ল "সংক্ষেপকগুলিকে" অস্বীকার করা যা ওয়েবে কোনও ফাইলের সাথে ইনপুটকে তুলনা করে এবং মিলে গেলে শূন্য বাইট আউটপুট দেয় Sorry দুঃখিত, তবে এটি আর নতুন কৌশল নয়))

সংশোধনী এবং ব্যাখ্যা:

  • আপনার সংকোচকারীকে যুক্তিসঙ্গত সময় এবং মেমরির ( কমপক্ষে এক মিনিট এবং এক গিগাবাইট মেমরির) মধ্যে কমপক্ষে 100 কিলোবাইট সাধারণ ইংরেজি পাঠ্যযুক্ত ফাইলগুলি পরিচালনা করতে সক্ষম হতে হবে । আপনার ডিকম্প্রেসারকে অবশ্যই একই সীমাতে ফলাফল আউটপুটটি সংক্ষেপিত করতে সক্ষম করতে হবে। অবশ্যই, ফাইলগুলির চেয়ে বেশি সময় ধরে ফাইল পরিচালনা করতে সক্ষম হওয়া পুরোপুরি সূক্ষ্ম এবং প্রশংসনীয়। দীর্ঘ ইনপুট ফাইলগুলিকে খণ্ডগুলিতে বিভক্ত করা এবং তাদের পৃথকভাবে সংকোচিত করা বা দীর্ঘ ইনপুটগুলির গতির জন্য সংকোচনের দক্ষতা বাণিজ্য করার জন্য অন্যান্য উপায় ব্যবহার করা ঠিক OK

  • তোমার সংকোচকারী পারে তার ইনপুট প্রয়োজন আপনার পছন্দের প্ল্যাটফর্ম এর ব্যবহার দেওয়া হবে দেশীয় সম্পর্কে newline উপস্থাপনা যতদিন আপনার decompressor তার আউটপুটে একই সম্পর্কে newline উপস্থাপনা ব্যবহার করে, (এলএফ, সি আর + + এলএফ, সি আর, ইত্যাদি)। অবশ্যই, কমপ্রেসারের পক্ষে যে কোনও ধরণের নিউলাইনগুলি গ্রহণ করা (এমনকি প্ল্যাটফর্ম নির্বিশেষে কেবল ইউনিক্স নিউলাইনগুলি) গ্রহণ করাও ঠিক আছে, যতক্ষণ না আপনার ডিকম্প্রেসারের পরে মূল ইনপুটটির মতো একই ধরণের নিউলাইনগুলি আউটপুট করে।

পরীক্ষার ইনপুট:

উত্তর কম্প্রেশন দক্ষতা বিচার করতে, নিম্নলিখিত পরীক্ষা ইনপুট ( কাক এডগার অ্যালান Poe দ্বারা প্রজেক্ট গুটেনবার্গ সৌজন্যে ) ব্যবহার হবে:

Once upon a midnight dreary, while I pondered, weak and weary,
Over many a quaint and curious volume of forgotten lore,
While I nodded, nearly napping, suddenly there came a tapping,
As of some one gently rapping, rapping at my chamber door.
"'T is some visiter," I muttered, "tapping at my chamber door--
                                          Only this, and nothing more."

Ah, distinctly I remember it was in the bleak December,
And each separate dying ember wrought its ghost upon the floor.
Eagerly I wished the morrow:--vainly I had sought to borrow
From my books surcease of sorrow--sorrow for the lost Lenore--
For the rare and radiant maiden whom the angels name Lenore--
                                          Nameless here for evermore.

And the silken sad uncertain rustling of each purple curtain
Thrilled me--filled me with fantastic terrors never felt before;
So that now, to still the beating of my heart, I stood repeating
"'T is some visiter entreating entrance at my chamber door
Some late visiter entreating entrance at my chamber door;--
                                          This it is, and nothing more."

Presently my soul grew stronger; hesitating then no longer,
"Sir," said I, "or Madam, truly your forgiveness I implore;
But the fact is I was napping, and so gently you came rapping,
And so faintly you came tapping, tapping at my chamber door,
That I scarce was sure I heard you"--here I opened wide the door;--
                                          Darkness there, and nothing more.

Deep into that darkness peering, long I stood there wondering, fearing,
Doubting, dreaming dreams no mortal ever dared to dream before;
But the silence was unbroken, and the darkness gave no token,
And the only word there spoken was the whispered word, "Lenore!"
This I whispered, and an echo murmured back the word, "Lenore!"
                                          Merely this and nothing more.

Back into the chamber turning, all my soul within me burning,
Soon again I heard a tapping, somewhat louder than before.
"Surely," said I, "surely that is something at my window lattice;
Let me see, then, what thereat is, and this mystery explore--
Let my heart be still a moment and this mystery explore;--
                                          'T is the wind and nothing more!"

Open here I flung the shutter, when, with many a flirt and flutter,
In there stepped a stately Raven of the saintly days of yore.
Not the least obeisance made he; not a minute stopped or stayed he;
But, with mien of lord or lady, perched above my chamber door--
Perched upon a bust of Pallas just above my chamber door--
                                          Perched, and sat, and nothing more.

Then this ebony bird beguiling my sad fancy into smiling,
By the grave and stern decorum of the countenance it wore,
"Though thy crest be shorn and shaven, thou," I said, "art sure no craven,
Ghastly grim and ancient Raven wandering from the Nightly shore,--
Tell me what thy lordly name is on the Night's Plutonian shore!"
                                          Quoth the Raven, "Nevermore."

Much I marvelled this ungainly fowl to hear discourse so plainly,
Though its answer little meaning--little relevancy bore;
For we cannot help agreeing that no living human being
Ever yet was blessed with seeing bird above his chamber door--
Bird or beast upon the sculptured bust above his chamber door,
                                          With such name as "Nevermore."

But the Raven, sitting lonely on the placid bust, spoke only
That one word, as if his soul in that one word he did outpour.
Nothing further then he uttered--not a feather then he fluttered--
Till I scarcely more than muttered, "Other friends have flown before--
On the morrow _he_ will leave me, as my hopes have flown before."
                                          Then the bird said, "Nevermore."

Startled at the stillness broken by reply so aptly spoken,
"Doubtless," said I, "what it utters is its only stock and store,
Caught from some unhappy master whom unmerciful Disaster
Followed fast and followed faster till his songs one burden bore--
Till the dirges of his Hope that melancholy burden bore
                                          Of 'Never--nevermore.'"

But the Raven still beguiling all my sad soul into smiling,
Straight I wheeled a cushioned seat in front of bird and bust and door;
Then, upon the velvet sinking, I betook myself to linking
Fancy unto fancy, thinking what this ominous bird of yore--
What this grim, ungainly, ghastly, gaunt and ominous bird of yore
                                          Meant in croaking "Nevermore."

This I sat engaged in guessing, but no syllable expressing
To the fowl whose fiery eyes now burned into my bosom's core;
This and more I sat divining, with my head at ease reclining
On the cushion's velvet lining that the lamplight gloated o'er,
But whose velvet violet lining with the lamplight gloating o'er
                                          _She_ shall press, ah, nevermore!

Then, methought, the air grew denser, perfumed from an unseen censer
Swung by seraphim whose foot-falls tinkled on the tufted floor.
"Wretch," I cried, "thy God hath lent thee--by these angels he hath sent thee
Respite--respite and nepenthe from thy memories of Lenore!
Quaff, oh quaff this kind nepenthe, and forget this lost Lenore!"
                                          Quoth the Raven, "Nevermore."

"Prophet!" said I, "thing of evil!--prophet still, if bird or devil!--
Whether Tempter sent, or whether tempest tossed thee here ashore,
Desolate yet all undaunted, on this desert land enchanted--
On this home by Horror haunted--tell me truly, I implore--
Is there--_is_ there balm in Gilead?--tell me--tell me, I implore!"
                                          Quoth the Raven, "Nevermore."

"Prophet!" said I, "thing of evil--prophet still, if bird or devil!
By that Heaven that bends above, us--by that God we both adore--
Tell this soul with sorrow laden if, within the distant Aidenn,
It shall clasp a sainted maiden whom the angels name Lenore--
Clasp a rare and radiant maiden whom the angels name Lenore."
                                          Quoth the Raven, "Nevermore."

"Be that word our sign of parting, bird or fiend!" I shrieked, upstarting--
"Get thee back into the tempest and the Night's Plutonian shore!
Leave no black plume as a token of that lie thy soul hath spoken!
Leave my loneliness unbroken!--quit the bust above my door!
Take thy beak from out my heart, and take thy form from off my door!"
                                          Quoth the Raven, "Nevermore."

And the Raven, never flitting, still is sitting, still is sitting
On the pallid bust of Pallas just above my chamber door;
And his eyes have all the seeming of a demon's that is dreaming,
And the lamplight o'er him streaming throws his shadow on the floor;
And my soul from out that shadow that lies floating on the floor
                                          Shall be lifted--nevermore!

সঠিক পরীক্ষার ইনপুট (ইউনিক্স-স্টাইলের এলএফ নিউলাইনগুলির সাথে এনকোড করা) 7043 বাইট দীর্ঘ হওয়া উচিত, এবং হেক্সাডেসিমাল এমডি 5 হ্যাশ থাকতে হবে 286206abbb7eca7b1ab69ea4b81da227। ( md5sum -tআপনি ডস / উইন্ডোজে সিআর + এলএফ নিউলাইনগুলি ব্যবহার করলেও একই হ্যাশ মান তৈরি করা উচিত)) আপনার ডিকম্প্রেসারের আউটপুটে একই দৈর্ঘ্য এবং হ্যাশ থাকা উচিত।

গীত। মনে রাখবেন যে এই চ্যালেঞ্জটি আপনি যতটা কঠোর করেছেন ততই কঠোর। সত্যই, 7043 এর নীচে যে কোনও কিছুই একটি ভাল স্কোর হিসাবে গণ্য। (স্কেলের অপর প্রান্তে, কেউ যদি ২৫০০ এর নিচে স্কোর অর্জন করে তবে আমি অত্যন্ত মুগ্ধ হব। )


সুতরাং আমি এটি গ্রহণ করি আপনি কোনও ক্ষয়িষ্ণু সংক্ষেপণ দেখতে চান না ?
মিঃ ল্লামা

2
এমডি 5 হ্যাশ মেলতে পারে না এমন লোকদের জন্য প্রিমিটিভ নোট: পাঠ্য ফাইলে লাইন এন্ডারগুলির জন্য ইউনিক্স নিউলাইন রয়েছে lines এছাড়াও, সম্পূর্ণ 7043 বাইট দৈর্ঘ্যের জন্য ফাইলটিতে আপনার চূড়ান্ত নিউলাইন রয়েছে তাও নিশ্চিত হন।
মিঃ লালমা

@ গিগাওয়াট: হ্যাঁ, নতুন বিষয়গুলি সম্পর্কে আমার আরও স্পষ্ট হওয়া উচিত ছিল। যেহেতু আমি কেবল ইনপুটটিকে কেবল এএসসিআইআই পাঠ্যে সীমাবদ্ধ রেখেছি, আমার ধারণা, আমি যতক্ষণ না তারা ধারাবাহিকভাবে এটি ব্যবহার করি ততক্ষণ পর্যন্ত লোকেরা তাদের জন্য যে কোনও নিউলাইন কনভেনশনকে সবচেয়ে প্রাকৃতিক মনে করে তা ব্যবহার করতে দিতে পারতাম। আমি এই চ্যালেঞ্জের বাক্যাংশের একটি দুর্দান্ত উপায়টি ভাবার চেষ্টা করব। এবং না, সংক্ষেপকটি ক্ষয়ক্ষতিযুক্ত হওয়া উচিত নয়।
ইলমারি করোনেন

ফাইলের দৈর্ঘ্য সম্পর্কে কীভাবে, কেবল উদাহরণের আকার অনুসারে ফাইলের জন্য (গ্রহণযোগ্য সময়ে) চালানো দরকার, বা আরও বড় ফাইলগুলির জন্য (> কিছু এমবি)?
বন্ধ হয়ে গেছে

1
যদি আউটপুটটি সংক্ষেপক হিসাবে একই ভাষায় কোনও প্রোগ্রাম হিসাবে দেওয়া হয়, তবে আমরা ডিকম্প্রেসারের দৈর্ঘ্যকে শূন্য হিসাবে গণনা করতে পারি?
পিটার টেলর

উত্তর:


19

পার্ল, 3502 = 133 + 3269 + 100

এনকোডার:

#!/usr/bin/perl -0
$_=<>;for$e(map{~chr}0..255){++$p{$_}for/..|.\G./gs;
%p=$s=(sort{$p{$a}<=>$p{$b}}keys%p)[-1];$d.=/\Q$e/?$/:s/\Q$s/$e/g&&$s}print$_,$d

এবং ডিকোডার:

#!/usr/bin/perl -0777
sub d{($p=$d{$_})?d(@$p):print for@_}
sub r{%d=map{chr,ord($c=pop)&&[pop,$c]}0..255;&d}r<>=~/./gs

পিউরিস্টদের জন্য যারা কমান্ড-লাইন স্যুইচগুলি ব্যবহার করা এড়াতে পছন্দ করেন: আপনি শেবাং লাইনটি সরাতে পারেন এবং একই প্রভাবটি পেতে $/=chr;এনকোডার এবং $/=$,;ডিকোডারে যুক্ত করতে পারেন। (এটি স্কোরটি 3510 এ পৌঁছে দেবে))

এই কোডটি খুব আদিম সংক্ষেপণ স্কিম ব্যবহার করে:

  • উত্স পাঠ্যে সর্বাধিক ঘন ঘন প্রদর্শিত দ্বি-চর বিগ্রামটি সন্ধান করুন।
  • বিগ্রামটি বর্তমানে-অব্যবহৃত বাইট মান দিয়ে প্রতিস্থাপন করুন।
  • পুনরাবৃত্তি করুন যতক্ষণ না পুনরায় পুনরাবৃত্তি হবে বিগ্রামগুলি (বা কোনও অব্যবহৃত বাইট মান নেই)।

সেখানকার কেউ এটিকে "পুনরায় জুটি" সংক্ষেপণের সরল সংস্করণ (পুনরাবৃত্ত জোড়গুলির জন্য সংক্ষিপ্ত) হিসাবে স্বীকৃতি দিতে পারে।

এটি খুব ভাল সাধারণ সংক্ষেপণ স্কিম নয়। এটি কেবলমাত্র ASCII পাঠ্যের মতোই ভাল কাজ করে, যেখানে প্রচুর অব্যবহৃত বাইট মান রয়েছে এবং তারপরেও এটি সাধারণত 45-50% অনুপাতের চেয়ে বেশি পায় না। তবে এটি ন্যূনতম কোড সহ কার্যকরযোগ্য হওয়ার সুবিধা রয়েছে। বিশেষত ডিকম্প্রেসার বেশ কমপ্যাক্ট হতে পারে । (আমার ডিকোডার স্ক্রিপ্টের বেশিরভাগ অক্ষরই বড়গ্রাম অভিধানটি পুনরুদ্ধার করার জন্য))

এখানে কোডের একটি অব্যক্ত সংস্করণ রয়েছে:

#!/usr/bin/perl
use strict;
use warnings;
# Run with -d to decode.
if ($ARGV[0] eq "-d") {
    shift;
    $_ = join "", <>;
    my @in = split //;
    my %dict;
    foreach my $n (0 .. 255) {
        my $c = shift @in;
        $dict{chr $n} = [ $c, shift @in ] if ord $c;
    }
    sub decode {
        foreach (@_) {
            if ($dict{$_}) {
                decode(@{$dict{$_}});
            } else {
                print $_;
            }
        }
    }
    decode @in;
} else {
    $_ = join "", <>;
    my @dict;
    for (my $n = 255 ; $n >= 0 ; --$n) {
        my $symbol = chr $n;
        if (!/\Q$symbol/) {
            my %pop;
            ++$pop{$_} for /../gs, /(?!^)../gs;
            my $str = (sort { $pop{$b} <=> $pop{$a} } keys %pop)[0];
            s/\Q$str/$symbol/g;
            $dict[$n] = $str;
        }
    }
    for (0..255) { $dict[$_] ||= "\0" }
    print @dict, $_;
}

গল্ফড এনকোডারটিতে একটি অভিব্যক্তিটির ব্যাখ্যা প্রয়োজন, আমি মনে করি এবং এটি হ'ল (sort{$p{$a}<=>$p{$b}}keys%p)[-1]সর্বোচ্চ মান সহ কীটি পাওয়া যায়। দেখে মনে হচ্ছে এটি যেমন লেখা উচিত (sort{$p{$b}<=>$p{$a}}keys%p)[0], যা একই কাজ করে এবং একটি চরিত্রের চেয়ে ছোট হয়। যেভাবে আমি এটি সেভাবে লিখিনি তা হ'ল সর্বোচ্চ মান সহ একাধিক কী থাকা অবস্থায় এটি নির্বাচিত কীটিকে পরিবর্তিত করে। নিখুঁত সুযোগ দ্বারা, এর ফলে পরীক্ষার ইনপুটটির জন্য ফলাফলটি আউটপুট 10 বাইট দীর্ঘতর হয়। আমি অকেজো অতিরিক্ত চরিত্রটি গ্রহণ করতে ঘৃণা করি, তবে আমার স্কোর থেকে 9 পয়েন্ট ত্যাগ করার পক্ষে যথেষ্ট নয়।

আপনার মুখে, গল্ফস্ক্রিপ্ট! (হাহা, গল্ফস্ক্রিপ্ট পুরোপুরি এখানে চলে আসবে এবং যদি আমার কথা শুনতে পারে তবে আমার গাধাটিকে লাথি মারবে।)


3
বাহ, এটা বেশ চিত্তাকর্ষক! গীত। এই কমান্ড লাইন সুইচ কাউন্টিং সংক্রান্ত সাধারণভাবে গ্রহণযোগ্য উত্তর বলে মনে হয়।
ইলমারি করোনেন

ডাং, আমি এটি আগে পড়েছিলাম কিন্তু আমি সেই বিটটি মাঝখানে লক্ষ্য করতে ব্যর্থ হয়েছি। এটির মতামতটি মনে হচ্ছে এটি: আপনি প্রাথমিক হাইফেন চরিত্রটি গণনা করেন না (কারণ আপনি কেবলমাত্র এটি -eঅপশন বান্ডেলে যোগ করতে পারেন ), যদি না আপনার কোডটিতে একটি একক-উদ্ধৃতি অক্ষর থাকে, তবে আপনি হাইফেনটি গণনা করেন না (কারণ কমান্ড-লাইনের একক-উদ্ধৃতি থেকে রক্ষা পাওয়ার জন্য এড়াতে এখন আপনাকে এটিকে শেবাং লাইনযুক্ত একটি ফাইল থেকে চালাতে হবে)।
ব্রেডবক্স

1
টেকনিককে বাইট জুটি এনকোডিংও বলা হয় । দুর্দান্ত বাস্তবায়ন
রোব্লগিক

@roblogic রেফারেন্সের জন্য ধন্যবাদ; এটা জানা ভাল.
ব্রেডবক্স

20

পাইথন, 3514 = 294 + 2894 + 326

মূলত একটি bzip2 বাস্তবায়ন। এটি একটি বুরোস-হুইলারের রূপান্তর করে , একটি মুভ-টু-ফ্রন্ট ট্রান্সফর্ম , একটি সরল হাফম্যান কিছুটা প্রবাহে এনকোডিং করে, সেই বিট স্ট্রিমটিকে পূর্ণসংখ্যায় রূপান্তর করে এবং বাইটগুলি লিখে দেয়।

এনকোডার:

import sys
S=range(128)
H={0:'0'}
for b in range(7):
 for i in range(1<<b,2<<b):H[i]='1'*b+'10'+bin(i)[3:]
I=sys.stdin.read()+'\0'
N='1'
for x in sorted(I[i:]+I[:i]for i in range(len(I))):i=S.index(ord(x[-1]));N+=H[i];S=[S[i]]+S[:i]+S[i+1:]
N=int(N,2)
while N:sys.stdout.write(chr(N%256));N>>=8

Sহ'ল মুভ-টু-ফ্রন্ট কিউ, Hহফম্যান এনকোডার এবং Nবিটস্ট্রিম।

এনকোডিং পরীক্ষার ইনপুটটিকে তার মূল আকারের প্রায় 41% এ হ্রাস করে।

সঙ্কেতমোচক:

import sys
N=0
b=1
for c in sys.stdin.read():N+=ord(c)*b;b<<=8
N=bin(N)[3:]
S=range(128)
L=''
while N:
 n=N.find('0')
 if n:i=2**n/2+int('0'+N[n+1:2*n],2);N=N[2*n:]
 else:i=0;N=N[1:]
 L+=chr(S[i]);S=[S[i]]+S[:i]+S[i+1:]
S=''
i=L.find('\0')
for j in L:S=L[i]+S;i=L[:i].count(L[i])+sum(c<L[i]for c in L)
sys.stdout.write(S[:-1])

1
আমি বিডাব্লুটিটি বাস্তবায়ন করতে এবং সংকোচনের সত্য রূপে প্রলুব্ধ হয়েছিলাম তবে খুব অলস হয়েছি। : পি
মিঃ ল্লামা

8

8086 এসেমব্লার / এমএস_ডস

সংকোচকারী: 155

jNiAxBCO2I7AM/+9/QW5AAGK2TPAq4rDqv7D4va6AQkz9lK0BrL/zSFadDK7
/f+DwwM733QNOTd19ThHAnXwid7r34k1iEUC6BMAtACKRQJr8AODxwPryrQC
zSHrxFIz0ovGuwMA9/Nai9iKztPL0ePQ0nMWgPr+cgtSsv60Bs0hWoDq/rQG
zSGyAf7JdeA5/XUHA+2DxQP+xsM=

ডেটা: 3506

ডিকম্প্রেসার: 203

ieWD7CCM2IDEEI7YjsAz/7kAAYrZM8CrisOq/sPi9rYJxkb0Abn9BehtAIl2
/uhTAOhkAIl28Dv3cy3oRgCLRv6JBYt28Il2/oM8AHQEizTr94pEAohFAoPH
AznPddL+xgPJg8ED68mLdv6JNYM8AHQEizTr94pEAohFAol+/on+aFgBgzwA
dAdWizTo9f9etAaKVALNIcMz9ojz/k70dRu0BrL/zSF0IDz+cgi0BrL/zSEE
/sZG9AiIRvLQZvLR1v7Ldddr9gPDzSA=

মোট: 3864

এই বেস 64 ডিকোডারটি ব্যবহার করুন এবং বাইনারি ফাইলগুলিকে 'কমপ্রেস.কম' এবং 'ডিকম্প্রেস.কম' হিসাবে সংরক্ষণ করুন এবং তারপরে:

compress < source > compressed_file
decompress < compressed_file > copy_of_source

একটি ডস শেল (WinXP দিয়ে পরীক্ষা করা) চেক করার কোনও ত্রুটি নেই তাই বড় ফাইলগুলি সংকোচনের ফলে ভুল ফলাফল তৈরি হবে। কয়েকটি ছোট সংযোজন এবং এটি যে কোনও আকারের ফাইলের সাথে মানিয়ে নিতে পারে। এছাড়াও, এটি বাইনারিতে সংক্রামিত হতে পারে না কারণ এটি 0xff মান আউটপুট করতে পারে না (সংক্ষেপিত ডেটা 0xfe 0xff 0xfe 0xfe 0xfe 0xfe হিসাবে পালিয়ে গেছে) 0xff মানকে ছাড়িয়ে যায়)। কমান্ড লাইন ফাইলের নাম ব্যবহার করে বাইনারি আউটপুট সমস্যা কাটিয়ে উঠতে পারে তবে এটি আরও কার্যকর হবে।


প্রোগ্রামটি কোন ধরণের সংক্ষেপণ অ্যালগরিদম ব্যবহার করে?
স্যার_লগসালোট

@ স্যার_লাগসালোট: এটিতে ভেরিয়েবল বিট প্রস্থ LZW (জিআইএফ ফাইলগুলিতে ব্যবহৃত একটি) ব্যবহার করা হয়।
স্কিজে

6

বাশ কবিতা (566 + 117) + 4687 = 5370

মজা করার জন্য আমি একটি কবিতা হিসাবে একটি সংক্ষেপক ছদ্মবেশ:

for I in my chamber nodded, nearly napping, suddenly heard rapping, tapping upon my door    \
"'T is some visiter" \ I\  muttered, o\'er lamplight "nothing more" \
just this sainted maiden whom the angels name Lenore    \
And "Prophet!" said me "thing of evil" -- "prophet still, if bird or devil!"    \
Leave no token of that lie thy soul hath spoken and sitting take thy ore from This floor    \
But you velvet bird from some shore above   \
here this with sad raven before his word still spoke nothing    \
"                                          " Quoth the Raven Never more;                    do C=$[C+1];E=`perl -e "print chr($C+128)"`;echo "s/$I/$E/g">>c;echo "s/$E/$I/g">>d;done;LANG=C sed -f $1;rm c d

এটি একটি ইউনিফাইড সংকোচকারী: "c" বিকল্পটি এটি সংকোচিত করবে এবং "d" দিয়ে এটি সঙ্কুচিত হবে run এর দুটি অংশ রয়েছে: একটি 566 বাইট "পাঠক হজম" কবিতার সংস্করণ এবং (2) একটি 117 বাইট প্রত্যয় যেখানে সমস্ত "আসল" বাশ করা হয়।

কিছু যত্ন সহ (যেমন "আমি ইন ইন" দিয়ে কবিতাটি শুরু করি) বাশ কবিতাটির "ক্ষতিকারক" সংস্করণটিকে অ্যারে হিসাবে ব্যাখ্যা করবে। এটি অ্যারের প্রতিটি উপাদানকে একটি অ-এসসিআইআই অক্ষর দ্বারা প্রতিস্থাপিত করে (আমরা ধরে নিই ইনপুটটি ASCII তাই কোনও সংঘর্ষ নেই)। এই সমাধানটির একটি গৌণ সুবিধা: যেহেতু আমরা এই তথ্যটি ব্যবহার করি যে আমরা ইনপুটটি ASCII ধরে নিতে পারি, ইনপুট এবং / বা ক্ষতিকারক অংশটি নির্বিশেষে এই সংক্ষেপণের আউটপুট কখনও তার ইনপুটটির চেয়ে বেশি দীর্ঘ হতে পারে না।

যে নিয়মটি লঙ্ঘনের সবচেয়ে নিকটে আসে এটি হ'ল অন্যান্য গ্রন্থগুলিতে শালীন সংকোচন অনুপাত সরবরাহ করার নিয়ম। যাইহোক, এটি জিপিএল ভি 2 টেক্সটটি 1386 বাইট শেভ করে, এটি নিজের আকারের চেয়েও ভাল, যা ওপিগুলির সংজ্ঞাটির সাথে মিলছে বলে মনে হয় decent। সুতরাং এটি decentসাধারণ পাঠ্যগুলিতে তথাকথিত সংক্ষেপণ সরবরাহ করে বলে মনে হচ্ছে । এর কারণ এটি যে কোনও ইংরেজী পাঠ্যে "" "" আছে "ইত্যাদি থাকবে স্পষ্টতই যদি আপনি" ক্ষতিগ্রস্থ "অংশটি মূলত অক্ষরে অক্ষরভাবে সংকোচিত করতে চান এমন পাঠ্যের সাথে প্রতিস্থাপন করেন তবে এটি আরও ভাল কাজ করবে।

ক্ষতিকারক এবং অ-ক্ষতিগ্রস্থ অংশগুলিতে ছবি এবং অডিও বিভক্ত করা একটি জানা কৌশল। এটি পাঠ্যের পক্ষেও কার্যকরভাবে কাজ করে না: 465 বাইটগুলি এতটা দুর্দান্ত নয় এমনকি আমরা লসী সংস্করণ থেকে ৫66 বাইট বাদ দিই এবং আমরা অডিওর জন্য একইভাবে পাঠ্যের ক্ষতিকারক সংস্করণটি স্বয়ংক্রিয়ভাবে তৈরি করতে পারি না। প্লাস সাইডে এর অর্থ প্রতিবার আপনি যখন এই সংক্ষেপকটির সাথে কিছু সংকুচিত করেন তখন হাতে হাতে ক্ষতিকারক সংস্করণ তৈরি করার মজা আপনি নিতে পারেন। সুতরাং এটি "মজাদার জন্য" সমাধান হিসাবে যুক্তিযুক্ত বলে মনে হচ্ছে।


5

সি ++, 4134 বাইট (কোড = 1357, সংক্ষেপিত = 2777)

এটি একটি বুরোস-হুইলারের রূপান্তরিত করে + কীথ র্যান্ডালের মতো একটি মুভ-টু-ফ্রন্ট, তবে তারপরে একটি অভিযোজিত রেঞ্জ কোডার ব্যবহার করে ফলাফল বাইট সিকোয়েন্সটি সংকুচিত করে । দুর্ভাগ্যক্রমে, সীমার কোডার থেকে উন্নত সংক্ষেপণ সি ++ এর ভার্বোসিকে অফসেট করার জন্য যথেষ্ট নয়। আমি এই কোডটি আরও কিছুটা গল্ফ করতে পারলাম, অর্থাত্ একটি ভিন্ন ইনপুট / আউটপুট পদ্ধতি ব্যবহার করতে পারি তবে বর্তমান অ্যালগরিদমের সাহায্যে অন্যান্য সাবমিশনগুলিকে পরাস্ত করা যথেষ্ট নয়। কোডটি উইন্ডোজ নির্দিষ্ট, এবং কেবলমাত্র আসকি পাঠ্য সমর্থিত।
সংকোচনের জন্য: "সি টেক্সট_ফাইল সংক্ষেপিত_ফিল"
ডিকম্প্রেস করার জন্য: "ডি কমপ্রেস_ফায়াল আনপ্রেসড
ফাইল " খুব কম কোনও লাইন ত্রুটি বা ফাইল ত্রুটি প্রোগ্রামটি ক্র্যাশ করবে এবং কবিতাটি এনকোড করতে বা ডিকোড করতে এক মিনিটের আরও ভাল অংশ লাগবে।

#include <windows.h>
#include <algorithm>
typedef DWORD I;typedef BYTE u;
#define W while
#define A(x)for(a=0;a<x;a++)
#define P(x)*o++=x;
I q,T=1<<31,B=T>>8,a,l,f[257],b,G=127,p=G,N=255;I Y(u*i,u*j){return
memcmp(i,j,l)<0;}I E(u*i,u*o){b=0;I L=0,h=0,R=T;u*c=o,*e=i+l;W(i<e){I
r=R/p,s=0;A(*i)s+=f[a];s*=r;L+=s;R=*i<N?r*f[*i++]++:R-s;p++;W(R<=B){if((L>>23)<N){for(;h;h--)P(N)P(L>>23)}else{if(L&T){o[-1]++;for(;h;h--)P(0)P(L>>23)}else
h++;}R<<=8;L<<=8;L&=T-1;}}P(L>>23)P(L>>15)P(L>>7)return
o-c;}void D(u*i,u*o){I R=128,L=*i>>1;u*e=o+l;W(o<e){W(R<=B){L<<=8;L|=((*i<<7)|(i++[1]>>1))&N;R<<=8;}I
h=R/p,m=L/h,x=0,v=0;W(v<=m)v+=f[x++];P(--x);L-=h*(v-f[x]);R=h*f[x]++;p++;}}void
main(I Z,char**v){u d[1<<16];I c=*v[1]<68,s;HANDLE F=CreateFileA(v[2],T,0,0,3,0,0),o=CreateFileA(v[3],T/2,0,0,2,0,0);ReadFile(F,d,GetFileSize(F,0),&l,0);l=c?l:*(I*)d;A(G)f[a]=1;u M[256];A(G)M[a]=a+1;u*g=new u[l*3],*h=g+l;if(c){memcpy(d+l,d,l);u**R=new
u*[l];A(l)R[a]=d+a;std::sort(R,R+l,Y);A(l){b=R[a][l-1];I
i=strchr((char*)M,b)-(char*)M;memmove(M+1,M,i);*M=g[a]=b;h[a]=i;}s=E(h,d+l+8);}else{D(d+8,g);A(l){I
k=g[a];g[a]=M[k];memmove(M+1,M,k);*M=g[a];}}u**j=new u*[l];A(l)j[a]=new
u[l*2],memset(j[a],0,l*2),j[a]+=l;A(l){for(b=0;b<l;)*--j[b]=g[b++];std::sort(j,j+l,Y);}if(c){A(l){if(!memcmp(j[a],d,l)){I*t=(I*)(d+l);*t=l;t[1]=a;g=d+l,l=s+8;}}}else
g=j[*(I*)(d+4)];WriteFile(o,g,l,&q,0);}

5

জাভাস্ক্রিপ্ট, 393 (কোড) + 3521 (পরীক্ষা) = 3914 (মোট)

এই প্রোগ্রামটি পুনরুক্তভাবে ইনপুটটির 2- থেকে 4- অক্ষরের অংশগুলির জন্য অব্যবহৃত বাইট মানকে প্রতিস্থাপন করে। প্রতিটি প্রতিস্থাপন মূল অংশের ফ্রিকোয়েন্সি এবং দৈর্ঘ্যের উপর ভিত্তি করে স্কোর করা হয় এবং প্রতিবারের মতো সেরা প্রতিস্থাপনটি বেছে নেওয়া হয়। অপেক্ষাকৃত কম সংখ্যক চরিত্রে কীভাবে এটি করা যায় তা যদি আমি বুঝতে পারি তবে আমি একটি চূড়ান্ত হাফম্যান কোডিং স্টেজ যুক্ত করব। ডিকম্প্রেশন মূলত অনুসন্ধান এবং প্রতিস্থাপনের ক্রিয়াকলাপ series

ব্যবহার

সি () সংকোচন সরবরাহ করে; ইউ () ডিকম্প্রেশন সরবরাহ করে। জাভাস্ক্রিপ্টের স্ট্রিংগুলি 16-বিট ইউনিকোড কোড ইউনিটের উপর ভিত্তি করে, প্রতিটি কোড ইউনিটের কেবলমাত্র কমপক্ষে 8 টি বিট সংক্ষেপিত ডেটা ফর্ম্যাটে ব্যবহৃত হয়; এটি ফায়ারফক্সের বিটিওএ () এবং বেস 64 (এনকোডিং) এর জন্য অ্যাটোব () ফাংশনের সাথে সামঞ্জস্যপূর্ণ। ( ব্যবহারের উদাহরণ )

এই প্রোগ্রামটি কেবল ফায়ারফক্সে কাজ করতে পারে কারণ .replace () এ কোনও মানক "g" বিকল্প নেই।

কোড

গল্ফ কোড:

S=String.fromCharCode;function C(c){h=[];for(f=0;129>f;++f){g='';i=0;for(e=2;5>e;++e){d={};for(a=0;a<=c.length-e;a+=e)b="K"+c.substr(a,e),d[b]=d[b]?d[b]+1:1;for(b in d)a=d[b],a=a*e-(1+e+a),a>i&&(g=b.slice(1),i=a)}if(!g)break;h[f]=g;c=c.replace(g,S(127+f),"g")}return h.join("\1")+"\1"+c}function U(a){c=a.split("\1");a=c.pop();for(b=c.length,d=127+b;b--;)a=a.replace(S(--d),c[b],"g");return a}

গল্ফ করার আগে:

function compress(str) {

    var hash, offset, match, iteration, expansions, bestMatch, bestScore, times, length, score;

    expansions = [];

    for (iteration = 0; iteration < 129; ++iteration) {

        bestMatch = null;
        bestScore = 0;

        for (length = 2; length < 5; ++length) {

            hash = {};

            for (offset = 0; offset <= str.length - length; offset += length) {
                match = 'K' + str.substr(offset, length);
                hash[match] = hash[match] ? hash[match] + 1 : 1;
            }

            for (match in hash) {
                times = hash[match];
                score = times * length - (1 + length + times);
                if (score > bestScore) {
                    bestMatch = match.slice(1);
                    bestScore = score;
                }
            }

        }

        if (!bestMatch) {
            break;
        }

        expansions[iteration] = bestMatch;
        str = str.replace(bestMatch, String.fromCharCode(127 + iteration), 'g');

    }

    return expansions.join('\u0001') + '\u0001' + str;
}

function uncompress(str) {
    var i, j, expansions;

    expansions = str.split('\u0001');
    str = expansions.pop();

    for (j = expansions.length, i = 127 + j; j--;) {
        str = str.replace(String.fromCharCode(--i), expansions[j], 'g');
    }

    return str;
}

কেন পাব C(text).length=7301? (এফএফ 60.0.2)
l4m2

3

পিএইচপি, (347 + 6166 + 176) = 6689

সুতরাং আমি একটি সরল অভিধান + বিকল্প প্রতিস্থাপনের সাথে চলেছি।

যদি কোনও শব্দ একাধিকবার উপস্থিত হয় এবং এটির চেয়ে ছোট হয় (শব্দটি এনকোড করুন + বিকল্প প্রতিস্থাপনের প্রবেশটি সংরক্ষণ করুন) তবে এটি প্রতিস্থাপন করে। যদি "শব্দ" একটি সংখ্যক হয়ে থাকে, তবে এটি decompression এর সময় দুর্ঘটনাজনিত প্রতিরোধ রোধে যাইহোক এটি করে। প্রতিস্থাপনের "অভিধান" নাল বাইটের সাথে যুক্ত হয়, তারপরে দুটি নাল বাইট এবং তারপরে শরীরের দ্বারা প্রতিস্থাপন কাজ করে।

সম্ভাব্য উন্নতি:

  • উইন্ডোজ চারপাশে 4 কিলোবাইটের বেশি ডেটা পাইপ করতে পছন্দ করে না, সুতরাং ফাইলগুলি ব্যবহারের চেয়ে আরও ভাল উপায় সন্ধান করুন।
  • হোয়াইটস্পেসের দীর্ঘ স্ট্রিংগুলির সাথে মেলে এবং খুব বেশি কোড যুক্ত না করে এগুলিকে "শব্দ" হিসাবে গণনা করার ক্ষমতা।
  • সংখ্যা ব্যবহারের পরিবর্তে আরও ভাল কিছু বিকল্পের সাথে হাজির।

ব্যবহার: সংক্ষেপক "i" নামক একটি ফাইল সন্ধান করেন এবং সংক্ষেপিত ডেটা "ও" তে লিখেন। ডিকম্প্রেসার "ও" অনুসন্ধান করে এবং সঙ্কোচিত ডেটা "ডি" তে লিখে দেয়। এটি উইন্ডোজের চারপাশের ডাটার পাইপের নৌকাগুলির পছন্দ নয় এমন আমার এক ঝাঁকুনির কাজ।


কম্প্রেস.এফপি (347)

<?$d=file_get_contents('i');$z=chr(0);preg_match_all('|\b(\w+)\b|',$d,$m);$n=0;foreach($m[0]as$w){$l=strlen($w);$q[$w]=isset($q[$w])?$q[$w]+$l:$l;}arsort($q);foreach($q as$w=>$s){$l=strlen($w);$c=$s/$l;if($c*strlen($n)+$l<$s||is_int($w)){$d=preg_replace('|\b'.preg_quote($w).'\b|',$n++,$d);$f[]=$w;}}file_put_contents('o',implode($z,$f).$z.$z.$d);

মন্তব্য এবং ব্যাখ্যা সহ প্রসারিত সংস্করণ


অভিধান ছাড়া আউটপুট নমুনা । কিন্ডা দেখতে মজার।
সাধারণ আকার: 6166

Ah, distinctly I remember it 45 in 0 bleak December,
25 each separate dying ember wrought its ghost 39 0 37.
Eagerly I wished 0 88:--vainly I had sought to borrow
From 9 books surcease of 43--43 for 0 lost 8--
For 0 rare 1 67 40 54 0 26 38 8--
                                          Nameless 63 for evermore.

25 0 silken sad uncertain rustling of each purple curtain
Thrilled me--filled me 19 fantastic terrors never felt 17;
So 4 now, to 13 0 beating of 9 64, I stood repeating
"'T is 57 31 36 49 at 9 2 5
Some late 31 36 49 at 9 2 5;--
                                          58 it is, 1 10 16."

decompress.php (176)

<?$z=chr(0);$d=file_get_contents('o');list($w,$d)=explode($z.$z,$d);$w=explode($z,$w);$n=0;foreach($w as$r){$d=preg_replace('|\b'.$n++.'\b|',$r,$d);};file_put_contents('d',$d);

ব্যাখ্যা সহ প্রসারিত সংস্করণ


উন্নতির জন্য কোন পরামর্শ স্বাগত জানাই।

সম্পাদনা: কোডটির "অনিবন্ধিত" সংস্করণ যুক্ত হয়েছে এবং অনেকগুলি মন্তব্য যুক্ত হয়েছে। অনুসরণ করা সহজ হওয়া উচিত।


গাহ! একই ভাষা এবং পদ্ধতি যেমন আমি ব্যবহার করছিলাম! শালা। যদিও আমি একক শব্দকে এড়িয়ে যেতে পেলাম না।
গ্যারেথ

পাঠ্যের মধ্যে সংখ্যা থাকলে কী হয়? এটি স্থানের বাইরে থাকা শব্দের সাথে মূল সংখ্যাগুলি প্রতিস্থাপন করবে। যদিও আমি একটি অনুরূপ পন্থা গ্রহণ করেছি (রেজেক্স বিভক্ত হয়েছি, পরিবর্তনের জন্য সাধারণ শব্দ খুঁজে বের করতে এবং একটি প্রতিস্থাপন অভিধান তৈরি করতে এবং এটি নাল দিয়ে আঠালো করে), আমি সংখ্যার পরিবর্তে ইউনিকোড অক্ষর ব্যবহার করেছি (ক্রিয়াক (128) থেকে শুরু করে, যেহেতু এর পরে কিছু অপ্রিন্টযোগ্য স্ট্যান্ডার্ড ascii)
ব্লেজার

@ ব্লাজার: আসলে, কোডগুলিতে ||is_int($w)সর্বদা অভিধানে যুক্ত করে হ্যান্ডেল করার জন্য কোড রয়েছে (তবে ) এটি বগি বলে মনে হচ্ছে: পুরো গুটেনবার্গ ই-পাঠ্যকে সংকুচিত ও সংক্ষেপিত করার পরে আউটপুটটি শুরু হয় The 4 3 EBook 2 The Raven, by Edgar Allan Poe। :-( আমার সন্দেহ হয় যে সমস্যাটি হ'ল দু'বার প্রতিস্থাপন হচ্ছে; আপনি strtr()সমস্যাটি এড়াতে পরিবর্তে ব্যবহারের কথা বিবেচনা করতে পারেন
ইলমারি করোনেন

@ ইলমারি যদি আপনার কাছে একটি সংখ্যা-ভারী নথি থাকে তবে অভিধানগুলিতে এই সংখ্যাগুলি যুক্ত করার ফলে সংকোচনের ফলে এটি মূলের চেয়ে বড় হতে পারে। বেশ কয়েকটি 1-2 টি অক্ষরের দীর্ঘ আইটেমগুলি সংরক্ষণ করা কার্যকর নয়। আপনি যদি নথিতে 'ক' শব্দটি প্রতিস্থাপন করতে চান
ব্লেজার ২

@ ব্লাজার - সমস্ত সংক্ষেপণ অ্যালগরিদমের জন্য কিছু নির্দিষ্ট ইনপুট রয়েছে যার ফলে আরও বড় আউটপুট হবে। এটি ক্ষতিকারক সংকোচনের অন্তর্নিহিত, ঠিক যেমন নির্ভরযোগ্যভাবে এনট্রপিক ডেটা সংকুচিত করতে অক্ষমতার মতো।
মিঃ ল্লামা

3

গল্ফস্ক্রিপ্ট, ৩474747 (সংক্ষিপ্ত আকার 3408 + কোড আকার 239)

128,{[.;]''+}%:d;8:k;{2k?={1k+:k;}*}:|;{2base}:b;{.[0]*@b+0@->}:$;.0=
{'':&,:i;1/{.d&@+?.0<{;d,i@d&@:&.0=:i;[+]+:d;k$\|}{:i;&\+:&;}if}%[0]k*+[]*8/{b}%"\0"\+}
{1>{8$}/][]*:^;{^k<b^k>:^;}:r~{.}{d,|d=:&r..d,<{d=}{;&}if[1<&\+]d\+:d;}while;}if

ব্যবহৃত অ্যালগরিদম হল ভেরিয়েবল-প্রস্থের কোডগুলির সাথে এলজেডব্লিউ সংক্ষেপণ। প্রথম লাইনটি ভাগ করা কোড, দ্বিতীয়টি সংকোচন কোড এবং তৃতীয়টি হ'ল ডিকম্প্রেশন কোড।

এটি 1-127 ব্যাপ্তির এএসসিআইআই অক্ষরের সাথে ফাইলগুলি পরিচালনা করে এবং এটি সংকোচিত ফাইলগুলি স্বয়ংক্রিয়ভাবে স্বীকৃতি দেয় (তারা 0 বাইট দিয়ে শুরু করে), তাই সংক্ষেপনের জন্য কোনও পরামিতি নেই।

উদাহরণ রান:

$ md5sum raven.txt
286206abbb7eca7b1ab69ea4b81da227  raven.txt
$ ruby golfscript.rb compress.gs < raven.txt > raven.lzw
$ ls -l raven.lzw
-rw-r--r-- 1 ahammar ahammar 3408 2012-01-27 22:27 raven.lzw
$ ruby golfscript.rb compress.gs < raven.lzw | md5sum
286206abbb7eca7b1ab69ea4b81da227  -

দ্রষ্টব্য: 100 কেবি হ্যান্ডেল করার প্রয়োজনীয়তা যুক্ত হওয়ার আগেই আমি এটি শুরু করেছিলাম, তাই আমি এটি আকারের ইনপুটটিতে পরীক্ষা করিনি। তবে, শিখরে প্রায় 20MB মেমরি ব্যবহার করে, পরীক্ষার ইনপুটটি সংকুচিত করতে প্রায় 30 সেকেন্ড এবং এটি সংক্ষেপিত করতে 5 সেকেন্ড সময় লাগে।


একটি 76 kB র ফাইল সংকুচিতকারী, 19 মিনিট সম্পর্কে নেওয়া যখন decompressing এটা 10. যে সময় লাগে বলে মনে হয় হয় ধীর ধরনের, কিন্তু তারপর আবার, এটা মূল নিয়ম পাস করে, তাই ... আমি জানিনা। পরিস্থিতিতে এটির অনুমতি না দেওয়া এক প্রকার অন্যায্য বলে মনে হচ্ছে। আমার ধারণা আমি আপনার বা কোনও কিছুর জন্য একটি অন্তর্নিহিত "দাদা দফা" প্রার্থনা করতে পারি।
ইলমারি করোনেন

3

হাস্কেল, 3973

পার্টিতে দেরীতে, এবং জিততে যাচ্ছি না, তবে এটি লিখতে আমার খুব মজা হয়েছিল যাতে আমি এটি পোস্টও করতে পারি।

এটি এলজেডাব্লুয়ের একটি সোজা পরিবর্তনশীল-প্রস্থের বাস্তবায়ন, একটি অভিধান প্রিন্টযোগ্য এএসসিআইআই, ট্যাব এবং লাইনফিডে স্পষ্টতই সীমাবদ্ধ with কোনও যুক্তি ছাড়াই চলুন, এটি ফাইলের জন্য স্ট্যান্ডার্ড ইনপুটকে সংকুচিত করে C। যে কোনও যুক্তি দিয়ে চালান (তবে "--dompompress" একটি যুক্তিসঙ্গত বাজি হবে), এটি Cস্ট্যান্ডার্ড আউটপুট থেকে ফাইলকে সংক্রামিত করে ।

import List
import System
import Data.Binary
q=head
main=getArgs>>=m
m[]=getContents>>=encodeFile"C".s 97 128 1 0.e 97h
m _=decodeFile"C">>=putStr.d tail""96h.u 97 128
h=zip[0..].map(:[])$"\t\n"++[' '..'~']
e _ _[]=[]
e n s y=c:e(n+1)((n,take(1+l)y):s)(drop(l)y)where{Just(c,p)=find((`isPrefixOf`y).snd)s;l=length p}
d _ _ _ _[]=""
d f p n s(x:y)=t++d id t(n+1)(f$(n,p++[q t]):s)y where t=maybe(p++[q p])id$lookup x s
s _ _ _ a[]=a::Integer
s n w o a y|n>w=s n(2*w)o a y|0<1=s(n+1)w(o*w)(a+o*q y)(tail y)
u _ _ 0=[]
u n w x|n>w=u n(2*w)x|0<1=(x`mod`w::Integer):u(n+1)w(x`div`w)
  • কোড আকার: 578
  • সঙ্কুচিত নমুনার আকার: 3395
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.