
একটি ভাষার মধ্যে সাজানো থাকে শব্দ, অনুচ্ছেদ, অধ্যায়। ভাষা, তথ্যকে সুসজ্জিত করে একটি বোধের জন্ম দেয়। লিখিত ভাষার সাথে আমাদের শরীরের ডি এন এ এর কি তুলনা করা যায়? উত্তরটা ভাবাতেই পারে। ব্যাক্টেরিয়া কিংবা মানুষ বর্ণমালার অক্ষরের মতো, অণুগুলির নিউক্লিওটাইডদের দিয়ে তৈরি ভিতে ক্রম অনুসারে সাজানো থাকে – অ্যাডেনিন-A, থাইমিন-T, সাইটোসিন-C এবং গুয়ানিন-G। সমস্যাটা হল, যে কোন মানুষ লিখিত ভাষাটি তার পরিচিত হলে সেই লেখা দেখে পড়তে এবং তার একটা ভাবানুবাদ বা অনুবাদ করতেই পারে। এমনকি এলোমেলো শব্দ বা অনুচ্ছেদও বোধের কৌশল দিয়ে বেশ গুছিয়ে নিতে পারে। কিন্তু এই ডি এন এ মালা থেকে জীবনের নির্দেশাবলী পড়া বা ব্যাখ্যা করা ওরকম সহজ নয়। এলোমেলো জৈবিক পর্যায় বিন্যাস বোঝা সত্যিই কঠিন। এই উপলব্ধিকেই প্রেরণা বানিয়ে নিলেন স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের কম্পিউটার বিজ্ঞানী ব্রায়ান হাই। তাঁর নতুন আবিষ্কার ইভো একটি জিনোমিক লার্জ ল্যাঙ্গুয়েজ মডেল (এলএলএম)। এটিকে ব্রায়ান, ‘ডিএনএ-এর চ্যাটজিপিটি’ হিসেবে তুলনা ও বর্ণনা করেন।
চ্যাটজিপিটি একটি বৃহৎ আলাপকারী ভাষা মডেল, যা চ্যাটবট নামেও পরিচিত। প্রাপ্ত তথ্য কিংবা প্রশ্নের উপর ভিত্তি করে পাঠ্য তৈরি করা, উত্তর দেওয়া, এমনকি সৃজনশীল রচনার ক্ষেত্রেও এটি আজকাল বহুল ব্যবহৃত। কিন্তু প্রথম থেকেই এই চ্যাটবট সুশিক্ষিত আলাপচারি হিসাবে আত্মপ্রকাশ ঘটায়নি। প্রকাশের অন্তরালে ছিল বিপুল পরিমাণ লিখিত অনুচ্ছেদ। যা থেকে অ্যালগরিদম এমন প্যাটার্ন শিখেছিল যা এটিকে মৌলিক বাক্য পড়তে ও লিখতে সক্ষম করে তোলে। ঠিক একইভাবে ইভো’র বিকাশের জন্য ব্রায়ান, ২.৭ মিলিয়ন ব্যাকটেরিয়া, আর্কিয়া এবং ভাইরাস জিনোম থেকে ৩০০ বিলিয়ন ‘বেস জুড়ি ’ – অর্থাৎ দুটি করে নিউক্লিক অ্যাসিডের বেস সাজিয়ে সাজিয়ে এটিকে প্রশিক্ষিত করেছেন। যাতে একজন ইভো ব্যবহারকারী চটজলদি ডিএনএ অংশ দিলেই তা থেকে কার্যকরী তথ্য সংগ্রহ করতে পারেন।
ব্রায়ান, স্নাতক পর্যয়েই জীববিজ্ঞানের জন্য ভাষা মডেল ব্যবহারে আগ্রহী হয়ে উঠেছিলেন। অপরদিকে সুন্দর ধাঁচে লেখা, মহৎ ভাব ও সুচারু ভাষার কবিতার প্রতি তার অমোঘ টান ছিল। ফলে, একটি সনেট বা সুসংগঠিত ইংরেজি গীতিকবিতার ছন্দকাঠামো চিহ্নিত করার মতনই জিনোমিক বা প্রোটিন সিকোয়েন্সকে আরও ভালো করে বোঝার ও তাদের ভিতরে নিহিত কাঠামো প্রকাশ করার মডেল তৈরিতে মেতে ওঠেন তিনি। এ যেন জীববিজ্ঞান সিকোয়েন্স নিয়ে সাহিত্যচর্চা! তিনি প্রথম প্রোটিন এলএলএম তৈরি করতে শুরু করেন। পরবর্তীতে তাঁর মনে হয়, প্রোটিনগুলি হল শব্দের মতো অংশ। অন্যদিকে, একটি জীবের জিনোম, জীবের সমগ্র ডিএনএ, প্রোটিনের তুলনায় অনেক বেশি তথ্যের প্রতিনিধিত্ব করে- ঠিক যেমন একটি বাক্য, শব্দ-তালিকার চেয়ে বেশি তথ্য দিতে পারে। আর জীববিজ্ঞানীরা এখনও ডিএনএ-এর ব্যাকরণ বুঝতে হিমসিম খাচ্ছেন। তাই তার মাথায় আসে মেশিন লার্নিং এর মাধ্যমে জিনোমের একটি গ্রন্থাগার গড়ার কথা। সুবিস্তৃত নিউক্লিওটাইডের ভাষায় নিমজ্জিত থেকে, ইভো এমন প্যাটার্ন শেখে, যা মানুষের একার পক্ষে লক্ষ রাখা সম্ভব নয়। ইভো, প্যাটার্নগুলি ব্যবহার করে, ডিএনএ-এর পরিবর্তন কীভাবে এর ডাউনস্ট্রিম উৎপাদন ( যা একটি রেফারেন্স পয়েন্টের অবশিষ্টাংশ সি-টার্মিনালকে বোঝায়), আরএনএ এবং প্রোটিনের কার্যকারিতাকে প্রভাবিত করছে, তা বুঝতে সাহায্য করে। ইভো, অণুর বিকল্প সংস্করণের জন্য নতুন ডি এন এ সিকোয়েন্সও লিখেছে। এমনকি ইভো-উৎপাদিত কিছু সংস্করণ, প্রাকৃতিক সংস্করণের সমান বা তার চেয়েও ভালো। যে কোন প্রাকৃতিক ভাষার মতো, ডিএনএ-এরও একটি প্রাকৃতিক কাঠামো রয়েছে। প্রাকৃতিক ভাষার অনেক কাঠামো অনানুষ্ঠানিক এবং অস্পষ্ট মনে হতে পারে কারণ ভাষা ‘সময়ের’ মধ্য দিয়ে পরিবর্তিত হচ্ছে। একইভাবে, ডিএনএ সিকোয়েন্সগুলির মধ্যেও কিছু অস্পষ্টতা রয়েছে। একটি ভিন্ন প্রসঙ্গে একই সিকোয়েন্স ভিন্ন অর্থ বোঝাতে পারে। আণবিক জীববিজ্ঞানে, ‘সেন্ট্রাল ডগমা’ বা কেন্দ্রীয় প্রত্যয় হলো সেই প্রক্রিয়া যার কোষের মধ্যে জিনগত তথ্যের সঞ্চালন, ডিএনএ প্রতিলিপি এবং অনুবাদের মাধ্যমে প্রোটিনের জন্য আরএনএ সংকেতায়ন হয়। এই সমস্ত কিছু মিথস্ক্রিয়ার একটি ক্রম অনুসারে ঘটে। যেহেতু ডিএনএ এবং প্রোটিন সিকোয়েন্সের মধ্যে একটি সরাসরি সম্পর্ক রয়েছে, তাই ইভো ডিএনএ এর উপর একটি ভালো মডেলের প্রশিক্ষণ পেয়ে, তথ্যানুসন্ধানকারির সঙ্গে সহযোগিতা করে আরএনএ এবং প্রোটিন- ভাষার মডেলিংও দিতে পারে। তবে প্রোটিন এবং ডিএনএ ভাষা মডেলগুলির মধ্যে একটি গুরুত্বপূর্ণ পার্থক্য রয়েছে। সিকোয়েন্স-এর দৈর্ঘ্য, যাকে “কনটেক্সট লেংথ” বলা হয়ে থাকে, তা যেন একটি উপন্যাসের এক বা দুই পৃষ্ঠার মতো দৈর্ঘ্য, যা একজন ব্যক্তি একবারে দেখতে পায়। ইভোকে, সর্বাধিক ১৩১,০০০ টোকেনের কনটেক্সট লেংথের জন্য শুধুমাত্র ই. কোলাই জিনোমের ২ মিলিয়ন থেকে ৪ মিলিয়ন বেস পেয়ার দেওয়া হয়। অপরদিকে, প্রথম প্রোটিন ভাষা মডেলগুলিকে কেবলমাত্র ১,০০০ অ্যামিনো অ্যাসিডের কনটেক্সট লেংথ দিয়েই প্রশিক্ষণ দেওয়া হয়েছিল। প্রোটিনগুলির যে বিশাল জেনেটিক সিকোয়েন্স রয়েছে, তা উপেক্ষা না করে, বরং প্রোটিন থেকে ডিএনএতে যাওয়ার প্রক্রিয়াটিকে গুরুত্ব দিয়ে, এক্ষেত্রে একটি মডেলের সক্ষমতা বাড়িয়ে তোলা হয়েছে। তবে দীর্ঘ কনটেক্সট বা প্রসঙ্গ, প্রচুর কম্পিউটেশনাল শক্তি ব্যবহার করে। ইভোর সাফল্যের মূলনীতিটা সরল। মডেলটি বিশাল, ৭ বিলিয়ন কম্পিউটার ভাষা নিয়ে তৈরি এবং অনেক তথ্য স হ যোগে প্রশিক্ষিত। এর উদ্দেশ্য স্পষ্ট: ডি এন এ ক্রমে পরবর্তী বেস পেয়ারটির পূর্বাভাস দেওয়া। ইদানীং মেশিন লার্নিংয়ে একটি শক্তিশালী প্যারাডাইম এসেছে। এর অধীনে, ইভো জীবনের সাথে সঙ্গতিপূর্ণ সিকোয়েন্সগুলি চিহ্নিত করার এবং প্রাকৃতিক অণুগুলির উপযোগী পরিবর্তন ঘটানোর দক্ষতা অর্জন করেছে। ইভোর কার্যকারিতা নিয়ে পরিষ্কার ধারণা ছিল না। কিভাবে ডিএনএ প্রোটিনের জন্য কোড করে এবং জিনোমে প্রোটিনের কোডিং কোথায় শুরু হয়, কোথায় শেষ হয়, সেই বিষয়ে ধারণা লাভ সবথেকে আগে প্রয়োজন। ব্রায়ন ও তার দল, প্রোটিন কার্যকারিতা পরীক্ষা করে মডেল থেকে সম্ভাবনার মাত্রা নিরূপণ করেন। দেখা গেছে, ইভোর অধীনে একটি বেস পেয়ারের উচ্চ সম্ভাবনা থাকলে, সেটি প্রোটিনের কার্যকারিতা রক্ষা বা উন্নত করতে পারে। আর যদি সম্ভাবনা কম থাকে, তাহলে সেটি প্রোটিনের কার্যকারিতা নষ্ট করবে। মডেলের এই ফলাফলগুলিকে আধুনিক প্রোটিন ভাষার মডেলগুলির ফলাফলের সাথে তুলনা করে দেখা যায়, ইভো কখনো কোনো প্রোটিন সিকোয়েন্স না দেখেও প্রোটিন মডেলগুলির সাথে মিলিয়ে দিচ্ছে। ব্রায়ানের ছাত্র কাং প্রোটিনের জন্য কোড করা ডিএনএ এবং একটি আরএনএ অণুর উপর ইভো মডেলটিকে উন্নত করতে সাহায্য করে। এগুলির একত্রীকরণে, গড়ে ওঠে CRISPR-Cas। এটি ডিএনএ ভেঙে ফেলে। বিজ্ঞানীরা এগুলো জিনোম সম্পাদনার জন্য ব্যবহার করছেন। ইভো শুধুমাত্র সরলতম জীব, কেন্দ্রক-বর্জিত প্রোক্যারিওটস-এর জিনোমের উপর প্রশিক্ষিত। ব্রায়ান এটিকে কেন্দ্রক-যুক্ত ইউক্যারিওটস যেমন প্রাণী, গাছ এবং ছত্রাকদের জগতেও সম্প্রসারিত করতে চান। এদের জিনোম অনেক বেশি জটিল।
ব্রায়ান আশা রাখেন, মডেলগুলি জীববিজ্ঞানীদের আবিষ্কারে সাহায্য করবে। প্রকৃতির একটি নতুন জীবের জিনোম সিকোয়েন্স নির্ণয় করলে কেবল ডিএনএ নয় বরং জিনোমের কোন অংশ বিভিন্ন কার্যকারিতার সাথে সম্পর্কিত তা চিহ্নিত করা খুব কঠিন। ভবিষ্যতে, মডেলগুলি যদি একটি জীবসংশ্লেষণ পথের ধারণা শিখে নিতে পারে, তাহলে সেগুলি আমাদের সিকোয়েন্সিং ডেটাতে নতুন জীববৈজ্ঞানিক প্রক্রিয়াগুলিকে চিহ্নিত করতে সাহায্য করবে। তবে বিজ্ঞানের অভিশাপ ডেকে এনে ইভোকে যদি ভাইরাস ডিজাইন করার কাজে ব্যবহার করা হয়, তাহলে সেগুলি খারাপ উদ্দেশ্যে প্রযুক্ত হবে। এক্ষেত্রে কিছু উপায় থাকা উচিত যাতে নিশ্চিত হওয়া যায় যে এই মডেলগুলি ভালো উদ্দেশ্যেই ব্যবহৃত হচ্ছে। প্রযুক্তিগত সক্ষমতার স্তর বাড়ালে, এটি জৈব যুদ্ধের হুমকির বিরুদ্ধে নিজেদের প্রতিরক্ষার সক্ষমতাও বাড়িয়ে তুলতে পারবে, আশা রাখা যায়। আর এইভাবেই, ব্রায়ান ইভোর মাধ্যমে জিন আর ডিএন এর সাহিত্যচর্চা চালিয়ে যাচ্ছেন ।
খুব সুন্দর সহজবোদ্ধ প্রাঞ্জল লেখা