ই ভো : জি নো ম কাব্যের এ আই ভাষা

ই ভো : জি নো ম কাব্যের এ আই ভাষা

সুপর্ণা চট্টোপাধ্যায়
সদস্য, সম্পাদকীয় বিভাগ, বিজ্ঞানভাষ
Posted on ২২ মার্চ, ২০২৫

একটি ভাষার মধ্যে সাজানো থাকে শব্দ, অনুচ্ছেদ, অধ্যায়। ভাষা, তথ্যকে সুসজ্জিত করে একটি বোধের জন্ম দেয়। লিখিত ভাষার সাথে আমাদের শরীরের ডি এন এ এর কি তুলনা করা যায়? উত্তরটা ভাবাতেই পারে। ব্যাক্টেরিয়া কিংবা মানুষ বর্ণমালার অক্ষরের মতো, অণুগুলির নিউক্লিওটাইডদের দিয়ে তৈরি ভিতে ক্রম অনুসারে সাজানো থাকে – অ্যাডেনিন-A, থাইমিন-T, সাইটোসিন-C এবং গুয়ানিন-G। সমস্যাটা হল, যে কোন মানুষ লিখিত ভাষাটি তার পরিচিত হলে সেই লেখা দেখে পড়তে এবং তার একটা ভাবানুবাদ বা অনুবাদ করতেই পারে। এমনকি এলোমেলো শব্দ বা অনুচ্ছেদও বোধের কৌশল দিয়ে বেশ গুছিয়ে নিতে পারে। কিন্তু এই ডি এন এ মালা থেকে জীবনের নির্দেশাবলী পড়া বা ব্যাখ্যা করা ওরকম সহজ নয়। এলোমেলো জৈবিক পর্যায় বিন্যাস বোঝা সত্যিই কঠিন। এই উপলব্ধিকেই প্রেরণা বানিয়ে নিলেন স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের কম্পিউটার বিজ্ঞানী ব্রায়ান হাই। তাঁর নতুন আবিষ্কার ইভো একটি জিনোমিক লার্জ ল্যাঙ্গুয়েজ মডেল (এলএলএম)। এটিকে ব্রায়ান, ‘ডিএনএ-এর চ্যাটজিপিটি’ হিসেবে তুলনা ও বর্ণনা করেন।
চ্যাটজিপিটি একটি বৃহৎ আলাপকারী ভাষা মডেল, যা চ্যাটবট নামেও পরিচিত। প্রাপ্ত তথ্য কিংবা প্রশ্নের উপর ভিত্তি করে পাঠ্য তৈরি করা, উত্তর দেওয়া, এমনকি সৃজনশীল রচনার ক্ষেত্রেও এটি আজকাল বহুল ব্যবহৃত। কিন্তু প্রথম থেকেই এই চ্যাটবট সুশিক্ষিত আলাপচারি হিসাবে আত্মপ্রকাশ ঘটায়নি। প্রকাশের অন্তরালে ছিল বিপুল পরিমাণ লিখিত অনুচ্ছেদ। যা থেকে অ্যালগরিদম এমন প্যাটার্ন শিখেছিল যা এটিকে মৌলিক বাক্য পড়তে ও লিখতে সক্ষম করে তোলে। ঠিক একইভাবে ইভো’র বিকাশের জন্য ব্রায়ান, ২.৭ মিলিয়ন ব্যাকটেরিয়া, আর্কিয়া এবং ভাইরাস জিনোম থেকে ৩০০ বিলিয়ন ‘বেস জুড়ি ’ – অর্থাৎ দুটি করে নিউক্লিক অ্যাসিডের বেস সাজিয়ে সাজিয়ে এটিকে প্রশিক্ষিত করেছেন। যাতে একজন ইভো ব্যবহারকারী চটজলদি ডিএনএ অংশ দিলেই তা থেকে কার্যকরী তথ্য সংগ্রহ করতে পারেন।
ব্রায়ান, স্নাতক পর্যয়েই জীববিজ্ঞানের জন্য ভাষা মডেল ব্যবহারে আগ্রহী হয়ে উঠেছিলেন। অপরদিকে সুন্দর ধাঁচে লেখা, মহৎ ভাব ও সুচারু ভাষার কবিতার প্রতি তার অমোঘ টান ছিল। ফলে, একটি সনেট বা সুসংগঠিত ইংরেজি গীতিকবিতার ছন্দকাঠামো চিহ্নিত করার মতনই জিনোমিক বা প্রোটিন সিকোয়েন্সকে আরও ভালো করে বোঝার ও তাদের ভিতরে নিহিত কাঠামো প্রকাশ করার মডেল তৈরিতে মেতে ওঠেন তিনি। এ যেন জীববিজ্ঞান সিকোয়েন্স নিয়ে সাহিত্যচর্চা! তিনি প্রথম প্রোটিন এলএলএম তৈরি করতে শুরু করেন। পরবর্তীতে তাঁর মনে হয়, প্রোটিনগুলি হল শব্দের মতো অংশ। অন্যদিকে, একটি জীবের জিনোম, জীবের সমগ্র ডিএনএ, প্রোটিনের তুলনায় অনেক বেশি তথ্যের প্রতিনিধিত্ব করে- ঠিক যেমন একটি বাক্য, শব্দ-তালিকার চেয়ে বেশি তথ্য দিতে পারে। আর জীববিজ্ঞানীরা এখনও ডিএনএ-এর ব্যাকরণ বুঝতে হিমসিম খাচ্ছেন। তাই তার মাথায় আসে মেশিন লার্নিং এর মাধ্যমে জিনোমের একটি গ্রন্থাগার গড়ার কথা। সুবিস্তৃত নিউক্লিওটাইডের ভাষায় নিমজ্জিত থেকে, ইভো এমন প্যাটার্ন শেখে, যা মানুষের একার পক্ষে লক্ষ রাখা সম্ভব নয়। ইভো, প্যাটার্নগুলি ব্যবহার করে, ডিএনএ-এর পরিবর্তন কীভাবে এর ডাউনস্ট্রিম উৎপাদন ( যা একটি রেফারেন্স পয়েন্টের অবশিষ্টাংশ সি-টার্মিনালকে বোঝায়), আরএনএ এবং প্রোটিনের কার্যকারিতাকে প্রভাবিত করছে, তা বুঝতে সাহায্য করে। ইভো, অণুর বিকল্প সংস্করণের জন্য নতুন ডি এন এ সিকোয়েন্সও লিখেছে। এমনকি ইভো-উৎপাদিত কিছু সংস্করণ, প্রাকৃতিক সংস্করণের সমান বা তার চেয়েও ভালো। যে কোন প্রাকৃতিক ভাষার মতো, ডিএনএ-এরও একটি প্রাকৃতিক কাঠামো রয়েছে। প্রাকৃতিক ভাষার অনেক কাঠামো অনানুষ্ঠানিক এবং অস্পষ্ট মনে হতে পারে কারণ ভাষা ‘সময়ের’ মধ্য দিয়ে পরিবর্তিত হচ্ছে। একইভাবে, ডিএনএ সিকোয়েন্সগুলির মধ্যেও কিছু অস্পষ্টতা রয়েছে। একটি ভিন্ন প্রসঙ্গে একই সিকোয়েন্স ভিন্ন অর্থ বোঝাতে পারে। আণবিক জীববিজ্ঞানে, ‘সেন্ট্রাল ডগমা’ বা কেন্দ্রীয় প্রত্যয় হলো সেই প্রক্রিয়া যার কোষের মধ্যে জিনগত তথ্যের সঞ্চালন, ডিএনএ প্রতিলিপি এবং অনুবাদের মাধ্যমে প্রোটিনের জন্য আরএনএ সংকেতায়ন হয়। এই সমস্ত কিছু মিথস্ক্রিয়ার একটি ক্রম অনুসারে ঘটে। যেহেতু ডিএনএ এবং প্রোটিন সিকোয়েন্সের মধ্যে একটি সরাসরি সম্পর্ক রয়েছে, তাই ইভো ডিএনএ এর উপর একটি ভালো মডেলের প্রশিক্ষণ পেয়ে, তথ্যানুসন্ধানকারির সঙ্গে সহযোগিতা করে আরএনএ এবং প্রোটিন- ভাষার মডেলিংও দিতে পারে। তবে প্রোটিন এবং ডিএনএ ভাষা মডেলগুলির মধ্যে একটি গুরুত্বপূর্ণ পার্থক্য রয়েছে। সিকোয়েন্স-এর দৈর্ঘ্য, যাকে “কনটেক্সট লেংথ” বলা হয়ে থাকে, তা যেন একটি উপন্যাসের এক বা দুই পৃষ্ঠার মতো দৈর্ঘ্য, যা একজন ব্যক্তি একবারে দেখতে পায়। ইভোকে, সর্বাধিক ১৩১,০০০ টোকেনের কনটেক্সট লেংথের জন্য শুধুমাত্র ই. কোলাই জিনোমের ২ মিলিয়ন থেকে ৪ মিলিয়ন বেস পেয়ার দেওয়া হয়। অপরদিকে, প্রথম প্রোটিন ভাষা মডেলগুলিকে কেবলমাত্র ১,০০০ অ্যামিনো অ্যাসিডের কনটেক্সট লেংথ দিয়েই প্রশিক্ষণ দেওয়া হয়েছিল। প্রোটিনগুলির যে বিশাল জেনেটিক সিকোয়েন্স রয়েছে, তা উপেক্ষা না করে, বরং প্রোটিন থেকে ডিএনএতে যাওয়ার প্রক্রিয়াটিকে গুরুত্ব দিয়ে, এক্ষেত্রে একটি মডেলের সক্ষমতা বাড়িয়ে তোলা হয়েছে। তবে দীর্ঘ কনটেক্সট বা প্রসঙ্গ, প্রচুর কম্পিউটেশনাল শক্তি ব্যবহার করে। ইভোর সাফল্যের মূলনীতিটা সরল। মডেলটি বিশাল, ৭ বিলিয়ন কম্পিউটার ভাষা নিয়ে তৈরি এবং অনেক তথ্য স হ যোগে প্রশিক্ষিত। এর উদ্দেশ্য স্পষ্ট: ডি এন এ ক্রমে পরবর্তী বেস পেয়ারটির পূর্বাভাস দেওয়া। ইদানীং মেশিন লার্নিংয়ে একটি শক্তিশালী প্যারাডাইম এসেছে। এর অধীনে, ইভো জীবনের সাথে সঙ্গতিপূর্ণ সিকোয়েন্সগুলি চিহ্নিত করার এবং প্রাকৃতিক অণুগুলির উপযোগী পরিবর্তন ঘটানোর দক্ষতা অর্জন করেছে। ইভোর কার্যকারিতা নিয়ে পরিষ্কার ধারণা ছিল না। কিভাবে ডিএনএ প্রোটিনের জন্য কোড করে এবং জিনোমে প্রোটিনের কোডিং কোথায় শুরু হয়, কোথায় শেষ হয়, সেই বিষয়ে ধারণা লাভ সবথেকে আগে প্রয়োজন। ব্রায়ন ও তার দল, প্রোটিন কার্যকারিতা পরীক্ষা করে মডেল থেকে সম্ভাবনার মাত্রা নিরূপণ করেন। দেখা গেছে, ইভোর অধীনে একটি বেস পেয়ারের উচ্চ সম্ভাবনা থাকলে, সেটি প্রোটিনের কার্যকারিতা রক্ষা বা উন্নত করতে পারে। আর যদি সম্ভাবনা কম থাকে, তাহলে সেটি প্রোটিনের কার্যকারিতা নষ্ট করবে। মডেলের এই ফলাফলগুলিকে আধুনিক প্রোটিন ভাষার মডেলগুলির ফলাফলের সাথে তুলনা করে দেখা যায়, ইভো কখনো কোনো প্রোটিন সিকোয়েন্স না দেখেও প্রোটিন মডেলগুলির সাথে মিলিয়ে দিচ্ছে। ব্রায়ানের ছাত্র কাং প্রোটিনের জন্য কোড করা ডিএনএ এবং একটি আরএনএ অণুর উপর ইভো মডেলটিকে উন্নত করতে সাহায্য করে। এগুলির একত্রীকরণে, গড়ে ওঠে CRISPR-Cas। এটি ডিএনএ ভেঙে ফেলে। বিজ্ঞানীরা এগুলো জিনোম সম্পাদনার জন্য ব্যবহার করছেন। ইভো শুধুমাত্র সরলতম জীব, কেন্দ্রক-বর্জিত প্রোক্যারিওটস-এর জিনোমের উপর প্রশিক্ষিত। ব্রায়ান এটিকে কেন্দ্রক-যুক্ত ইউক্যারিওটস যেমন প্রাণী, গাছ এবং ছত্রাকদের জগতেও সম্প্রসারিত করতে চান। এদের জিনোম অনেক বেশি জটিল।
ব্রায়ান আশা রাখেন, মডেলগুলি জীববিজ্ঞানীদের আবিষ্কারে সাহায্য করবে। প্রকৃতির একটি নতুন জীবের জিনোম সিকোয়েন্স নির্ণয় করলে কেবল ডিএনএ নয় বরং জিনোমের কোন অংশ বিভিন্ন কার্যকারিতার সাথে সম্পর্কিত তা চিহ্নিত করা খুব কঠিন। ভবিষ্যতে, মডেলগুলি যদি একটি জীবসংশ্লেষণ পথের ধারণা শিখে নিতে পারে, তাহলে সেগুলি আমাদের সিকোয়েন্সিং ডেটাতে নতুন জীববৈজ্ঞানিক প্রক্রিয়াগুলিকে চিহ্নিত করতে সাহায্য করবে। তবে বিজ্ঞানের অভিশাপ ডেকে এনে ইভোকে যদি ভাইরাস ডিজাইন করার কাজে ব্যবহার করা হয়, তাহলে সেগুলি খারাপ উদ্দেশ্যে প্রযুক্ত হবে। এক্ষেত্রে কিছু উপায় থাকা উচিত যাতে নিশ্চিত হওয়া যায় যে এই মডেলগুলি ভালো উদ্দেশ্যেই ব্যবহৃত হচ্ছে। প্রযুক্তিগত সক্ষমতার স্তর বাড়ালে, এটি জৈব যুদ্ধের হুমকির বিরুদ্ধে নিজেদের প্রতিরক্ষার সক্ষমতাও বাড়িয়ে তুলতে পারবে, আশা রাখা যায়। আর এইভাবেই, ব্রায়ান ইভোর মাধ্যমে জিন আর ডিএন এর সাহিত্যচর্চা চালিয়ে যাচ্ছেন ।

One thought on “ই ভো : জি নো ম কাব্যের এ আই ভাষা

  1. Chitrorath Guha

    খুব সুন্দর সহজবোদ্ধ প্রাঞ্জল লেখা

Leave a Reply

Your email address will not be published. Required fields are marked *

eighteen − twelve =