AI এসে গেছে (পর্ব ৭)

অভিজিৎ কর গুপ্ত

পদার্থ বিজ্ঞানের অধ্যাপক, পাঁশকুড়া বনমালী কলেজ (অটোনমাস)

Posted on ১৪ জুন, ২০২৬

শুরু করি একটা ধাঁধা দিয়ে।

একটি ঘড়ি 5 বার শব্দ করতে 5 সেকেন্ড সময় নেয়। তাহলে, 10 বার শব্দ করতে কত সময় নেবে?

উত্তর কত হবে? 10 সেকেন্ড? হয়ত তাই। হয়ত এটা একটা লোক ঠকানো প্রশ্ন। নাকি অন্য কিছু? আচ্ছা, একটু ভাবা যাক। উত্তরে পরে আসছি।

ভাবছিলাম, কী আশ্চর্য এই সময়! দ্রুত পাল্টে যাচ্ছে সবকিছু। জেনারেটিভ AI, এজেন্টিক AI-এর ম্যাজিক প্রতিনিয়ত অবাক করে চলেছে আমাদের। তবু মাঝেমাঝেই প্রশ্ন উঠছে AI কি সব পারে? AI কি উপরের এই ধাঁধাটির সঠিক সমাধান করতে পারবে?

আমরা দেখছি – সবচেয়ে কমপ্লেক্স বোর্ডগেম গো, দীর্ঘদিনের চ্যালেঞ্জিং প্রোটিন ফোল্ডিং প্রবলেম অথবা গণিতের অমীমাংসিত সব কনজেকচার – এরকম একের পর এক হিউম্যান ফ্রন্টিয়ার জয় করে চলেছে কৃত্রিম বুদ্ধিমত্তার আধুনিক সব মডেল। অথচ কখনো কখনো কিছু ছেলেমানুষী ধাঁধা, বা সাধারণ কিছু জ্যামিতিক ছবি, অথবা আরো কিছু সাধারণ বিষয় যা আমরা অনায়াসেই করে ফেলতে পারি অথচ AI সেসব ভুল করে বসছে। কেন এমন হচ্ছে? AI-কে বুঝতে গেলে এই বিষয়টাও আমাদের বোঝা দরকার।

এই সেদিন স্কুলের ফিজিক্স বইয়ের খুব সাধারণ একটা বিষয় – একটা অবতল দর্পণের জন্য আলোর রশ্মি-চিত্র (রে ডায়াগ্রাম) আঁকতে দিলাম এ.আই. কে। কিন্তু, AI কেমন সব গুলিয়ে ফেললো। রশ্মিগুলোকে একদম ঠিকঠাক জায়গা দিয়ে পাঠালো না, লেবেলিং-এ গোলমাল করলো ইত্যাদি। এত সহজ একটা বিষয় AI ঠিকমতো করতে পারছিলো না দেখে অবাকই হচ্ছিলাম। আসলে, আধুনিক AI-এর নানান কর্মকান্ডের পিছনে যেসব এলগোরিদম আছে, যেমন ছবি আঁকার জন্য ডিফিউশান মডেল, প্রম্পট বুঝে জেনারেট করার জন্য লার্জ ল্যাঙ্গোয়েজ মডেল এসবই হলো সম্ভাব্যতার মডেল (probabilistic model)। অথচ আলোক রশ্মির ছবি আঁকতে হবে ফিজিক্সের নিয়ম মেনে একেবারে নির্দিষ্টভাবে। AI-কে যদি এরকম অসংখ্য ছবি দিয়ে ট্রেইন করানোও হয়, তবু সে তা থেকে বুঝে নিয়ে একটা সম্ভাব্য ছবি আঁকতে গিয়ে সেখানে একটা পিক্সেলের এদিক ওদিক করে ফেললেই হয়ত দেখা যাবে আলোকরশ্মি ফোকাস বিন্দু দিয়ে যাচ্ছে না। তাই, আলোক বিজ্ঞানের নিয়ম অনুযায়ী সঠিক ছবি আঁকতে পারছে না সে। অথচ একজন স্কুল পড়ুয়া নিয়মটা জেনে নিয়ে কত অনায়াসেই এরকম একটা ছবি স্পেন্সিল দিয়ে লাইন টেনে করে ফেলছে। একটা এ.আই. রোবটের হাতে পেন্সিল ধরিয়ে দিয়ে তাকে দিয়ে এরকম একটা রে-ডায়াগ্রাম আঁকিয়ে নিতে গেলে হয়ত অনেক কর্মকাণ্ড করতে হবে। তবে, এক্ষেত্রে এ.আই. অ্যাপ দিয়ে করিয়ে নেওয়ার জন্য একটা উপায় বার করা যায়। আমরা যদি প্রম্পটে বলি ফিজিক্সের সূত্র মেনে একটা উপযুক্ত পাইথন প্রোগ্রাম লিখে দাও, AI তা করবে। তারপর সেই কম্পিউটার প্রোগ্রাম চালিয়ে আমরা সঠিক ছবি এঁকে নিতে পারব।

বোঝা যাচ্ছে, AI-এর উপর নির্ভরশীলতার ক্ষেত্রে আমাদের সচেতন থাকতে হবে। একদিকে যেমন আধুনিক কোন AI ম্যাজিকের মতো সব অসাধ্য সাধন করছে – অনবদ্য টেক্সট, ছবি, ভিডিও তৈরি করতে পারছে আবার কখনো হয়ত খুব সাধারণ ব্যাপারে একেবারে ডাঁহা ফেল করছে! এই যেমন, শুরুতে যে ধাঁধা-র কথা লিখেছি, আমরা স্বাভাবিকভাবে ভেবে নিতে পারি, তার উত্তর হবে 10 সেকেন্ড। অন্য আর কিছু কি হতে পারে? AI ও একই উত্তর দেবে?

একটু খতিয়ে দেখলে সঠিক উত্তর পাবো 11.25 সেকেন্ড! একটু মনোযোগ দিয়ে দেখলে আমরা বুঝে যাবো, 5-বার শব্দ (strike) করা মানে আসলে 4-টে গ্যাপ (মধ্যবর্তী সময়)। তাহলে, এরকম একটি গ্যাপের জন্য (একটা স্ট্রাইক থেকে পরের স্ট্রাইকে যেতে) সময় লাগছে 5/4 = 1.25 সেকেন্ড। এই হিসাব ধরে যখন 10-বার শব্দ হবে সেক্ষেত্রে 9-টা গ্যাপ ধরতে হবে। সেক্ষেত্রে মোট সময় লাগবে, 9 × 1.25 = 11.25 সেকেন্ড।

এইরকম একটা ধাঁধা অথবা কোন সমস্যা যার ভিতরে যুক্তির অনেকগুলো স্তর থাকতে পারে সেসব সাধারণত আমাদের স্বাভাবিক ভাবনার বিপরীত (counterintuitive)। বহু সমস্যার ক্ষেত্রেই এরকম একটা ব্যাপার ঘটে। বিজ্ঞানের গবেষণায় আমরা এরকম দেখি। অনেক প্যারাডক্স-এর কথা আমরা জানি, যেগুলোর চটজলদি উত্তর (intuitive answer) একরকম হয় আবার একটু গভীরে গিয়ে বিশ্লেষণ করলে দেখা যায় উত্তর একেবারে বিপরীত কিছু হচ্ছে বা একেবারে অন্যরকম কিছু। এই গভীরে যাওয়ার মানে কী? মানে হলো, আমরা প্রাথমিকভাবে যা ভেবেছি তাকে নানাদিক থেকে পরীক্ষা করে দেখা, কোথাও অযৌক্তিক মনে হলে তার সংশোধন করে নতুন পথের সন্ধান করা। এইরকম মনস্তত্ত্বের সন্ধান করাটা জরুরি। AI-এর ক্ষেত্রে কি সেরকম কিছু সম্ভব? আসলে, AI ইঞ্জিনিয়াররা নিউরাল নেটওয়ার্ক-কে এভাবেই ট্রেনিং করাতে শুরু করেছেন এখন। প্রাথমিকভাবে যে আউটপুট পাওয়া যাচ্ছে তাকে আবার ইনপুটে দিয়ে বিশ্লেষণ করে দেখা হচ্ছে কতটা তা যুক্তিযুক্ত। তারপর আবার সেই বুঝে ট্রেনিং। আসলে, এ যেন নিজেই নিজেকে চ্যালেঞ্জ করার ব্যাপার।

নোবেলজয়ী ড্যানিয়েল কানহেম্যান-এর বিখ্যাত বই, “Thinking fast and slow”-তে তিনি আমাদের চিন্তার পদ্ধতির ক্ষেত্রে দুরকম সিস্টেম – system 1 এবং system 2-এর কথা বলেছেন। প্রাথমিকভাবে আমরা হামেশাই system 1 কে অনুসরণ করে থাকি, স্বাভাবিকভাবে চটজলদি (fast thinking) সিদ্ধান্ত নিয়ে ফেলি (intuitive answer)। দ্বিতীয়টার জন্য অর্থাৎ system 2-এর ব্যবহার আমরা তখনই করি যখন আমরা ধীরেসুস্থে ভাবতে পারি (slow thinking)। দেখা যাবে, হয়ত স্বাভাবিক সিদ্ধান্তের তুলনায় একেবারে অন্যরকম কিছু পাচ্ছি। একটা ব্যাপার বেশ বোঝা যাচ্ছে, AI-কে যদি system 2-এর পদ্ধতিতে ট্রেইন করা যায় তাহলে সে যুক্তির নানান স্তর ভেদ করে আরো গভীর চিন্তাভাবনার অনুসারী হয়ে উঠতে পারে।

একটা মজার ব্যাপার হলো – AI যেসব কঠিন অকল্পনীয় জটিল সমস্যার সমাধান করতে পারে মানুষ তা পারে না। আবার, মানুষ অনেককিছু সহজ সাধারণ কাজ করতে পারে যেগুলো AI পারে না। What is brutally hard for a human is trivial for a machine, and what is effortless for a human is a mountain for an AI.

চেতনা বা বোধশক্তির দিক থেকে এ এক দারুণ বৈপরীত্য (inversion of cognition)। কগনিটিভ সায়েন্স বা কম্পিউটার সায়েন্সে এই ব্যাপারটাকে বলে Moravec’s paradox (রোবটবিজ্ঞানী Hans Moravec, 1980)! বিষয়টা ভেবে দেখলে বেশ অদ্ভুত মনে হবে।

উচ্চ পর্যায়ের যুক্তিনির্ভর (high level reasoning) সমাধানের যেসব বিষয়, যেমন ক্যালকুলাসের অঙ্ক করা অথবা দাবা খেলা, এইসব কাজের জন্য দরকার হয় অল্প কম্পিউটেশান অথচ নীচু পর্যায়ের সেনসরিমোটর এবং স্থানিক দক্ষতা (spatial skills) যেমন হাঁটা, মুখাবয়ব মনে রাখা অথবা দূরত্ব অনুমান করে লাইন টানতে পারা ইত্যাদির জন্য দরকার হয় বিশাল কম্পিউটেশান।

স্কুলের ছাত্রছাত্রীরা যখন খাতায় অপটিক্যাল রে-ডায়াগ্রাম আঁকে তখন তারা প্রথমে বীজগণিতের সমীকরণ সমাধান করবে তারপর সেইমতো লাইন টানবে এরকম হয় না। কীভাবে আঁকবে এটা তাদের মাথাতেই থাকে। আসলে, এইরকম একটা কাজের জন্য আমরা যে মস্তিষ্ক ব্যবহার করছি তা লক্ষ লক্ষ বছর ধরে জৈব বিবর্তনের ফলে তিনমাত্রার বস্তুজগতে নেভিগেট করতে পারদর্শী হয়ে উঠেছে। যুগযুগান্ত ধরে মানুষের বেঁচে থাকা নির্ভর করেছে কীভাবে একটা বস্তুর গতিপথ বা ট্রাজেক্টরিকে বুঝতে হয়। বল্লম ছুঁড়ে পশু শিকার করা, উঁচু গাছ থেকে ফল পড়লে তা লুফে নেওয়া অথবা ক্রান্তীয় তৃণভূমিতে ঘুরে বেড়ানো, দিক নির্ধারণ করা এসব কাজে আমাদের মস্তিষ্ক সুদীর্ঘ সময় ব্যবহৃত হতে হতে যেন ত্রিমাত্রিক স্পেসে নেভিগেট করার জন্য দক্ষ হয়ে উঠেছে। বলা যেতে পারে, আমাদের ভিস্যুয়াল কর্টেক্স হয়ে উঠেছে অত্যন্ত ভালো পরিশীলিত বিশাল এক রিয়েল টাইম সিম্যুলেটার। আমরা যখন হাতে একটা রে-ডায়াগ্রাম আঁকি, ফোকাস বিন্দুর মধ্যে দিয়ে তাকে পাঠাতে চাই, আমাদের চোখ পেন্সিলকে রিয়েল টাইমে ট্র‍্যাক করে। যদি পেন্সিলটা এক মিলিমিটারও এদিক ওদিক সরে যায়, আমাদের মস্তিষ্ক তা সঙ্গে সঙ্গেই বুঝে নেয় আর আমাদের হাতের পেশীর সাথে সমন্বয় সাধন করে ভুল সংশোধন করতে থাকে। AI-এর ক্ষেত্রে এরকম ব্যাপার ঘটে না। AI-এর সাথে বাস্তব জগতের কোন সম্পর্ক নেই, আমাদের এই লিভিং স্পেস সম্পর্কে তার কোন ধারণা নেই।

অঙ্ক একটা বিশেষ স্কিল। এলজেবরা, ক্যালকুলাস এইসব বিধিবদ্ধ অঙ্ক মাত্র কয়েক হাজার বছরের পুরোনো, আমাদের বিবর্তনের সময়কালের তুলনায় যা নগন্য। আমাদের জৈব বিবর্তন ক্যালকুলাসের জন্য আমাদের মস্তিষ্কে বিশেষ “ক্যালকুলাস লোব” তৈরি করে নি। আমাদের মস্তিষ্ক মূলত: ভাষা এবং যুক্তির জন্য তৈরি। এসব ব্যাপারে আমরা স্বাভাবিক, স্বাচ্ছন্দ্য। এভাবে প্রস্তুত মস্তিষ্কের কিছু অংশকে যখন আমরা অঙ্ক করার জন্য ব্যবহার করি, তা আমাদের কাছে হয়ে দাঁড়ায় চরম মানসিক পরিশ্রমের ব্যাপার, আর ভুলও হতে থাকে এতে। তুলনায় AI-এর আর্কিটেকচার তৈরি হয়েছে একেবারে উল্টোদিক থেকে। আমাদের মতো AI-এর বেঁচে থাকার কোন তাগিদ নেই, জাগতিক ব্যাপারের সাথে কোন সম্পর্ক নেই। সে শুধু বিশাল পরিসংখ্যানগত অনুমানের এক খেলা (statistical guess game) থেকে সিদ্ধান্ত নেয় কোন কোন পিক্সেল একসাথে যেতে পারে, কোন টোকেনগুলো আসতে পারে। AI-এর জন্ম হয়েছে ডিজিটাল ওয়ার্ল্ড-এর ডাটা, অঙ্ক আর সিম্বলিক লজিক-এর মধ্যে। একটা কমপ্লেক্স ম্যাট্রিক্স-কে প্রসেস করা অথবা সেকেন্ডে কোটি কোটি বীজগাণিতিক অপারেশান করা তার কাছে স্বাভাবিক। এখানে টায়ার্ড হয়ে যাবার ব্যাপার নেই, ব্রেইন ফগ-এর কোন গল্প নেই! অথচ মানুষের মত বাস্তব জগত সম্পর্কে তার কোন ধারণা নেই।

এককথায় বলা যায়, আমরা মানুষেরা এক স্থানিক জীব (spatial creature)। আমরা প্রতিনিয়ত যুক্তি (logic) বোঝার চেষ্টা করে যাচ্ছি আর AI হলো এক যৌক্তিক সৃষ্টি (logical creature) যা স্পেস বোঝার চেষ্টা করে যাচ্ছে!

———-

AI এসে গেছে (পর্ব ৭)

AI এসে গেছে (পর্ব ৭)

এই নিবন্ধটি ছড়িয়ে দিন

Leave a Reply Cancel reply