AI এসে গেছে (পর্ব ৭)

AI এসে গেছে (পর্ব ৭)

অভিজিৎ কর গুপ্ত 
পদার্থ বিজ্ঞানের অধ্যাপক, পাঁশকুড়া বনমালী কলেজ (অটোনমাস)
Posted on ১৪ জুন, ২০২৬

শুরু করি একটা ধাঁধা দিয়ে।

একটি ঘড়ি 5 বার শব্দ করতে 5 সেকেন্ড সময় নেয়। তাহলে, 10 বার শব্দ করতে কত সময় নেবে?

 

উত্তর কত হবে? 10 সেকেন্ড? হয়ত তাই। হয়ত এটা একটা লোক ঠকানো প্রশ্ন। নাকি অন্য কিছু? আচ্ছা, একটু ভাবা যাক। উত্তরে পরে আসছি।

 

ভাবছিলাম, কী আশ্চর্য এই সময়! দ্রুত পাল্টে যাচ্ছে সবকিছু। জেনারেটিভ AI, এজেন্টিক AI-এর ম্যাজিক প্রতিনিয়ত অবাক করে চলেছে আমাদের। তবু মাঝেমাঝেই প্রশ্ন উঠছে AI কি সব পারে? AI কি উপরের এই ধাঁধাটির সঠিক সমাধান করতে পারবে?

 

আমরা দেখছি – সবচেয়ে কমপ্লেক্স বোর্ডগেম গো, দীর্ঘদিনের চ্যালেঞ্জিং প্রোটিন ফোল্ডিং প্রবলেম অথবা গণিতের অমীমাংসিত সব কনজেকচার – এরকম একের পর এক হিউম্যান ফ্রন্টিয়ার জয় করে চলেছে কৃত্রিম বুদ্ধিমত্তার আধুনিক সব মডেল। অথচ কখনো কখনো কিছু ছেলেমানুষী ধাঁধা, বা সাধারণ কিছু জ্যামিতিক ছবি, অথবা আরো কিছু সাধারণ বিষয় যা আমরা অনায়াসেই করে ফেলতে পারি অথচ AI সেসব ভুল করে বসছে। কেন এমন হচ্ছে? AI-কে বুঝতে গেলে এই বিষয়টাও আমাদের বোঝা দরকার।

 

এই সেদিন স্কুলের ফিজিক্স বইয়ের খুব সাধারণ একটা বিষয় – একটা অবতল দর্পণের জন্য আলোর রশ্মি-চিত্র (রে ডায়াগ্রাম) আঁকতে দিলাম এ.আই. কে। কিন্তু, AI কেমন সব গুলিয়ে ফেললো। রশ্মিগুলোকে একদম ঠিকঠাক জায়গা দিয়ে পাঠালো না, লেবেলিং-এ গোলমাল করলো ইত্যাদি। এত সহজ একটা বিষয় AI ঠিকমতো করতে পারছিলো না দেখে অবাকই হচ্ছিলাম। আসলে, আধুনিক AI-এর নানান কর্মকান্ডের পিছনে যেসব এলগোরিদম আছে, যেমন ছবি আঁকার জন্য ডিফিউশান মডেল, প্রম্পট বুঝে জেনারেট করার জন্য লার্জ ল্যাঙ্গোয়েজ মডেল এসবই হলো সম্ভাব্যতার মডেল (probabilistic model)। অথচ আলোক রশ্মির ছবি আঁকতে হবে ফিজিক্সের নিয়ম মেনে একেবারে নির্দিষ্টভাবে। AI-কে যদি এরকম অসংখ্য ছবি দিয়ে ট্রেইন করানোও হয়, তবু সে তা থেকে বুঝে নিয়ে একটা সম্ভাব্য ছবি আঁকতে গিয়ে সেখানে একটা পিক্সেলের এদিক ওদিক করে ফেললেই হয়ত দেখা যাবে আলোকরশ্মি ফোকাস বিন্দু দিয়ে যাচ্ছে না। তাই, আলোক বিজ্ঞানের নিয়ম অনুযায়ী সঠিক ছবি আঁকতে পারছে না সে। অথচ একজন স্কুল পড়ুয়া নিয়মটা জেনে নিয়ে কত অনায়াসেই এরকম একটা ছবি স্পেন্সিল দিয়ে লাইন টেনে করে ফেলছে। একটা এ.আই. রোবটের হাতে পেন্সিল ধরিয়ে দিয়ে তাকে দিয়ে এরকম একটা রে-ডায়াগ্রাম আঁকিয়ে নিতে গেলে হয়ত অনেক কর্মকাণ্ড করতে হবে। তবে, এক্ষেত্রে এ.আই. অ্যাপ দিয়ে করিয়ে নেওয়ার জন্য একটা উপায় বার করা যায়। আমরা যদি প্রম্পটে বলি ফিজিক্সের সূত্র মেনে একটা উপযুক্ত পাইথন প্রোগ্রাম লিখে দাও, AI তা করবে। তারপর সেই কম্পিউটার প্রোগ্রাম চালিয়ে আমরা সঠিক ছবি এঁকে নিতে পারব।

 

বোঝা যাচ্ছে, AI-এর উপর নির্ভরশীলতার ক্ষেত্রে আমাদের সচেতন থাকতে হবে। একদিকে যেমন আধুনিক কোন AI ম্যাজিকের মতো সব অসাধ্য সাধন করছে – অনবদ্য টেক্সট, ছবি, ভিডিও তৈরি করতে পারছে আবার কখনো হয়ত খুব সাধারণ ব্যাপারে একেবারে ডাঁহা ফেল করছে! এই যেমন, শুরুতে যে ধাঁধা-র কথা লিখেছি, আমরা স্বাভাবিকভাবে ভেবে নিতে পারি, তার উত্তর হবে 10 সেকেন্ড। অন্য আর কিছু কি হতে পারে? AI ও একই উত্তর দেবে?

 

একটু খতিয়ে দেখলে সঠিক উত্তর পাবো 11.25 সেকেন্ড! একটু মনোযোগ দিয়ে দেখলে আমরা বুঝে যাবো, 5-বার শব্দ (strike) করা মানে আসলে 4-টে গ্যাপ (মধ্যবর্তী সময়)। তাহলে, এরকম একটি গ্যাপের জন্য (একটা স্ট্রাইক থেকে পরের স্ট্রাইকে যেতে) সময় লাগছে 5/4 = 1.25 সেকেন্ড। এই হিসাব ধরে যখন 10-বার শব্দ হবে সেক্ষেত্রে 9-টা গ্যাপ ধরতে হবে। সেক্ষেত্রে মোট সময় লাগবে, 9 × 1.25 = 11.25 সেকেন্ড।

 

এইরকম একটা ধাঁধা অথবা কোন সমস্যা যার ভিতরে যুক্তির অনেকগুলো স্তর থাকতে পারে সেসব সাধারণত আমাদের স্বাভাবিক ভাবনার বিপরীত (counterintuitive)। বহু সমস্যার ক্ষেত্রেই এরকম একটা ব্যাপার ঘটে। বিজ্ঞানের গবেষণায় আমরা এরকম দেখি। অনেক প্যারাডক্স-এর কথা আমরা জানি, যেগুলোর চটজলদি উত্তর (intuitive answer) একরকম হয় আবার একটু গভীরে গিয়ে বিশ্লেষণ করলে দেখা যায় উত্তর একেবারে বিপরীত কিছু হচ্ছে বা একেবারে অন্যরকম কিছু। এই গভীরে যাওয়ার মানে কী? মানে হলো, আমরা প্রাথমিকভাবে যা ভেবেছি তাকে নানাদিক থেকে পরীক্ষা করে দেখা, কোথাও অযৌক্তিক মনে হলে তার সংশোধন করে নতুন পথের সন্ধান করা। এইরকম মনস্তত্ত্বের সন্ধান করাটা জরুরি। AI-এর ক্ষেত্রে কি সেরকম কিছু সম্ভব? আসলে, AI ইঞ্জিনিয়াররা নিউরাল নেটওয়ার্ক-কে এভাবেই ট্রেনিং করাতে শুরু করেছেন এখন। প্রাথমিকভাবে যে আউটপুট পাওয়া যাচ্ছে তাকে আবার ইনপুটে দিয়ে বিশ্লেষণ করে দেখা হচ্ছে কতটা তা যুক্তিযুক্ত। তারপর আবার সেই বুঝে ট্রেনিং। আসলে, এ যেন নিজেই নিজেকে চ্যালেঞ্জ করার ব্যাপার।

 

নোবেলজয়ী ড্যানিয়েল কানহেম্যান-এর বিখ্যাত বই, “Thinking fast and slow”-তে তিনি আমাদের চিন্তার পদ্ধতির ক্ষেত্রে দুরকম সিস্টেম – system 1 এবং system 2-এর কথা বলেছেন। প্রাথমিকভাবে আমরা হামেশাই system 1 কে অনুসরণ করে থাকি, স্বাভাবিকভাবে চটজলদি (fast thinking) সিদ্ধান্ত নিয়ে ফেলি (intuitive answer)। দ্বিতীয়টার জন্য অর্থাৎ system 2-এর ব্যবহার আমরা তখনই করি যখন আমরা ধীরেসুস্থে ভাবতে পারি (slow thinking)। দেখা যাবে, হয়ত স্বাভাবিক সিদ্ধান্তের তুলনায় একেবারে অন্যরকম কিছু পাচ্ছি। একটা ব্যাপার বেশ বোঝা যাচ্ছে, AI-কে যদি system 2-এর পদ্ধতিতে ট্রেইন করা যায় তাহলে সে যুক্তির নানান স্তর ভেদ করে আরো গভীর চিন্তাভাবনার অনুসারী হয়ে উঠতে পারে।

 

একটা মজার ব্যাপার হলো – AI যেসব কঠিন অকল্পনীয় জটিল সমস্যার সমাধান করতে পারে মানুষ তা পারে না। আবার, মানুষ অনেককিছু সহজ সাধারণ কাজ করতে পারে যেগুলো AI পারে না। What is brutally hard for a human is trivial for a machine, and what is effortless for a human is a mountain for an AI.

চেতনা বা বোধশক্তির দিক থেকে এ এক দারুণ বৈপরীত্য (inversion of cognition)। কগনিটিভ সায়েন্স বা কম্পিউটার সায়েন্সে এই ব্যাপারটাকে বলে Moravec’s paradox (রোবটবিজ্ঞানী Hans Moravec, 1980)! বিষয়টা ভেবে দেখলে বেশ অদ্ভুত মনে হবে।

 

উচ্চ পর্যায়ের যুক্তিনির্ভর (high level reasoning) সমাধানের যেসব বিষয়, যেমন ক্যালকুলাসের অঙ্ক করা অথবা দাবা খেলা, এইসব কাজের জন্য দরকার হয় অল্প কম্পিউটেশান অথচ নীচু পর্যায়ের সেনসরিমোটর এবং স্থানিক দক্ষতা (spatial skills) যেমন হাঁটা, মুখাবয়ব মনে রাখা অথবা দূরত্ব অনুমান করে লাইন টানতে পারা ইত্যাদির জন্য দরকার হয় বিশাল কম্পিউটেশান।

 

স্কুলের ছাত্রছাত্রীরা যখন খাতায় অপটিক্যাল রে-ডায়াগ্রাম আঁকে তখন তারা প্রথমে বীজগণিতের সমীকরণ সমাধান করবে তারপর সেইমতো লাইন টানবে এরকম হয় না। কীভাবে আঁকবে এটা তাদের মাথাতেই থাকে। আসলে, এইরকম একটা কাজের জন্য আমরা যে মস্তিষ্ক ব্যবহার করছি তা লক্ষ লক্ষ বছর ধরে জৈব বিবর্তনের ফলে তিনমাত্রার বস্তুজগতে নেভিগেট করতে পারদর্শী হয়ে উঠেছে। যুগযুগান্ত ধরে মানুষের বেঁচে থাকা নির্ভর করেছে কীভাবে একটা বস্তুর গতিপথ বা ট্রাজেক্টরিকে বুঝতে হয়। বল্লম ছুঁড়ে পশু শিকার করা, উঁচু গাছ থেকে ফল পড়লে তা লুফে নেওয়া অথবা ক্রান্তীয় তৃণভূমিতে ঘুরে বেড়ানো, দিক নির্ধারণ করা এসব কাজে আমাদের মস্তিষ্ক সুদীর্ঘ সময় ব্যবহৃত হতে হতে যেন ত্রিমাত্রিক স্পেসে নেভিগেট করার জন্য দক্ষ হয়ে উঠেছে। বলা যেতে পারে, আমাদের ভিস্যুয়াল কর্টেক্স হয়ে উঠেছে অত্যন্ত ভালো পরিশীলিত বিশাল এক রিয়েল টাইম সিম্যুলেটার। আমরা যখন হাতে একটা রে-ডায়াগ্রাম আঁকি, ফোকাস বিন্দুর মধ্যে দিয়ে তাকে পাঠাতে চাই, আমাদের চোখ পেন্সিলকে রিয়েল টাইমে ট্র‍্যাক করে। যদি পেন্সিলটা এক মিলিমিটারও এদিক ওদিক সরে যায়, আমাদের মস্তিষ্ক তা সঙ্গে সঙ্গেই বুঝে নেয় আর আমাদের হাতের পেশীর সাথে সমন্বয় সাধন করে ভুল সংশোধন করতে থাকে। AI-এর ক্ষেত্রে এরকম ব্যাপার ঘটে না। AI-এর সাথে বাস্তব জগতের কোন সম্পর্ক নেই, আমাদের এই লিভিং স্পেস সম্পর্কে তার কোন ধারণা নেই।

 

অঙ্ক একটা বিশেষ স্কিল। এলজেবরা, ক্যালকুলাস এইসব বিধিবদ্ধ অঙ্ক মাত্র কয়েক হাজার বছরের পুরোনো, আমাদের বিবর্তনের সময়কালের তুলনায় যা নগন্য। আমাদের জৈব বিবর্তন ক্যালকুলাসের জন্য আমাদের মস্তিষ্কে বিশেষ “ক্যালকুলাস লোব” তৈরি করে নি। আমাদের মস্তিষ্ক মূলত: ভাষা এবং যুক্তির জন্য তৈরি। এসব ব্যাপারে আমরা স্বাভাবিক, স্বাচ্ছন্দ্য। এভাবে প্রস্তুত মস্তিষ্কের কিছু অংশকে যখন আমরা অঙ্ক করার জন্য ব্যবহার করি, তা আমাদের কাছে হয়ে দাঁড়ায় চরম মানসিক পরিশ্রমের ব্যাপার, আর ভুলও হতে থাকে এতে। তুলনায় AI-এর আর্কিটেকচার তৈরি হয়েছে একেবারে উল্টোদিক থেকে। আমাদের মতো AI-এর বেঁচে থাকার কোন তাগিদ নেই, জাগতিক ব্যাপারের সাথে কোন সম্পর্ক নেই। সে শুধু বিশাল পরিসংখ্যানগত অনুমানের এক খেলা (statistical guess game) থেকে সিদ্ধান্ত নেয় কোন কোন পিক্সেল একসাথে যেতে পারে, কোন টোকেনগুলো আসতে পারে। AI-এর জন্ম হয়েছে ডিজিটাল ওয়ার্ল্ড-এর ডাটা, অঙ্ক আর সিম্বলিক লজিক-এর মধ্যে। একটা কমপ্লেক্স ম্যাট্রিক্স-কে প্রসেস করা অথবা সেকেন্ডে কোটি কোটি বীজগাণিতিক অপারেশান করা তার কাছে স্বাভাবিক। এখানে টায়ার্ড হয়ে যাবার ব্যাপার নেই, ব্রেইন ফগ-এর কোন গল্প নেই! অথচ মানুষের মত বাস্তব জগত সম্পর্কে তার কোন ধারণা নেই।

 

এককথায় বলা যায়, আমরা মানুষেরা এক স্থানিক জীব (spatial creature)। আমরা প্রতিনিয়ত যুক্তি (logic) বোঝার চেষ্টা করে যাচ্ছি আর AI হলো এক যৌক্তিক সৃষ্টি (logical creature) যা স্পেস বোঝার চেষ্টা করে যাচ্ছে!

———-

Leave a Reply

Your email address will not be published. Required fields are marked *

thirteen + 19 =