
কৃত্রিম বুদ্ধিমত্তায় দু ধরনের ‘লার্নিং’ ব্যবহার করা হয়। এক হল ‘সুপারভাইজড লার্নিং’, যার অর্থ কারও বা কোনো কিছুর নির্দেশে বা তত্ত্বাবধানে কিছু শেখা। যেমন হাজার কোটি কুকুর আর বেড়ালের চিত্ররূপ দেখিয়ে প্রত্যেকটিরই গায়ে ‘কুকুর’ কিংবা ‘বেড়াল’ লেবেল সেঁটে দেওয়া হল। তখন কৃত্রিম বুদ্ধিমত্তার ‘নিউরাল নেটওয়ার্ক’ (স্নায়ুজালিকা) শিখে নেবে যে এই হল কুকুর কিংবা বেড়াল। দুই হল ‘রিইনফোর্স্ড লার্নিং’, যার অর্থ কারও নির্দেশনা ছাড়াই নিজের অভিজ্ঞতা থেকে শিখে নেওয়া। এখানে ‘পুরস্কার ক্রিয়া’ (রিওয়ার্ড ফাংশান) বলে একটা ব্যাপার থাকে। ‘প্রশিক্ষণ ভালো’ হলেই স্নায়ুজালিকটি একটি ‘পুরস্কার’ পায়। সে তখন সর্বোচ্চ সংখ্যক পুরস্কার জিতে নিতে সচেষ্ট হয়। অনেক ক্ষেত্রে এটা বেশ সফল হয়।
সম্প্রতি এই রি-ইনফোর্সড লার্নিং প্রকৌশলের আদি উদ্ভাবকের স্বীকৃতি স্বরূপ অ্যান্ড্রু বার্টো এবং রিচ সাটন এই দু বিজ্ঞানীকে টুরিং সম্মানে ভূষিত করা হয়েছে। কম্পিউটার বিজ্ঞানের দুনিয়ায় এটিই সবচেয়ে বড়ো সম্মান। ‘অ্যাসোসিয়েশন ফর কম্পিউটিং মেশিনারি’ প্রতি বছর এই টুরিং পুরস্কার দেয়। এই সংস্থার সভাপতি বলেছেন, আজকের এই এ আই রমরমার পিছনে রয়েছে এই দুজনের কাজ । অথচ ১৯৮০-র দশকে অ্যান্ড্রু বার্টো এবং রিচ সাটনকে খ্যাপাদের দলে ফেলা হত। তাঁরা মনে করতেন, মানুষ আর প্রাণীরা যেমন অভিজ্ঞতা থেকে শিখে নেয়, মেশিনকেও সেইভাবে শেখানো সম্ভব। কয়েক দশক পেরিয়ে আজ তাঁদের প্রকল্পিত সেই প্রকৌশল আধুনিক কৃত্রিম বুদ্ধিমত্তার অঙ্গনে চরম গুরুত্ব লাভ করেছে। বার্টো হলেন মাসাচুসেট্স অ্যামহার্স্ট বিশ্ববিদ্যালয়ের অধ্যাপক, আর সাটন অ্যালবার্টা বিশ্ববিদ্যালয়ের। খবরটা পেয়ে ঈষৎ হেসে বার্ট মন্তব্য করেছেন, ‘আমি যখন কাজটা শুরু করি তখন তো এটাকে কেউ পাত্তা দিত না। একাজ যে কিছুটা প্রভাব ফেলেছে , কিছুটা নজর কেড়েছে, এটা খুব বলবার মতো ঘটনা’। ‘রি-ইনফোর্স্ড লার্নিং’ প্রকৌশলের সবচেয়ে প্রসিদ্ধ প্রয়োগ ঘটে ২০১৬ সালে যখন ডিপ মাইন্ড এর সাহায্যে গুগ্ল ‘আলফাগো’ প্রোগ্রাম বানায়। ‘গো টু’ নামে অসম্ভব জটিল একটা খেলার নিয়মকানুন সে নিজেই রপ্ত করে নেয়। সেখান থেকে শুরু করে কত যে ক্ষেত্রে এর প্রয়োগ ঘটেছে! এমনকি খোদ চিপ-এর নকশা বানানোতেও। রোবোটিক্সেও এই পদ্ধতির প্রয়োগ ঘটছে অনেক দিন ধরে। ভুল থেকে শিখে নিয়ে কীভাবে ভৌত ক্রিয়া সম্পন্ন করতে হয় সে ব্যাপারে মেশিনকে শিক্ষা দেওয়ার কাজে লাগে এই প্রকৌশল। ইদানীং লার্জ ল্যাঙ্গুয়েজ মডেলগুলিতে এবং অস্বাভাবিক ক্ষমতাসম্পন্ন চ্যাটবট প্রোগ্রামগুলিতে এই রি-ইনফোর্সমেন্ট লার্নিং প্রকৌশল অপরিহার্য হয়ে উঠেছে। কৃত্রিম বুদ্ধিমত্তাকে মানুষের যুক্তিবোধ নকল করতে শিখিয়ে আরও সুপটু ‘এ আই এজেন্ট’ বানানোর কাজেও লাগছে এটি। তবে সাটন জানাচ্ছেন, অ্যালগরিদ্ম নয়, মানুষই এখনো এইসব মডেলের সামনে লক্ষ্য স্থির করে দিচ্ছে। তাঁর মতে মেশিন যখন সম্পূর্ণ নিজের চেষ্টায়, নিজেরই অভিজ্ঞতার ভিত্তিতে কাজ করতে পারবে তখন সেটা আরও ফলপ্রসূ হবে।
রি-ইনফোর্সমেন্ট প্রকৌশলের ইতিহাসটি দীর্ঘ এবং ঘটনাবহুল। একেবারে শুরুতেই সুদূর ১৯৫০ সালে অ্যালান টুরিং বলেছিলেন যে যন্ত্রের পক্ষে অভিজ্ঞতা থেকে শিখে নেওয়া সম্ভব। কৃ বু-র এক আদি উদ্গাতা আর্থার স্যামুয়েল তখনই রি-ইনফোর্সমেন্ট প্রকৌশল কাজে লাগিয়ে চেকার্স খেলতে পটু এক প্রোগ্রাম বনিয়েছিলেন। কিন্তু তারপর ব্যাপারটি ঝিমিয়ে পড়ে। বার্টো, সাটন এবং আরও কয়েকজন কিন্তু হাল ছাড়লেন না। জীববিজ্ঞান আর মনস্তত্ত্ব থেকে প্রেরণা নিলেন তাঁরা। প্রাণীদের আচরণ কীভাবে উদ্দীপনা মারফত রূপ নেয় সে বিষয়টি ১৯৯০-এর দশকের গোড়ায় অনুধাবন করেন তাঁরা। স্নায়ুবিজ্ঞান আর কন্ট্রোল থিওরি থেকেও অনেক কিছু গ্রহণ করে তাঁরা এমন এক অ্যালগরিদ্ম তৈরি করতে সমর্থ হলেন যার সাহায্যে কম্পিউটার ওই ধরনের শিক্ষাগ্রহণকে অনুকরণ করতে পারল। ক্রমে এ প্রকৌশল অনেক ব্যবহারিক কাজে লাগল। এখনও এটি বিকশিত হয়ে চলেছে। কম্পিউটিং ও অন্যান্য বিদ্যাচর্চার ক্ষেত্রে এটি প্রচুর অগ্রগতির সম্ভাব্য পথ খুলে দিচ্ছে। তবে এর কিছু নৈতিক সমস্যা রয়েছে। কৃ বু সিস্টেম যদি অজান্তে বিগড়ে যায় তাহলে কী হবে? ভুল উদ্দীপনার বশে সে হয়তো ক্রমাগত একটা রোবটকে পিটেই চলবে। বার্টোর অধ্যাপক-ছাত্ররা এ সমস্যা নিয়ে কাজ করে চলেছেন। তবে এসব বিপদের চেয়ে এর সুবিধের দিকটাই অনেক বেশি, বিশেষ করে জলবায়ু পরিবর্তন এবং আরও অন্যান্য বড়ো বড়ো সমস্যার মোকাবিলায়। বার্টোর মতে, সাবধানে ব্যবহার করলে এর মঙ্গলের দিকটাই প্রধান।
(কৃতজ্ঞতা: ড. অমিতাভ দত্ত)