Data Science 2 :தகவல் அறிவியல் 2

“வேலை காலியாக இருக்கிறது ! ஐம்பது இலட்சம் பேர் அவசரமாக தேவை”

இன்றைய சூழலில் இப்படி ஒரு விளம்பரம் வந்தால் ஆச்சரியப்படாமல் இருக்க முடியுமா ? உண்மையில் அப்படி ஒரு எண்ணிக்கையிலான அளவுக்கு ‘தகவல் அறிவியல்’ எனப்படும் டேட்டா சயின்ஸ் துறையில் ஆட்கள் தேவைப்படுவார்கள் என்பது தான் யதார்த்தம். அவ்வளவு ஆட்கள் ஏன் தேவை ? தகவல்களை வெச்சு அவ்ளோ விஷயம் நடக்குதா என்ன ? என மனதில் முட்டி மோதும் கேள்விகளுக்குப் பதிலளிக்க வேண்டுமானால் முதலில், டேட்டா சயின்ஸினால் விளைகின்ற நன்மைகள் என்னென்ன என்பதைப் புரிந்து கொள்ள வேண்டும்.

தகவல் அறிவியலின் பயன்பாடு இல்லாத இடம் என்று ஒன்று இனிமேல் இருக்கப் போவதில்லை எனுமளவுக்கு தகவல் அறிவியல் எல்லா இடங்களிலும் நீக்கமற நிறைந்திருக்கப் போகிறது.

உதாரணமாக ஒரு பெரிய சூப்பர் மார்க்கெட்டுக்குப் போகிறீர்கள் என வைத்துக் கொள்ளுங்கள். அங்கே நுழைந்தவுடன் உங்கள் கண்ணுக்குத் தெரியும் விதமாக சில பொருட்கள் இருக்கும். அதாவது கண்பார்வைக்கு நேரான உயரத்தில் !  சில பொருட்கள் கீழே இருக்கும், எளிதில் தட்டுப்படாது. இன்னும் சில பொருட்கள் உயரமான இடத்தில் இருக்கும் பெரியவர்களுக்கு மட்டுமே பார்க்க முடியும். இன்னும் சில பொருட்கள் ‘பில்’ போடும் இடத்துக்கு பக்கத்திலேயே இருக்கும் !  ஏன் இப்படியெல்லாம் அடுக்கி வைக்கிறார்கள் ? என எப்போதாவது யோசித்துப் பார்த்ததுண்டா ?

இவற்றையெல்லாம்  முடிவு செய்வது ‘டேட்டா சயின்ஸ்’ தான் ! ஒரு கடையில் எந்தெந்த பொருட்கள் அதிகமாக விற்பனையாகின்றன ? எந்தெந்த பொருட்கள் குறைவாக விற்பனையாகின்றன ? எந்த பொருட்கள் தவிர்க்க முடியாதவை ? எந்த பொருட்கள் பில் போடும் நேரத்தில் கண்களைக் கவரும் ? என அனைத்து விஷயங்களையும் அலசி ஆராய்ந்து தான் இந்த  அடுக்கி வைக்கும் முறையையே முடிவு செய்கின்றனர். இது வர்த்தகத்தைப் பெருமளவில் அதிகரிக்க உதவுகிறது.

அமெரிக்காவின் பிரபலமான வால்மார்ட் கடைகள் பற்றி உங்களுக்குத் தெரிந்திருக்கும். கடையே அரை கிலோமீட்டர் அளவுக்கு விரிந்து பரந்ததாய் இருக்கக் கூடிய கடைகள் அவை. அவர்கள் டேட்டா சயின்ஸை உதவிக்கு அழைத்து எந்தெந்த பொருட்கள் விற்பனையாகின்றன, எந்தெந்த பொருட்கள் விற்பனை குறைவாக இருக்கின்றன ? போன்ற தகவல்களைத் திரட்டினார்கள். அந்த ஆய்வின் அடிப்படையில் தான் பொருட்களை எங்கே வைக்கவேண்டும், எப்படி வைக்க வேண்டும், எவ்வளவு வைக்க வேண்டும் என்பதைண்டும்யெல்லாம் முடிவு செய்தனர். அதன் பின் அவர்களுடைய வர்த்தகம் வளர்ந்தது !

அதில் ஒரு சுவாரஸ்யமான விஷயத்தைம்யும் கண்டு பிடித்தனர். வெள்ளிக்கிழமைகளில் குழந்தைகளுக்கான டயாப்பர் அதிகமாக விற்பனையானது ! அதென்னடா விஷயம் வெள்ளிக்கிழமை என்பது புரியாத புதிராய் இருந்தது. அதே நாளில் பீர் விற்பனையும் அதிகமாய் இருந்தது ! இரண்டுக்கும் இடையே உள்ள தொடர்பை ஆராய்ந்து பார்த்தால், டயாப்பர் வாங்கும் நபர்களே பீரையும் வாங்குவது தெரிந்தது !  அது எல்லாமே ஆண்கள் தான் என்பதையும் அவர்களுடைய அலசல் காட்டிக் கொடுத்தது. அதன்பின் வால்மார்ட் நிர்வாகம் டயாப்பர் இருக்கும் இடத்துக்கு பக்கத்திலேயே பீர் வகைகளையும் அடுக்கி வைத்தது. இந்த இரண்டு விஷயங்களும் எளிதில் கண்ணுக்குத் தட்டுப்படும் வகையிலும் வைக்கப்பட்டது ! அதன் பின் விற்பனை இன்னும் அதிகரித்தது !

டயாப்பருக்கும், பீருக்கும் என்ன சம்பந்தம் இருக்க முடியும் ? தகவல் அறிவியல் எனும் ஒரு நுட்பம்  இப்படி அலசி ஆராய்ந்து சொன்னால் மட்டுமே இப்படி ஒரு தொடர்பு இருப்பதை அறிய முடியும். இல்லையேல் ஏதோ மொட்டைக்கும் முழங்காலுக்கும் முடிச்சு போடுவது போல சம்பந்தம் இல்லாத விஷயமாகவே தோன்றும்.

அதே போல அமேசான்.காம் உட்பட எந்த ஒரு வர்த்தகத் தளத்துக்குப் போனாலும் ஒரு பொருளை தேடுவீர்கள். உடனே கீழே, அதே போன்ற பல பொருட்களின் தகவல்கள் வரும். இரண்டு பொருட்களைச் சேர்த்து வாங்கினால் தள்ளுபடி விலையில் கிடைக்கும் என வரும். இன்னும் ஒரு படி மேலே போய், நீங்கள் எந்த விலையில் பொருட்களைத் தேடுகிறீகளோ அந்த விலையை ஒட்டிய பொருட்கள் மட்டுமே கண்சிமிட்டும்.  இதன் பின்னணியில் இயங்குவதெல்லாம் டேட்டா சயின்சின் ஏதோ ஒரு அம்சம் தான்.

அப்படியே விளையாட்டுப் பக்கம் போவோம் ! கிரிக்கெட் பார்த்துக் கொண்டிருக்கிறீர்கள் என வைத்துக் கொள்ளுங்கள்.  ரோஹித் ஷர்மா 50 ரன்கள் அடித்தால் உடனே கணினியில் ஏகப்பட்ட புள்ளி விவரங்கள் வரும். ரோஹித் எத்தனை முறை அரை சதம் அடித்திருக்கிறார், யாருக்கு எதிராய் அடித்திருக்கிறார், யாருடைய பார்ட்னர் ஷிப்பில் அடித்திருக்கிறார், எந்தெந்த கிரவுண்டில் அடித்திருக்கிறார், எந்த இன்னிங்சில் அடித்திருக்கிறார், எந்த ஆண்டு அடித்திருக்கிறார், இதே போல யாரெல்லாம் அடித்திருக்கிறார்கள், என நாம் நினைத்துப் பார்க்க முடியாத அளவுக்கு புள்ளி விவரங்களை திணறத் திணற அள்ளித் தெளிப்பார்கள்.

இந்த புள்ளி விவரங்களை வைத்துக் கொண்டு எந்தெந்த களத்தில் எப்படிப்பட்ட ஸ்கோர் அடிக்கப்படலாம், களத்தின் தன்மையைப் பொறுத்து யாரெல்லாம் நன்றாக விளையாடலாம் களத்தின், எந்த பந்து வீச்சாளருக்கு எதிராக ரன்கள் எடுக்கப்படலாம் போன்ற பல விஷயங்களைக் கணிப்பார்கள். விளையாட்டுத் துறையில் நிறைய கணிப்புகளுக்கும், முடிவுகள் எடுப்பதற்கும் இத்தகைய தகவல்களே முதுகெலும்பாய் இருக்கின்றன. இந்த தகவல்களையெல்லாம் அள்ளி அள்ளித் தருவது சாட்சாத் டேட்டா சயின்ஸ் தான்.

விளையாட்டை விட்டு விட்டு மருத்துவப் பகுதியை எட்டிப் பார்த்தால், ஒரு மனிதனுடைய உடல்  ஒரு நாளில் தருகின்ற தகவல்களின் அளவு சுமார் 2 டெரா பைட் என்கிறது தகவல் தொழில்நுட்பம். மனிதனுடைய இதயத் துடிப்பு, இரத்த அழுத்தம், மூச்சு, தூக்கம், நடை என எல்லா விஷயங்களையும் கவனித்து தேவையான ஆலோசனைகளையும், வழிகாட்டுதல்களையும் தரக்கூடிய பல கருவிகளையும், மென்பொருட்களையும் பிரபல நிறுவனங்கள் உருவாக்கியிருக்கின்றன. இப்படி மருத்துவத் துறையில் நோய்களைக் கணிக்கவும், அதன் மூலம் நோய்களின் தாக்கத்தைக் குறைக்கவும், மருத்துவ ஆராய்ச்சிகளை வலுப்படுத்தவும் தகவல் அறிவியல் பயன்படுகிறது.

அதே போல பழைய நுட்பங்களில் இருந்த தவறுகளைத் திருத்திக் கொண்டு,  நோயாளிகளின் நோய்களை கனகட்சிதமாகக் கணிக்க டேட்டா சயின்ஸ் தான் பயன்படுகிறது. தனி நபருடைய மெடிகல் ஹிஸ்டரி, வாழ்க்கைச் சூழல் போன்றவற்றையெல்லாம் அலசி ஆராய முடிவதால் நபருக்கு ஏற்ற மருத்துவம் எனும் தளத்துக்கு மருத்துவ வளர்ச்சி இடம் மாறுகிறது. இனி வரும் காலங்களில் ‘காய்ச்சலுக்கு’ மருந்து எனும் நோய் சார் நிலையிலிருந்து ‘விஜயகுமார்’ க்கு மருந்து எனும் நபர் சார் மருத்துவத்துக்கு மருத்துவத் துறை இடம்பெயரும். அதற்கு டேட்டா சயின்ஸ் தான் துணை செய்யும்.

அப்படியே திரும்பி காப்பீட்டுத் துறைக்குத் தாவினால் அங்கும் டேட்டா சயின்ஸ் கோலோச்சத் துவங்கியிருக்கிறது. கார் இன்சூரன்ஸ் பக்கம் இப்போது பரவி வரும் ‘பே ஹவ் யு டிரைவ்’  எனும் கான்செப்ட் தகவல் அறிவியலின் சிந்தனையில் உருவானதே. அதாவது ஒருவர் கார் ஓட்டுகின்ற ஸ்டைல் எப்படி இருக்கிறது என்பதற்கு ஏற்ப காப்பீடு நிர்ணயிக்கப்படும். அவருடைய காரோட்டும் குணாதிசயத்தை தகவல் அறிவியல் கணித்துச் சொல்கிறது.

ஆளில்லாத கூகிள் கார் கூட டேட்டா சயின்சின் பிள்ளை தான். காரில் இருக்கின்ற பல்வேறு சிக்னல்கள் அள்ளித் தரும் தகவல்களின் அடிப்படையில் கார் பயணிக்கும். இதனால் விபத்துகள் குறையும். ஹெல்த் இன்சூரன்ஸ் பக்கம் போனால் ஒரு மனிதனுடைய உடல் நிலை, அவருடைய உணவுப் பழக்கம், அவருடைய குடிப்பழக்கம், அவருடைய உடற்பயிற்சி, தூக்கம் போன்ற பல்வேறு தகவல்களின் அடிப்படையில் இந்தக்  காப்பீட்டின் மதிப்பு நிர்ணயம் செய்யப்படும்.

வங்கித் துறையை எடுத்துக் கொண்டால் வாடிக்கையாளர்களுடைய தகவல்கள், அவர்களுடைய வங்கிக் கணக்குகள், அவர்கள் பணத்தைச் செலவு செய்யும் முறை என ஏகப்பட்ட விஷயங்களை டேட்டா சயின்ஸ் கணக்கில் கொண்டு வங்கிகளின் தரத்தை உயர்த்துகிறது. வங்கிகளில் நடக்கின்ற மோசடிகளைக் கண்டு பிடிக்கவும், வாடிக்கையாளர்களை வசீகரிக்கும் திட்டங்களை உருவாக்கவும் டேட்டா சயின்ஸ் கை கொடுக்கிறது.

இப்படி எந்த ஒரு துறையை எடுத்தாலும் தகவல் அறிவியல் தான் அதன் மையமாக நின்று செயல்படுகிறது. இதன் பல்வேறு அம்சங்கள் தான் மெஷின் லேர்னிங், பிக் டேட்டா, டேட்டா மைனிங் என பல பெயர்களில் உலா வருகிறது. இது தான் டேட்டா சயின்ஸ் துறை அதன் ஸ்பெஷலிஸ்ட்களை வலை வீசித் தேடிக்கொண்டிருக்கக் காரணம்.

இந்தத் துறைக்கு நுழைய என்னென்ன தெரிந்திருக்க வேண்டும் ?

( தொடர்வோம் )

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s