Data Science 8 : தகவல் அறிவியல் 8

எதிர்காலத்தில் தகவல் அறிவியல்

Image result for data science

எந்த ஒரு தொழில்நுட்பமும் கல்வெட்டு போல நிலைத்து நிற்பதில்லை. நாட்கள் செல்லச் செல்ல அந்த நுட்பம் தனது முக்கியத்துவம் இழந்து விடுகிறது. அப்போது இன்னொரு தொழில்நுட்பம் அந்த இடத்தை ஆக்கிரமித்துக்  கொள்ளும். அதுவும் இன்றைய டிஜிடல் யுகத்தில் தொழில்நுட்பத்தின் மாற்றங்கள் எக்ஸ்பிரஸ் வேகத்தில் தான் நிகழ்கின்றன.

தகவல் அறிவியல் தொழில்நுட்பமும் அப்படித் தான் இன்று இருப்பதைப் போலவே எல்லா நாளும் இருக்கப் போவதில்லை. மாற்றங்களை நிச்சயமாகச் சந்திக்கப் போகிறது, புதிய புதிய வடிவங்களை எடுக்கப் போகிறது. புதிய புதிய தொழில்நுட்பங்களோடு தன்னை இணைத்துக் கொள்ளப் போகிறது.

ஆர்டிஃபிஷியல் இன்டலிஜென்ஸ் எனப்படும் செயற்கை அறிவு அதில் முக்கியமான ஒன்று. அது கண்டிப்பாக இன்னும் ஆழமாக தகவல் அறிவியல் துறைக்குள் நுழையும் என்பதில் சந்தேகமில்லை. அப்போது அல்காரிதங்களும், மென்பொருட்களும் தன்னிலே “ஸ்மார்ட்” ஆக மாறி தகவல்களை பயன்படுத்தத் துவங்கிவிடும். மனித உதவி தேவையில்லாமலேயே பின்னர் ‘பிரடிக்டிவ்’ அலசல்கள் நடக்க வாய்ப்புகள் அதிகம்.

ஆர்டிபிஷியல் இன்டெலிஜென்டின் வரவு தகவல் அறிவியலில் ஏற்படுத்துகின்ற விளைவுகளில் ஒரு எதிர் விளைவும் உண்டு. எப்போது செயற்கை அறிவு முழுமையாக தகவல் அறிவியலில் நுழைகிறதோ அப்போது மனித உழைப்புக்கு அங்கே வேலை குறைகிறது. ஆட்டோமேஷன் அந்த இடத்தை வந்தடைகிறது. இதனால் அந்த காலகட்டத்தில் வேலை வாய்ப்புகள் குறையும். ஆனால் அதுவரை தகவல் அறிவியலார்களுக்கான தேவை அதிகரித்துக் கொண்டே இருக்கும்.

அதே போல மெஷின் லேர்னிங் எனப்படும் தொழில்நுட்பமும் இன்னும் அதிகமாக தகவல் அறிவியலில் இணைந்து கொள்ளும். ஏற்கனவே மெஷின் லேர்னிங் நுட்பம் டேட்டா சயின்ஸோடு இணைந்து தான் பயணிக்கிறது. இனிமேல்  இன்னும் அதிகமாக அந்த பிணைப்பு இருக்கும்.

உதாரணமாக ஒரு இயந்திரம் தனது தகவலை இன்னொரு இயந்திரத்துக்கு தானாகவே அனுப்பும், ஒரு கருவி வேறு பல கருவிகளிலிருந்து வருகின்ற தகவல்களை தானாகவே சேகரித்து அலசலை துவங்கும். சென்சார்களின் தகவல்கள் அங்கும் இங்கும் தானாகவே கூடு விட்டுக் கூடு பாய்ந்து தனது பணிகளைச் செய்யும். என இந்த மெஷின் லேர்னிங் நுட்பம் தகவல் அறிவியலில் வெகு ஆழமாய் செல்லும் என்பதில் சந்தேகமே இல்லை.

மருத்துவத் துறையில் தகவல் அறிவியலின் பயன் இன்னும் பல மடங்கு அதிகரிக்கப் போகிறது. குறிப்பாக நியூரல் நெட்வர்க் எனும் நரம்பியல் துறையில் தகவல் அறிவியலின் பயன்பாடு வெகுவாக அதிகரிக்கும் என மருத்துவ அறிக்கைகளும், ஆய்வுகளும் தெரிவிக்கின்றன.  மருத்துவம் ஏற்கனவே தகவல் அறிவியலை ஆய்வுகளிலும், மருத்துவமனைகளிலும் பயன்படுத்தி வருகிறது. அது இன்னும் பலமடங்கு அதிகரிக்கும்.

இன்டர்நெட் ஆஃப் திங்க்ஸ் எனும் தொழில்நுட்பம் பற்றி கேள்விப்பட்டிருப்பீர்கள். இப்போது கணினி துறையில் படிப்பவர்களுக்கு இது ஒரு கட்டாயப் பாடமாகவும் இருக்கிறது. எப்படி இணையத்தில் தகவல்களை சேமிக்கிறோமோ, அப்படி உலகில் நாம் பயன்படுத்தும் பல்வேறு பொருட்களையும் இணையத்தோடு இணைப்பது தான் இதன் அடிப்படை சிந்தனை. உதாரணமாக உங்கள் வீட்டு கேஸ் ஸடவ்வை நீங்கள் இணையத்தோடு இணைக்கலாம். அது ஒழுங்காக வேலை செய்கிறதா என்பதைக் கவனிக்கலாம்.

இவற்றையெல்லாம் சென்சார்கள் கவனித்துக் கொள்கின்றன. டிஜிடல் தகவல்களை அவை கணினிகளுக்கோ, அல்லது அது போன்ற கருவிகளுக்கோ அனுப்பி இணைய உலகோடுள்ள உறவை உயிர்ப்பித்துக் கொள்கின்றன. இன்றைக்கு சுமார் 170 பில்லியன் எனுமளவில் இருக்கும் இன்டர்நெட் ஆஃப் திங்க்ஸ் பிஸினஸ் இன்னும் நான்கு ஆண்டுகளில் சுமார் 560 பில்லியன் எனுமளவுக்கு எகிறும் என்கின்றன ஆய்வுகள்.

அதே போல பிக் டேட்டா எனும் தொழில்நுட்பமும் தகவல் அறிவியலின் ஒரு பாகம் தான். பிக் டேட்டா என்பது உங்களுக்குத்  தெரிந்த விஷயம் தான். கொட்டிக் கிடக்கின்ற கணக்கற்ற தகவல்களை எப்படி பயனுள்ள தகவல்களாக மாற்றுகிறோம் ? எப்படி அவற்றைக் கொண்டு தொழிலை வளர்ச்சிப் பாதையில் அழைத்துச் செல்கிறோம் என்பது தான் அதன் அடிப்படை. முழுக்க முழுக்க தகவல்களின் அடிப்படையில் இயங்குவதால் இது தொடர்ந்து தகவல் அறிவியலில் ஒரு முக்கியமான பாகமாக இருக்கும் !

வெறும் எண்களையும், டிஜிடல் எழுத்துகளையும் வைத்து தான் இன்றைக்கு தகவல் அறிவியல் அசத்திக் கொண்டிருக்கிறது. மற்றெந்த வகை தகவல்களாய் இருந்தாலும் அவற்றை முதலில் டிஜிடல் எண்களாகவோ, எழுத்துகளாகவோ மாற்றினால் தான் பயன்பாட்டுக்குக் கொண்டு வர முடியும் எனும் சூழல் இருக்கிறது. இந்த நிலை மாறும் !  இனி வரும் காலங்களில் தகவல்களை டிஜிடல் எண்களாக மாற்றாமல் நேரடியாகவே பயன்படுத்தக் கூடிய நுட்பங்கள் உருவாகும்.

அப்படிப்பட்ட மாற்றம் வரும்போது தகவல் அறிவியலில் இன்னும் வியப்பூட்டும் விஷயங்கள் நடக்கும். ஆடியோக்கள், வீடியோக்கள், புகைப்படங்கள், லைவ் கேமராக்கள் போன்றவை எல்லாமே மிகப்பெரிய நேரடியான உள்ளீடு தகவல்களாக பயன்படும். தகவல் அறிவியலின் மிகப்பெரிய புரட்சி அது என சொல்லலாம்.

அத்துடன் ‘நேட்டிவ் லேங்குவேஜ்’ எனப்படும் மொழிகடந்த தகவல் அறிவியலும் உருவாகிவிட்டால் இதன் வீச்சு கணிக்க முடியாத அளவுக்கு இருக்கும்.

ஹைப்பர் பெர்சனலைசேஷன் எனப்படும் தனிமனிதனை மையப்படுத்தி செய்கின்ற தொழில்களுக்கு தகவல் அறிவியல் தான் மிகப்பெரிய துணையாய் இருக்கப் போகிறது. விற்பனையாளருக்கும், வாடிக்கையாளருக்கும் இடையேயான தொடர்பை இறுக்கிப் பிடித்து விற்பனையை உறுதி செய்வதில் இந்த பெர்சனலைசேஷன் சிந்தனை தேவையானதாய் இருக்கிறது.

ஆகுமென்டட் ரியாலிடி எனும் தொழில்நுட்பத்தில் ஏற்படுகின்ற மாற்றங்களும் தகவல் அறிவியலின் வளர்ச்சியைக் கொண்டு வரும். ஆகுமென்டர் ரியாலிடி இன்றைக்கு ‘கேம்ஸ்’ துறையில் கொண்டு வந்திருக்கின்ற மாற்றங்கள் எக்கச்சக்கம். அப்படியே அந்த நுட்பத்தை ஸ்மார்ட் போனில் மாற்றுகின்ற நடைமுறையும் இப்போது வரத் துவங்கியிருக்கிறது. ஆகுமென்டட் ரியாலிடி வளர வளர, டேட்டா சயின்ஸும் வளரும்.

பிகேவியரல் அனாலிசிஸ் எனப்படும், ஒரு மனிதனுடைய குணாதிசயங்களை அலசுகின்ற, உளவியல் சார்ந்த தகவல் அறிவியலும் இப்போது வளர்ந்து வருகிறது. பயனாளர்களை உளவியல் ரீதியாக அணுகும் முறை இது என்றும் சொல்லலாம். எந்த அளவுக்கு ஒரு நபரைத் தெரிந்து வைத்திருக்கிறோமோ, அந்த அளவுக்கு அவருடைய தேவைகளை அறிந்து கொள்ள முடியும் எனும் அடிப்படை விஷயம் தான் இங்கே கையாளப்படுகிறது.

தகவல் அறிவியலில் வளர்ச்சியும், ஆர்டிபிஷியல் இன்டெலிஜென்ட் வளர்ச்சியும் இயந்திரங்களையும், கருவிகளையும் ஸ்மார்ட் ஆக மாற்றிக் கொண்டிருக்கின்றன. இனிமேல் அந்த கருவிகளெல்லாம் அறிவைத் தாண்டி ஞானம் உடையவையாக மாறும் என்பதே தொழில்நுட்பம் தருகின்ற தொலை நோக்குப் பார்வை. நமது பிள்ளைகளுக்கு நாம் அறிவைக் கொடுக்கும் முன்பே நல்ல சிந்தனைகளையும், பகுத்தறிவையும் கொடுக்கிறோம் இல்லையா ? அதே போல நமது  இயந்திரங்களும் ஞானம் கொண்டவையாய், சுய சிந்தனை கொண்டவையாய் மாறும் என்பதே தகவல் அறிவியலின் சிந்தனை.

சுருக்கமாகச் சொல்லவேண்டுமெனில், தகவல் அறிவியலின் வீச்சும் பயன்பாடும் அடுத்த ஐந்து பத்து ஆண்டுகளுக்கு நிற்கப் போவதில்லை. வடிவம் மாறி, நுட்பம் மாறி பயணித்துக் கொண்டே தான் இருக்கப் போகிறது. எனவே ஆர்வமும், திறமையும் உடையவர்கள் தயங்காமல் இந்தத் துறையை அரவணைத்துக் கொள்ளலாம்

( முற்றும் )

Advertisements

Data Science 7 :

Image result for data science

 

அமெரிக்காவுக்கு மட்டுமே இந்த ஆண்டு இறுதிக்குள் இரண்டு இலட்சம் டேட்டா சயின்ஸ் பொறியாளர்கள் தேவைப்படுவார்கள் என்கிறது மெக்கன்சி ஆய்வு. அடுத்த பத்து ஆண்டுகளுக்கு தொழில் நுட்ப உலகை வசீகரிக்கப் போகும் வேலை இந்த தகவல் அறிவியல் தான் கூகிள் நிறுவன தலைமை பொருளாதார அதிகாரி ஹான் வாரியன். தகவல் அறிவியல் எனும் துறை இப்போதே பெரும்பாலான நிறுவனங்களின் முதுகெலும்பாகத் தான் இருக்கிறது. அப்படி வசீகரிக்கும் நிறுவனங்களில் மூன்று நிறுவனங்களைப் பற்றி நாம் கடைசியில் பார்ப்போம் !

‘இந்த தகவலை எல்லாம் வெச்சு என்ன செய்ய போறோம்” என்கிற மனநிலை ஒரு காலத்தில் இருந்தது. இப்போது அது தலைகீழாக மாறிவிட்டது. எந்த தகவலை வைத்தும் என்ன வேண்டுமானாலும் செய்யலாம் எனும் சிந்தனை உருவாகிவிட்டது. தகவல் என்பது பொன்முட்டையிடும் வாத்தாக மாறிவிட்டது. தகவல் என்பது பணம் காய்க்கும் மரமாகிவிட்டது. அதனால் தான் எல்லா மென்பொருட்களும், நிறுவனங்களும் தகவல் சேகரிப்பில் ஆர்வம் காட்டுகின்றன. அது பல வேளைகளில் தனி மனித சுதந்திரத்துக்கு வேட்டு வைப்பதாகவும் அமைந்து விடுகிறது என்பது தனிக்கதை.

எனவே இப்போதெல்லாம் நிறுவனங்கள் தங்கள் அடிப்படை சிந்தனையாக எழுதிக் கொள்ளும் விஷயம் இது தான், “தகவல்கள் எல்லாமே ஏதோ ஒரு வகையில் தேவையானவை”. ஒரு தகவலை சாதாரணமான ஒரு எண்ணாகவோ, எழுத்தாகவோ பார்க்காமல் அதன் பின்னணியில் இயங்குகின்ற விஷயங்களை ஊகித்து அறிவதிலும், கணித்து கண்டுபிடிப்பதிலும் இருக்கிறது தகவல் அறிவியலின் முதல் வெற்றி.

தகவல்களுக்கு எடை உண்டு ! தகவல்கள் காற்றைப் போல அங்கும் இங்கும் அலைந்து திரிந்தாலும் அதை சரியான வகையில் கட்டுப்படுத்தி கட்டி வைப்பவர்களுக்கு அது செல்வத்தை அள்ளித் தருகிறது. காற்றிலிருந்தும் தகவலை சேகரிப்பது தகவல் அறிவியலின் தேவை. அதாவது, யாருக்கும் தேவையில்லை என நினைக்கும் விஷயங்கள் ஒரு நிறுவனத்தின் வளர்ச்சியையே ஒட்டு மொத்தமாய்ப் புரட்டிப் போட முடியும்.

இப்போது இன்னொரு சிந்தனை வேண்டும். “நம்மிடம் இருக்கின்ற பிரச்சினை இன்னது.. இதை எப்படி நம்மிடம் இருக்கின்ற தகவலோடு இணைத்து முடிச்சுப் போடுவது ? இதற்குத் தான் மென்பொருட்களும், அல்காரிதங்களும் உதவிக்கு வருகின்றன. ஆனால் ஒரு சாதாரண நபராக ஒரு பிரச்சினையையும், அதை எப்படி இந்தத் தகவல் தீர்த்து வைக்கலாம் எனும் சிந்தனையும் இருக்க வேண்டியது அவசியம்.

இப்போது அடுத்த நிலை ! தகவலைப் புரிந்து கொண்டாயிற்று. அதை எப்படி பிரச்சினையோடு இணைத்து முடிவை நோக்கி நகர்வது என்பதையும் அறிந்தாயிற்று. அதைச் செயல்படுத்தக்கூடிய கட்டமைப்பு நிறுவனத்துக்கு இருக்கிறதா ? என்பதைப் பார்க்க வேண்டும். வண்டி நுழையாத தெருவுக்குள் வீட்டை கட்டி வைத்தால், பென்ஸ் கார் வாங்கினாலும் பயனில்லை அல்லவா ? எனவே செயல்படுத்தப் பட வேண்டிய கட்டமைப்பை உருவாக்குவதும், சரியான நேரத்தில் அதை செயல்படுத்துவதும் அவசியம்.

எதிர்காலத்தில் இந்த தகவல் அறிவியல் என்பது , ‘ரியல் டைம் டேட்டா’ அதாவது தகவல்கள் வர வர அதை வைத்து ஆட்டோமெடிக்காக அலசி முடிவுகள் எடுக்கும் முறை வந்து விடும். இப்போதைக்கு இருக்கின்ற தகவல்களைக் குவித்து, அதை அலசி தான் முடிவுகளை எடுக்கிறோம். அதன் பின் வருகின்ற அதிகபடியான தகவல்கள் ஆட்டோமெடிக்காக பயன்படுத்தப்படும் சூழல் உருவாகும்.

இப்போது தகவல் அறிவியல் துறையில் கோலோச்சிக் கொண்டிருக்கும் டாப் 3 நிறுவனங்களைப் பற்றி பார்க்கலாம்.

1. கூகிள் !

நம்மை ரகசியக் கண் கொண்டு பார்த்துக் கொண்டே இருக்கும் நிறுவனம் என நீங்கள் கூகிளை சொல்லலாம். ஜிமெயிலில் நீங்கள் அனுப்புகின்ற ஒவ்வொரு மெயிலும் வாசிக்கப்படலாம், பிக் டேட்டா அனாலிசிஸ் செய்யப்படலாம், அந்தத் தகவல்களை பிஸினஸ் தேவைக்காய் பயன்படுத்தலாம்.

உதாரணமாக, நீங்கள் ஒரு விமான டிக்கெட் புக் செய்கிறீர்கள். அதை கூகிள் மெயிலுக்கு அனுப்புகிறீர்கள் என வைத்துக் கொள்ளுங்கள். அது அந்தத் தகவல்களையெல்லாம் படித்து விட்டு, அங்கே அந்த நாளில் உங்களுக்கு ஹோட்டல் வேண்டுமா, கார் வேண்டுமா, வேறு ஏதாவது வசதிகள் வேண்டுமா என டிஜிடல் நச்சரிப்பை ஆரம்பிக்கும்.

எதற்கெடுத்தாலும் நாம் கூகிளைத் தான் அழைத்து, ‘தேடுதல்’ செய்கிறோம் இல்லையா ? அந்த தகவல்களெல்லாம் அவர்களுடைய சர்வரைக் கடந்து தான் செல்கின்றன. அவற்றில் எவையெல்லாம் தேவைப்படுமோ அவற்றையெல்லாம் கூகிள் சேமித்துக் கொள்கிறது. இன்னும் சொல்லப்போனால், தனது நிறுவனத்தில் பணிசெய்யும் ஊழியர்களுக்கு என்ன கொடுத்தால் குஷியாவார்கள் என்பதையும் இந்த தகவல் அறிவியல் கண்டறிந்து சொல்கிறது.

நீங்கள் யூடியூபில் பார்க்கின்ற வீடியோக்கள் அடிப்படையில் உங்களுக்கு புதிய வீடியோக்களை அறிமுகம் செய்கிறது. அதன்பின் இப்படிப்பட்ட வீடியோ பார்ப்பவர்கள் வேறென்ன பார்க்கலாம் என்பதைக் கணிக்கிறது. எத்தனை முறை பார்க்கிறார்கள் என்பதை வைத்து அவர்களை எடை போடுகிறது. எந்த நேரத்தில் எந்த வீடியோவைப் பார்ப்பவர்கள் என்ன குணாதிசயம் கொண்டவர்கள் என்பதை அல்காரிதம் மூலம் சேமிக்கிறது. அதன் அடிப்படையில் விளம்பரங்களோ, வசீகரங்களோ தந்து வலையில் வீழ்த்துகிறது.

2. அமேசான் !

அமேசான் நிறுவனத்தைப் பற்றி சொல்லவேண்டாம். ஆன்லைன் ஷாப்பிங் செய்த எல்லோருக்குமே அந்த அனுபவம் நிச்சயம் இருக்கும். ஒரு பொருளை வாங்க அந்தத் தளத்துக்குப் போனாலே உங்களை வரவேற்று உங்களுக்குத் தேவையானவற்றைத் தந்து உங்களை ஈர்த்துக் கொண்டே இருக்கும்.

உங்களுடைய தேடுதல் பேட்டர்ன், உங்களுடைய பர்சேஸ் பேட்டர்ன் போன்றவற்றையெல்லாம் வைத்து நீங்கள் ஒரு பொருளை வாங்குவீர்களா, மாட்டீர்களா என்பதை அது கணிக்கும். உங்களுடைய வாங்கும் திறமைக்குத் தக்க பொருட்களை மட்டுமே அது உங்களுக்கு பரிந்துரை செய்யும். மாருதி கார் வாங்கும் அளவுக்கு வசதி மட்டுமே உடையவர்களுக்கு அது ஆடி காரை பரிந்துரை செய்யாது. அந்த அளவுக்கு அதை அறிவுசார் மென்பொருளாய் மாறியிருக்கிறது. அதன் காரணஅது ம் ஆர்டிபிஷியல் இன்டலிஜென்ஸ் கலந்த பிக் டேட்டா என்பதில் சந்தேகமில்லை.

அது இன்னும் ஒரு படி மேலே போய், நீங்கள் ஒரு பொருளை வாங்குவீர்களா இல்லையா என்பதைக் கணித்து, வாங்குவீர்கள் என மென்பொருளின் அல்காரிதம் சொன்னால் அந்தப் பொருளை அடுத்திருக்கும் ஒரு கடைக்கோ, கோடவுனுக்கோ அது அனுப்பவும் செய்கிறது. இப்படி தனது வளர்ச்சியின் முதுகெலும்பாய் தகவல் அறிவியலைத் தான் கட்டி வைத்திருக்கிறது.

3, ஃபேஸ் புக் !

பேஸ்புக் தகவல் அறிவியலில் ஒரு மிகப்பெரிய உயரத்தை எட்டிய கம்பெனி. இந்த நிறுவனத்தின் பாசிடிவ் விஷயம் என்னவென்றால், அவர்களிடம் எக்கச்சக்க தகவல்கள் இருக்கின்றன என்பது தான். ஒன்றிரண்டு அல்ல, அவர்களிடம் சுமார் 220 கோடி பேருடைய தகவல்கள் இருக்கின்றன. எல்லாமே தனிப்பட்ட தகவல்கள். இவற்றை வைத்துக் கொண்டு உங்களுடைய தேவைகளையெல்லாம் அது அறிந்து கொள்ளும்.

அப்படியே உங்களோடு தொடர்பில் இருப்பவர்களைப் பார்த்து, யாரையெல்லாம் வசீகரிக்கலாம். என்னென்ன பொருட்களை விற்கலாம். என்பதையெல்லாம் கணக்கு போடும். விளம்பரங்களின் மூலம் மிகப்பெரிய லாபத்தை அடைகின்ற நிறுவனங்களில் ஒன்று பேஸ்புக் என்பதில் சந்தேகமேயில்லை.

இவையெல்லாம் நமக்குத் தெரிந்த பெரிய கம்பெனிகள். அதற்காக அவை மட்டும் தான் இந்த தகவல் அறிவியல் துறையில் கோலோச்சும் நிறுவனங்கள் என்பதில்லை. சின்னச் சின்ன நிறுவனங்கள் கூட தகவல் அறிவியலை தங்களுடைய பிஸினஸ் வளர்ச்சிக்குப் பயன்படுத்துகின்றன.

“சரி பண்றவன் பண்ணிட்டு போறான்”, என நிறுவனங்கள் அலட்சியமாய் இருந்து விடவும் முடியாது. பொம்மலாட்டக் குதிரையை ரேஸ் டிராக்கில் விட்டது போல ஆபத்தாகிவிடும். விரைவிலேயே பிஸினஸை மூட்டை கட்டி வைப்பதைத் தவிர வேறு வழி இல்லை என்றாகிவிடும்.

தகவல் அறிவியலின் சிந்தனை கொஞ்சம் பழையதாய் இருந்தாலும், இன்றைய தொழில்நுட்பம் அதை மிகப்பெரிய உயரத்துக்கு எடுத்துச் சென்றிருக்கிறது. அதனால் தான் இன்றைக்கு தகவல் அறிவியல் பொறியாளர்களின் தேவை முன்பெப்போதும் இல்லாத அளவுக்கு எகிறியிருக்கிறது.

தகவல் அறிவியல் – 4

Image result for data science

தகவல் அறிவியல் துறையில் வேலை வாய்ப்புகள் அதிகமாய் இருக்கிறது என்பதையும்,  கணிதம், பட்டப்படிப்பு, மென்பொருள் போன்றவற்றைப் படித்தவர்களுக்கு அங்கே வேலை வாய்ப்புகளும் அதிகமாய் இருக்கின்றன என்பதையும் கடந்த வாரம் அலசினோம். அப்படி இந்த துறையில் எப்படிப்பட்ட வேலைகள் இருக்கின்றன என்பதைப் பற்றிய ஒரு அறிமுகத்தைப் பார்போம்.

தகவல் அறிவியல் துறையில் பல்வேறு வேலைகள் இருக்கின்றன. நிறுவனத்தின் தேவைக்கும் தன்மைக்கும் ஏற்ப அவர்கள் அவற்றுக்கு பெயரிட்டு அழைப்பதும் உண்டு. உதாரணமாக சில நிறுவனங்கள் தகவல் விஞ்ஞானத்தை, மெஷின் லேர்னிங் என்றும் அழைப்பதுண்டு. பொதுவாக எப்படிப்பட்ட வேலைகள் இந்த துறையில் உண்டு என்பதை பார்ப்போம்.

மேஜேஜ்மென்ட் இன்ஃபர்மேஷன் சிஸ்டம்ஸ் ரிப்போர்டிங் எக்சிகியூட்டிவ் ( MIS Reporting Executive ) என ஒரு பணி இருக்கிறது. தகவல் அறிவியலைப் பொறுத்தவரை இது ஒரு மிக முக்கியமான பணி. வணிகத் தேவை என்ன என்பதை சரியாகப் புரிவதும், தொழில்நுட்பத்தில் அதை எப்படி புகுத்துவது என்பதையும் இவர்கள் தான் முடிவு செய்வார்கள். அதாவது இவர்கள் கொடுக்கின்ற அறிக்கைகளின் அடிப்படையில் தான் பெரும்பாலான பிசினஸ் முடிவுகள் எடுக்கப்படும்.

இவர்களுடைய பணி, நிறுவனத்துக்குத் தேவையான அறிக்கைகளை பல்வேறு வகைகளில் உருவாக்குவது. நூற்றுக்கணக்கான பக்கங்களில் எழுதி வைக்கவேண்டிய தகவல்களை ஒரு சின்ன படத்தின் மூலம் காட்டி விடும் வித்தை இவர்களின் சிந்தனைக்கு உரியது.

உதாரணமாக, விற்பனைத் தகவல்கள் என்னென்ன ? என்னென்ன பொருட்கள் கைவசம் இருக்கின்றன ? எப்படிப்பட்ட விமர்சனங்கள் வந்திருக்கின்றன ? போன்ற  பல்வேறு தகவல்களை இவர்கள் அலசுவார்கள். அதன் அடிப்படையில் அவர்கள் உருவாக்கும் அறிக்கைகள் முக்கியமான தொழில் முடிவுகள் எடுக்க வசதியாக இருக்கும்.

கணினி துறை அல்லது பொறியியலில் பட்டப்படிப்பு இருப்பவர்கள் இந்தத் துறையில் நுழைவது அவர்களுக்கு எளிதாக இருக்கும். “எப்படிப்பட்ட தகவல்களைக் கொடுத்தால் பிஸினஸ் வளரும்” என்கின்ற ஒரு பரந்து பட்ட பார்வை இருக்க வேண்டியது அவசியம். காரணம், இவர்கள் கொடுக்கின்ற தகவல்களே பிஸினஸை அடுத்த நிலைக்கு கொண்டு செல்லவும், எப்படிப்பட்ட திசையில் பயணிக்க வேண்டும் என்பதை முடிவு செய்யவும், எப்படிப்பட்ட மாற்றங்களைக் கொண்டு வரவேண்டும் என்பதைத் தீர்மானிக்கவும் உதவுகின்றன.

பிஸினஸ் அனலிஸ்ட் ; இன்னொரு முக்கியமான பணி. இதை வணிக ஆய்வாளர் பணி என்று சொல்லலாமா ? அல்லது தொழில் ஆய்வாளர் என்று சொல்லலாமா தெரியவில்லை. இப்போதைக்கு பிசினஸ் அனலிஸ்ட் என்றே வைத்துக் கொள்வோம்.

ஒரு நிறுவனத்தின் தேவையை துவக்கத்திலிருந்தே கவனிப்பது இவர்களுடைய வேலை. ஒரு பிஸினஸ் வளர்ச்சியடைய என்னென்ன தடைகள் இருக்கின்றன. என்னென்ன இடைவெளிகள் இருக்கின்றன என்பதைக் கண்டறிவது இவர்களுடைய வேலையின் முக்கியமான அம்சம்.

தகவல்களை அலசி ஆராய்பவர்களைத் தகவல் ஆய்வாளர் என்று சொல்வோம். அதே போல பிஸினஸை அலசி ஆராய்பவர்களே இந்த பிஸினஸ் அனலிஸ்ட் என அழைக்கப்படுகின்றனர்.

பிஸினஸ் அட்மினிஸ்ட்ரேஷன் (எம்.பி.ஏ) பிரிவில் ஒரு பட்டப்படிப்பு இருப்பது இந்த வேலைக்கு ரொம்ப நல்லது. கூடவே தகவல்களோடு விளையாடும் ஆர்வம் இருக்க வேண்டும். பிஸினஸை எப்படியெல்லாம் வலுப்படுத்தலாம் எனும் பார்வை இருக்க வேண்டியதும் அவசியம்.

பிஸினஸின் தேவையை சரிவரப் புரிந்து அதிலுள்ள குறைகளைக் களைந்து தொழில்நுட்பத்தின் மூலம் அதை வலுப்படுத்தும் பணியே இந்த பிஸினஸ் அனலிஸ்ட் பணி.

டேட்டா அனலிஸ்ட்

தகவல் அறிவியலில் மிக முக்கியமான பணிகளில் ஒன்று டேட்டா அனலிஸ்ட் வேலை. தகவல்களைத் திரட்டுவது, திரட்டிய தகவல்களை வகைப்படுத்துவது இரண்டும் இவர்களுடைய கைவேலைகள். இவர்களும் டேட்டா விஞ்ஞானிகள் அதாவது டேட்டா சயின்டிஸ்ட் இருவரும் வேறு வேறு.

டேட்டா அனலிஸ்ட் என்பவர் அவருக்கு ரொம்ப ஜூனியர் என்று வேண்டுமானால் வைத்துக் கொள்ளலாம். ஆனால் மிக முக்கியமான அடிப்படைப் பணிகள் செய்வது இவர்கள் தான்.

டேட்டா அனலிஸ்ட் என்பவர் ஒரு சில முக்கியமான மென்பொருட்களைப் பற்றித் தெரிந்திருக்க வேண்டும். குறிப்பாக ஆர், பைத்தான், எச்.டி.எம்.எல், எஸ்.க்யூ.எல், சி ++, ஜாவா போன்ற அனைத்து மென்பொருட்களின் கலவையாய் உங்களுடைய மென்பொருள் பரிச்சயம் இருப்பது மிக சிறப்பு.

தகவல்களை சேர்ப்பது, சேமிப்பது இவற்றோடு இவர்களுடைய பணி முடிந்து விடுவதில்லை. எப்படி அதை பயன்படுத்துவது என்பதையும் இவர்கள் யோசிக்க வேண்டும். ஹடூப் போன்ற மென்பொருட்களைக் கற்பது பயன்கொடுக்கும்.

நிறுவனத்தின் பல்வேறு நிலைகளிலுமுள்ள தலைவர்கள், வெவ்வேறு தகவல் தேவைகளோடு அணுகுவது இவர்களைத் தான். இவர்களும் அவர்களுடைய தேவைகளை நிறைவேற்றும் வகையில் தங்களுடைய மூளையையும், கையிலுள்ள தகவலையும் கசக்குவார்கள்.

எப்படி தகவலை வகைப்படுத்துவது, அதை எப்படி பயனுள்ள வகையில் மாற்றுவது, அல்காரிதங்களை/வழிமுறைகளை எழுதுவது, என்பதையெல்லாம் கவனிப்பது இவர்கள் தான்.

  1. ஸ்டாட்டிஸ்டிஷியன் / புள்ளிவிவர ஆய்வாளர்

ஸ்டாட்டிஸ்டிக் விஷயங்களைச் சொல்லும் இவரைப் புள்ளி விவரப் புலி என்று சொல்லலாமா ? தகவல்களைச் சேர்த்து, வகைப்படுத்தி, பயன்படுத்துவத்தோடு மட்டுமல்லாமல், அதன் அடிப்படையில் முடிவுகளையும் எடுப்பது இவர்களுடைய வேலை.

மார்க்கெட் ரிசர்ட், போக்குவரத்து, கல்வி, விளையாட்டு, என எல்லா இடங்களிலும் இவர்களுடைய தேவை உண்டு. இந்த வேலைக்குள் நுழையவேண்டுமென்றால் பட்டப்படிப்பு அவசியம். அதிலும் குறிப்பாக  ஸ்டாடிஸ்டிக்ஸ் அல்லது கணிதவியலில் பட்டம் இருந்தால் ரொம்ப நல்லது.

இவர்களும் ஆர் போன்ற ஏதோ ஒரு மென்பொருளின் மீது அதிக பரிச்சயம் கொண்டிருக்க வேண்டியது அவசியம். இவர்களுடைய பணிக்கென பல மென்பொருட்கள் உள்ளன MATLAB, SAS, Python, Stata, Pig, Hive, SQL, Perl போன்றவை புள்ளிவிவரவியலாளர் அல்லது ஸ்டாட்டிஸ்டிஷியன் பணிக்கு உதவுவதற்காக இருக்கின்ற மென்பொருட்கள். இவற்றில் சிலவற்றைக் கற்றுக்கொள்வது பயனளிக்கும்.

தகவல்களை அலசி அதில் ஒரு பேட்டர்ன் அதாவது முறையைக் கண்டுபிடிப்பது, தகவல்களுக்கு இடையே உள்ள தொடர்பைக் கண்டுபிடிப்பது, ஒரு டிரென்ட் கண்டுபிடிப்பது போன்றவற்றையெல்லாம் இவர்கள் கவனிப்பார்கள்.

5

டேட்டா சயின்டிஸ்ட்

இன்றைக்கு இருக்கக் கூடிய தகவல் அறிவியல் வேலைகளில் ஹாட் வேலை என்றால் இது தான். இதற்கு கொஞ்சம் அனுபவம் இருக்க வேண்டும். எல்லா நிறுவனங்களிலும் டேட்டா சயின்டிஸ்ட் வேலை தேவை இருக்கும். ஒவ்வொரு நிறுவனத்துக்கும் கொஞ்சம் கொஞ்சம் வித்தியாசமான திறமைகளில் டேட்டா சயின்டிஸ்ட் தேவைப்படுவார்கள்.

மென்பொருட்களின் மீதான பரிச்சயம் இதற்கு மிக மிக அவசியம்.  R, SAS, Python, SQL, MatLab, Hive, Pig, மற்றும் Spark போன்றவை இதற்குத் தேவையான மென்பொருட்கள் !

ஒரு நல்ல தகவல் விஞ்ஞானியின் வேலை தகவல்களோடு முடிந்து விடுவதில்லை. அந்த தகவல்களுக்கும் நிறுவனத்துக்கும் இடையேயான பிணைப்பைக் கண்டறியும். அந்த தொடர்பை வைத்துக் கொண்டு எப்படியெல்லாம் பிஸினஸை வளர்த்தலாம் என்பதை அலசும்.

இந்த பணிக்கு ஆர்வமும், பொறுமையும் மிக மிக அவசியம். நல்ல தெளிவான சிந்தனையும், திறமையும் இருந்தால் இந்தத் துறையில் கலக்கலாம்.

ஒரு டேட்டா சயின்டிஸ்ட் என்பவர் சுருக்கமாகச் சொல்லவேண்டுமெனில் ஒரு டேட்டா அனலிஸ்ச்ட், ஒரு பொறியாளர், ஒரு பிஸினஸ் அனலிஸ்ட் போன்ற பலவற்றின் கலவையாக இருப்பார்.

6

டேட்டா எஞ்சினியர்

பெரும்பாலும் பிக்டேட்டா சார்ந்த பணிகளைக் கவனிப்பதற்கு டேட்டா எஞ்சினியர்கள் தேவைப்படுவார்கள். இவர்களை டேட்டா ஆர்கிடெக்ட் என்றும் அழைப்பார்கள்.

தகவல் பொறியாளர்களுக்கு கணினி பிரிவில் ஒரு பட்டப்படிப்பு அவசியம். கூடவே Pig, Hadoop, MapReduce, Hive, MySQL, Cassandra, MongoDB, NoSQL போன்றவற்றில் பரிச்சயம் இருப்பது தேவையானது. அதே போல மென்பொருட்களான R, Python, Ruby, C++, Perl, Java, SAS, SPSS, and Matlab போன்றவற்றில் நல்ல பரிச்சயம் இருக்க வேண்டியதும் மிக மிக அவசியம்.

தகவல்களை வகைப்படுத்துவது, அதை டெஸ்ட் செய்வது, அதை நிறுவனத்தின் தேவைக்கு ஏற்ப அறிக்கையாய், படங்களாய் சமர்ப்பிப்பது இவையே இவர்களுடைய முக்கியமான வேலை.

இவை தவிர, பிக்டேட்டா பொறியாளர், மெஷின் லேர்னிங் பொறியாளர் என பலர் இந்த தகவல் அறிவியல் துறையின் பட்டியலில் வருவார்கள்.

மேலே குறிப்பிட்டுள்ளவை தகவல் அறிவியல் துறையிலுள்ள சில முக்கியமான வேலைகள். இவற்றைத் தவிரவும் பல வேலைகள் தகவல் அறிவியல் துறையில் உண்டு. இந்தப் பணிகளுக்குத் தேவையான திறமைகளை வளர்த்துக் கொண்டால் தகவல் அறிவியல் துறையில் நுழைவதில் சிக்கல் இருக்காது.

Data Science 3 : தகவல் அறிவியல் ‍ 3

Image result for data science

தகவல் அறிவியலின் பரபர வளர்ச்சி இன்றைக்கு இளைஞர்களை வெகுவாக‌ வசீகரித்திருக்கிறது. அதை நோக்கி பலர் தங்களுடைய பார்வையைத் திருப்பியிருக்கின்றனர். இதையே வாய்ப்பாக வைத்துக் கொண்டு பலர் ஃபாஸ்ட் புட் போல‌ பயிற்சி நிலையங்களை உருவாக்கி தகவல் அறிவியல் கற்றுத் தருகிறேன் என வலை விரிக்கத் துவங்கியிருக்கின்றனர். பயிற்சி நிலையம் சின்னதாக இருக்கிறதா ? பெரியதாக இருக்கிறதா என்பதல்ல பிரச்சினை. சரியான விதத்தில், சரியானவர்களால், சரியானவைகளைக் கற்றுத் தருகிறார்களா என்பதே முக்கியம்.

தகவல் அறிவியல் மீதான வசீகரம் இருப்பது நல்லது தான். நீச்சல் தெரியாமல் குளத்தில் குதிப்பதைப் போலவோ, நீச்சலே பிடிக்காமல் குளத்தில் குதிப்பதைப் போலவோ டேட்டா சயின்ஸ் துறையில் நுழைவது காலவிரயம் ! யாரெல்லாம் தகவல் அறிவியலைக் கற்றுக் கொள்ளலாம் ?. அல்லது டேட்டா சயின்ஸைக் கற்றுக் கொள்ள  என்னென்ன திறமைகள் இருக்க வேண்டும் ? என்பதைப் பற்றிய ஒரு அடிப்படைப் புரிதல் நமக்கு இருக்க வேண்டும்.

இன்றைக்கு தகவல் அறிவியலைக் குறித்து பேசும் பலரும் பல விதமான தகவல்களைத் தருகின்றனர். இதில் எது சரி, எது தவறு என்பதைப் புரிந்து கொள்வதில் பலருக்கும் குழப்பம். ஹடூப், மெஷின் லேர்னிங், அனாலிடிக்ஸ், சயின்டிஸ்ட் போன்ற வார்த்தைகள் தகவல் அறிவியல் துறையில் நுழைய விரும்பும் இளைஞர்களை குழப்பக் கூடும். எனவே தகவல் அறிவியல் குறித்து இதுவரை மற்றவர்கள் சொன்ன விஷயங்களை கொஞ்ச நேரம் ஒதுக்கி வையுங்கள். தகவல் அறிவியலுக்குள் நுழைய அடிப்படையாக என்னென்ன தேவை என்பதை மிக மிகச் சுருக்கமாகப் பார்த்து விடுவோம்.

முதலாவது, தகவல் அறிவியல் என்பது எண்களோடு விளையாடும் வேலை. புள்ளி விவரங்கள், கூட்டல், கழித்தல், அல்காரிதம், கேல்குலஸ், நிகழ்தகவு போன்ற விஷயங்கள் தகவல் அறிவியலின் முதுகெலும்பாக இயங்கக் கூடியவை. இவை எல்லாமே கணிதவியலின் அடிப்படை விஷயங்கள். எனவே, தகவல் அறிவியல் கற்றுக் கொள்ள விரும்புபவர்களுக்கு முதலில் இருக்க வேண்டிய தகுதி, கணிதவியலில் அறிவு.

அதற்காக கணிதவியலில் இளங்கலைப் பட்டமோ, முதுகலைப் பட்டமோ இருந்தால் தான் தகவல் அறிவியலில் நுழைய முடியும் என்றில்லை. கணிதத்தின் மீது ஆர்வமும், அடிப்படை அறிவும், கற்றுக் கொள்ளும் விருப்பமும் இருந்தால் போதும். கணிதம் என்றாலே காத தூரம் ஓடுபவர்கள் தகவல் அறிவியல் பக்கம் வராமல் இருப்பது நல்லது அப்படிப்பட்டவர்களுக்கு தேவையற்ற மன அழுத்தங்களை தகவல் அறிவியல் தரலாம்

தகவல் அறிவியல் துறைக்கு பல்வேறு நிலையிலுள்ள மக்களும் வருகின்றனர். இப்போது தான் படித்து முடித்த மாணவர்கள் முதல் பி.ஹைச்.டி முடித்த அறிவர்கள் வரை இதில் அடக்கம். அதனால் சிலர், “பி.ஹைச்.டி படித்தால் தான் இதெல்லாம் புரியும் போல !”, என தவறாய் நினைப்பதுண்டு. அந்த நினைப்புகளையெல்லாம் முளையிலேயே கிள்ளி எறியுங்கள்.

இரண்டாவது தேவை, கணினி அறிவு. மென்பொருள் எழுதத் தெரிந்திருக்க வேண்டும் என்பது அடிப்படைத் தேவை. அட்வான்ஸ் மென்பொருட்கள் தெரிந்திருக்க வேண்டியதில்லை. அவற்றைப் படிப்படியாகக் கற்றுக் கொள்ளலாம். ஆனால் அடிப்படை மென்பொருள் அறிவு கண்டிப்பாகத் தேவை. தகவல்களை அல்காரிதங்களின் மூலமாய் தேவையான தகவல்களாக மாற்றுவதற்கு மென்பொருள் அறிவு அவசியம்.

பைத்தான். ஆர் போன்ற மென்பொருட்கள் தெரிந்திருந்தால் மிக எளிது. இல்லாவிட்டாலும் பிரச்சினையில்லை. அடிப்படை மென்பொருட்களான சி, சி++, ஜாவா போன்ற மென்பொருட்களில் நல்ல பரிச்சயம் இருந்தாலே போதும். மென்பொருள் பற்றிய பரிச்சயம் அறவே இல்லை என்பவர்களால் தகவல் அறிவியல் துறையில் நுழைய முடியாது. எனவே கொஞ்சம் புரோகிராமிங் பக்கம் பார்வையை செலுத்துவது அவசியம்.

அதிலும், டேட்டா பேஸ் எனப்படும் தகவல் சேமிப்பு மென்பொருட்கள் பற்றிய அறிவு நிச்சயம் இருக்கவேண்டும். எப்படியெல்லாம் தகவல்களை சேமிக்கலாம், அதை எந்தெந்த வகையில் எடுக்கலாம், எப்படியெல்லாம் வகைப்படுத்தலாம், என்னென்ன கேள்விகள் மூலம் தகவல்களைப் பிரித்தெடுக்கலாம் என்பதையெல்லாம் கற்றுக் கொள்ள எஸ்.க்யூ.எல் அடிப்படை அறிவு இருப்பது தேவையானது ! இங்கும் கவனிக்க வேண்டிய விஷயம், இதிலெல்லாம் சூப்பர் டூப்பர் ஆட்களாய் இருக்க வேண்டிய அவசியம் இல்லை என்பது தான். ஆனால் நன்றாகத் தெரிந்திருக்க வேண்டும் என்பது கட்டாயம்.

டொமைன் ஸ்கில்ஸ் எனப்படும் கள அறிவு தகவல் அறிவியல் துறையில் முக்கியமானது. ஆனால் இதை துவக்கத்திலேயே படித்து விட முடியாது. நாம் எந்த துறையில் தகவல் அறிவியல் பணி செய்யப் போகிறோமோ அந்தத் துறை சார்ந்த விஷயங்களைக் கற்றுக் கொள்வது தான் சரியானது. உதாரணமாக மருத்துவத் துறையில் தான் தகவல் அறிவியல் வேலை செய்யப் போகிறீர்கள் என்றால், “ஹெல்த்கேர்’ டொமைன் பற்றி நன்றாகத் தெரிந்து வைத்திருப்பது அவசியம்.

தகவல் அறிவியல் கொண்டு வருகின்ற முடிவுகளை அலசவும், எப்படிப்பட்ட முடிவுகள் பயன்படும் என்பதை முடிவு செய்யவும் டொமைன் ஸ்கில்ஸ் தேவை. மருந்துகளின் தேவைகள் பற்றிய புள்ளிவிவரத்தை அதைப்பற்றி எதுவுமே தெரியாதவர்கள் படித்தால் புரியாது இல்லையா ? அது தான் அடிப்படை விஷயம்.

வங்கித் துறை சார்ந்த தகவல் அறிவியல் எனில் பேங்கிங் டொமைன் கற்றுக் கொள்ள வேண்டும். காப்பீடு துறை சார்ந்த டேட்டா சயின்ஸ் பணியெனில் ‘இன்சூரன்ஸ் டொமைன்’ கற்றுக் கொள்ள வேண்டும். வணிகம் சார்ந்த ஏரியா எனில் ‘ரிடெயில் டொமைன்’ தெரிந்திருக்க வேண்டும். இப்படி தேவையான ஒன்றைத் தெரிந்து கொள்ளலாம். டொமைன் ஸ்கில்ஸ் எனப்படுவதை ஒரே நாளிலோ, ஒரு படிப்பின் மூலமாகவோ கற்றுக் கொள்ள முடியாது. அடிப்படை அறிவைப் பெற்றுக் கொண்டு பின்னர் படிப்படியாக அதை வளப்படுத்திக் கொள்ளலாம்.

தகவலை விஷுவலைஸ் செய்து பார்ப்பது, அதாவது கற்பனை செய்து பார்ப்பது என்பது இந்த படிப்புக்கு தேவையானது. ஒரு துப்பறிவாளன் கையில் கிடைக்கும் ஒரு சின்ன பொருள் ஒரு பெரிய குற்றத்தைத் துப்பு துலக்க உதவுவது போல, தகவல் அறிவியலாளனின் கையில் கிடைக்கின்ற தகவல்கள் மிகப்பெரிய மாற்றத்துக்குரிய விடையைத் தர முடியும். அதற்கு, ‘இந்த தகவலை வைத்து என்ன செய்யலாம்’ என கற்பனை செய்து பார்க்கும் விஷுவலைசிங் திறமை அவசியம்.

அடிப்படையாக ஒரு பட்டப்படிப்பு இருப்பது ரொம்ப நல்லது. கணிதம், அறிவியல், காமர்ஸ் போன்ற பட்டப்படிப்பு இருந்தால் சிறப்பு !  பட்டப்படிப்பு இந்தத் துறையில் உங்களை முழுமையாக ஈடுபடுத்திக் கொள்ளும் ஊக்கத்தைத் தரும். ஒருவேளை வேறு நிறுவனங்களில், துறைகளில் வேலைபார்த்த அனுபவம் உடையவர்கள் பட்டப்படிப்பு இல்லாமலும் இந்த துறையில் நுழையலாம்.

கம்யூனிகேஷன் ஸ்கில்ஸ் எனப்படும் உரையாடல் திறனும் இந்த துறைக்கு ரொம்பவே கை கொடுக்கும். தகவல்கள் எப்போதும் நமக்கு எளிதில் கிடைத்து விடுவதில்லை. அதற்கு நமது உரையாடல்கள் தேவைப்படும். அதே போல, நாம் உருவாக்குகின்ற பணிகளை மிகத் திறமையாக அடுத்தவர்களுக்கு எடுத்துரைக்கவும் கம்யூனிகேஷன் திறமை மிக அவசியம்.

எல்லாவற்றுக்கும் மேலாக இருக்க வேண்டிய இரண்டு முக்கியமான விஷயங்கள் உற்சாகமும், புதுமையை விரும்பும் மனமும். தகவல்களை எப்படியெல்லாம் பயன்படுத்தலாம், எப்படியெல்லாம் அலசலாம், எப்படிப்பட்ட வகைகளில் வகைப்படுத்தலாம் என்பதெல்லாம் புதுமையை விரும்புபவர்களால் மட்டுமே முடிவு செய்ய முடியும். நூல் கண்டு போல சுற்றிப் பிணைந்து கிடக்கின்ற தகவல்களை சிக்கலில்லாமல் பிரித்தெடுக்க, தேவையற்ற தகவல்களை வெட்டி எறிய உற்சாக மனம் ரொம்ப முக்கியம். அடிப்படையாக, பிசினஸை எப்படியெல்லாம் வளப்படுத்தலாம், வலுப்படுத்தலாம் எனும் சிந்தனை ஓடிக்கொண்டே இருக்க வேண்டும். இவையெல்லாம் தான் ஒருவரை தகவல் அறிவியலில் சிறப்புற வைக்கும்.

சுருக்கமாக கணிதத்தில் பரிச்சயமும் ஆர்வமும் இருக்கிறதா ? ஓரளவு மென்பொருள் பரிச்சயம் இருக்கிறதா ? புதுமை செய்யும் ஆர்வம் இருக்கிறதா ? தகவல்களோடு விளையாடும் பொறுமை இருக்கிறதா ? எனில் நீங்கள் தைரியமாக இதில் காலெடுத்து வைக்கலாம்.

( தொடர்வோம் )

Data Science 1 :தகவல் அறிவியல் 1

Image result for data science

பாய்ஸ் திரைப்படத்தில் ஒரு காட்சி வரும். நகைச்சுவைக்காக வைக்கப்பட்ட அந்தக் காட்சியில் தகவல் அறிவியலின் தேவையை மிக எளிமையாக விளக்கியிருப்பார் சுஜாதா.

செந்தில் ஒரு கோயில் மண்டபத்தில் உட்கார்ந்திருப்பார். அவரது கையில் ஒரு குட்டி புக் இருக்கும். அதில் நாள், கிழமை வாரியாக எந்தக் கோயிலில் எப்போது என்ன சாப்பாடு போடுவார்கள் எனும் குறிப்புகள் எழுதப்பட்டிருக்கும். அதை வைத்துக் கொண்டு ஹாயாக சாப்பிட்டு காலத்தை ஓட்டுவார் அவர். அவரிடம் வந்து கேட்பவர்களுக்கும் புக்கைப் புரட்டிப் பார்த்து, “இந்த கோயிலுக்கு இத்தனை மணிக்கு போ.. ஓட்டை போட்ட வடை தருவாங்க” என அனுப்பியும் வைப்பார். அந்த தகவல்களை வைத்துக் கொண்டு “இன்ஃபர்மேஷன் ஈஸ் வெல்த்” என அவர் சொல்லும் டயலாக் பிரபலமானது !

தகவல்களை சேமித்து வைத்து, அதைப் பயன்படுத்த வேண்டிய வகையில் பயன்படுத்துவது ரொம்பவே பயனளிக்கும் என்பதை சுஜாதா இந்த குட்டி காட்சியின் மூலம் இயல்பாக விளக்கியிருப்பார்.

இந்த சின்ன சிந்தனையை, பரந்து பட்ட தொழில்நுட்ப வெளியில் ஆழமாகவும், நீளமாகவும், பெரிய அளவிலும் அலசி ஆராய்ந்தால் அதை தகவல் அறிவியல் என்று சொல்லலாம்.

உதாரணம் ஒன்று சொல்கிறேன். ஒரு நிறுவனம் இருக்கிறது. அதன் மேலதிகாரி தன்னுடைய அக்கவுன்டிங் துறையைக் கூப்பிட்டு, “நம்ம கம்பெனில போன வருஷம் நடந்த செலவுகளோட ஒட்டு மொத்த டேட்டாவையும் கொண்டு வாங்க” என சொல்கிறார் என வைத்துக் கொள்வோம். ஊழியர்கள் உடனே போய் ஜனவரி மாதம் முதல் டிசம்பர் மாதம் வரை நடந்த செலவுகளின் பட்டியலை எடுப்பார்கள். சின்னச் சின்ன செலவு முதல், பெரிய பெரிய இன்வெஸ்ட்மென்ட் செலவுகள் வரை அனைத்தையும் கொண்டு வந்து மேலதிகாரியிடம் கொடுப்பார்கள். இது தான் டேட்டா ! தகவல் !

இந்தத் தகவலை அப்படியே வைத்திருப்பதில் எந்த பயனும் இல்லை. செயல்படாத தகவல் செத்த தகவல் என சொல்லலாம். அது வெறுமனே இடத்தை அடைத்துக் கொண்டு கிடக்கும் அவ்வளவு தான். ஆனால் மேலதிகாரி அத்துடன் நின்று விடுவதில்லை. மீண்டும் அவர்களைக் கூப்பிட்டு,

“என்னப்பா இப்படி கொண்டு வந்தா நான் என்ன பண்றது ? ஒவ்வொரு மாசம் எவ்வளவு செலவாச்சு ? என்ன டிப்பார்ட்மென்ட்க்கு எவ்ளோ செலவாச்சு ? சம்பளம் எவ்ளோ குடுத்திருக்கோம் ? முதலீடு எவ்ளோ செஞ்சிருக்கோம் ? இப்படி பிரிச்சு குடுப்பா” என்பார்.

ஊழியர்கள் போய் அந்த தகவல்களையெல்லாம் திருப்பிப் போட்டு, அலசி அதை முறைப்படுத்தி மேலதிகாரி கேட்ட வடிவத்தில் கொண்டு வந்து கொடுப்பார்கள். இது தான் கட்டமைக்கப்பட்ட அல்லது வகைப்படுத்தப்பட்ட தகவல். ஸ்ட்ரக்சர்ட் டேட்டா !

இப்போது அந்தத் தகவல்களைப் புரட்டிப் பார்க்கும் மேலதிகாரி ஊழியர்களை அழைத்து,

“யப்பா… மார்ச் மாசம் ஏகப்பட்ட செலவாகியிருக்கு ! சேல்ஸ் டீம்ல செலவு அக்டோபர் மாசம் எகிறியிருக்கு ! மாசா மாசம் பெட்ரோல் செலவு ராக்கெட் மாதிரி ஏறியிருக்கு..” என்னன்னு கொஞ்சம் பாத்து சொல்லு” என்பார்.

அப்போது ஊழியர்கள் அந்த தகவலை மேலும் அலசி ஆராய்ந்து அதற்குரிய பதிலோடு வருவார்கள். அக்டோபர் மாதம் போனஸ் என்றோ, மார்ச் மாதம் அட்வான்ஸ் பேய்மென்ட் என்றோ தங்கள் கண்டுபிடிப்பைச் சொல்வார்கள். இது தகவல் அலசல் ! டேட்டா அனாலிசிஸ் !

இப்போது மேலதிகாரி தன்னுடைய திட்டமிடல் குழுவை கூப்பிடுவார். கூப்பிட்டு தன்னிடம் இருக்கின்ற இந்த தகவல்களை எல்லாம் கொடுப்பார். “இதோ பாருங்க, இதான் கடந்த வருஷத்தோட செலவு. இதுல எல்லா விவரங்களும் இருக்கு. அடுத்த வருஷம் இந்த செலவில 10 சதவீதம் கம்மி ஆகணும். எல்லா மாசமும் செலவு கிட்டத்தட்ட ஒரே மாதிரி இருக்கணும், அதுக்கு என்ன பண்ணணுமோ அதை கண்டுபிடிச்சு சொல்லுங்க” என்பார். இப்போது திட்டக் குழுவினர், கடந்த ஆண்டின் தகவலை வைத்துக் கொண்டு எதிர்காலத்தை திட்டமிடுவார்கள். எதிர்காலத்தில் என்னென்ன செய்தால் மேலதிகாரி சொன்னதை நிறைவேற்றலாம் என்பதை முடிவுசெய்வார்கள். இது தான் டேட்டா அனாலிடிக்ஸ். பொதுவாகச் சொல்ல வேண்டுமெனில் டேட்டா சயின்ஸ். தகவல் அறிவியல்.

துவக்கத்தில் ஏனோதானோவென கிடந்த தகவல்கள், ஒன்று சேர்க்கப்பட்டு, வகைப்படுத்தப்பட்டு, தரம்பிரிக்கப்பட்டு, பயன்படுத்தக்கூடிய வகையில் மாற்றப்பட்டு, எதிர்காலத்துக்கான முடிவுகளை நிர்ணயிக்கும் காரணியாக உருமாற்றம் அடைகிறது. இது தான் தகவல் அறிவியல் என்பதன் ஆகச் சுருக்கமான விளக்கம்.

இந்த தகவல்களெல்லாம் நாம் நினைப்பது போல அழகாக கணினியில் டைப் செய்து சேமிக்கப்பட்டிருப்பவை மட்டுமல்ல. பல்வேறு விதமான தகவல்கள், பல்வேறு விதமான வடிவங்களில் கிடைக்கின்றன. கணினியிலோ, காகிதத்திலோ நாம் தெளிவாக எழுதி வைத்திருக்கும் தகவல்கள் முறைப்படுத்தப்பட்ட தகவல்கள். அல்லது ஸ்ட்ரக்சர்ட் டேட்டா. இதைக் கையாள்வது எளிது. இந்த தகவல்களை அலசி ஆராய்வதும், அதன் மூலமாக புதிய முடிவுகளை எடுப்பதும் மிக எளிது.

ஆனால் முறைப்படுத்தப்படாத தகவல்கள் விஷயத்தில் அது கடினம். அதென்ன முறைப்படுத்தப்படாத தகவல் ? அலுவலகத்தில் ஆங்காங்கே கண்காணிப்பு கேமராக்கள் இருக்கும். அந்த கேமராக்கள் 24 மணி நேரமும் கண்சிமிட்டி காட்சிகளைப் பதிவு செய்து கொண்டே இருக்கும். கார் பார்க்கிங்கிலும், அலுவலகத்தைச் சுற்றியும் இதே போல பல கேமராக்கள் சுற்றிச் சுற்றி காட்சிகளை தனக்குள் அடுக்கிக் கொண்டே இருக்கும் ! இந்த வீடியோ காட்சிகள் முறைப்படுத்தப்படாத தகவலின் ஒரு உதாரணம் !

அலுவலகத்தில் தலைமை அதிகாரி ஒருமணி நேர உற்சாக உரையாற்றுகிறார் என வைத்துக் கொள்வோம். அதில் பல விஷயங்கள் இருக்கும். பல திட்டங்களின் துவக்க நாட்கள் இருக்கும். அந்த உரை ஒரு கட்டமைக்கப்படாத தகவல். அதிலிருந்து தேவையான தகவல்களை பிரித்தெடுக்க வேண்டும்.

ஒரு அலுவலகத்தை எடுத்துக் கொண்டால் இத்தகைய தகவல்கள் எக்கச்சக்கமாக குவிந்து கிடக்கும். நீண்டு கொண்டே இருக்கின்ற அனுமர் வால் போல அவை பயம் காட்டும். நெருங்கிச் செல்லச் செல்ல விலகி ஓடும் தொடுவானம் போல களைப்பை ஏற்படுத்தும்.

அன்னியன் திரைப்படத்தில் வருகின்ற காட்சி நினைவுக்கு வருகிறதா ? ஐந்து பைசா திருடுவது தவறில்லை. ஆனால் ஐந்து இலட்சம் பேர், ஐந்து ஐந்து பைசாவாக‌, ஐந்து இலட்சம் தடவை திருடினால் அது மிகப்பெரிய திருட்டாய் முடியும் இல்லயா ? அதே போல தான் கட்டமைக்கப்படாத தகவல்கள் கொஞ்சம் கொஞ்சமாக சேர்ந்து மலைபோல மாறிவிடும்.

ஆயிரம் பேர் வேலை செய்யும் அலுவலகத்தில், ஒரு நபருக்கு தினம் பத்து அலுவல் சார்ந்த‌ மின்னஞ்சல் வரும் என வைத்துக் கொண்டாலும், மொத்தக்கணக்கு தினசரி பத்தாயிரம் மின்னஞ்சல்கள் என்றாகிறது. அது ஒரு மாதத்திற்கு மூன்று இலட்சம் என மிரட்டும் எண்ணிக்கையில் வந்து முடியும். அப்படி ஒரு ஆயிரம் நிறுவனங்களில் எவ்வளவாகும், தினசரி வருகின்ற மின்னஞ்சல்களின் எண்ணிக்கை அதிகமானால் என்னவாகும் என்பதையெல்லாம் மனக்கணக்கு போட்டு பார்த்துக் கொள்ளுங்கள்.

இதே போல புகைப்படங்கள், டாக்குமென்ட்கள், ஆடியோ ஃபைல்கள், டெக்ஸ் ஃபைல்கள், பிரசன்டேஷன்கள், வலைத்தளங்கள், போன் கால்கள் என ஒவ்வொரு விஷயத்தையும் எடுத்துக் கொண்டால் ‘ஒரு நிமிஷம் தலை சுத்திடுச்சு’ என்று நம்மையறியாமலேயே சொல்வோம்.

நமக்குக் கிடைக்கின்ற தகவல்களில் 70 முதல் 90 விழுக்காடு தகவல்களும் கட்டமைக்கப்படாத தகவல்கள் தான் ! அப்படிக் கிடைக்கின்ற தகவல்களை கட்டமைக்கப்பட்ட தகவல்களாக மாற்றுவது எப்படி என்பது தான்  தொழில்நுட்பம் எதிர்கொள்ளும் மிகப்பெரிய சவால். அதற்கான தொழில்நுட்ப நுணுக்கங்களை தகவல் அறிவியல் தன்னகத்தே முக்கிய இடத்தில் வைத்திருக்கிறது.

அலுவலகம் எனும் எல்லையைத் தாண்டினால்  சமூக வலைத்தளங்கள், வாட்சப் போன்ற குறுஞ்செய்தி செயலிகள், வலைத்தளங்கள், வீடியோ கால்கள், மின்னஞ்சல்கள், ஆன்லைன் பரிவர்த்தனைகள், சிக்னல் வீடியோக்கள் என இந்த தகவல்களின் வகைகளும், அளவுகளும் கோடி கைகளுடன் மனுக்குலத்தை இறுக்கப் பிடிக்கின்றன !

இந்த சவாலை, சாதகமாய் மாற்றும் வேலையைத் தான் தகவல் அறிவியல் செய்கிறது. இன்றைய தேதியில் வேலை வாய்ப்புகள் கொட்டிக் கிடக்கும் இடம் ‘டேட்டா சயின்ஸ்’ எனும் தகவல் அறிவியல் தான்

( தொடர்வோம் )