Data Science 8 : தகவல் அறிவியல் 8

எதிர்காலத்தில் தகவல் அறிவியல்

Image result for data science

எந்த ஒரு தொழில்நுட்பமும் கல்வெட்டு போல நிலைத்து நிற்பதில்லை. நாட்கள் செல்லச் செல்ல அந்த நுட்பம் தனது முக்கியத்துவம் இழந்து விடுகிறது. அப்போது இன்னொரு தொழில்நுட்பம் அந்த இடத்தை ஆக்கிரமித்துக்  கொள்ளும். அதுவும் இன்றைய டிஜிடல் யுகத்தில் தொழில்நுட்பத்தின் மாற்றங்கள் எக்ஸ்பிரஸ் வேகத்தில் தான் நிகழ்கின்றன.

தகவல் அறிவியல் தொழில்நுட்பமும் அப்படித் தான் இன்று இருப்பதைப் போலவே எல்லா நாளும் இருக்கப் போவதில்லை. மாற்றங்களை நிச்சயமாகச் சந்திக்கப் போகிறது, புதிய புதிய வடிவங்களை எடுக்கப் போகிறது. புதிய புதிய தொழில்நுட்பங்களோடு தன்னை இணைத்துக் கொள்ளப் போகிறது.

ஆர்டிஃபிஷியல் இன்டலிஜென்ஸ் எனப்படும் செயற்கை அறிவு அதில் முக்கியமான ஒன்று. அது கண்டிப்பாக இன்னும் ஆழமாக தகவல் அறிவியல் துறைக்குள் நுழையும் என்பதில் சந்தேகமில்லை. அப்போது அல்காரிதங்களும், மென்பொருட்களும் தன்னிலே “ஸ்மார்ட்” ஆக மாறி தகவல்களை பயன்படுத்தத் துவங்கிவிடும். மனித உதவி தேவையில்லாமலேயே பின்னர் ‘பிரடிக்டிவ்’ அலசல்கள் நடக்க வாய்ப்புகள் அதிகம்.

ஆர்டிபிஷியல் இன்டெலிஜென்டின் வரவு தகவல் அறிவியலில் ஏற்படுத்துகின்ற விளைவுகளில் ஒரு எதிர் விளைவும் உண்டு. எப்போது செயற்கை அறிவு முழுமையாக தகவல் அறிவியலில் நுழைகிறதோ அப்போது மனித உழைப்புக்கு அங்கே வேலை குறைகிறது. ஆட்டோமேஷன் அந்த இடத்தை வந்தடைகிறது. இதனால் அந்த காலகட்டத்தில் வேலை வாய்ப்புகள் குறையும். ஆனால் அதுவரை தகவல் அறிவியலார்களுக்கான தேவை அதிகரித்துக் கொண்டே இருக்கும்.

அதே போல மெஷின் லேர்னிங் எனப்படும் தொழில்நுட்பமும் இன்னும் அதிகமாக தகவல் அறிவியலில் இணைந்து கொள்ளும். ஏற்கனவே மெஷின் லேர்னிங் நுட்பம் டேட்டா சயின்ஸோடு இணைந்து தான் பயணிக்கிறது. இனிமேல்  இன்னும் அதிகமாக அந்த பிணைப்பு இருக்கும்.

உதாரணமாக ஒரு இயந்திரம் தனது தகவலை இன்னொரு இயந்திரத்துக்கு தானாகவே அனுப்பும், ஒரு கருவி வேறு பல கருவிகளிலிருந்து வருகின்ற தகவல்களை தானாகவே சேகரித்து அலசலை துவங்கும். சென்சார்களின் தகவல்கள் அங்கும் இங்கும் தானாகவே கூடு விட்டுக் கூடு பாய்ந்து தனது பணிகளைச் செய்யும். என இந்த மெஷின் லேர்னிங் நுட்பம் தகவல் அறிவியலில் வெகு ஆழமாய் செல்லும் என்பதில் சந்தேகமே இல்லை.

மருத்துவத் துறையில் தகவல் அறிவியலின் பயன் இன்னும் பல மடங்கு அதிகரிக்கப் போகிறது. குறிப்பாக நியூரல் நெட்வர்க் எனும் நரம்பியல் துறையில் தகவல் அறிவியலின் பயன்பாடு வெகுவாக அதிகரிக்கும் என மருத்துவ அறிக்கைகளும், ஆய்வுகளும் தெரிவிக்கின்றன.  மருத்துவம் ஏற்கனவே தகவல் அறிவியலை ஆய்வுகளிலும், மருத்துவமனைகளிலும் பயன்படுத்தி வருகிறது. அது இன்னும் பலமடங்கு அதிகரிக்கும்.

இன்டர்நெட் ஆஃப் திங்க்ஸ் எனும் தொழில்நுட்பம் பற்றி கேள்விப்பட்டிருப்பீர்கள். இப்போது கணினி துறையில் படிப்பவர்களுக்கு இது ஒரு கட்டாயப் பாடமாகவும் இருக்கிறது. எப்படி இணையத்தில் தகவல்களை சேமிக்கிறோமோ, அப்படி உலகில் நாம் பயன்படுத்தும் பல்வேறு பொருட்களையும் இணையத்தோடு இணைப்பது தான் இதன் அடிப்படை சிந்தனை. உதாரணமாக உங்கள் வீட்டு கேஸ் ஸடவ்வை நீங்கள் இணையத்தோடு இணைக்கலாம். அது ஒழுங்காக வேலை செய்கிறதா என்பதைக் கவனிக்கலாம்.

இவற்றையெல்லாம் சென்சார்கள் கவனித்துக் கொள்கின்றன. டிஜிடல் தகவல்களை அவை கணினிகளுக்கோ, அல்லது அது போன்ற கருவிகளுக்கோ அனுப்பி இணைய உலகோடுள்ள உறவை உயிர்ப்பித்துக் கொள்கின்றன. இன்றைக்கு சுமார் 170 பில்லியன் எனுமளவில் இருக்கும் இன்டர்நெட் ஆஃப் திங்க்ஸ் பிஸினஸ் இன்னும் நான்கு ஆண்டுகளில் சுமார் 560 பில்லியன் எனுமளவுக்கு எகிறும் என்கின்றன ஆய்வுகள்.

அதே போல பிக் டேட்டா எனும் தொழில்நுட்பமும் தகவல் அறிவியலின் ஒரு பாகம் தான். பிக் டேட்டா என்பது உங்களுக்குத்  தெரிந்த விஷயம் தான். கொட்டிக் கிடக்கின்ற கணக்கற்ற தகவல்களை எப்படி பயனுள்ள தகவல்களாக மாற்றுகிறோம் ? எப்படி அவற்றைக் கொண்டு தொழிலை வளர்ச்சிப் பாதையில் அழைத்துச் செல்கிறோம் என்பது தான் அதன் அடிப்படை. முழுக்க முழுக்க தகவல்களின் அடிப்படையில் இயங்குவதால் இது தொடர்ந்து தகவல் அறிவியலில் ஒரு முக்கியமான பாகமாக இருக்கும் !

வெறும் எண்களையும், டிஜிடல் எழுத்துகளையும் வைத்து தான் இன்றைக்கு தகவல் அறிவியல் அசத்திக் கொண்டிருக்கிறது. மற்றெந்த வகை தகவல்களாய் இருந்தாலும் அவற்றை முதலில் டிஜிடல் எண்களாகவோ, எழுத்துகளாகவோ மாற்றினால் தான் பயன்பாட்டுக்குக் கொண்டு வர முடியும் எனும் சூழல் இருக்கிறது. இந்த நிலை மாறும் !  இனி வரும் காலங்களில் தகவல்களை டிஜிடல் எண்களாக மாற்றாமல் நேரடியாகவே பயன்படுத்தக் கூடிய நுட்பங்கள் உருவாகும்.

அப்படிப்பட்ட மாற்றம் வரும்போது தகவல் அறிவியலில் இன்னும் வியப்பூட்டும் விஷயங்கள் நடக்கும். ஆடியோக்கள், வீடியோக்கள், புகைப்படங்கள், லைவ் கேமராக்கள் போன்றவை எல்லாமே மிகப்பெரிய நேரடியான உள்ளீடு தகவல்களாக பயன்படும். தகவல் அறிவியலின் மிகப்பெரிய புரட்சி அது என சொல்லலாம்.

அத்துடன் ‘நேட்டிவ் லேங்குவேஜ்’ எனப்படும் மொழிகடந்த தகவல் அறிவியலும் உருவாகிவிட்டால் இதன் வீச்சு கணிக்க முடியாத அளவுக்கு இருக்கும்.

ஹைப்பர் பெர்சனலைசேஷன் எனப்படும் தனிமனிதனை மையப்படுத்தி செய்கின்ற தொழில்களுக்கு தகவல் அறிவியல் தான் மிகப்பெரிய துணையாய் இருக்கப் போகிறது. விற்பனையாளருக்கும், வாடிக்கையாளருக்கும் இடையேயான தொடர்பை இறுக்கிப் பிடித்து விற்பனையை உறுதி செய்வதில் இந்த பெர்சனலைசேஷன் சிந்தனை தேவையானதாய் இருக்கிறது.

ஆகுமென்டட் ரியாலிடி எனும் தொழில்நுட்பத்தில் ஏற்படுகின்ற மாற்றங்களும் தகவல் அறிவியலின் வளர்ச்சியைக் கொண்டு வரும். ஆகுமென்டர் ரியாலிடி இன்றைக்கு ‘கேம்ஸ்’ துறையில் கொண்டு வந்திருக்கின்ற மாற்றங்கள் எக்கச்சக்கம். அப்படியே அந்த நுட்பத்தை ஸ்மார்ட் போனில் மாற்றுகின்ற நடைமுறையும் இப்போது வரத் துவங்கியிருக்கிறது. ஆகுமென்டட் ரியாலிடி வளர வளர, டேட்டா சயின்ஸும் வளரும்.

பிகேவியரல் அனாலிசிஸ் எனப்படும், ஒரு மனிதனுடைய குணாதிசயங்களை அலசுகின்ற, உளவியல் சார்ந்த தகவல் அறிவியலும் இப்போது வளர்ந்து வருகிறது. பயனாளர்களை உளவியல் ரீதியாக அணுகும் முறை இது என்றும் சொல்லலாம். எந்த அளவுக்கு ஒரு நபரைத் தெரிந்து வைத்திருக்கிறோமோ, அந்த அளவுக்கு அவருடைய தேவைகளை அறிந்து கொள்ள முடியும் எனும் அடிப்படை விஷயம் தான் இங்கே கையாளப்படுகிறது.

தகவல் அறிவியலில் வளர்ச்சியும், ஆர்டிபிஷியல் இன்டெலிஜென்ட் வளர்ச்சியும் இயந்திரங்களையும், கருவிகளையும் ஸ்மார்ட் ஆக மாற்றிக் கொண்டிருக்கின்றன. இனிமேல் அந்த கருவிகளெல்லாம் அறிவைத் தாண்டி ஞானம் உடையவையாக மாறும் என்பதே தொழில்நுட்பம் தருகின்ற தொலை நோக்குப் பார்வை. நமது பிள்ளைகளுக்கு நாம் அறிவைக் கொடுக்கும் முன்பே நல்ல சிந்தனைகளையும், பகுத்தறிவையும் கொடுக்கிறோம் இல்லையா ? அதே போல நமது  இயந்திரங்களும் ஞானம் கொண்டவையாய், சுய சிந்தனை கொண்டவையாய் மாறும் என்பதே தகவல் அறிவியலின் சிந்தனை.

சுருக்கமாகச் சொல்லவேண்டுமெனில், தகவல் அறிவியலின் வீச்சும் பயன்பாடும் அடுத்த ஐந்து பத்து ஆண்டுகளுக்கு நிற்கப் போவதில்லை. வடிவம் மாறி, நுட்பம் மாறி பயணித்துக் கொண்டே தான் இருக்கப் போகிறது. எனவே ஆர்வமும், திறமையும் உடையவர்கள் தயங்காமல் இந்தத் துறையை அரவணைத்துக் கொள்ளலாம்

( முற்றும் )

Advertisements

Data Science 7 :

Image result for data science

 

அமெரிக்காவுக்கு மட்டுமே இந்த ஆண்டு இறுதிக்குள் இரண்டு இலட்சம் டேட்டா சயின்ஸ் பொறியாளர்கள் தேவைப்படுவார்கள் என்கிறது மெக்கன்சி ஆய்வு. அடுத்த பத்து ஆண்டுகளுக்கு தொழில் நுட்ப உலகை வசீகரிக்கப் போகும் வேலை இந்த தகவல் அறிவியல் தான் கூகிள் நிறுவன தலைமை பொருளாதார அதிகாரி ஹான் வாரியன். தகவல் அறிவியல் எனும் துறை இப்போதே பெரும்பாலான நிறுவனங்களின் முதுகெலும்பாகத் தான் இருக்கிறது. அப்படி வசீகரிக்கும் நிறுவனங்களில் மூன்று நிறுவனங்களைப் பற்றி நாம் கடைசியில் பார்ப்போம் !

‘இந்த தகவலை எல்லாம் வெச்சு என்ன செய்ய போறோம்” என்கிற மனநிலை ஒரு காலத்தில் இருந்தது. இப்போது அது தலைகீழாக மாறிவிட்டது. எந்த தகவலை வைத்தும் என்ன வேண்டுமானாலும் செய்யலாம் எனும் சிந்தனை உருவாகிவிட்டது. தகவல் என்பது பொன்முட்டையிடும் வாத்தாக மாறிவிட்டது. தகவல் என்பது பணம் காய்க்கும் மரமாகிவிட்டது. அதனால் தான் எல்லா மென்பொருட்களும், நிறுவனங்களும் தகவல் சேகரிப்பில் ஆர்வம் காட்டுகின்றன. அது பல வேளைகளில் தனி மனித சுதந்திரத்துக்கு வேட்டு வைப்பதாகவும் அமைந்து விடுகிறது என்பது தனிக்கதை.

எனவே இப்போதெல்லாம் நிறுவனங்கள் தங்கள் அடிப்படை சிந்தனையாக எழுதிக் கொள்ளும் விஷயம் இது தான், “தகவல்கள் எல்லாமே ஏதோ ஒரு வகையில் தேவையானவை”. ஒரு தகவலை சாதாரணமான ஒரு எண்ணாகவோ, எழுத்தாகவோ பார்க்காமல் அதன் பின்னணியில் இயங்குகின்ற விஷயங்களை ஊகித்து அறிவதிலும், கணித்து கண்டுபிடிப்பதிலும் இருக்கிறது தகவல் அறிவியலின் முதல் வெற்றி.

தகவல்களுக்கு எடை உண்டு ! தகவல்கள் காற்றைப் போல அங்கும் இங்கும் அலைந்து திரிந்தாலும் அதை சரியான வகையில் கட்டுப்படுத்தி கட்டி வைப்பவர்களுக்கு அது செல்வத்தை அள்ளித் தருகிறது. காற்றிலிருந்தும் தகவலை சேகரிப்பது தகவல் அறிவியலின் தேவை. அதாவது, யாருக்கும் தேவையில்லை என நினைக்கும் விஷயங்கள் ஒரு நிறுவனத்தின் வளர்ச்சியையே ஒட்டு மொத்தமாய்ப் புரட்டிப் போட முடியும்.

இப்போது இன்னொரு சிந்தனை வேண்டும். “நம்மிடம் இருக்கின்ற பிரச்சினை இன்னது.. இதை எப்படி நம்மிடம் இருக்கின்ற தகவலோடு இணைத்து முடிச்சுப் போடுவது ? இதற்குத் தான் மென்பொருட்களும், அல்காரிதங்களும் உதவிக்கு வருகின்றன. ஆனால் ஒரு சாதாரண நபராக ஒரு பிரச்சினையையும், அதை எப்படி இந்தத் தகவல் தீர்த்து வைக்கலாம் எனும் சிந்தனையும் இருக்க வேண்டியது அவசியம்.

இப்போது அடுத்த நிலை ! தகவலைப் புரிந்து கொண்டாயிற்று. அதை எப்படி பிரச்சினையோடு இணைத்து முடிவை நோக்கி நகர்வது என்பதையும் அறிந்தாயிற்று. அதைச் செயல்படுத்தக்கூடிய கட்டமைப்பு நிறுவனத்துக்கு இருக்கிறதா ? என்பதைப் பார்க்க வேண்டும். வண்டி நுழையாத தெருவுக்குள் வீட்டை கட்டி வைத்தால், பென்ஸ் கார் வாங்கினாலும் பயனில்லை அல்லவா ? எனவே செயல்படுத்தப் பட வேண்டிய கட்டமைப்பை உருவாக்குவதும், சரியான நேரத்தில் அதை செயல்படுத்துவதும் அவசியம்.

எதிர்காலத்தில் இந்த தகவல் அறிவியல் என்பது , ‘ரியல் டைம் டேட்டா’ அதாவது தகவல்கள் வர வர அதை வைத்து ஆட்டோமெடிக்காக அலசி முடிவுகள் எடுக்கும் முறை வந்து விடும். இப்போதைக்கு இருக்கின்ற தகவல்களைக் குவித்து, அதை அலசி தான் முடிவுகளை எடுக்கிறோம். அதன் பின் வருகின்ற அதிகபடியான தகவல்கள் ஆட்டோமெடிக்காக பயன்படுத்தப்படும் சூழல் உருவாகும்.

இப்போது தகவல் அறிவியல் துறையில் கோலோச்சிக் கொண்டிருக்கும் டாப் 3 நிறுவனங்களைப் பற்றி பார்க்கலாம்.

1. கூகிள் !

நம்மை ரகசியக் கண் கொண்டு பார்த்துக் கொண்டே இருக்கும் நிறுவனம் என நீங்கள் கூகிளை சொல்லலாம். ஜிமெயிலில் நீங்கள் அனுப்புகின்ற ஒவ்வொரு மெயிலும் வாசிக்கப்படலாம், பிக் டேட்டா அனாலிசிஸ் செய்யப்படலாம், அந்தத் தகவல்களை பிஸினஸ் தேவைக்காய் பயன்படுத்தலாம்.

உதாரணமாக, நீங்கள் ஒரு விமான டிக்கெட் புக் செய்கிறீர்கள். அதை கூகிள் மெயிலுக்கு அனுப்புகிறீர்கள் என வைத்துக் கொள்ளுங்கள். அது அந்தத் தகவல்களையெல்லாம் படித்து விட்டு, அங்கே அந்த நாளில் உங்களுக்கு ஹோட்டல் வேண்டுமா, கார் வேண்டுமா, வேறு ஏதாவது வசதிகள் வேண்டுமா என டிஜிடல் நச்சரிப்பை ஆரம்பிக்கும்.

எதற்கெடுத்தாலும் நாம் கூகிளைத் தான் அழைத்து, ‘தேடுதல்’ செய்கிறோம் இல்லையா ? அந்த தகவல்களெல்லாம் அவர்களுடைய சர்வரைக் கடந்து தான் செல்கின்றன. அவற்றில் எவையெல்லாம் தேவைப்படுமோ அவற்றையெல்லாம் கூகிள் சேமித்துக் கொள்கிறது. இன்னும் சொல்லப்போனால், தனது நிறுவனத்தில் பணிசெய்யும் ஊழியர்களுக்கு என்ன கொடுத்தால் குஷியாவார்கள் என்பதையும் இந்த தகவல் அறிவியல் கண்டறிந்து சொல்கிறது.

நீங்கள் யூடியூபில் பார்க்கின்ற வீடியோக்கள் அடிப்படையில் உங்களுக்கு புதிய வீடியோக்களை அறிமுகம் செய்கிறது. அதன்பின் இப்படிப்பட்ட வீடியோ பார்ப்பவர்கள் வேறென்ன பார்க்கலாம் என்பதைக் கணிக்கிறது. எத்தனை முறை பார்க்கிறார்கள் என்பதை வைத்து அவர்களை எடை போடுகிறது. எந்த நேரத்தில் எந்த வீடியோவைப் பார்ப்பவர்கள் என்ன குணாதிசயம் கொண்டவர்கள் என்பதை அல்காரிதம் மூலம் சேமிக்கிறது. அதன் அடிப்படையில் விளம்பரங்களோ, வசீகரங்களோ தந்து வலையில் வீழ்த்துகிறது.

2. அமேசான் !

அமேசான் நிறுவனத்தைப் பற்றி சொல்லவேண்டாம். ஆன்லைன் ஷாப்பிங் செய்த எல்லோருக்குமே அந்த அனுபவம் நிச்சயம் இருக்கும். ஒரு பொருளை வாங்க அந்தத் தளத்துக்குப் போனாலே உங்களை வரவேற்று உங்களுக்குத் தேவையானவற்றைத் தந்து உங்களை ஈர்த்துக் கொண்டே இருக்கும்.

உங்களுடைய தேடுதல் பேட்டர்ன், உங்களுடைய பர்சேஸ் பேட்டர்ன் போன்றவற்றையெல்லாம் வைத்து நீங்கள் ஒரு பொருளை வாங்குவீர்களா, மாட்டீர்களா என்பதை அது கணிக்கும். உங்களுடைய வாங்கும் திறமைக்குத் தக்க பொருட்களை மட்டுமே அது உங்களுக்கு பரிந்துரை செய்யும். மாருதி கார் வாங்கும் அளவுக்கு வசதி மட்டுமே உடையவர்களுக்கு அது ஆடி காரை பரிந்துரை செய்யாது. அந்த அளவுக்கு அதை அறிவுசார் மென்பொருளாய் மாறியிருக்கிறது. அதன் காரணஅது ம் ஆர்டிபிஷியல் இன்டலிஜென்ஸ் கலந்த பிக் டேட்டா என்பதில் சந்தேகமில்லை.

அது இன்னும் ஒரு படி மேலே போய், நீங்கள் ஒரு பொருளை வாங்குவீர்களா இல்லையா என்பதைக் கணித்து, வாங்குவீர்கள் என மென்பொருளின் அல்காரிதம் சொன்னால் அந்தப் பொருளை அடுத்திருக்கும் ஒரு கடைக்கோ, கோடவுனுக்கோ அது அனுப்பவும் செய்கிறது. இப்படி தனது வளர்ச்சியின் முதுகெலும்பாய் தகவல் அறிவியலைத் தான் கட்டி வைத்திருக்கிறது.

3, ஃபேஸ் புக் !

பேஸ்புக் தகவல் அறிவியலில் ஒரு மிகப்பெரிய உயரத்தை எட்டிய கம்பெனி. இந்த நிறுவனத்தின் பாசிடிவ் விஷயம் என்னவென்றால், அவர்களிடம் எக்கச்சக்க தகவல்கள் இருக்கின்றன என்பது தான். ஒன்றிரண்டு அல்ல, அவர்களிடம் சுமார் 220 கோடி பேருடைய தகவல்கள் இருக்கின்றன. எல்லாமே தனிப்பட்ட தகவல்கள். இவற்றை வைத்துக் கொண்டு உங்களுடைய தேவைகளையெல்லாம் அது அறிந்து கொள்ளும்.

அப்படியே உங்களோடு தொடர்பில் இருப்பவர்களைப் பார்த்து, யாரையெல்லாம் வசீகரிக்கலாம். என்னென்ன பொருட்களை விற்கலாம். என்பதையெல்லாம் கணக்கு போடும். விளம்பரங்களின் மூலம் மிகப்பெரிய லாபத்தை அடைகின்ற நிறுவனங்களில் ஒன்று பேஸ்புக் என்பதில் சந்தேகமேயில்லை.

இவையெல்லாம் நமக்குத் தெரிந்த பெரிய கம்பெனிகள். அதற்காக அவை மட்டும் தான் இந்த தகவல் அறிவியல் துறையில் கோலோச்சும் நிறுவனங்கள் என்பதில்லை. சின்னச் சின்ன நிறுவனங்கள் கூட தகவல் அறிவியலை தங்களுடைய பிஸினஸ் வளர்ச்சிக்குப் பயன்படுத்துகின்றன.

“சரி பண்றவன் பண்ணிட்டு போறான்”, என நிறுவனங்கள் அலட்சியமாய் இருந்து விடவும் முடியாது. பொம்மலாட்டக் குதிரையை ரேஸ் டிராக்கில் விட்டது போல ஆபத்தாகிவிடும். விரைவிலேயே பிஸினஸை மூட்டை கட்டி வைப்பதைத் தவிர வேறு வழி இல்லை என்றாகிவிடும்.

தகவல் அறிவியலின் சிந்தனை கொஞ்சம் பழையதாய் இருந்தாலும், இன்றைய தொழில்நுட்பம் அதை மிகப்பெரிய உயரத்துக்கு எடுத்துச் சென்றிருக்கிறது. அதனால் தான் இன்றைக்கு தகவல் அறிவியல் பொறியாளர்களின் தேவை முன்பெப்போதும் இல்லாத அளவுக்கு எகிறியிருக்கிறது.

Data Science 5 : தகவல் அறிவியல் 5

Image result for data science

கடந்த வாரங்களில் தகவல் அறிவியல் என்றால் என்ன என்பதைப் பற்றியும், அதன் பயன்கள் பற்றியும், அந்தத் துறையில் உள்ள பல்வேறு வேலை வாய்ப்பு விஷயங்கள் பற்றியும் பார்த்தோம். இந்த வாரம் தகவல் அறிவியல் துறைக்குள் நுழைந்து அங்கே அப்படி என்ன தான் வேலை செய்கிறார்கள் என்பதை எட்டிப் பார்க்கப் போகிறோம் !

அப்படி தகவல் அறிவியல் துறையில் என்ன வேலை தான் செய்கிறார்கள் ?

1. பிரச்சினையை புரிதல் !

தகவல் அறிவியலின் ஆகப் பெரிய விஷயமே ஒரு நிறுவனத்தின் பிரச்சினை என்ன என்பதைப் புரிந்து கொள்வது. பிரச்சினை என்ன என்பதைப் புரிந்து கொள்வது என்பது இரண்டு நிலை கொண்டது. ஒன்று ‘இது தான் என்னோட பிரச்சினை’ என முன்வைப்பது. இரண்டாவது, ‘இந்த பிரச்சினை இல்லாமல் எனக்கு இப்படிப்பட்ட ஒரு நிலை வேண்டும்’ என்பது !

ஒரு பிரச்சினையை அக்கு வேறு ஆணி வேறாகப் புரிந்து கொள்வது தகவல் அறிவியலில் மிக முக்கியம். அதற்கு ஏகப்பட்ட கேள்விகளைக் கேட்க வேண்டும். கேள்விகள் பிரச்சினைகளை அதிகப்படுத்தி, அதிலுள்ள அடிப்பட்ட விஷயங்கள் வரை வெளிக்கொணரும். எந்த அளவுக்கு பிரச்சினையை பிரச்சினையைப் புரிந்து கொள்கிறோமோ, அந்த அளவுக்கு தெளிவான தீர்வுகள் கிடைக்கும். பிரச்சினையைப் புரிந்து கொள்ளாமல் களத்தில் இறங்குவது தவகல் அறிவியல் துறையைப் பொறுத்தவரை மிகப்பெரிய பிழை.

உதாரணமாக, “நிறைய கஸ்டமர்களை ஈர்க்க வேண்டும்” என்பது ஒரு வரி தேவையாக இருக்கலாம். அதை வைத்துக் கொண்டு தகவல் அறிவியலில் எதுவும் செய்ய முடியாது. நீங்கள் என்ன செய்கிறீர்கள், எப்படிப்பட்ட கஸ்டமர்கள் வேண்டும், யாரெல்லாம் போட்டியாளர்கள்,அவர்களிடம் எவ்வளவு கஸ்டம்ர்கள் இருக்கிறார்கள், உங்கள் கஸ்டமர்களின் விமர்சனங்கள் என்ன ? குறைகள் என்ன ? எவ்வளவு நாட்கள் சராசரியாக உங்களோடு இருக்கிறார்கள் என தொடங்கி நூற்றுக்கணக்கான கேள்விகளை வரிசையாக எழுப்பினால் உங்களுக்கு கொஞ்சம் கொஞ்சமாக விஷயம் புரியத் துவங்கும்.

எந்த அளவுக்கு கேள்விகளைக் கேட்கிறீர்கள், எந்த அளவுக்கு தொடர்புடைய கேள்விகளைக் கேட்கிறீர்கள் என்பதை வைத்து உங்களுடைய முடிவுகளுக்கு தெளிவு கிடைக்கும். சில கேள்விகள் தான் மாற்றங்களைக் கொண்டு வரும். நிறுவனமே யோசிக்காத விஷயங்களை யோசிக்கத் துவங்குவதும் அப்போது தான். பிரச்சினையை புரிந்து கொள்வதற்கான ‘பிரெயின் ஸ்டாமிங்’ என இந்த விவாதத்தை அழைப்பதுண்டு.

2. தகவல் சேகரிப்பு

பெயரைக் கேட்டாலே புரிஞ்சிருக்குமே ! இருக்கின்ற தகவல்களையெல்லாம் சேகரிப்பது தான் இந்தக் கட்டம். ஆனால் அது நாம் நினைப்பது போல எளிதல்ல. தகவல்கள் எப்போதும் ஒரு நாலு ஃபைல்களில் இருப்பதில்லை. தகவல்கள் எங்கே இருக்கின்றன என்பதைக் கண்டுபிடிக்கவே நிறைய தகவல்கள் தேவைப்படும். அந்த தகவல்களைக் கண்டுபிடித்தபின் அதைச் சேகரிக்க வேண்டும்.

முதலில் வகைப்படுத்தப்பட்ட தகவல்கள் என்னென்ன இருக்கின்றன என்பதைக் கண்டுபிடித்து அவற்றை சேகரிக்க வேண்டும். இது எளிதான பணி. அதிக பயனளிக்கக் கூடிய தகவலும் இது தான். ஆனால் இது மட்டுமே முழுமையான தகவல் அல்ல. உதாரணமாக அலுவலக டேட்டாபேஸை எடுத்து அதிலுள்ள தகவல்களை இழுத்தெடுப்பது ! நிறைய பயனுள்ள தகவல்கள் கிடைக்கும்.

பின்பு நிறுவனம் சார்ந்த மற்ற இடங்களில் இருக்கின்ற தகவல்களை சேகரிக்க வேண்டும். உதாரணமாக அது ஒரு வலைத்தளமாக இருக்கலாம். நிறுவனத்தின் இன்ட்ரா நெட் எனப்படும் பாதுகாப்பான தனி வலைத்தளமாக இருக்கலாம். அவற்றையெல்லாம் சேகரிப்பது கொஞ்சம் கஷ்டமான பணி.

அடுத்தது அலுவலகத்திலுள்ள தகவல்களில் வகைப்படுத்தப்படாத தகவல்களைச் சேகரிப்பது. தலைவலியான வேலை என இதைச் சொல்லலாம். வகைப்படுத்தாத தகவல் எப்படி வேண்டுமானாலும் இருக்கலாம். ஒரு வீடியோவாகவோ, ஆடியோவாகவோ, ஒரு கிறுக்கல் கையெழுத்தாகவோ, ஒரு வாய்ச்சொல்லாகவோ எப்படி வேண்டுமானாலும் இருக்கலாம். அவையும் சேகரிக்கப்பட வேண்டும். அப்போது தான் முழுமையான ஒரு தீர்வுக்குள் செல்ல முடியும்.

தகவல்களைச் சேகரிக்கும் போது, முதல் கட்டத்தில் நாம் ஏகப்பட்ட கேள்விகளைக் கேட்டோமல்லவா ? அந்த அத்தனை கேள்விகளுக்குமான விடைகள் வந்திருக்கின்றனவா என்பதை பரிசீலனை செய்ய வேண்டும். புதிதாக கேள்விகள் கேட்க வேண்டிய தேவையிருந்தால் கேட்கலாம். இந்த கட்டம் மிக முக்கியமான கட்டம். இதில் தவற விடுகின்ற முக்கியமான தகவல்கள் நிறுவனத்தின் முடிவுகளை பெரிய அளவில் பாதிக்க வாய்ப்பு உண்டு.

3. தகவல் செயல்முறை

தகவல் அறிவியலின் முதுகெலும்பு என்பது தகவல் செயல்முறை அதாவது டேட்டா புராசசிங். பிரச்சினையைப் புரிந்து கொள்வதும், தகவல்களை சேகரிப்பதும் எந்த அளவுக்கு சிறப்பாக நடந்திருக்கிறது என்பதை வைத்து தான் இந்த செயல்முறைப் பகுதி வெற்றியடையுமா தோல்வியடையுமா என்பதைச் சொல்ல முடியும்.

தகவல் செயல்முறைக்கு முன்பு இருக்கின்ற ஒரு வேலை தகவல்களை தூசு தட்டி துடைத்து எடுப்பதும். தேவையற்ற தகவல்களை உடைத்து எறிவதும் தான். அந்த வேலைக்காகத் தான் பெரும்பாலான நேரத்தை தகவல் அறிவியலார்கள் செலவிடுவார்கள். சுமார் 70 முதல் 80 சதவீதம் நேரம் தேவையற்ற தகவல்களை நீக்குவதில் செலவாகும் என்கிறது ஒரு ஆய்வு.

தேவையற்ற ஒரு தகவல், முடிவில் மிகப்பெரிய மாற்றத்தை உருவாக்கி விடக்கூடும். எனவே தான் தேவையற்ற தகவல்களை அகற்ற வேண்டியது அவசியாகிறது. எல்லா பாடத்துக்கும் தோற்றுப் போகும் ஒரு மாணவனுக்கு, கணிதத்தில் 400 மதிப்பெண் என தவறாகப் பதிவாகியிருந்தால் மொத்த சதவீதத்தில் அவன் பெயர் முன்னணியில் வருமில்லையா ? அதே போல நினைத்துக் கொள்ளுங்கள்.

இந்த இடத்தில் மென்பொருட்கள் உதவிக்கு வரும். இருக்கின்ற தகவல்களை நாம் அப்படியே எதுவும் செய்து விட முடியாது. அதை அலச, அதை வைத்து உருப்படியாய் ஏதாவது செய்ய கணினியின் உதவி மிக மிக அவசியம். பைத்தான் , ஆர் போன்ற மென்பொருட்கள் இந்த இடத்தில் மிகப்பெரிய உதவியாய் இருக்கும்.

4. தகவல் ஆராய்ச்சி

இப்போது கைவசம் இருப்பவை நல்ல தகவல்கள். முறைப்படுத்தப்பட்ட தகவல்கள். இவற்றை வைத்துக் கொண்டு எப்படியெல்லாம் வித்தை காட்டலாம் என்பது தான் தகவல் அறிவியலின் ஒட்டு மொத்த விஷயம்.

இந்த தகவல்களை அலசி, ஆராய்ந்து, தொடர்புகளைக் கண்டறிந்து அதன்’பேட்டர்ன்’ அதாவது முறைகளை அறிந்து, அதைக் கொண்டு நிறுவனத்துக்குத் தேவையான தீர்வுகளை உருவாக்கும் இடம் இது தான்.

இங்கே எப்படி தகவலை நாம் காட்சிப்படுத்திப் பார்க்கிறோம், மனதுக்குள் படமாக விரித்துப் பார்க்கிறோம் என்பது மிக முக்கியம். அது தான் நிறுவனத்திற்குத் தேவையான தீர்வுகளை நோக்கி வழிநடத்தும்.

இந்த அலசலில் கிடைக்கின்ற தகவல்களை, பேட்டர்ன்களை வைத்து தான் ஆழமான அலசல் செய்ய முடியும். ஆழமன அலசலுக்குள் நுழைவதற்கு முன் தகவல்களை எப்படியெல்லாம் பயன்படுத்தலாம் என்பது குறித்த ஒரு பார்வை இருக்க வேண்டும். இந்த கட்டம் அதைத் தான் தரும்.

5. ஆழமான அலசல்

இந்த கட்டத்தில் தான் கண்டறிந்த தகவல்களை வைத்துக் கொண்டு நிறுவனம் எதிர்பார்க்கின்ற மாடலை உருவாக்கும் வேலை நடைபெறும். இந்த தகவல்களை எப்படிப் பயன்படுத்தினால் எப்படிப்பட்ட பயன்கள் கிடைக்கும் என்பதைக் கணிக்கும் ‘பிரடிக்டிவ் மாடல்’ உருவாவது இப்போது தான்.

இந்த இடத்தில் மீண்டும் சில கேள்விகளை எழுப்ப வேண்டும் ! நான் என்ன மாடலை கணிக்கப் போகிறேன். எனது நோக்கம் என்ன ? அது தான் நிறுவனம் எதிர்பார்க்கின்ற விஷயமா ? நிறுவனத்தின் நோக்கத்தோடும், எதிர்பார்ப்போடும் நான் ஒத்துப் போகிறேனா ? என்பதையெல்லாம் கேள்விகள் மூலம் உறுதி செய்து கொள்ள வேண்டியது முக்கியம்.

ஒரு மாடலை மட்டும் உருவாக்கி நிறுவனத்துக்கு அளிப்பது சரியான முறையல்ல. அது முழுமையான, சரியான, பக்காவான ஒரு தீர்வைத் தருமென்பதில்லை. எனவே பல மாடல்களை உருவாக்கி அதில் எது சிறந்ததாக இருக்கிறதோ, அதைப் பயன்படுத்துவதே சரியான வழி.

அல்காரிதங்கள், மெஷின் லேர்னிங் கான்செப்ட் போன்றவற்றையெல்லாம் பயன்படுத்தும் சரியான இடம் இது தான்.

எவ்வளவு தெளிவான, அழகான மாடலிஅ உருவாக்குகிறோம் என்பதல்ல முக்கியம். அந்த மாடல் நமக்குத் தேவையான ஒரு தீர்வைத் தருமா என்பதே கேள்வி. அதற்குத் தேவையான முயற்சிகளை எடுப்பதே இங்கே முக்கியமான விஷயம்.

5. அறிக்கை தயாரித்தல்

ரிப்போர்ட் ஜெனரேஷன் என்பது எந்த ஒரு பணியிலும் கிட்டத்தட்ட கடைசியில் வருகின்ற ஒரு வேலை. அது தான் அந்த ஒட்டு மொத்தப் பணிக்கும் ஒரு மரியாதையைக் கொண்டு வரும். ராப்பகலா கண்ணு முழிச்சு படிச்சேன், ஆனா பரீட்சைக்கு எதுவும் எழுதல என்றால் எப்படி இருக்கும். அதே போல தான், என்ன தான் முழு உழைப்பையும் போட்டு மாடல் உருவாக்கினாலும், அதை சரியான முறையில் காட்டவில்லையேல் பயனில்லை.

இந்த ஏரியாவை பலரும் அலட்சியமாக நினைப்பதுண்டு. ஆனால் இது மிக முக்கியமான ஒரு கட்டம் என்பதைப் புரிந்து கொள்ள வேண்டும்.

பார்த்தவுடன் பளிச் என புரிகின்ற படங்கள் மூலமாகவோ, புள்ளி விவரங்கள் மூலமாகவோ, இதை எளிமையாக விளக்குவது பயனளிக்கும். டைனமிக் ரிப்போர்ட்டிங் எனப்படும் தகவல்களை மாற்றுவதற்கு ஏற்ப மாறுகின்ற ஆன்லைன் ரிப்போர்டிங் இங்கே ரொம்ப வலிமையானது.

இவை தான் தகவல் அறிவியல் வேலையில் நடக்கின்ற பணிகள்.

( தொடர்வோம் )

Data Science 3 : தகவல் அறிவியல் ‍ 3

Image result for data science

தகவல் அறிவியலின் பரபர வளர்ச்சி இன்றைக்கு இளைஞர்களை வெகுவாக‌ வசீகரித்திருக்கிறது. அதை நோக்கி பலர் தங்களுடைய பார்வையைத் திருப்பியிருக்கின்றனர். இதையே வாய்ப்பாக வைத்துக் கொண்டு பலர் ஃபாஸ்ட் புட் போல‌ பயிற்சி நிலையங்களை உருவாக்கி தகவல் அறிவியல் கற்றுத் தருகிறேன் என வலை விரிக்கத் துவங்கியிருக்கின்றனர். பயிற்சி நிலையம் சின்னதாக இருக்கிறதா ? பெரியதாக இருக்கிறதா என்பதல்ல பிரச்சினை. சரியான விதத்தில், சரியானவர்களால், சரியானவைகளைக் கற்றுத் தருகிறார்களா என்பதே முக்கியம்.

தகவல் அறிவியல் மீதான வசீகரம் இருப்பது நல்லது தான். நீச்சல் தெரியாமல் குளத்தில் குதிப்பதைப் போலவோ, நீச்சலே பிடிக்காமல் குளத்தில் குதிப்பதைப் போலவோ டேட்டா சயின்ஸ் துறையில் நுழைவது காலவிரயம் ! யாரெல்லாம் தகவல் அறிவியலைக் கற்றுக் கொள்ளலாம் ?. அல்லது டேட்டா சயின்ஸைக் கற்றுக் கொள்ள  என்னென்ன திறமைகள் இருக்க வேண்டும் ? என்பதைப் பற்றிய ஒரு அடிப்படைப் புரிதல் நமக்கு இருக்க வேண்டும்.

இன்றைக்கு தகவல் அறிவியலைக் குறித்து பேசும் பலரும் பல விதமான தகவல்களைத் தருகின்றனர். இதில் எது சரி, எது தவறு என்பதைப் புரிந்து கொள்வதில் பலருக்கும் குழப்பம். ஹடூப், மெஷின் லேர்னிங், அனாலிடிக்ஸ், சயின்டிஸ்ட் போன்ற வார்த்தைகள் தகவல் அறிவியல் துறையில் நுழைய விரும்பும் இளைஞர்களை குழப்பக் கூடும். எனவே தகவல் அறிவியல் குறித்து இதுவரை மற்றவர்கள் சொன்ன விஷயங்களை கொஞ்ச நேரம் ஒதுக்கி வையுங்கள். தகவல் அறிவியலுக்குள் நுழைய அடிப்படையாக என்னென்ன தேவை என்பதை மிக மிகச் சுருக்கமாகப் பார்த்து விடுவோம்.

முதலாவது, தகவல் அறிவியல் என்பது எண்களோடு விளையாடும் வேலை. புள்ளி விவரங்கள், கூட்டல், கழித்தல், அல்காரிதம், கேல்குலஸ், நிகழ்தகவு போன்ற விஷயங்கள் தகவல் அறிவியலின் முதுகெலும்பாக இயங்கக் கூடியவை. இவை எல்லாமே கணிதவியலின் அடிப்படை விஷயங்கள். எனவே, தகவல் அறிவியல் கற்றுக் கொள்ள விரும்புபவர்களுக்கு முதலில் இருக்க வேண்டிய தகுதி, கணிதவியலில் அறிவு.

அதற்காக கணிதவியலில் இளங்கலைப் பட்டமோ, முதுகலைப் பட்டமோ இருந்தால் தான் தகவல் அறிவியலில் நுழைய முடியும் என்றில்லை. கணிதத்தின் மீது ஆர்வமும், அடிப்படை அறிவும், கற்றுக் கொள்ளும் விருப்பமும் இருந்தால் போதும். கணிதம் என்றாலே காத தூரம் ஓடுபவர்கள் தகவல் அறிவியல் பக்கம் வராமல் இருப்பது நல்லது அப்படிப்பட்டவர்களுக்கு தேவையற்ற மன அழுத்தங்களை தகவல் அறிவியல் தரலாம்

தகவல் அறிவியல் துறைக்கு பல்வேறு நிலையிலுள்ள மக்களும் வருகின்றனர். இப்போது தான் படித்து முடித்த மாணவர்கள் முதல் பி.ஹைச்.டி முடித்த அறிவர்கள் வரை இதில் அடக்கம். அதனால் சிலர், “பி.ஹைச்.டி படித்தால் தான் இதெல்லாம் புரியும் போல !”, என தவறாய் நினைப்பதுண்டு. அந்த நினைப்புகளையெல்லாம் முளையிலேயே கிள்ளி எறியுங்கள்.

இரண்டாவது தேவை, கணினி அறிவு. மென்பொருள் எழுதத் தெரிந்திருக்க வேண்டும் என்பது அடிப்படைத் தேவை. அட்வான்ஸ் மென்பொருட்கள் தெரிந்திருக்க வேண்டியதில்லை. அவற்றைப் படிப்படியாகக் கற்றுக் கொள்ளலாம். ஆனால் அடிப்படை மென்பொருள் அறிவு கண்டிப்பாகத் தேவை. தகவல்களை அல்காரிதங்களின் மூலமாய் தேவையான தகவல்களாக மாற்றுவதற்கு மென்பொருள் அறிவு அவசியம்.

பைத்தான். ஆர் போன்ற மென்பொருட்கள் தெரிந்திருந்தால் மிக எளிது. இல்லாவிட்டாலும் பிரச்சினையில்லை. அடிப்படை மென்பொருட்களான சி, சி++, ஜாவா போன்ற மென்பொருட்களில் நல்ல பரிச்சயம் இருந்தாலே போதும். மென்பொருள் பற்றிய பரிச்சயம் அறவே இல்லை என்பவர்களால் தகவல் அறிவியல் துறையில் நுழைய முடியாது. எனவே கொஞ்சம் புரோகிராமிங் பக்கம் பார்வையை செலுத்துவது அவசியம்.

அதிலும், டேட்டா பேஸ் எனப்படும் தகவல் சேமிப்பு மென்பொருட்கள் பற்றிய அறிவு நிச்சயம் இருக்கவேண்டும். எப்படியெல்லாம் தகவல்களை சேமிக்கலாம், அதை எந்தெந்த வகையில் எடுக்கலாம், எப்படியெல்லாம் வகைப்படுத்தலாம், என்னென்ன கேள்விகள் மூலம் தகவல்களைப் பிரித்தெடுக்கலாம் என்பதையெல்லாம் கற்றுக் கொள்ள எஸ்.க்யூ.எல் அடிப்படை அறிவு இருப்பது தேவையானது ! இங்கும் கவனிக்க வேண்டிய விஷயம், இதிலெல்லாம் சூப்பர் டூப்பர் ஆட்களாய் இருக்க வேண்டிய அவசியம் இல்லை என்பது தான். ஆனால் நன்றாகத் தெரிந்திருக்க வேண்டும் என்பது கட்டாயம்.

டொமைன் ஸ்கில்ஸ் எனப்படும் கள அறிவு தகவல் அறிவியல் துறையில் முக்கியமானது. ஆனால் இதை துவக்கத்திலேயே படித்து விட முடியாது. நாம் எந்த துறையில் தகவல் அறிவியல் பணி செய்யப் போகிறோமோ அந்தத் துறை சார்ந்த விஷயங்களைக் கற்றுக் கொள்வது தான் சரியானது. உதாரணமாக மருத்துவத் துறையில் தான் தகவல் அறிவியல் வேலை செய்யப் போகிறீர்கள் என்றால், “ஹெல்த்கேர்’ டொமைன் பற்றி நன்றாகத் தெரிந்து வைத்திருப்பது அவசியம்.

தகவல் அறிவியல் கொண்டு வருகின்ற முடிவுகளை அலசவும், எப்படிப்பட்ட முடிவுகள் பயன்படும் என்பதை முடிவு செய்யவும் டொமைன் ஸ்கில்ஸ் தேவை. மருந்துகளின் தேவைகள் பற்றிய புள்ளிவிவரத்தை அதைப்பற்றி எதுவுமே தெரியாதவர்கள் படித்தால் புரியாது இல்லையா ? அது தான் அடிப்படை விஷயம்.

வங்கித் துறை சார்ந்த தகவல் அறிவியல் எனில் பேங்கிங் டொமைன் கற்றுக் கொள்ள வேண்டும். காப்பீடு துறை சார்ந்த டேட்டா சயின்ஸ் பணியெனில் ‘இன்சூரன்ஸ் டொமைன்’ கற்றுக் கொள்ள வேண்டும். வணிகம் சார்ந்த ஏரியா எனில் ‘ரிடெயில் டொமைன்’ தெரிந்திருக்க வேண்டும். இப்படி தேவையான ஒன்றைத் தெரிந்து கொள்ளலாம். டொமைன் ஸ்கில்ஸ் எனப்படுவதை ஒரே நாளிலோ, ஒரு படிப்பின் மூலமாகவோ கற்றுக் கொள்ள முடியாது. அடிப்படை அறிவைப் பெற்றுக் கொண்டு பின்னர் படிப்படியாக அதை வளப்படுத்திக் கொள்ளலாம்.

தகவலை விஷுவலைஸ் செய்து பார்ப்பது, அதாவது கற்பனை செய்து பார்ப்பது என்பது இந்த படிப்புக்கு தேவையானது. ஒரு துப்பறிவாளன் கையில் கிடைக்கும் ஒரு சின்ன பொருள் ஒரு பெரிய குற்றத்தைத் துப்பு துலக்க உதவுவது போல, தகவல் அறிவியலாளனின் கையில் கிடைக்கின்ற தகவல்கள் மிகப்பெரிய மாற்றத்துக்குரிய விடையைத் தர முடியும். அதற்கு, ‘இந்த தகவலை வைத்து என்ன செய்யலாம்’ என கற்பனை செய்து பார்க்கும் விஷுவலைசிங் திறமை அவசியம்.

அடிப்படையாக ஒரு பட்டப்படிப்பு இருப்பது ரொம்ப நல்லது. கணிதம், அறிவியல், காமர்ஸ் போன்ற பட்டப்படிப்பு இருந்தால் சிறப்பு !  பட்டப்படிப்பு இந்தத் துறையில் உங்களை முழுமையாக ஈடுபடுத்திக் கொள்ளும் ஊக்கத்தைத் தரும். ஒருவேளை வேறு நிறுவனங்களில், துறைகளில் வேலைபார்த்த அனுபவம் உடையவர்கள் பட்டப்படிப்பு இல்லாமலும் இந்த துறையில் நுழையலாம்.

கம்யூனிகேஷன் ஸ்கில்ஸ் எனப்படும் உரையாடல் திறனும் இந்த துறைக்கு ரொம்பவே கை கொடுக்கும். தகவல்கள் எப்போதும் நமக்கு எளிதில் கிடைத்து விடுவதில்லை. அதற்கு நமது உரையாடல்கள் தேவைப்படும். அதே போல, நாம் உருவாக்குகின்ற பணிகளை மிகத் திறமையாக அடுத்தவர்களுக்கு எடுத்துரைக்கவும் கம்யூனிகேஷன் திறமை மிக அவசியம்.

எல்லாவற்றுக்கும் மேலாக இருக்க வேண்டிய இரண்டு முக்கியமான விஷயங்கள் உற்சாகமும், புதுமையை விரும்பும் மனமும். தகவல்களை எப்படியெல்லாம் பயன்படுத்தலாம், எப்படியெல்லாம் அலசலாம், எப்படிப்பட்ட வகைகளில் வகைப்படுத்தலாம் என்பதெல்லாம் புதுமையை விரும்புபவர்களால் மட்டுமே முடிவு செய்ய முடியும். நூல் கண்டு போல சுற்றிப் பிணைந்து கிடக்கின்ற தகவல்களை சிக்கலில்லாமல் பிரித்தெடுக்க, தேவையற்ற தகவல்களை வெட்டி எறிய உற்சாக மனம் ரொம்ப முக்கியம். அடிப்படையாக, பிசினஸை எப்படியெல்லாம் வளப்படுத்தலாம், வலுப்படுத்தலாம் எனும் சிந்தனை ஓடிக்கொண்டே இருக்க வேண்டும். இவையெல்லாம் தான் ஒருவரை தகவல் அறிவியலில் சிறப்புற வைக்கும்.

சுருக்கமாக கணிதத்தில் பரிச்சயமும் ஆர்வமும் இருக்கிறதா ? ஓரளவு மென்பொருள் பரிச்சயம் இருக்கிறதா ? புதுமை செய்யும் ஆர்வம் இருக்கிறதா ? தகவல்களோடு விளையாடும் பொறுமை இருக்கிறதா ? எனில் நீங்கள் தைரியமாக இதில் காலெடுத்து வைக்கலாம்.

( தொடர்வோம் )

Data Science 1 :தகவல் அறிவியல் 1

Image result for data science

பாய்ஸ் திரைப்படத்தில் ஒரு காட்சி வரும். நகைச்சுவைக்காக வைக்கப்பட்ட அந்தக் காட்சியில் தகவல் அறிவியலின் தேவையை மிக எளிமையாக விளக்கியிருப்பார் சுஜாதா.

செந்தில் ஒரு கோயில் மண்டபத்தில் உட்கார்ந்திருப்பார். அவரது கையில் ஒரு குட்டி புக் இருக்கும். அதில் நாள், கிழமை வாரியாக எந்தக் கோயிலில் எப்போது என்ன சாப்பாடு போடுவார்கள் எனும் குறிப்புகள் எழுதப்பட்டிருக்கும். அதை வைத்துக் கொண்டு ஹாயாக சாப்பிட்டு காலத்தை ஓட்டுவார் அவர். அவரிடம் வந்து கேட்பவர்களுக்கும் புக்கைப் புரட்டிப் பார்த்து, “இந்த கோயிலுக்கு இத்தனை மணிக்கு போ.. ஓட்டை போட்ட வடை தருவாங்க” என அனுப்பியும் வைப்பார். அந்த தகவல்களை வைத்துக் கொண்டு “இன்ஃபர்மேஷன் ஈஸ் வெல்த்” என அவர் சொல்லும் டயலாக் பிரபலமானது !

தகவல்களை சேமித்து வைத்து, அதைப் பயன்படுத்த வேண்டிய வகையில் பயன்படுத்துவது ரொம்பவே பயனளிக்கும் என்பதை சுஜாதா இந்த குட்டி காட்சியின் மூலம் இயல்பாக விளக்கியிருப்பார்.

இந்த சின்ன சிந்தனையை, பரந்து பட்ட தொழில்நுட்ப வெளியில் ஆழமாகவும், நீளமாகவும், பெரிய அளவிலும் அலசி ஆராய்ந்தால் அதை தகவல் அறிவியல் என்று சொல்லலாம்.

உதாரணம் ஒன்று சொல்கிறேன். ஒரு நிறுவனம் இருக்கிறது. அதன் மேலதிகாரி தன்னுடைய அக்கவுன்டிங் துறையைக் கூப்பிட்டு, “நம்ம கம்பெனில போன வருஷம் நடந்த செலவுகளோட ஒட்டு மொத்த டேட்டாவையும் கொண்டு வாங்க” என சொல்கிறார் என வைத்துக் கொள்வோம். ஊழியர்கள் உடனே போய் ஜனவரி மாதம் முதல் டிசம்பர் மாதம் வரை நடந்த செலவுகளின் பட்டியலை எடுப்பார்கள். சின்னச் சின்ன செலவு முதல், பெரிய பெரிய இன்வெஸ்ட்மென்ட் செலவுகள் வரை அனைத்தையும் கொண்டு வந்து மேலதிகாரியிடம் கொடுப்பார்கள். இது தான் டேட்டா ! தகவல் !

இந்தத் தகவலை அப்படியே வைத்திருப்பதில் எந்த பயனும் இல்லை. செயல்படாத தகவல் செத்த தகவல் என சொல்லலாம். அது வெறுமனே இடத்தை அடைத்துக் கொண்டு கிடக்கும் அவ்வளவு தான். ஆனால் மேலதிகாரி அத்துடன் நின்று விடுவதில்லை. மீண்டும் அவர்களைக் கூப்பிட்டு,

“என்னப்பா இப்படி கொண்டு வந்தா நான் என்ன பண்றது ? ஒவ்வொரு மாசம் எவ்வளவு செலவாச்சு ? என்ன டிப்பார்ட்மென்ட்க்கு எவ்ளோ செலவாச்சு ? சம்பளம் எவ்ளோ குடுத்திருக்கோம் ? முதலீடு எவ்ளோ செஞ்சிருக்கோம் ? இப்படி பிரிச்சு குடுப்பா” என்பார்.

ஊழியர்கள் போய் அந்த தகவல்களையெல்லாம் திருப்பிப் போட்டு, அலசி அதை முறைப்படுத்தி மேலதிகாரி கேட்ட வடிவத்தில் கொண்டு வந்து கொடுப்பார்கள். இது தான் கட்டமைக்கப்பட்ட அல்லது வகைப்படுத்தப்பட்ட தகவல். ஸ்ட்ரக்சர்ட் டேட்டா !

இப்போது அந்தத் தகவல்களைப் புரட்டிப் பார்க்கும் மேலதிகாரி ஊழியர்களை அழைத்து,

“யப்பா… மார்ச் மாசம் ஏகப்பட்ட செலவாகியிருக்கு ! சேல்ஸ் டீம்ல செலவு அக்டோபர் மாசம் எகிறியிருக்கு ! மாசா மாசம் பெட்ரோல் செலவு ராக்கெட் மாதிரி ஏறியிருக்கு..” என்னன்னு கொஞ்சம் பாத்து சொல்லு” என்பார்.

அப்போது ஊழியர்கள் அந்த தகவலை மேலும் அலசி ஆராய்ந்து அதற்குரிய பதிலோடு வருவார்கள். அக்டோபர் மாதம் போனஸ் என்றோ, மார்ச் மாதம் அட்வான்ஸ் பேய்மென்ட் என்றோ தங்கள் கண்டுபிடிப்பைச் சொல்வார்கள். இது தகவல் அலசல் ! டேட்டா அனாலிசிஸ் !

இப்போது மேலதிகாரி தன்னுடைய திட்டமிடல் குழுவை கூப்பிடுவார். கூப்பிட்டு தன்னிடம் இருக்கின்ற இந்த தகவல்களை எல்லாம் கொடுப்பார். “இதோ பாருங்க, இதான் கடந்த வருஷத்தோட செலவு. இதுல எல்லா விவரங்களும் இருக்கு. அடுத்த வருஷம் இந்த செலவில 10 சதவீதம் கம்மி ஆகணும். எல்லா மாசமும் செலவு கிட்டத்தட்ட ஒரே மாதிரி இருக்கணும், அதுக்கு என்ன பண்ணணுமோ அதை கண்டுபிடிச்சு சொல்லுங்க” என்பார். இப்போது திட்டக் குழுவினர், கடந்த ஆண்டின் தகவலை வைத்துக் கொண்டு எதிர்காலத்தை திட்டமிடுவார்கள். எதிர்காலத்தில் என்னென்ன செய்தால் மேலதிகாரி சொன்னதை நிறைவேற்றலாம் என்பதை முடிவுசெய்வார்கள். இது தான் டேட்டா அனாலிடிக்ஸ். பொதுவாகச் சொல்ல வேண்டுமெனில் டேட்டா சயின்ஸ். தகவல் அறிவியல்.

துவக்கத்தில் ஏனோதானோவென கிடந்த தகவல்கள், ஒன்று சேர்க்கப்பட்டு, வகைப்படுத்தப்பட்டு, தரம்பிரிக்கப்பட்டு, பயன்படுத்தக்கூடிய வகையில் மாற்றப்பட்டு, எதிர்காலத்துக்கான முடிவுகளை நிர்ணயிக்கும் காரணியாக உருமாற்றம் அடைகிறது. இது தான் தகவல் அறிவியல் என்பதன் ஆகச் சுருக்கமான விளக்கம்.

இந்த தகவல்களெல்லாம் நாம் நினைப்பது போல அழகாக கணினியில் டைப் செய்து சேமிக்கப்பட்டிருப்பவை மட்டுமல்ல. பல்வேறு விதமான தகவல்கள், பல்வேறு விதமான வடிவங்களில் கிடைக்கின்றன. கணினியிலோ, காகிதத்திலோ நாம் தெளிவாக எழுதி வைத்திருக்கும் தகவல்கள் முறைப்படுத்தப்பட்ட தகவல்கள். அல்லது ஸ்ட்ரக்சர்ட் டேட்டா. இதைக் கையாள்வது எளிது. இந்த தகவல்களை அலசி ஆராய்வதும், அதன் மூலமாக புதிய முடிவுகளை எடுப்பதும் மிக எளிது.

ஆனால் முறைப்படுத்தப்படாத தகவல்கள் விஷயத்தில் அது கடினம். அதென்ன முறைப்படுத்தப்படாத தகவல் ? அலுவலகத்தில் ஆங்காங்கே கண்காணிப்பு கேமராக்கள் இருக்கும். அந்த கேமராக்கள் 24 மணி நேரமும் கண்சிமிட்டி காட்சிகளைப் பதிவு செய்து கொண்டே இருக்கும். கார் பார்க்கிங்கிலும், அலுவலகத்தைச் சுற்றியும் இதே போல பல கேமராக்கள் சுற்றிச் சுற்றி காட்சிகளை தனக்குள் அடுக்கிக் கொண்டே இருக்கும் ! இந்த வீடியோ காட்சிகள் முறைப்படுத்தப்படாத தகவலின் ஒரு உதாரணம் !

அலுவலகத்தில் தலைமை அதிகாரி ஒருமணி நேர உற்சாக உரையாற்றுகிறார் என வைத்துக் கொள்வோம். அதில் பல விஷயங்கள் இருக்கும். பல திட்டங்களின் துவக்க நாட்கள் இருக்கும். அந்த உரை ஒரு கட்டமைக்கப்படாத தகவல். அதிலிருந்து தேவையான தகவல்களை பிரித்தெடுக்க வேண்டும்.

ஒரு அலுவலகத்தை எடுத்துக் கொண்டால் இத்தகைய தகவல்கள் எக்கச்சக்கமாக குவிந்து கிடக்கும். நீண்டு கொண்டே இருக்கின்ற அனுமர் வால் போல அவை பயம் காட்டும். நெருங்கிச் செல்லச் செல்ல விலகி ஓடும் தொடுவானம் போல களைப்பை ஏற்படுத்தும்.

அன்னியன் திரைப்படத்தில் வருகின்ற காட்சி நினைவுக்கு வருகிறதா ? ஐந்து பைசா திருடுவது தவறில்லை. ஆனால் ஐந்து இலட்சம் பேர், ஐந்து ஐந்து பைசாவாக‌, ஐந்து இலட்சம் தடவை திருடினால் அது மிகப்பெரிய திருட்டாய் முடியும் இல்லயா ? அதே போல தான் கட்டமைக்கப்படாத தகவல்கள் கொஞ்சம் கொஞ்சமாக சேர்ந்து மலைபோல மாறிவிடும்.

ஆயிரம் பேர் வேலை செய்யும் அலுவலகத்தில், ஒரு நபருக்கு தினம் பத்து அலுவல் சார்ந்த‌ மின்னஞ்சல் வரும் என வைத்துக் கொண்டாலும், மொத்தக்கணக்கு தினசரி பத்தாயிரம் மின்னஞ்சல்கள் என்றாகிறது. அது ஒரு மாதத்திற்கு மூன்று இலட்சம் என மிரட்டும் எண்ணிக்கையில் வந்து முடியும். அப்படி ஒரு ஆயிரம் நிறுவனங்களில் எவ்வளவாகும், தினசரி வருகின்ற மின்னஞ்சல்களின் எண்ணிக்கை அதிகமானால் என்னவாகும் என்பதையெல்லாம் மனக்கணக்கு போட்டு பார்த்துக் கொள்ளுங்கள்.

இதே போல புகைப்படங்கள், டாக்குமென்ட்கள், ஆடியோ ஃபைல்கள், டெக்ஸ் ஃபைல்கள், பிரசன்டேஷன்கள், வலைத்தளங்கள், போன் கால்கள் என ஒவ்வொரு விஷயத்தையும் எடுத்துக் கொண்டால் ‘ஒரு நிமிஷம் தலை சுத்திடுச்சு’ என்று நம்மையறியாமலேயே சொல்வோம்.

நமக்குக் கிடைக்கின்ற தகவல்களில் 70 முதல் 90 விழுக்காடு தகவல்களும் கட்டமைக்கப்படாத தகவல்கள் தான் ! அப்படிக் கிடைக்கின்ற தகவல்களை கட்டமைக்கப்பட்ட தகவல்களாக மாற்றுவது எப்படி என்பது தான்  தொழில்நுட்பம் எதிர்கொள்ளும் மிகப்பெரிய சவால். அதற்கான தொழில்நுட்ப நுணுக்கங்களை தகவல் அறிவியல் தன்னகத்தே முக்கிய இடத்தில் வைத்திருக்கிறது.

அலுவலகம் எனும் எல்லையைத் தாண்டினால்  சமூக வலைத்தளங்கள், வாட்சப் போன்ற குறுஞ்செய்தி செயலிகள், வலைத்தளங்கள், வீடியோ கால்கள், மின்னஞ்சல்கள், ஆன்லைன் பரிவர்த்தனைகள், சிக்னல் வீடியோக்கள் என இந்த தகவல்களின் வகைகளும், அளவுகளும் கோடி கைகளுடன் மனுக்குலத்தை இறுக்கப் பிடிக்கின்றன !

இந்த சவாலை, சாதகமாய் மாற்றும் வேலையைத் தான் தகவல் அறிவியல் செய்கிறது. இன்றைய தேதியில் வேலை வாய்ப்புகள் கொட்டிக் கிடக்கும் இடம் ‘டேட்டா சயின்ஸ்’ எனும் தகவல் அறிவியல் தான்

( தொடர்வோம் )