Data Science 1 :தகவல் அறிவியல் 1

Image result for data science

பாய்ஸ் திரைப்படத்தில் ஒரு காட்சி வரும். நகைச்சுவைக்காக வைக்கப்பட்ட அந்தக் காட்சியில் தகவல் அறிவியலின் தேவையை மிக எளிமையாக விளக்கியிருப்பார் சுஜாதா.

செந்தில் ஒரு கோயில் மண்டபத்தில் உட்கார்ந்திருப்பார். அவரது கையில் ஒரு குட்டி புக் இருக்கும். அதில் நாள், கிழமை வாரியாக எந்தக் கோயிலில் எப்போது என்ன சாப்பாடு போடுவார்கள் எனும் குறிப்புகள் எழுதப்பட்டிருக்கும். அதை வைத்துக் கொண்டு ஹாயாக சாப்பிட்டு காலத்தை ஓட்டுவார் அவர். அவரிடம் வந்து கேட்பவர்களுக்கும் புக்கைப் புரட்டிப் பார்த்து, “இந்த கோயிலுக்கு இத்தனை மணிக்கு போ.. ஓட்டை போட்ட வடை தருவாங்க” என அனுப்பியும் வைப்பார். அந்த தகவல்களை வைத்துக் கொண்டு “இன்ஃபர்மேஷன் ஈஸ் வெல்த்” என அவர் சொல்லும் டயலாக் பிரபலமானது !

தகவல்களை சேமித்து வைத்து, அதைப் பயன்படுத்த வேண்டிய வகையில் பயன்படுத்துவது ரொம்பவே பயனளிக்கும் என்பதை சுஜாதா இந்த குட்டி காட்சியின் மூலம் இயல்பாக விளக்கியிருப்பார்.

இந்த சின்ன சிந்தனையை, பரந்து பட்ட தொழில்நுட்ப வெளியில் ஆழமாகவும், நீளமாகவும், பெரிய அளவிலும் அலசி ஆராய்ந்தால் அதை தகவல் அறிவியல் என்று சொல்லலாம்.

உதாரணம் ஒன்று சொல்கிறேன். ஒரு நிறுவனம் இருக்கிறது. அதன் மேலதிகாரி தன்னுடைய அக்கவுன்டிங் துறையைக் கூப்பிட்டு, “நம்ம கம்பெனில போன வருஷம் நடந்த செலவுகளோட ஒட்டு மொத்த டேட்டாவையும் கொண்டு வாங்க” என சொல்கிறார் என வைத்துக் கொள்வோம். ஊழியர்கள் உடனே போய் ஜனவரி மாதம் முதல் டிசம்பர் மாதம் வரை நடந்த செலவுகளின் பட்டியலை எடுப்பார்கள். சின்னச் சின்ன செலவு முதல், பெரிய பெரிய இன்வெஸ்ட்மென்ட் செலவுகள் வரை அனைத்தையும் கொண்டு வந்து மேலதிகாரியிடம் கொடுப்பார்கள். இது தான் டேட்டா ! தகவல் !

இந்தத் தகவலை அப்படியே வைத்திருப்பதில் எந்த பயனும் இல்லை. செயல்படாத தகவல் செத்த தகவல் என சொல்லலாம். அது வெறுமனே இடத்தை அடைத்துக் கொண்டு கிடக்கும் அவ்வளவு தான். ஆனால் மேலதிகாரி அத்துடன் நின்று விடுவதில்லை. மீண்டும் அவர்களைக் கூப்பிட்டு,

“என்னப்பா இப்படி கொண்டு வந்தா நான் என்ன பண்றது ? ஒவ்வொரு மாசம் எவ்வளவு செலவாச்சு ? என்ன டிப்பார்ட்மென்ட்க்கு எவ்ளோ செலவாச்சு ? சம்பளம் எவ்ளோ குடுத்திருக்கோம் ? முதலீடு எவ்ளோ செஞ்சிருக்கோம் ? இப்படி பிரிச்சு குடுப்பா” என்பார்.

ஊழியர்கள் போய் அந்த தகவல்களையெல்லாம் திருப்பிப் போட்டு, அலசி அதை முறைப்படுத்தி மேலதிகாரி கேட்ட வடிவத்தில் கொண்டு வந்து கொடுப்பார்கள். இது தான் கட்டமைக்கப்பட்ட அல்லது வகைப்படுத்தப்பட்ட தகவல். ஸ்ட்ரக்சர்ட் டேட்டா !

இப்போது அந்தத் தகவல்களைப் புரட்டிப் பார்க்கும் மேலதிகாரி ஊழியர்களை அழைத்து,

“யப்பா… மார்ச் மாசம் ஏகப்பட்ட செலவாகியிருக்கு ! சேல்ஸ் டீம்ல செலவு அக்டோபர் மாசம் எகிறியிருக்கு ! மாசா மாசம் பெட்ரோல் செலவு ராக்கெட் மாதிரி ஏறியிருக்கு..” என்னன்னு கொஞ்சம் பாத்து சொல்லு” என்பார்.

அப்போது ஊழியர்கள் அந்த தகவலை மேலும் அலசி ஆராய்ந்து அதற்குரிய பதிலோடு வருவார்கள். அக்டோபர் மாதம் போனஸ் என்றோ, மார்ச் மாதம் அட்வான்ஸ் பேய்மென்ட் என்றோ தங்கள் கண்டுபிடிப்பைச் சொல்வார்கள். இது தகவல் அலசல் ! டேட்டா அனாலிசிஸ் !

இப்போது மேலதிகாரி தன்னுடைய திட்டமிடல் குழுவை கூப்பிடுவார். கூப்பிட்டு தன்னிடம் இருக்கின்ற இந்த தகவல்களை எல்லாம் கொடுப்பார். “இதோ பாருங்க, இதான் கடந்த வருஷத்தோட செலவு. இதுல எல்லா விவரங்களும் இருக்கு. அடுத்த வருஷம் இந்த செலவில 10 சதவீதம் கம்மி ஆகணும். எல்லா மாசமும் செலவு கிட்டத்தட்ட ஒரே மாதிரி இருக்கணும், அதுக்கு என்ன பண்ணணுமோ அதை கண்டுபிடிச்சு சொல்லுங்க” என்பார். இப்போது திட்டக் குழுவினர், கடந்த ஆண்டின் தகவலை வைத்துக் கொண்டு எதிர்காலத்தை திட்டமிடுவார்கள். எதிர்காலத்தில் என்னென்ன செய்தால் மேலதிகாரி சொன்னதை நிறைவேற்றலாம் என்பதை முடிவுசெய்வார்கள். இது தான் டேட்டா அனாலிடிக்ஸ். பொதுவாகச் சொல்ல வேண்டுமெனில் டேட்டா சயின்ஸ். தகவல் அறிவியல்.

துவக்கத்தில் ஏனோதானோவென கிடந்த தகவல்கள், ஒன்று சேர்க்கப்பட்டு, வகைப்படுத்தப்பட்டு, தரம்பிரிக்கப்பட்டு, பயன்படுத்தக்கூடிய வகையில் மாற்றப்பட்டு, எதிர்காலத்துக்கான முடிவுகளை நிர்ணயிக்கும் காரணியாக உருமாற்றம் அடைகிறது. இது தான் தகவல் அறிவியல் என்பதன் ஆகச் சுருக்கமான விளக்கம்.

இந்த தகவல்களெல்லாம் நாம் நினைப்பது போல அழகாக கணினியில் டைப் செய்து சேமிக்கப்பட்டிருப்பவை மட்டுமல்ல. பல்வேறு விதமான தகவல்கள், பல்வேறு விதமான வடிவங்களில் கிடைக்கின்றன. கணினியிலோ, காகிதத்திலோ நாம் தெளிவாக எழுதி வைத்திருக்கும் தகவல்கள் முறைப்படுத்தப்பட்ட தகவல்கள். அல்லது ஸ்ட்ரக்சர்ட் டேட்டா. இதைக் கையாள்வது எளிது. இந்த தகவல்களை அலசி ஆராய்வதும், அதன் மூலமாக புதிய முடிவுகளை எடுப்பதும் மிக எளிது.

ஆனால் முறைப்படுத்தப்படாத தகவல்கள் விஷயத்தில் அது கடினம். அதென்ன முறைப்படுத்தப்படாத தகவல் ? அலுவலகத்தில் ஆங்காங்கே கண்காணிப்பு கேமராக்கள் இருக்கும். அந்த கேமராக்கள் 24 மணி நேரமும் கண்சிமிட்டி காட்சிகளைப் பதிவு செய்து கொண்டே இருக்கும். கார் பார்க்கிங்கிலும், அலுவலகத்தைச் சுற்றியும் இதே போல பல கேமராக்கள் சுற்றிச் சுற்றி காட்சிகளை தனக்குள் அடுக்கிக் கொண்டே இருக்கும் ! இந்த வீடியோ காட்சிகள் முறைப்படுத்தப்படாத தகவலின் ஒரு உதாரணம் !

அலுவலகத்தில் தலைமை அதிகாரி ஒருமணி நேர உற்சாக உரையாற்றுகிறார் என வைத்துக் கொள்வோம். அதில் பல விஷயங்கள் இருக்கும். பல திட்டங்களின் துவக்க நாட்கள் இருக்கும். அந்த உரை ஒரு கட்டமைக்கப்படாத தகவல். அதிலிருந்து தேவையான தகவல்களை பிரித்தெடுக்க வேண்டும்.

ஒரு அலுவலகத்தை எடுத்துக் கொண்டால் இத்தகைய தகவல்கள் எக்கச்சக்கமாக குவிந்து கிடக்கும். நீண்டு கொண்டே இருக்கின்ற அனுமர் வால் போல அவை பயம் காட்டும். நெருங்கிச் செல்லச் செல்ல விலகி ஓடும் தொடுவானம் போல களைப்பை ஏற்படுத்தும்.

அன்னியன் திரைப்படத்தில் வருகின்ற காட்சி நினைவுக்கு வருகிறதா ? ஐந்து பைசா திருடுவது தவறில்லை. ஆனால் ஐந்து இலட்சம் பேர், ஐந்து ஐந்து பைசாவாக‌, ஐந்து இலட்சம் தடவை திருடினால் அது மிகப்பெரிய திருட்டாய் முடியும் இல்லயா ? அதே போல தான் கட்டமைக்கப்படாத தகவல்கள் கொஞ்சம் கொஞ்சமாக சேர்ந்து மலைபோல மாறிவிடும்.

ஆயிரம் பேர் வேலை செய்யும் அலுவலகத்தில், ஒரு நபருக்கு தினம் பத்து அலுவல் சார்ந்த‌ மின்னஞ்சல் வரும் என வைத்துக் கொண்டாலும், மொத்தக்கணக்கு தினசரி பத்தாயிரம் மின்னஞ்சல்கள் என்றாகிறது. அது ஒரு மாதத்திற்கு மூன்று இலட்சம் என மிரட்டும் எண்ணிக்கையில் வந்து முடியும். அப்படி ஒரு ஆயிரம் நிறுவனங்களில் எவ்வளவாகும், தினசரி வருகின்ற மின்னஞ்சல்களின் எண்ணிக்கை அதிகமானால் என்னவாகும் என்பதையெல்லாம் மனக்கணக்கு போட்டு பார்த்துக் கொள்ளுங்கள்.

இதே போல புகைப்படங்கள், டாக்குமென்ட்கள், ஆடியோ ஃபைல்கள், டெக்ஸ் ஃபைல்கள், பிரசன்டேஷன்கள், வலைத்தளங்கள், போன் கால்கள் என ஒவ்வொரு விஷயத்தையும் எடுத்துக் கொண்டால் ‘ஒரு நிமிஷம் தலை சுத்திடுச்சு’ என்று நம்மையறியாமலேயே சொல்வோம்.

நமக்குக் கிடைக்கின்ற தகவல்களில் 70 முதல் 90 விழுக்காடு தகவல்களும் கட்டமைக்கப்படாத தகவல்கள் தான் ! அப்படிக் கிடைக்கின்ற தகவல்களை கட்டமைக்கப்பட்ட தகவல்களாக மாற்றுவது எப்படி என்பது தான்  தொழில்நுட்பம் எதிர்கொள்ளும் மிகப்பெரிய சவால். அதற்கான தொழில்நுட்ப நுணுக்கங்களை தகவல் அறிவியல் தன்னகத்தே முக்கிய இடத்தில் வைத்திருக்கிறது.

அலுவலகம் எனும் எல்லையைத் தாண்டினால்  சமூக வலைத்தளங்கள், வாட்சப் போன்ற குறுஞ்செய்தி செயலிகள், வலைத்தளங்கள், வீடியோ கால்கள், மின்னஞ்சல்கள், ஆன்லைன் பரிவர்த்தனைகள், சிக்னல் வீடியோக்கள் என இந்த தகவல்களின் வகைகளும், அளவுகளும் கோடி கைகளுடன் மனுக்குலத்தை இறுக்கப் பிடிக்கின்றன !

இந்த சவாலை, சாதகமாய் மாற்றும் வேலையைத் தான் தகவல் அறிவியல் செய்கிறது. இன்றைய தேதியில் வேலை வாய்ப்புகள் கொட்டிக் கிடக்கும் இடம் ‘டேட்டா சயின்ஸ்’ எனும் தகவல் அறிவியல் தான்

( தொடர்வோம் )

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s