Data Science 6 : தகவல் அறிவியல் 6

Image result for data science

தகவல் அறிவியல் என்றால் என்ன ? அதற்கு என்னென்ன அடிப்படைத் திறமைகள் இருக்க வேண்டும் ? யாரெல்லாம் தகவல் அறிவியல் துறையில் நுழையலாம். இதனால் தொழில்நுட்ப உலகில் நிகழ்கின்ற மாற்றங்கள் என்னென்ன ? எப்படிப்பட்ட வேலைகள் நமக்காகக் காத்திருக்கின்றன, போன்றவற்றையெல்லாம் கடந்த வாரங்களில் நாம் அலசினோம். இந்த வாரம் தகவல் அறிவியல் துறையில் கோலோச்சுகின்ற சில மென்பொருட்களைப் பற்றிப் பார்க்கலாம் !

தொழில்நுட்பத் துறையில் நுழைபவர்கள் முன்னால் எப்போதுமே ஆஜானுபாகுவாய் நிற்கும் ஒரு மிகப்பெரிய கேள்வி, “என்ன படிக்கலாம் ?” என்பது தான். பட்டப்டிப்பைப் பொறுத்தவரை எளிதில் நாம் ஒரு முடிவுக்கு வந்து விடலாம். அல்லது ஒரு நாலு பேரிடம் கேட்டால் ஒரு பொதுவான பதில் கிடைத்து விடும். அதை வைத்துக் கொண்டு நாம் ஒரு படிப்பைத் தேர்ந்தெடுக்கலாம்.

ஆனால் மென்பொருள் விஷயத்தில் அப்படி நடக்காது. நாலு பேர் என்ன ? நாற்பது பேரிடம் கேட்டால் நாற்பது விதமாகத் தான் சொல்லுவார்கள். அதில் எது சரியானது என்பதைக் கண்டுபிடிப்பது இடியாப்பச் சிக்கல் போன்றது. அதற்காக, உங்களுக்கு ஐடியா கொடுப்பவர்களைக் குறைசொல்கிறேன் என்பது பொருள் அல்ல ! ஒவ்வொருவரும் அவரவர் பார்வையில் எது தேவையானது என்பதைச் சொல்வார்கள் அவ்வளவு தான்.

எனவே பொதுவாக எவையெல்லாம் முக்கியமான மென்பொருட்கள் என்பதை அறிந்து கொள்வது தேவையான ஒன்று ! ஒன்றை நினைவில் வைத்துக் கொள்ளுங்கள். தகவல் அறிவியல் துறையில் நூற்றுக்கணக்கான மென்பொருட்கள் உள்ளன ! அனைத்தையும் படித்து அதில் எக்ஸ்பர்ட் ஆவது என்பது சாத்தியமில்லாத ஒன்று ! மட்டுமல்ல, தேவையில்லாத ஒன்றும் கூட ! எனவே சிலவற்றைத் தேர்ந்தெடுத்து அதை ஆழமாகப் படிப்பது மட்டுமே தேவையானது !

இந்தத் துறையில் முக்கியமாய் கோலோச்சுகின்ற மென்பொருட்கள் என்னென்ன என்பதை, தொழில்நுட்ப அடிப்படையிலும், பயன்பாட்டு அடிப்படையிலும், தேவையின் அடிபடையிலும் பார்ப்போம்.

ஒரு டாப் 10 மென்பொருட்கள் என தேர்ந்தெடுப்பது “டாப் 10 மூவீஸ்” போல அத்தனை எளிதல்ல. இருந்தாலும் இவை நிச்சயம் சிறப்பிடம் பிடிக்கக் கூடிய மென்பொருட்கள் என்பதில் சந்தேகமில்லை.

1. ஆர்

தகவல் அறிவியல் துறையில் எல்லோரும் கேள்விப்பட்டிருக்கக் கூடிய ஒரு மென்பொருள் ஆர் ! ஒரே ஒரு எழுத்துடைய மென்பொருள் என்பதால் மனதில் எளிதாய் தங்கும் ! ஸ்டாட்டிஸ்டிகல் கம்ப்யூட்டிங் எனப்படும் புள்ளிவிவரக் கணினியியலில் இந்த மென்பொருளின் பங்களிப்பு கணிசமானது.

வின்டோஸ், மேக், யுனிக்ஸ், லெனக்ஸ் என பல்வேறு தளங்களில் இது பயன்படுத்த முடியும் எனும் நிலையில் உள்ளது. சாஸ் போன்ற பிரபல மென்பொருட்களுக்கு மிகச்சிறந்த மாற்றாக தொழில்நுட்ப உலகில் கோலோச்சும் மென்பொருள்.

2. மேட்பிளாட்லிப்

தகவல்களை எப்படி வசீகரமாக, எளிதாகப் புரியும் வகையில் சொல்லலாம் என்பது மிக முக்கியம். அதற்கு மேட்பிளாட்லிப் ரொம்பவே கைகொடுக்கும். ஸ்டாட்டிஸ்டிக் அதாவது புள்ளி விவரங்களை வரைபடங்களாக மாற்றி வசீகரிக்க வைப்பதில் இது முக்கியத்துவம் பெறுகிறது.

மேட்லேப் போன்ற மென்பொருட்களின் மீது பரிச்சயம் உண்டென்றால் மேட்பிளாட்லிப்பைக் கற்றுக் கொள்வது, மிக எளிதான விஷயம். அல்லது அதே போன்ற வேறெந்த மென்பொருளைக் கற்றிருந்தாலும் இதை எளிதில் புரிந்து கொள்ளலாம்.

3. ரேப்பிட் மைனர்

இலவசமாகக் கிடைக்கின்ற ஓப்பன் சோர்ஸ் மென்பொருள் இது. தகவல் அறிவியலில் முடிவுகளை எடுப்பதற்கு இந்த மென்பொருள் உதவும். இதற்குள் மெஷின் லேர்னிங் அல்காரிதம்கள் இதற்குள் ஏற்கனவே தயாராய் இருக்கும். ஒருவகையில் கொஞ்சம் ரெடிமேட் மென்பொருள் இது.

ஏகப்பட்ட பைல் வகைகளை இது ஏற்றுக் கொள்ளும், முப்பதுக்கும் மேற்பட்ட வகையில் முடிவுகளை வெளிப்படுத்தும், என பல்வேறு வசீகர அம்சங்கள்

4. ஹடூப்

பிக் டேட்டா எனும் பெயர் கடந்த சில ஆண்டுகளாக தொழில்நுட்ப உலகை கலக்கிக் கொண்டிருந்தபோது பிரபலமானது இந்த ஹடூப். ஆறு ஆண்டுகளுக்கு முன்பே வெளியானாலும் கடந்த மூன்று நான்கு ஆண்டுகளாய் தான் பிரபலமானது.

தகவல் அறிவியலில் பிக்டேட்டாவின் பங்களிப்பும் அடக்கம். தகவல் அறிவியலின் ஒரு பாகம் தான் பிக்டேட்டா என்றும் சொல்லலாம். எனவே ஹடூப் தெரிந்திருப்பது டேட்டா சயின்ஸ் துறைக்கு ரொம்பவே பயன் தரும். அப்பாச்சி ஹடூப் பிரேம்வர்க் பற்றி நன்றாகப் புரிந்து கொள்வது பயனளிக்கும்.

5. டேப்லூ பப்ளிக்

டேட்டா விசுவலைசேஷன் எனப்படும் தகவலை கற்பனையில் விரித்துப் பார்ப்பது தகவல் அறிவியலில் மிக முக்கியமானது. அதற்கு பல்வேறு மென்பொருட்கள் உதவுகின்றன. அதில் முக்கியமான ஒரு மென்பொருள் இது.

மென்பொருள் துறையில் பரிச்சயம் இல்லாதவர்களும் இதை மிக எளிதில் கற்றுக் கொண்டு பயன்படுத்தலாம் என்பது இதிலுள்ள ஒரு சிறப்பம்சம். இதிலுள்ள ஒரு குறை என்னவென்றால், இதையும் மென்பொருள் ‘ஆர்” ஐயும் இணைக்க முடியாது என்பது தான். இரண்டுமே பிரபலமான மென்பொருட்கள் ! இரண்டையும் இணைக்கும் வகை இருந்திருந்தால் இன்னும் சிறப்பாக இருந்திருக்கும்.

6. ஓப்பன் ரிஃபைன்

தகவல் அறிவியலில் தேவைப்படும் ஒரு முக்கியமான விஷயம், தகவல்களை தூசு தட்டி சுத்தம் செய்வது. அதற்கும் பல மென்பொருட்கள் இருக்கின்றன. அதில் முக்கியமான ஒன்று ஓப்பன் ரிஃபைன். கூகிள் ரிஃபைன் என முன்பு அழைக்கப்பட்டு வந்த மென்பொருளும் இது தான்.

தகவலை தூய்மைப்படுத்துவது, தேவையற்றவற்றை நீக்குவது,ஒன்றிலிருந்து இன்னொரு வகைக்கு தகவலை மாற்றுவது,தகவலை உடைத்து சின்னச் சின்ன தகவல்கள் ஆக்குவது என பல்வேறு பணிகளை இந்த மென்பொருள் செய்யும்.

7. KNIME

பயன்படுத்துவதற்கு மிக எளிமையான ஒரு மென்பொருள். இங்கிலாந்தில் பல நிறுவனங்கள் இந்த மென்பொருளை பயன்படுத்துகின்றன. பல மென்பொருட்களை இத்துடன் இணைத்து பணிபுரியலாம் என்பது இதிலுள்ள ஒரு பிளஸ். வேதியில் தகவல்களையும் இந்த மென்பொருளில் பயன்படுத்தலாம் என்பது இதிலுள்ள இன்னொரு சிறப்பம்சம்.

தகவல்களை அலசுவதற்கும், பிற பல தகவல்களோடு இணைப்பதற்கும் இந்த மென்பொருள் பயன்படும்.

8. நோட் எக்ஸ் எல்.

சமூக வலைத்தளங்களிலுள்ள தகவல்கள் டேட்டா சயின்ஸ் துறையில் முக்கிய பங்கு ஆற்றுகின்றன என்பது நமக்குத் தெரியும். இந்த மென்பொருள் அதில் சிறப்பிடம் பெறுகிறது. நெட்வர்க், சமூக வலைத்தளம், மென்பொருள் எல்லாவற்றையும் இணைக்கும் பாலமாக இந்த மென்பொருள் உதவும்.

தகவலை உள்ளீடு செய்வதற்கு, அதை படங்களாக காட்சிப்படுத்துவதற்கு, படங்களை அலசி ஆராய்வதற்கு, தகவல்களை அறிக்கைகளாக மாற்றுவதற்கு என பல விஷயங்களுக்கு இது பயன்படும். எக்ஸெஸ் மென்பொருளை மையமாக வைத்து இது இயங்குகிறது என்பது இதன் பயன்பாட்டு எல்லையை அதிகரித்திருக்கிறது எனலாம்.

9. Paxata

இன்னொரு பிரபலமான தகவல்களை சரிசெய்யும் மென்பொருள். மென்பொருள் துறையில் பரிச்சயம் இல்லாதவர்களும் இதை எளிதில் பயன்படுத்தலாம் என்பது இதன் முக்கியமான அம்சம். தகவல்களை வரைபடங்களாக மாற்றி அதிலுள்ள குறைகளை எளிதில் சுட்டிக்காட்டும். தேவையான மாற்றங்களைச் செய்து கொள்ள அது அனுமதிக்கும். பின் அந்த தகவல்களை வேறு வடிவில் மாற்றுவதற்கும் கைகொடுக்கும்.

தகவல்களை எந்த வடிவத்தில் பார்க்க விரும்புகிறீர்களோ அப்படிப் பார்க்க இதில் பல வசதிகள் உண்டு. பல தகவல் கூட்டங்களை இணைத்து புதிய தகவல் வகையை உருவாக்கவும் இதில் வசதிகள் உண்டு. ஸ்மார்ட் ஃபூஷன் எனப்படும் இதற்கான சிறப்பு மென்பொருள் வசதி இதில் மட்டுமே உண்டு.

10 நரேட்டிவ் சயின்ஸ்

இதிலுள்ள சிறப்பம்சம் தகவல்களை உள்ளீடு செய்தால் தானாகவே அறிக்கைகளை தயாராக்கும் என்பது தான். தகவல்களை வாசித்துப் பார்த்து எத்தகைய அறிக்கையை உருவாக்கலாம் என்பதை முடிவு செய்து அதுவாகவே உருவாக்கும்.

இதில் ஆர்டிபிஷியல் இன்டெலிஜென்ஸ் தொழில்நுட்பம் உண்டு. அது தான் தகவல்களை பயன்பாட்டாளருக்குத் தேவையான வகையில் ஆட்டோமேட்டிக்காகவே உருவாக்கித் தரும். ரொம்ப கஷ்டம் இல்லாமலேயே டேட்டா சயின்டிஸ்ட்களுக்கு தேவையான தகவல்களை இது தரும் !

2 comments on “Data Science 6 : தகவல் அறிவியல் 6

  1. while searching for Big Data related tamil came across with this superb article ; you can include the WEKA also – an open source tool

    Like

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.