Home Blog Feed

பிழைசுட்டி கோப்பு வடிவம்

பப்போ;பாப்போ

பட்டுனு போடு; (இல்ல நாம்)பாட்டுக்கு போயிருவேன்.

தமிழில் எழுத்தப்படும் எழுத்து/சொற்பிழைகளை சுட்டிக்காட்டும் அன்பர்களுக்காக. அவர்களின் உழைப்பை கால ஓட்டதில் மறைந்து போகாமல் காத்து கணினிக்கும் அந்த அறிவை புகட்டிட ஒரு முனைவு.

* புதியதலைமுறை செய்தித் தளத்தின் கடைசி இருபது பக்கங்களில் உள்ள பிழைகள் - May 5 2021

 ** 
  ~ http://www.puthiyathalaimurai.com/newsview/101409/More-than-94-47-lakh-doses-are-still-available-with-the-States-UTs-to-be-administered
  - கிட்டதட்ட 67
  + கிட்டத்தட்ட 67


** மராத்தா சமூகத்தினருக்கு மகாராஷ்டிரா அரசு வழங்கிய இடஒதுக்கீடு ரத்து - உச்சநீதிமன்றம்
 ~ http://www.puthiyathalaimurai.com/newsview/101402/Supreme-Court-strikes-down-Maratha-Reservation-law-for-exceeding-50-percent-cap--upholds-Indra-Sawhney

 - மறுபரிசீலினை செய்வதற்கான
 + மறுபரிசீலனை செய்வதற்கான
 # எழுத்துப்பிழை 

 - ஒத்துக்கீடு உச்சநீதிமன்றத்தின்
 + ஒதுக்கீடு உச்சநீதிமன்றத்தின்


** 
 ~ http://www.puthiyathalaimurai.com/newsview/101401/Mamata-becomes-West-Bengal-Chief-Minister-for-the-3rd-time.html
 - மூத்தத் தலைவரான
 + மூத்த தலைவரான
 # சந்தி, வல்லினம் மிகா  

** 
 ~ http://www.puthiyathalaimurai.com/newsview/101387/It-has-been-reported-that-Namachchivayam-is-likely-to-take-over-as-Deputy-Chief-Minister
 - முன்நிறுத்தப்பட்டார்
 + முன்னிறுத்தப்பட்டார்
 # வேற்றெழுத்து 

முன்னுரை

வெகு நாட்களாக ஏறக்குறைய இரண்டு ஆண்டுகளுக்கும் மேலாக பின்மண்டையில் ஓடிக்கொண்டிருந்த ஒரு வேலை. கணினியில் தரவுகளை சேமிக்க பல வகையான கோப்பு வடிவங்கள் உள்ளன. மேலோட்டமாக அவற்றை இரண்டாக பிரிக்கலாம். binary, text - அதாவது எண்-வடிவில், உரை-வடிவில் என இரண்டாக பிரிக்கலாம்(கண்ணியில் எல்லாமே எண்கள் தானே? அது தனிக்கதை பின்னொரு நாள் பார்க்கலாம்).

உரைவடிவில் பலவகையான வடிவங்களுண்டு. `.html` வலைப்பக்கங்களுக்கான வடிவம். நிரல் மொழிகள் பலவும் உரைவடிவிலேயே சேமிக்கப்படுகிறது. சி-மொழி `.c` என்றும், பைத்தான் மொழி `.py` என்றும் சேமிக்கப்படுகின்றன. உரைவடிவையும் மேலோட்டமாக இரண்டாக பிரிக்கலாம் - markup, plaintext. html, xml, markdown முதலியவை markupஇன் கீழ் வரும். ledger, email, asciidoc, org-mode முதலியவை plaintextகின் கீழ்வரும்.

கீழ்க்கணும் எடுத்துக்காட்டு இரண்டிற்குமான வேறுபாட்டு வெளிச்சமிட்டு காட்டும்.

html org-mode
<html> This is a text
<body> This is a bold text
<p>  
This is a text  
This is a <b>bold</b> text  
</p>  
</body>  
</html>  

`Plaintext` எனப்படும் `வெறும்வரிகள்` மிகக்குறைந்த அளவிலான குறியேற்றங்களை கொண்டுள்ளவை என்பது இதிலிருந்து புலப்படும். org-mode, ledger வடிவங்கள் என்னை மிகவும் கவர்ந்தவை. அவற்றை பாத்ததிலிருந்து நானும் ஏதாவதொரு வடிவத்தை வடிக்க வேண்டும் என்ற எண்ணம் அவ்வபோது வந்து போகும். சிறிதாக தொடங்க வேண்டும் என்றெண்ணி சரியான வாய்ப்பு வரும் வரை காத்திருந்தேன்.

முகநூலின் சொல்லாய்வுக்கு குழுமத்தில் 2016 ஆண்டு சேர்ந்தேன். சேர்ந்த சில நாட்களிலேயே ஒரு உறுப்பினர், வெகு நேரம் செலவழித்து அதுவரை வந்த கேள்வி பதில்களை ஒரு ஆவணமாக(.doc) தொகுத்திருந்தார். அதை பார்த்ததிலிருந்து குழுவில் எழும் கேள்விகளை படித்து தானாக புதிய சொற்களை தொகுக்க ஒரு வழி செய்ய வேண்டும் ஆவல். அது இன்னும் ஒரு முடிவுக்கு வரவில்லை. நான் பணிபுரியும் Saama Technologies AI Research Lab நடத்திய ஒரு நிகழ்வில் நோக்கர் குழுவின் மூலம் அறிமுகமான அண்ணாக்கண்ணன் அவர்களிடம் பேசிய போது பிழைகளை தொகுக்க ஒரு வடிவம் வடித்தால் என்ன என்று தோன்றியது. கிட்டத்தட்ட இரண்டாண்டுகளுக்கு பிறகு இதொ முதல் வரைவு.

கட்டுப்பாடுகள்/வரையறைகள்

இந்த வடிவமைப்பை வடிக்கும் முன் எனக்கு நானே வகுத்துக்கொண்ட விதிகள். செய்ய வேண்டிய வேலையை விடுத்து இணையத்தில் கண்டதில் உலவித்திரியும் பழக்கமுண்டு.

நுட்பியல் சாரா எந்தத்துறையினரும் பங்களிக்கும் படி இருக்க வேண்டும்.

C/C++ போல (நிறுத்தற்)குறிகள் செறிந்தனவாக இல்லாமல் மிகக்குறைவான குறிகளோடும், குறிகளுக்காக பொருள் - இடம் பொறுத்தோ, வரிசை பொறுத்தோ ஒன்றின் மீது ஒன்று ஏறாமல் மிகக்குறைவான பொருண்மையோடு இருந்தல் வேண்டும். கணினி மொழிகள் சாராதாரும், உரையின் வடிவமைப்பை அறியாதாரும் கூட பார்த்தவுடம் விளங்கும் படி இருத்தல் வேண்டும்.

பார்க்கவும் படிக்கவும் தெளிவானதாக இருக்க வேண்டும்.

XML போன்று தேவையான செய்திகள் கண்ணில் விளக்கெண்ணெய் விட்டு தேடும்படியாக இருக்ககூடாது.

எந்த கருவியிலும், எந்த எடிட்டரிலும் எழுதும் படி இருக்க வேண்டும்.

இந்த பதிவை நான் என்னுடை மேசைக்கணினியில் எழுதுகிறேன். இதில் தமிழில் தட்டச்சு செய்ய பல வகையான மென்பொருள் பொதிகளை (software packages) நிறுவி, அவற்றை ஒன்றோடொன்று ஒத்திசையும்படி வயவமைக்க(configure) வேண்டும். மடிக்கணினி முதல் கைப்பேசி வரை எதிலும் எழுதும் படி இருக்க வேண்டும். XML உரைகளை செம்மை பட பிழையில்லாமல் எழுத கைப்பேசிகளில் இயலாது. org-mode, markdown, asciidoc, restructuredtext முதலியவற்றை அடிப்படையாகக் கொண்டு எந்தக்கணினியிலும் எழுத்தத்தகுந்த வடிவில் உரை இருத்தல் வேண்டும்.

எழுத எளிமையான, குறைவான தட்டுகள் தட்ட வேண்டும்.

பலருக்கும் பலவகையான சிக்கல்கள் இருக்கும். காட்டாக எனக்கும் கைப்பேசிகளில் எழுதுவது பிடிக்காது. காரணம் குறுகிய விசைப்பலகையில் அனைத்து எழுத்துக்களும் இருக்கும், இதனால் எழும் பிழைகளை தவிர்ப்பது கடிது. ஒரு கட்டுரை வரைவதாய் கொள்வோம், சொல்வரும் செய்தியை ஒட்டி சில இடங்களில் இது தலைப்பு, இது மேற்கோள் என சுட்டி அவற்றை உரையிலிருந்து வேறுபடுத்திக்காட்ட தலைப்பை அடிகோடிடுவோம், உரையை போலில்லாமல் மேற்கோள்களை தாளின் நடுவில் எழுதுவோம். இப்படி தலைப்பை தலைப்பாய் காட்ட தலைப்பில் உள்ள சொற்கள் தவிர்த்து நாம் செய்திடும் ஒப்பனைகள், சில நேரம் கைமீறி போய்விடும். பள்ளி பொதுத்தேர்வின் போது ஐந்தாறு வண்ண பேனாக்களை கொண்டு வந்த தோழிகள் சிலர் நினைவிற்கு வருகின்றனர். அப்படியல்லாமல் குறைவான ஒப்பனைகளை குறைவான குறிகளைக் கொண்டு தட்டச்சு செய்ய ஏதுவாக இருத்தல் வேண்டும்.

எளிய கூறுகள்

முதலில் சில சுவையில்லாத ஆனால் அடிப்படையான வரையறைகள். `*` இல் தொடங்கும் வரிகள், ஒரு கட்டின் தொடக்கம். ஒரு கட்டு பல உட்கட்டுகளை கொண்டிருக்கலாம். உட்கட்டுகள் ஒவ்வொன்றும் ஒரு `*` கூட பெற்றிருக்கும். கட்டுரையில் எப்படி தலைப்புகள் ஒன்றனுள் ஒன்று அடங்குமோ அப்படி.

எ.டு:

* முதன்மை கட்டு
** கட்டுக்குள் கட்டு
*** மூன்றாம் நிலை கட்டு

ஒரு பிழைசுட்டி உரை முதனிலையிலிருந்து தொடங்க வேண்டும் என்று அவசியம் இல்லை. கீழ்வரும் பிழைகட்டுகள் முழுமையான பொருள் பெற்ற கட்டுகள். ஒரு பிழைக்கட்டில் அவசியமானது ஒன்றேயொன்றுதான்.

  1. `-`இல் தொடங்கும் பிழை கூற்று
- வெளியாகிவுள்ளது

ஒரு பிழைசுட்டி-உரையில் பல பிழைகளை அடக்கலாம், ஆனால் ஒன்றுக்கொன்று இரு வரிகள் இடைவெளி விட்டு இருக்க வேண்டும். கீழ்வரும் கட்டு மூன்று பிழைகளை அடக்கிருப்பதைப் பார்க்க.

- வெளியாகிவுள்ளது


- அணுகுமுறையை பின்பற்றலாம்


- இருச்சக்கர வாகனங்கள்

ஒரு பிழைசுட்டி-உரையில் பிழைவரிகேற்ற திருத்த வரிகளும் இடம்பெறலாம். இடம்பெறுவது நல்லது, ஏனெனில் சொற்றொடர்களில் எச்சொல் பிழையானது என்பதை அறிய உதவும். திருத்தத்தொடர்கள் `+`இல் தொடங்க வேண்டும்.

- அணுகுமுறையை பின்பற்றலாம்
+ அணுகுமுறையைப் பின்பற்றலாம்

பல பிழை-திருத்தம் அடங்கிய எடு.கா.

- வெளியாகிவுள்ளது
+ வெளியாகியுள்ளது


- அணுகுமுறையை பின்பற்றலாம்
+ அணுகுமுறையைப் பின்பற்றலாம்


- இருச்சக்கர வாகனங்கள்
+ இருசக்கர வாகனங்கள்

`-`உம், `+`உம் போதுமென்றால எதற்கு முதனிலை, மூன்றாம் நிலை என்றெல்லாம் அறிமுகத்தில் ஆட்டம் எதற்கு என்ற கேள்வி எழுகிறதா? பொறுத்திடுக.

கடந்த ஐந்தாண்டுகளில் இணையத்தில் கவனித்தவரை அனைவரும் எழுத்துப் பிழைகளை சுட்டுவார் இலர். முகநூலில் தமிழ் சார்ந்த சொல், சொல்லாய்வு, நோக்கர் முதலிய குழுவினர் தான் இதை மெனக்கெடுத்து செய்கின்றனர். குறிப்பாக நோக்கர் குழு இதை செம்மையாகச் செய்துவருகிறது. இப்படி பிழைகளைக் கண்டு திருத்தம் சொல்வோர், இணையத்தில் வரும் செய்திக்கட்டுரைகள், வலைப்பூக்கள், விளம்பரங்கள் முதலியவற்றை படித்து அதில் வரும் பிழைகளை பகிர்கின்றனர். இங்கே இன்னொரு விளக்கம் தர வேண்டும். தற்போதைய நிலையில் பிழைசுட்டி வடிவமைப்பில் இரண்டு படிநிலைகள் தான் வரையறுக்கப் பட்டிருக்கின்றது. முதலில் இரண்டாம் `**` நிலையைப் பார்க்கலாம். மேற்சொன்னபடி பிழைகள் எந்த கட்டுரைகளிலிருந்து வந்தது என சுட்டிக்காட்டவே கட்டுகள். இரண்டாம் நிலை கட்டுகள் இந்தச் சேவையை அருள்கின்றது.

கீழ்வரும் பிழை-திருத்த வரிகள் ’மராத்தா சமூகத்தினருக்கு மகாராஷ்டிரா அரசு வழங்கிய இடஒதுக்கீடு ரத்து - உச்சநீதிமன்றம்’ என்ற புதியதலைமுறை செய்தியுரையில் இருந்து வந்தது என்பதைக்காட்ட இரண்டாம் நிலை (** மராத்தா….) கட்டாக தொடங்குவதை காண்க. இரண்டு பிழைகளை அது அடக்கியிருப்பதையும் காண்க.

** மராத்தா சமூகத்தினருக்கு மகாராஷ்டிரா அரசு வழங்கிய இடஒதுக்கீடு ரத்து - உச்சநீதிமன்றம்

 - மறுபரிசீலினை செய்வதற்கான
 + மறுபரிசீலனை செய்வதற்கான


 - ஒத்துக்கீடு உச்சநீதிமன்றத்தின்
 + ஒதுக்கீடு உச்சநீதிமன்றத்தின்

உரையின் இணைப்பை `~`ஐ கொண்டு தொடங்கும் வரியில் இடலாம்.

** மராத்தா சமூகத்தினருக்கு மகாராஷ்டிரா அரசு வழங்கிய இடஒதுக்கீடு ரத்து - உச்சநீதிமன்றம்

 ~ http://www.puthiyathalaimurai.com/newsview/101402/Supreme-Court-strikes-down-Maratha-Reservation-law-for-exceeding-50-percent-cap--upholds-Indra-Sawhney

 - மறுபரிசீலினை செய்வதற்கான
 + மறுபரிசீலனை செய்வதற்கான


 - ஒத்துக்கீடு உச்சநீதிமன்றத்தின்
 + ஒதுக்கீடு உச்சநீதிமன்றத்தின்

இப்படி பல உரைகளில் உள்ள பிழைகளை தொகுத்து ஒரு கோப்பாக பகிர `*` தொடங்கும் முதன்நிலை கட்டு பயன்படுகிறது. இதற்கு சரியான எடுத்துக்காட்டு நீச்சல்காரன் பகிர்ந்த பதிவு[1].

* புதியதலைமுறை செய்தித் தளத்தின் கடைசி இருபது பக்கங்களில் உள்ள பிழைகள் - May 5 2021

 ** 
  ~ http://www.puthiyathalaimurai.com/newsview/101409/More-than-94-47-lakh-doses-are-still-available-with-the-States-UTs-to-be-administered
  - கிட்டதட்ட 67
  + கிட்டத்தட்ட 67


** மராத்தா சமூகத்தினருக்கு மகாராஷ்டிரா அரசு வழங்கிய இடஒதுக்கீடு ரத்து - உச்சநீதிமன்றம்
 ~ http://www.puthiyathalaimurai.com/newsview/101402/Supreme-Court-strikes-down-Maratha-Reservation-law-for-exceeding-50-percent-cap--upholds-Indra-Sawhney

 - மறுபரிசீலினை செய்வதற்கான
 + மறுபரிசீலனை செய்வதற்கான

 - ஒத்துக்கீடு உச்சநீதிமன்றத்தின்
 + ஒதுக்கீடு உச்சநீதிமன்றத்தின்


** 
 ~ http://www.puthiyathalaimurai.com/newsview/101401/Mamata-becomes-West-Bengal-Chief-Minister-for-the-3rd-time.html
 - மூத்தத் தலைவரான
 + மூத்த தலைவரான


** 
 ~ http://www.puthiyathalaimurai.com/newsview/101387/It-has-been-reported-that-Namachchivayam-is-likely-to-take-over-as-Deputy-Chief-Minister
 - முன்நிறுத்தப்பட்டார்
 + முன்னிறுத்தப்பட்டார்

முன்னார்ந்த கூறுகள்

இதுவரை பார்த்தவை என்னைபோன்ற எவராலும் பிழைபார்த்து சொல்லகூடியவை. மேலும் சில ஒப்பனை செய்து இப்படி திரட்டபடும் தரவை மெருகேற்ற, வளப்படுத்த முடியும். எடுத்துக்காட்டாக பிழைகள் எந்த வகையைச் சார்ந்தது என்று குறிப்பிடலாம்.

கீழ்வரும் சில எடுத்துக்காட்டுகள் நீச்சல்காரன் தொகுத்த (Error Annotated Corpus)விளக்கமேற்றிய பிழைத்தரவுக்கணதிலிருந்து[2] சில எடுத்துக்காட்டுகளை காண்க.

- வெளியாகிவுள்ளது
+ வெளியாகியுள்ளது
# உடன்படுமெய்


- அணுகுமுறையை பின்பற்றலாம்
+ அணுகுமுறையைப் பின்பற்றலாம்
# இரண்டாம் வேற்றுமை, வல்லினம் மிகும்


- இருச்சக்கர வாகனங்கள்
+ இருசக்கர வாகனங்கள்
# எண், வல்லனம் மிகா

`#`இல் தொடங்கும் வரிகள் பிழையின் வகையை சுட்டுகின்றன. `வெளியாகிவுள்ளது > வெளியாகியுள்ளது` உள்ள பிழை உடம்படுமெய் சார்ந்தது என்பதைச் சுட்டிக்காட்ட # உடம்படுமெய். ஒரு பிழை பல வகையை சார்ந்த்ததாக இருக்கலாம். `இருச்சக்கர வாகனங்கள் > இருசக்கர வாகனங்கள்` என்பதில் உள்ள பிழை `எண், வல்லனம் மிகா` என்ற இரண்டு வகைகளை குறிப்பிடலாம். ஒன்றுக்கும் மேற்பட்ட வகைகளை குறிக்க காற்புள்ளியைக்(`,`) கொண்டு பிரித்து எழுதலாம்.

கீழ்வரும் எடுத்துக்காட்டு மொழிபெயர்ப்பை `=`இல் தொடங்கும் வரியில் அளிக்கிறது.

- ஷுட்டிங் ஸ்பாட்
+ ஷூட்டிங் ஸ்பாட்
= படப்பிடிப்புத் தளம்
# சுழி (அறியாமல்)

இரண்டாம் வேற்றுமை அணுகுமுறையை பின்பற்றலாம் > அணுகுமுறையைப் பின்பற்றலாம்
உடன்படுமெய் வெளியாகிவுள்ளது > வெளியாகியுள்ளது
எண் இருச்சக்கர வாகனங்கள் > இருசக்கர வாகனங்கள்
சந்தி அங்கீகரிக்கபடாத > அங்கீகரிக்கப்படாத
நான்காம் வேற்றுமை அடுக்குபாறைகளாகவும் > அடுக்குப்பாறைகளாகவும்
புணர்ச்சி ஏன்னென்றால் பணமதிப்பிழப்பு > ஏனென்றால் பணமதிப்பிழப்பு
பேச்சு வழக்கு அடமானம் வைக்க > அடைமானம் வைக்க
பேச்சு வழக்கு அப்பாகிட்ட கேட்டியா > அப்பாவிடம் கேட்டியா
வினையாக்கம் முயற்சிக்கலாம் > முயலலாம்
வினையெச்சம் அதட்டி கேட்டேன் > அதட்டிக் கேட்டேன்
வேற்றெழுத்து 10கனநீர் உலைகள் > 10கணநீர் உலைகள்
சுழி ஆவசியம் என்று > அவசியம் என்று
சுழி (அறியாமல்) அகியவற்றின் விலைகள் > ஆகியவற்றின் விலைகள்
உம்மைத்தொகை வெற்றித்தோல்விக்கும் > வெற்றிதோல்விக்கும்
இருந்து அலுவலத்தில் இருந்து > அலுவலகத்தில் இருந்து

மேற்படி வேலைகள்

மேலே நீச்சல்காரனின் ’விளக்கமேற்றிய பிழைத்தரவுக்கணக்கில்’ உள்ளவை அவர் அனுபவத்திலிருந்து வந்ததாகக் கொள்கிறேன். அதோடு பிழை சுட்டுபவர்கள் அனைவரும் இப்படி அவர்களின் சுட்டுகளை வகைப்படுத்த வேண்டும் என்று எதிர்பார்க்க முடியாது. எனினும் சிலர் தன்முனைப்பில் செய்யாமலிருக்கமாட்டார். அப்படிச் செய்வோர் அவருக்குத் தோன்றியபடி பெயரிட்டு வகைப்படுத்துவது இயல்பு. இருந்தாலும் மொழி வல்லுநர் குழு ஒன்று இப்படியான வகைப்பாடுகளை வடிவமைக்காமல் விட்டுவிட முடியாது. folksonomy போல புதிய பெயர்கள் எழும்ப எழும்ப வல்லுநர் குழு அதை மட்டுப்படுத்தி மடைமாற்ற வேண்டும். பொது மக்கள் இடும் பெயர்களை தொகுத்து, பிழைகளை கழித்து மீண்டும் பொதுமக்கள் பயன்படுத்துமாறு ஒரு `வரையறுக்கப்பட்ட வகைகுறிகள்` (controlled vocabulary) ஆண்டுக்கொருமுறை வெளியிடலாம்.

இன்னும் கவனிக்க வேண்டியவை

10 ஆண்டுகளுக்குப் பிறகு தனிப்பெரும்பான்மையுடன் ஆட்சி அமைக்கிறது திமுக என்று எழுதினால், பத்தாண்டுகளுக்கு முன்பு திமுக தனிப்பெரும்பான்மையான கட்சியாக இருந்தது என்று பொருளாகிவிடாதா?

https://www.facebook.com/groups/179849046077378/permalink/852564675472475/ உண்மையில் 1996ஆம் ஆண்டுக்குப் பிறகு இப்போதுதான், அதாவது 25 ஆண்டுகளுக்குப் பிறகு திமுக தனிப் பெரும்பான்மையுடன் ஆட்சி அமைக்கிறது. தனிப் பெரும்பான்மையுடன் 10 ஆண்டுகளுக்குப் பிறகு ஆட்சி அமைக்கிறது திமுக என்று எழுதினால் அது வேண்டுமானால் சரியாக இருக்கும். 10 ஆண்டுகளுக்குப் பிறகு தனிப்பெரும்பான்மையுடன் ஆட்சி அமைக்கிறது திமுக என்று எழுதினால், பத்தாண்டுகளுக்கு முன்பு திமுக தனிப்பெரும்பான்மையான கட்சியாக இருந்தது என்று பொருளாகிவிடாதா? உண்மையில் 1996ஆம் ஆண்டுக்குப் பிறகு இப்போதுதான், அதாவது 25 ஆண்டுகளுக்குப் பிறகு திமுக தனிப் பெரும்பான்மையுடன் ஆட்சி அமைக்கிறது. தனிப் பெரும்பான்மையுடன் 10 ஆண்டுகளுக்குப் பிறகு ஆட்சி அமைக்கிறது திமுக என்று எழுதினால் அது வேண்டுமானால் சரியாக இருக்கும்.

குறும்பாக …

வினையாக்க வகையில் வரும் அனைத்து பிழைகளுமே ’முயற்சி’ என்ற சொல்லையொற்றியே உள்ளன. பிழைதொகுப்பில் `பேச்சு வழக்கு`, `பேச்சுவழக்கு` என இரண்டு வகைகள் இருந்தன. :)

நன்றிகள்

இப்பணிக்கு நோக்கர் குழுத்தின் உரையாடல்கள் பெரிதும் உதவின. குறிப்பாக நீச்சல்காரனின் ’விளக்கமேற்றிய பிழைத்தரவுக்கணத்தின்’ பங்கு அளப்பரியது. அண்ணாக்கண்ணன், மணிமணிவண்ணன், மலைக்கண்ணன், இராம.கி முதலியோர்க்கும் பெருமளவில் கடன்பட்டிருக்கிறேன். அவர்களின் உழைப்பும் குறிப்பாக மலைக்கண்ணன் அளித்த ஊக்கமும் தான் இப்படியான (ஆங்கிலத்தில் mundaneஆன) வேலையை செய்ய உந்துதலாக இருந்தது.

[1] https://www.facebook.com/groups/179849046077378/permalink/853872558675020/ [2] https://www.kaggle.com/neechalkaran/error-annotated-tamil-corpus