Türkçe İçin Bir Sıklık Analizi Programı

İki kelime ile metin analizi olarak nitelendirebileceğimiz uygulamalar, birçok bilim dalında değişik bağlamlarda ortaya çıkmaktadır. İşletmecilikte içerik ve doküman yönetimi uygulamalarını, doğal dil işlemede metin özetleme ve makine çevirisini, veri madenciliğinde doküman sınıflama ve gruplamayı, dilbilgisinde okunabilirlik analizini buna örnek olarak verebiliriz. Benzer yüzlerce uygulama ve teknoloji mevcuttur. Metin analizi, temelde sıklık analizine dayanmaktadır. Sıklık analizi; metin içerisindeki değişik ses, ek, kelime vb. dil öğelerini saydırarak göreceli ve mutlak istatistiklerin elde edilmesidir. Başta İngilizce olmak üzere önde gelen Batı dilleri için sıklık analizi uygulamaları önceden geliştirilmiştir. Bildiğimiz kadarıyla Türkçe için şu ana kadar sağlıklı bir sıklık analizi programı ortaya konulup yaygın olarak kullanılır hâle gelmemiştir. Türkçe yapı olarak eklemeli bir dil olduğundan İngilizce için hazırlanmış uygulamalar ile Türkçe metinlerin sıklık analizi yapılamamaktadır. Türkçe hem alfabesi ve fonetiği hem de morfolojisi ve cümle yapısı açısından farklı bir dil olduğu için sıklık analizi bakımından bu dilin ayrıca ele alınması gerekir. Sunacağımız bildiride bir Türkçe sıklık analizi uygulamasının geliştirilme süreci işlenecektir. Bu bağlamda Türkiye Türkçesi ve bazı Türk lehçelerini de destekleyecek olan bu uygulamanın geliştirilme süreci içerisinde yer alacak gereksinim analizi ve arayüz tasarımı konuları dikkate sunulacaktır.

GİRİŞ (MAHİYET, FAYDA)

Zaman içerisinde değişik sebeplerden ses, yapı, anlam değişikliklerine uğrayan Türkçede meydana gelen değişiklikleri, kalabalık metin kümelerini (corpora) inceleyerek analiz edebiliriz. Bu analizin en önemli dayanak noktası; belirlenen metin kümelerindeki ses, hece, kelime vs. sıklıklarını ortaya koymak olacaktır. Bu sıklıkları belirlemek, bir araştırmacının kısa zamanda tek başına altından kalkabileceği bir iş değildir. Günümüzde Türkçenin temel metinlerinin birçoğu bilgisayar ortamına aktarılmıştır. Yeni üretilen metinler ise ya doğrudan bilgisayar ortamında veya internette oluşmakta ya da kısa zamanda sayısal ortama geçirilmektedir. Dolayısıyla bilgisayarlı bir Türkçe sıklık çalışması, metin analizlerinde hem süreyi çok azaltacak, hem de hataları en aza indirecektir. Ayrıca sonuçlar sayısal ortamda oluşturulacağı için elde edilen veriler başka bilgisayar uygulamaları ve kişiler tarafından daha ileri söz dizimi ve anlam analizleri için doğrudan kullanıma hazır olacaktır.

Benzer programlar İngilizce ve diğer diller için geliştirilmiş olsa da bu programların Türkçe için kullanılmasında bazı önemli engeller bulunmaktadır. Türkçenin alfabesi, sesleri, heceleme kuralları, kelime (kökler, ekler) ve cümle yapısı İngilizce ve diğer dillerden farklıdır. Bu sebeplerden dolayı yabancı diller için geliştirilmiş uygulamalar Türkçe metinler için kullanılamamakta, kullanılsa da tam ve güvenilir sonuç almak mümkün olamamaktadır.

Bu programın geliştirilmesinin ana amacı, Türkçe metin örgüsü içerisindeki sayısız özelliği, bilgisayar yardımı ile tespit etmek; yalnızca Türkçe öğretimi ve araştırmalarına değil, aynı zamanda iş yönetiminden psikolojiye kadar birçok alandaki değişik çalışmalara yardımcı olmaktır. Klâsik tarzda bunları yapmak, oldukça güç ve zaman alıcı bir iştir. Bundan dolayı geliştirilecek bil­gisayar uygulamasıyla anadili Türkçe olanlar için ses, hece, kelime öğretimi daha kolaylaşacak; yabancılara Türkçe öğretiminde kolaylıklar sağlanacak; diğer alanlarda ise içerik analizleri daha rahat yapılır hâle gelecektir.

Öte yandan karmaşık metin örgüsü içerisinden kısa sürede elde edilebilecek isabetli analizler sayesinde dil öğretimi konusunda yazılacak kitaplarda yeni verileri ortaya koymak mümkün olabilecek, bu yolla Türkçenin değişik açılardan araştırılmasına katkı sağlanabilecek, üniversitelerin yanı sıra lise ve dengi okullarda Türkçe dil bilgisi öğretiminin verimliliği artacaktır.

Bilgisayarın yaygınlaşması ile her alanda olduğu gibi dil alanında da bilgisayarlı uygulamaların sayısının zaman içerisinde çoğalacağı muhakkaktır. Bilgisayarın hız, saklama kapasitesi ve hata yapmaması gibi özelliklerinden dolayı Türkçe öğretiminde ve Türkçe araştırmalarında da kullanım alanları bulması, geliştirilen bu tür programlar sayesinde mümkün olacaktır.

Bir metin içerisindeki harf, hece, ek, kelime gibi birimlerin sıklık analizleri; metin ve yazarı hakkında daha detaylı yorumların yapılabilmesine imkan sağlar. Yani metin analizinin daha sağlıklı yapılmasına yardımcı olur. Aynı analiz; bir metin değil de bir metin kümesi (corpus) üzerinde yapıldığında ise, Türkçenin belirli bir alanına (edebiyat, siyaset vb.) veya belirli bir zaman dilimine ya da belirli bir yaş grubuna ait özelliklerin incelenmesinde de faydalı olacaktır.

Bu uygulama, önde gelen bazı Türk lehçelerinde de kullanılabilecek tarzda geliştirildiğinde, ileride Türk lehçeleriyle ilgili daha kapsamlı çalışmalara örnek ve taban teşkil edebilir. Örnek olarak; bir ileri aşamada tarihî ve çağdaş Türk lehçelerini bilgisayarla işleyebilen; ses, yapı ve cümle analizleri yapabilen bilgisayar destekli çalışmalar ortaya konulabilir.

Geliştirdiğimiz bu program, Türk dil bilgisinden bahsedildiğinde adı ilk sıralarda anılan rahmetli Prof. Dr. Muharrem Ergin'in soyadıyla anılacaktır: Ergin. Aslında biz, söz konusu programın adını Ercilasun koymayı düşünmüştük. Yaşayan önemli Türk dil bilginlerinden biri olan Prof. Dr. Ahmet B. Ercilasun'a bunu açtığımızda kendisi büyük bir alçakgönüllülük göstererek programa Ergin adını vermemizi istemiştir.

1. Geliştirilen Program: Girdi, Arayüz ve Çıktı (Input, GUI, Output)

Öncelikle geliştirilen bu program temel metin özelliklerini (dosya açma, dosya kapama, dosya kaydetme vs.) ve editör özelliklerini (kes, kopyala, yapıştır) desteklemektedir. Geliştirilen bu metin editörünün temel fonksiyonları Mila projesinden alındı [MILA] ve üzerine yapılan eklentiler ve iç mimarisinin iyileştirilmesi ile daha kullanışlı ve düzgün bir hale getirildi. Bu program "txt" ve "rtf" uzantılı metin dosya tipleri desteklemektedir. Bunun yanında herhangi bir kaynaktan kopyalanan metinlerin editörün açılan penceresine yapıştırılması ile de analiz yaptırılabilir. Geliştirilen programın arayüzü Tablo 1'de verilmiştir.

 Devamını okumak için tıklayınız...

    

 Sosyal ağdan bizi takip ederek yeniliklerden haberdar olabilirsiniz.

Telif hakları için tıklayınız...                                                        
Copyright © 2010 Türkçede.org                                                 Türkçenin öğretiminde katkısı olması dileğiyle...