Table Of ContentTÜRKİYE CUMHURİYETİ
ÇUKUROVA ÜNİVERSİTESİ
SOSYAL BİLİMLER ENSTİTÜSÜ
TÜRK DİLİ VE EDEBİYATI ANABİLİM DALI
BİLGİSAYAR DESTEKLİ SÖZLÜK BİLİMİ ÇALIŞMALARINDA
DERLEME SÖZLÜĞÜ VERİ TABANI ÖRNEĞİ
B. Tahir TAHİROĞLU
DOKTORA TEZİ
Adana, 2010
TÜRKİYE CUMHURİYETİ
ÇUKUROVA ÜNİVERSİTESİ
SOSYAL BİLİMLER ENSTİTÜSÜ
TÜRK DİLİ VE EDEBİYATI ANABİLİM DALI
BİLGİSAYAR DESTEKLİ SÖZLÜK BİLİMİ ÇALIŞMALARINDA
DERLEME SÖZLÜĞÜ VERİ TABANI ÖRNEĞİ
B. Tahir TAHİROĞLU
Danışman: Prof. Dr. Şükrü Halûk AKALIN
DOKTORA TEZİ
Adana, 2010
i
ÖZET
BİLGİSAYAR DESTEKLİ SÖZLÜK BİLİMİ ÇALIŞMALARINDA
DERLEME SÖZLÜĞÜ VERİ TABANI ÖRNEĞİ
B. Tahir TAHİROĞLU
Doktora Tezi, Türk Dili ve Edebiyatı Ana Bilim Dalı
Danışman: Prof. Dr. Şükrü Halûk AKALIN
Temmuz, 2010, XII+207 sayfa
Bu çal ışmada Anadolu a ğızlarının söz varl ığını içeren 12 ciltlik Derleme
Sözlüğü’nün çevrim içi sorgulanabilir veri taban ı hazırlanmıştır. Sözlüğün madde başı,
tanımlamalarını içeren anlam bölümü, örnek cümlelerin verildi ği tanık bölümü, madde
başlarının değişkeleri (varyantları) tablosu ve derleme yeri verisini içeren yer tablosu
sözlükteki yapı esas alınarak oluşturulmuştur.
124.692 adet madde ba şından oluşan sözlüğün birbiriyle ili şkilendirilmiş veri
tabanı modeli sorgu arayüzünde geli şmiş sorgulama seçenekleriyle desteklenmi ştir.
Anlam tablosundaki e şdizim örüntüleri, kavramsal sorgulama, anlamlarda anahtar
sözcükler , sıklık listesi ve en çok derleme yap ılan yer bilgisini veren derleme yeri
listesi de çıkarılmıştır.
Do ğal Dil İşlemenin çe şitli uygulama alanlar ı, derlem dil biliminin tan ımı,
sözlük ve sözlük tekniği kavramları da tanıtılmaya çalışılmıştır.
Anahtar Sözcükler : Derleme Sözlüğü, Veri Tabanı, Dilsel Veri Tabanı, Doğal
Dil İşleme, Derlem Dil Bilimi, Sıklık, Eşdizimlilik, Sözlük.
ii
ABSTRACT
A SAMPLE OF DERLEME SÖZLÜĞÜ (COMPILATION DICTIONARY)
DATABASE IN COMPUTER-ASSISTED LEXICOGRAPHY STUDIES
B. Tahir TAHİROĞLU
Ph. D. Thesis, Department of Turkish Language and Literature
Supervisor: Prof. Dr. Şükrü Halûk AKALIN
July 2010, XII+207 pages
In this thesis, we prepared a database based on Derleme Sözlü ğü (Compilatin
Dictionary) consisting of 12 volumes including Anatolian dialects vocabulary. Based on
dictionary’s structure, several table structures including lemma table that keeps the main
words, variation table that keeps the lemmas’s changing form, meaning table that keeps
the definitions, sample table that keeps the lemmas usable forms and finally location
table that keeps the lemmas’s compilation data have been build.
The dictionary consisted 124.692 numbers of lemmas, have been build on
relational table structure and also supported by a advanced search capability. In addition
to searchable interfaces, based on meaning table, collocational structures and keywords
have been extracted. Also, based on location table a location frequency list has been
prepared for deep analysis. Thus, this dictionary’s data have been converted to a digital
form for futher investigation in Anatolian dialects.
Natural language processing and its several application fields and definition of
corpus linguistics, dictionary and dictionary making techniques have been outlined for
intruduction.
Keywords: Derleme Sözlü ğü (Compilation Dictionary), Database, Linguistic
Database, Natural Language Processing, Corpus Linguistics, Frequency,
Collocationality, Dictionary.
iii
ÖN SÖZ
1990’lı yılların sonundan itibaren internet ve çevrim içi “sanal” ortamlar günlük
yaşamdan ba şlayarak ya şamın her alan ını etkilemi ş, bu etkilenmeden akademik
çalışmalar da var olanın yayınlanmasından yeni çalışmaların üretilmesine kadar çevrim
içi uygulamalar ı gerek yerel gerek uluslar aras ı düzeyde giderek artan yo ğunlukta
kullanmaya ba şlamıştır. E-ö ğrenme, e-kitap, e-devlet vb. gibi elektronik kavram ıyla
bütünleşmiş yeni sözlerin ortaya ç ıkması, değişen yaşam koşullarının dile yans ıması
olarak yukarıda belirtilen etkilenmenin örneklerini göstermektedir.
XX. yüzy ılın ikinci yar ısından günümüze kadar gelen ve hâlen yo ğun bir
biçimde sürdürülmekte olan DD İ araştırmalarının ve makineli çeviriyle ba şlayan insan
dilini ve karmaşıklığını modelleme çalışmalarının bir yanı da basılı sözlüklerden yardım
almaya dayanmaktadır. Sözlük kullanıcısının insan olduğunun düşünüldüğü günlerden,
insanlar için haz ırlanmış sözlüklerin makinelerin “anlayabilece ği” biçimlere
dönüştürüldüğü günümüz çevrim içi ortamlar ının haz ırlandığı, sözlüklerin
malzemesininin tutulaca ğı veri tabanlar ını ve milyonlarca hatta milyar düzeyinde
gerçekleşmiş sözcüksel ortamlar ın nasıl hazırlanacağından, ne tür i şaretlemelere tabi
tutulacağına var ıncaya kadar yeni bir sözlük bilimi ara ştırma ve uygulama alan ının
doğmasına tan ık olunan günlere gelinmi ştir. Ku şkusuz, bilgisayar biliminin ve
donanımın gelişmesinin bunda başat rolü vardır.
Dil biliminin uygulamal ı bir alan ı olan derlem dil bilimi, hem dil bilimsel
kuramların oluşturulmasında hem de var olan kuramlar ın sınanmasını sağlayacak dil
verilerinin sayısallaştırılarak veri tabanlarının oluşturulmasını temel olarak konusu içine
almaktadır. Genel olarak derlem i şaretleme standartlar ının geli ştirilmesi yan ında,
sözlüğe kaynaklık edecek verilerin belirli standartlar çerçevesinde bir araya getirilmesi
de yine derlem dil biliminin konusudur. Bu kapsamda derlem dil bilimi, derlem tabanl ı
elektronik sözlüklerin hazırlanması çalışmalarıyla yeni sözlük biçimlerinin olu şmasına
da katkı sağlamaktadır.
Bu tez çal ışması kapsamında, derlem dil bilimi, günümüz sözlükçülük teknikleri
ve DD İ ara ştırmalarının genel hatlar ı ve uygulama alanlar ı örnek uygulamalarla
verilmeye çalışılmış, bilgisayar destekli sözlük biliminde kullan ılan ilişkisel veri tabanı
örneği 12 ciltten ve 4402 sayfadan oluşan Derleme Sözlüğü’ne uygulanmıştır. Sözlüğün
sorgulanabilirlik kapsam ının geni şletilmesi için 9 ayr ı tabloda 124.692 madde ba şı
iv
bilgisi bölümlenmiştir. Böylece sözlüğe dair her bir karakterden cümle düzeyine kadar
birimler, zaman s ınırı olmadan ula şılabilir duruma getirilmi ştir. Çal ışmada anlam
tablosundaki verinin sözcüksel yo ğunluğu dikkate al ınarak sıklığa dayal ı anahtar
kavram, eşdizimlilik örüntüleri ve derleme yeri sıklıkları da çıkarılmıştır.
Derleme Sözlü ğü Veri Tabanı Örneği’nin, Anadolu ağızlarının araştırılmasında
çeşitli kolaylıklar sağlayacağı düşünülmektedir. Bu veri taban ından hareketle; sözlük
hazırlama tekniklerinin çe şitleneceğini, ağızların söz varl ığının daha geni ş ağlarda
tutulduğu etkileşimli sözlük uygulamalarının hazırlanması aşamalarında bu çalışmanın
veri sağlamada önemli olduğunu düşünmekteyiz.
Çal ışma boyunca katkılarını esirgemeyen değerli hocam Prof. Dr. Şükrü Halûk
Akalın’a teşekkürü bir borç bilirim. Ayr ıca, çal ışmanın veri taban ının haz ırlanması
bölümünde görü şlerinden yaraland ığım Sinan Yalç ınkaya’ya, de ğerli arkada şlarım
Bülent Özkan ve Fatih Karaoğlan’a da teşekkürlerimi sunuyorum.
B. Tahir TAHİROĞLU
ADANA/2010
v
İÇİNDEKİLER
ÖZET............................................................................................................................. i
ABSTRACT ................................................................................................................. ii
ÖN SÖZ .......................................................................................................................iii
KISALTMALAR LİSTESİ ........................................................................................ vii i
TABLOLAR LİSTESİ ................................................................................................. ix
ŞEKİLLER LİSTESİ .................................................................................................... x
BİRİNCİ BÖLÜM
GİRİŞ ........................................................................................................................... 1
1.1.Amaç ve Kapsam................................................................................................. 1
1.2. Materyal ve Yöntem ........................................................................................... 1
1.3. Sözlük, Sözlük Bilimi ve Tarihçesi ..................................................................... 1
1.3.1. Sözlük Tekniği............................................................................................. 8
1.3.2. Sözlük Verisi ............................................................................................. 13
1.3.3. Terim Sözlükçülüğü ................................................................................... 15
1.3.4. İnternet Sözlükçülüğü ................................................................................ 17
1.4. Doğal Dil İşleme, Yöntem ve Uygulama Alanları ............................................. 38
1.4.1. Doğal Dil İşleme ve Bilgisayarlı Dil Bilimi Terimi .................................... 38
1.4.2. Doğal Dil İşlemede Yöntemler ................................................................... 40
1.4.2.1. Kural Tabanlı Yöntem ......................................................................... 40
1.4.2.2. İstatistiksel Yöntem............................................................................. 55
1.4.2.3. Melez Yöntem .................................................................................... 59
1.4.3. Doğal Dil İşlemede Uygulama Alanları ..................................................... 60
1.4.3.1. Belge Bölütleme ................................................................................. 60
1.4.3.2. Bilgiye Erişim ..................................................................................... 60
1.4.3.3. Bilgi Çıkarımı ..................................................................................... 62
1.4.3.4. Belge Sınıflama................................................................................... 64
0.4.3.5. Varlık Adı Tanıma .............................................................................. 67
1.4.3.6. Özetleme ............................................................................................. 70
0.4.3.7. Soru Yanıtlama ................................................................................... 73
1.5. Sözlük Biliminde Bilgisayarlı Yaklaşımlar ....................................................... 75
1.5.1. Bilgisayarlı Sözlük Bilimi ve Bilgisayar Destekli Sözlük Bilimi Terimleri . 75
vi
1.5.2. Sözlük Birimi Elde Etme ........................................................................... 75
1.5.2.1. Klasik Yöntemle Elde Etme ................................................................ 75
0.5.2.2. Derleme Dayalı Yöntemle Elde Etme .................................................. 76
0.5.3. Bağlamlı Dizinler ...................................................................................... 80
1.5.4. Sıklık Kavramı........................................................................................... 81
1.5.5. Otomatik Terim Çıkarımı ........................................................................... 84
1.5.6. Çok Anlamlılık Çözümlemesi .................................................................... 87
1.6. Derlem Dil Bilimi ............................................................................................. 90
1.6.1. Derlem Kavramı ........................................................................................ 90
1.6.2. Derlem Araştırmalarının Tarihçesi ............................................................. 92
1.6.3. Derlem Türleri ........................................................................................... 93
1.6.4. Başlıca Derlemler ...................................................................................... 94
1.6.5. Derlem Oluşturma Yöntemleri ................................................................... 97
1.6.6. Derlem ve İstatistiksel Çıkarım ................................................................ 100
1.6.7. İnternet Üzerinde Derlem Çalışmaları ...................................................... 102
1.6.8. Türkçe için Derlem Çalışmaları ............................................................... 107
1.7. Veri Tabanı .................................................................................................... 111
1.7.1. Veri, Enformasyon, Bilgi ve Veri Tabanı Kavramı ................................... 111
1.7.2. Dilsel Veri Tabanları ............................................................................... 115
İKİNCİ BÖLÜM
DERLEME SÖZLÜĞÜ VERİ TABANI MODELİ ................................................... 124
2.1. Hazırlama Yöntemi ve Kullanılan Teknoloji ................................................... 124
2.1.2. Veri Tabanı Yöntemi ............................................................................... 128
ÜÇÜNCÜ BÖLÜM
DERLEME SÖZLÜĞÜ VERİ TABANI SORGULAMA YÖNTEMİ ....................... 134
3.1. Madde Başında Sorgulama ............................................................................. 134
3.2. Anlam İçinde Sorgulama ................................................................................ 138
3.3. Kavram Sorgulaması ...................................................................................... 146
3.4. Derleme Yeri Sorgulaması .............................................................................. 159
DÖRDÜNCÜ BÖLÜM
DERLEME SÖZLÜĞÜ’NÜN SÖZLÜKSEL GÖRÜNÜMLERİ .............................. 169
4.1. Eşdizimlilik Görünümleri ............................................................................... 169
4.2. Anlam Tablosunda Anahtar Sözcük Görünümleri ........................................... 182
4.3. Anlam Tablosu Söz Sıklıkları ......................................................................... 189
vii
SONUÇ .................................................................................................................... 196
KAYNAKÇA ........................................................................................................... 198
ÖZ GEÇMİŞ ............................................................................................................. 207
EK- DERLEME SÖZLÜĞÜ VERİ TABANI YAZILIMI CD’Sİ
viii
KISALTMALAR LİSTESİ
BTS : Büyük Türkçe Sözlük
DDİ : Do ğal Dil İşleme
DS : Derleme Sözlü ğü
GTS : Güncel Türkçe Sözlük
MİS : Makinece İşlenir Sözlük
MOS : Makinece Okunur Sözlük
MUC : Message Understanding Conference
RSS : Rich Site Summary
SDM : Sonlu Durum Makinelerini
SGML : Standard Generalized Markup Language
VTYS : Veri Taban ı Yönetim Sistemi
VAT : Varl ık Adı Tanıma
XML : Extensible Markup Language
age. : Adı geçen eser
vb. : Ve benzeri
vd. : Ve di ğerleri
Description:Derleme Sözlüğü Veri Tabanı Örneği'nin, Anadolu ağızlarının araştırılmasında çeşitli kolaylıklar Kirkness'a göre sözlük, sözcük hakkında bir kitap ya da bir bankadır. (Kirkness, 2004: 59). Ansiklopedi GILMORE, W. Jason (2006), Beginning PHP and MySQL 5: From Novice to. Pr