Archive for Haziran, 2014

Eş-Eğitim (Co-Training)


Yazan: Şadi Evren ŞEKER

Literatürde İngilizce olarak ortak eğitim veya ortak öğrenme olarak adlandırılır. Türkçe'de eş eğitim veya eş eğitim şeklinde eşdeğer bulmak mümkündür. Konsept temel olarak bir makine öğrenme algoritmasına ve genel olarak metin madenciliği ve daha spesifik olarak arama motoru yaygın olarak kullanılır.

algoritma

Algoritma yarı denetimli bir öğrenme tekniği kullanır ve çalışması için iki veri seti gerektirir. Bu iki veri seti ortaktan elde edildi. özellik çıkarma Genellikle en sık kullanılan durumdur. Başka bir deyişle, bu iki küme şartlı olarak bağımlıdır. Buradaki kritik nokta, her iki kümenin de istenen sonucu elde etmek için yeterli veri kümeleri olmasıdır. Yani, bir veri setinin tamamen bağlı olan iki veya iki sete ayrıldığı durumlarda ortak eğitim hakkında konuşmak yanlış olur.

Ortak eğitim algoritması ilk önce her iki set için ayrı ayrı makine öğrenme algoritmaları kullanır. Sonra her iki kümeden öğrenilen bilgilerin eşleşmesi başlar.

Bu aşağıdaki gibi görselleştirilebilir:

es_ogrenme

Yukarıda gösterildiği gibi, veri kümeleri üzerinde çalışan makine öğrenme algoritmalarını en üst düzeyde birleştirmek mümkündür. Bu sayede başarı oranının arttırılması hedeflenmektedir.

Kullanımı

Genel olarak ortak eğitim metin madenciliği ve arama motorlarının tasarımında. Örneğin, bir web sitesinin içeriğini bilmek istiyoruz. Bu web sayfasındaki metin içeriği veri kümesi olarak kullanılabilir ve web sayfasına ikinci veri seti olarak başvuran diğer sayfalardaki köprüleri kullanabilir. Bu durumda, iki ayrı veri setinde çalışan makine öğrenme algoritmaları (bu örnekte daha spesifik) metin madenciliği algoritmaları Belirli sonuçlar elde edildikten sonra, bu sonuçlar ortak bir makine öğrenme algoritmasıyla eşleştirilir.

Ortak Eğitim Türleri

Ortak eğitim için farklı yöntemler kullanılabilir. Bunlardan 3 tanesi aşağıda verilmiştir.

  1. Goldman ve Zhou yöntemi: Bu yöntemde, tüm özellik kümeleri iki farklı makine öğrenme algoritmasına verilir ve sonuçları karşılaştırılır.
  2. Zhou ve Li yöntemi: Bu yöntemde 3 farklı makine öğrenme algoritması kullanılmıştır. Bu algoritmalardan ikisinin bir çözüm üzerinde anlaşması durumunda, bu etiketlenir ve 3. algoritmaya öğretilir.
  3. Jafar Tanha ve diğ. Yöntem: Çatışma tabanlı ortak öğrenme. 2 makine öğrenme yöntemi bir uç ile bağdaştırılamazsa, 3. yöntem sonucu girer ve belirler.


Metin Madenciliği (Text Mining)


Yazan: Şadi Evren ŞEKER

Bu yazının hedefi, metin madenciliği (metin madenciliği) veya metin veri madenciliği (metin veri madenciliği) kavramını açıklamaktır.

En basit şekilde, metin madenciliği, metin çerçevesi, veri madenciliği (veri madenciliği) çalışmasıdır diğer bir tanımla. Kelimeleri metinlerin sınıflandırılması, bölütlenmesi (kümeleme), metinlerden konu çıkarılması (kavram / varlık çıkarma), sınıf taneciklerinin üretilmesi (tanecikli taksonomi üretimi), duygusal analiz (duygusal analiz), metin sınıflandırma (doküman özetleme), sınıflandırma modeli (varlık ilişkisi modellemesi) ) gibi planlama hedefler.

Uzak hedeflere ulaşılması için metin madenciliği enformasyon getirimi (bilgi alımı), hece analizi (sözlük analizi), kelime sıklığı dağılımı (Kelime gereksinimi dağılımı), örüntü tanıma (örüntü tanıma), etiketleme (etiketleme), enformasyon çıkarımı (bilgi çıkarma), veri madenciliği (veri madenciliği) ve hatta görselleştirme (görselleştirme) gibi yöntem kullanmaktadır.

Metin madenciliği çalışmaları, metin hazırlama literatürdeki diğer bir çalışma alanı olan doğal dil işleme Doğal dil işleme tesisleri daha çok yapay zeka tasarımı. Metin madenciliği yoluyla ulaşılır. Metin madenciliği ile ilgili şeyler.

Genel olarak klasik bir metin madenciliği çalışmasını sonraki şekilde özetleyebiliriz.

Metin_madenciligi_text_mining "width =" 491 "height =" 336 "srcset =" http://bilgisayarkavramlari.sadievrenseker.com/wp-content/uploads/2014/06/Metin_madenciligi_text_mining.png 491w, http://bilgencikseksek.com wp-content / uploads / 2014/06 / Metin_madenciligi_text_mining-300x205.png 300w, http://bilgisayarkavramlari.sadievrenseker.com/wp-content/uploads/2014/06/Metin_madenciligi_text_mining-150x102.png 150./tr. sadievrenseker.com/wp-content/uploads/2014/06/Metin_madenciligi_text_mining-60x41.png 60w "boyut =" (maksimum genişlik: 491px) 100vw, 491px "/></a></p>
<p>Temizlenebilmesi, görüldüğü yerlerde, bir metin veri tabanından verildi. Ardından çıkarılan işlevlerinde bir makine öğrenmesi algoritması çalışır (<a href=sınıflandırma (sınıflandırma), bölütleme (kümeleme), tahmin (tahmin) v.b.) ve neticede yapılandırılmış veri (yapılandırılmış veri) elde edilir.

Buradaki makine öğrenmesi aşamasında bir aradala birlikte, metin madenciliği için şartsız bir aşamadır. Bazılarında, doğrudan çıkarılan özellik aranan yapılandırılmış veri alınabilir. Bazı dillerde ise makine öğrenmesi adımı yerine, farklı dillerde.

Dilbilgisi, doğal kaynak, doğal kaynak. Yani bir gazetedeki köşe yazıları, bir kitap, bir makale olabilir. Hatta internet sayfası web siteleri saf metin kaynağı olarak görülebilir (bu konu daha özel olarak web madenciliği (web madenciliği) olarak da adlandırılır). Bu yazıların, metin madenciliği, birinci sınıf bir üst bilginin olması gerektiği konusudur. Onları yazının tarihi, yazının yayınlandığı web sitesi, yazar bilgisi gibi, yazının içerisinde yer alınız ancak yazı ile ilgili metin madenciliğinde kullandığınız başlıca üst bilgiler (meta data) orada.

Özellik çıkarımı (özellik çıkarımı) özelliği, metinlerin doğrudan içeriğini veya üst bilgisini kullanabiliyorken özellikten çıkarılabilir ve çıkarılan özelliklerinde ilerlemeyi tercih ediyor.

Örnek Metin Madenciliği uygulaması:

Kümesi elimizde 100 adet yazı olsun. Bu yazı yazan yazarları biliyor olalım (diyelim ki 5 farklı yazarın 20’şer adet yazısı olsun). Yeni gelen 101. Yazının bu 5 yazardan hangisine ait olduğu bulundu, klasik bir metin madenciliği uygulamasıdır ve literatürde yazar tanıma (yazar tanıma) olarak da geçer.

Burada örnek olarak metin içerisinde sözcük kullanma sıklığılarını özellik çıkarımı için kullanmak isteyelim. Yani yazarlarımızı kullandıklarımız kelime sıklıklarından tanıyabileceğimizi alıyoruz (yazar atıfları). Onun metinde ve başarısında yazar onun için ne kelimeyi ne bilgisayarda kullandığı bilgisi bizim özellik çıkarımı aşamamız oluyor.

Ardından kullanılan kelime sıklıklarını KNN algoritmasına 101. yazıyı yazdıran yazar ve tanıyalım istedik 101. Yazı için her kelime için en çok kullanan yazarları listeliyoruz. Neticede bize bir olası yazarlar listesi ve biz de en yüksek düzeyde hangi yazarın bu yazıyı yazmış olabileceğimizi söylüyoruz. 101. Yazıyı aç ve yapılandırılmış bir sonuç olarak kabul edilebilir.

Metin madenciliğinin çalışma ortamı:

Metin madenciliği bazı durumlarda sorunuyla ilgilenilir (bunlarla sınırlı değildi).

Enformasyon Getirimi (Bilgi Edinme): Bu aşamada gidilen külliyet (derlem, corpus) hakkında ön bilginin toplanan aşamadır. Web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri, web siteleri için

Doğal dil işleme aşaması (doğal dil işleme): Bu aşamada tüm metin madenciliği aşamalarında kullanılmasa safra bazı özelliklerin çıkarımı ve metinden bazı anlamsal yerlerde elde edildikten önce planlanmıştık. Onları, konuşma parçalarının etiketlenmesi (konuşma etiketinin bir kısmı) veya cümlebilimsel parçalama (sözdizimsel ayrıştırma) veya diğer dilbilimsel özellikler doğal dil işleme usulüyle yapılır.

Adlandırılmış konuşma tanıma Kirli metin işleme yönteminde bazı özelliklerin çıkarılması için kullanılır. Şablonu, metnin içerisindeki kişi isimleri, yer isimleri, semboller, kısaltmalar v.s. bu yöntemle bulunur. Metin madenciliği çalışmalarının her vakti temiz metinlerde yapılmadığını hatırlatmakta yarar vardır. Facebook, twitter menüsü, telefonlardan yollanan SMS göndermek gibi mesajların çoğunda yazım hataları hatta kısaltmalar vardır. Metin madenciliği bu ihtimallerin de göz önünde tutulması gereken çalışmalardır. Kelimesi “osmanbey” kelimesi, istanbulda bir semt ismi olabileceği gibi bir kişi ismi de olabilir. Adlandırılmış konuşma tanıma çalışmalarında, hedeflenen kelime gruplarının metin içerisinden çıkarılması, sayılması, yoğunluğunun olduğu, etiketlenmesi gibi yerlerde.

Örüntüsü tanımlı çatışmaların kavramı (örüntü tanımlanmış varlıklar): Bazı dillerde, metnin içerisinden özel seçenekler içeren metin madenciliğine konu olması mümkündür. E-posta adresleri, telefon numaraları, adresler, tarihler gibi bazı bilgiler özel olarak almak isteyebiliriz. Genelde bulayın düzenli ifadeler (normal ifadeler) Veya içerik bağımsız gramerler (bağlamsal gramerler) tanımlayan metin üzerinde çalıştırılır (1).

Eş Atıf (Çekirdek): Bir varlığa işaret eden (atıf eden) isim sözcüğü gruplarını ve diğer terimlerinizi / ayrılmasını hedefler.

İlişkiler, kural, olay çıkarımları: Çeşitli amaçlarla metnin içerisinden istenildiği takdirde çıkartılması istenebilir. Bilgisayarda doktora çalışmamasını, verilen bir metnin içerdiği olayları açarak sıralamak (olay siparişi) üzerine çalışmış, Türkçedeki fiil yapılarını, olay belirten kelime gruplarını, zaman kalıplarını ve bütün bu kelimeyi gruplandırmayı hedeflemişine odaklan.

Duygu analizi (duygusal analiz): Metinlerde geçen duygusal ifadelerin çıkarılmasıdır. Duygusal kutupsallıktır (duygusal kutupluluk). Buna göre bir konu hakkında geçen mesajların veya yazıların olumlu veya olumsuz olması buna göre iki ayrıfa ayrılması hedeflenir. Ancak duygu analizi bunun dışında, metin halindeki ruh hali, kanaat ve daha karmaşık duyguların çıkarılması üzerine de çalışmaktadır.

(1) Şadi Evren ŞEKER, “Kütüphane Ontolojisi Üzerine Türkçe Sorgu Motoru”, IKE12, İnternet Bilişim Mühendisliği, 2012, ISBN: 1-60132-222-4, Sayfa: 26-33

(2) Sadi Evren SEKER, Banu DIRI, Uluslararası Yapay Zeka Konferansı konferansı dahilinde, “Uluslararası Yapay Zeka Konferansı Bildirileri”, bildiri “TimeML ve Türk Zamansal Mantığı”, s. 881-887, ICAI 2010

(3) Sadi Evren SEKER, Khaled Al-NAAMI “Topluluk Sınıflandırıcısıyla Türk Bloglarında Duygusal Analiz”, 2013 ULUSLARARASI VERİ MADENCİLİK KONFERANSI'NIN BİLDİRİLERİ, ISBN: 1-60132-239-9, DMIN, s. 10-16, 2013


  • Copyright © 1996-2010 Bilgisayar Mühendisinin Notları. All rights reserved.
    iDream theme by Templates Next | Powered by WordPress