Pengolahan bahasa alami

Ilustrasi uji Turing, salah satu karya yang dianggap sebagai peletak dasar NLP

Pengolahan bahasa alami (disingkat PBA; Inggris: natural language processing, disingkat NLP) adalah cabang ilmu komputer, linguistik, dan kecerdasan buatan yang mengkaji interaksi antara komputer dan bahasa (alami) manusia, khususnya cara memprogram komputer untuk mengolah data bahasa alami dalam jumlah besar. Hasilnya adalah komputer mampu "memahami" isi dokumen, termasuk nuansa bahasa di dalamnya. Dengan ini, komputer dapat dengan akurat mengambil informasi dan wawasan dari dokumen sekaligus mengelompokkan dan menata dokumen-dokumen itu sendiri.

Kajian NLP antara lain mencakup segmentasi wicara, segmentasi teks, penandaan kelas kata, dan pengawataksaan makna. Meski kajiannya dapat mencakup teks dan wicara, pengolahan wicara telah berkembang menjadi suatu bidang kajian terpisah.

Sejarah

Pengolahan bahasa alami berawal pada tahun 1950-an. Pada 1950, Alan Turing memublikasikan artikel yang berjudul "Computing Machinery and Intelligence" yang mengusulkan ujian yang sekarang dikenal sebagai uji Turing menjadi salah satu syarat kecerdasan.

Metode

Pada awal perkembangannya, banyak sistem pengolah bahasa didesain dengan metode simbolik, yaitu penyusunan aturan secara manual dengan kamus, misal penyusunan tata bahasa atau aturan heuristik untuk pemotongan kata.[1][2]

Sejak "revolusi statistik"[3][4] pada akhir 1980-an dan pertengahan 1990-an, banyak penelitian pengolahan bahasa alami bergantung pada pemelajaran mesin. Paradigma pemelajaran mesin ini memakai statistika inferensi untuk mempelajari tata bahasa secara otomatis dari sebuah korpus.

Lihat pula

Referensi

  1. ^ Winograd, Terry (1971). Procedures as a Representation for Data in a Computer Program for Understanding Natural Language (Tesis). http://hci.stanford.edu/winograd/shrdlu/. 
  2. ^ Schank, Roger C.; Abelson, Robert P. (1977). Scripts, Plans, Goals, and Understanding: An Inquiry Into Human Knowledge Structures. Hillsdale: Erlbaum. ISBN 0-4709-9033-3. 
  3. ^ Johnson, Mark (2009). "How the statistical revolution changes (computational) linguistics". Proceedings of the EACL 2009 Workshop on the Interaction between Linguistics and Computational Linguistics. 
  4. ^ Resnik, Philip (5 Februari 2011). "Four revolutions". Language Log. 

Bacaan lebih lanjut

Wikimedia Commons memiliki media mengenai Pengolahan bahasa alami.
  • iconPortal Bahasa
  • Bates, M. (1995). "Models of natural language understanding". Proceedings of the National Academy of Sciences of the United States of America. 92 (22): 9977–9982. doi:10.1073/pnas.92.22.9977. PMC 40721 alt=Dapat diakses gratis. PMID 7479812. 
  • Steven Bird, Ewan Klein, dan Edward Loper (2009). Natural Language Processing with Python. O'Reilly Media. ISBN 978-0-5965-1649-9. Pemeliharaan CS1: Menggunakan parameter penulis (link)
  • Daniel Jurafsky dan James H. Martin (2008). Speech and Language Processing (edisi ke-2). Pearson Prentice Hall. ISBN 978-0-1318-7321-6. Pemeliharaan CS1: Menggunakan parameter penulis (link)
  • Kurdi, Mohamed Zakaria (2016). Natural Language Processing and Computational Linguistics: speech, morphology, and syntax. 1. ISTE-Wiley. ISBN 978-1-8482-1848-2. 
  • Kurdi, Mohamed Zakaria (2017). Natural Language Processing and Computational Linguistics: semantics, discourse, and applications. 2. ISTE-Wiley. ISBN 978-1-8482-1921-2. 
  • Christopher D. Manning, Prabhakar Raghavan, dan Hinrich Schütze (2008). Introduction to Information Retrieval. Cambridge University Press. ISBN 978-0-5218-6571-5. Pemeliharaan CS1: Menggunakan parameter penulis (link) Tersedia pula versi HTML dan PDF resmi tanpa biaya.
  • Christopher D. Manning dan Hinrich Schütze (1999). Foundations of Statistical Natural Language Processing. The MIT Press. ISBN 978-0-2621-3360-9. Pemeliharaan CS1: Menggunakan parameter penulis (link)
  • David M. W. Powers dan Christopher C. R. Turk (1989). Machine Learning of Natural Language. Springer-Verlag. ISBN 978-0-3871-9557-5. Pemeliharaan CS1: Menggunakan parameter penulis (link)
  • l
  • b
  • s
Pengolahan bahasa alami
Istilah umum
Analisis teks
  • Collocation extraction
  • Concept mining
  • Coreference resolution
  • Deep linguistic processing
  • Distant reading
  • Information extraction
  • Named-entity recognition
  • Ontology learning
  • Parsing
  • Part-of-speech tagging
  • Semantic role labeling
  • Semantic similarity
  • Sentiment analysis
  • Terminology extraction
  • Text mining
  • Textual entailment
  • Truecasing
  • Word-sense disambiguation
  • Word-sense induction
Segmentasi teks
  • Compound-term processing
  • Lemmatisation
  • Lexical analysis
  • Text chunking
  • Stemming
  • Sentence segmentation
  • Word segmentation
Peringkasan otomatis
  • Multi-document summarization
  • Sentence extraction
  • Text simplification
Mesin penerjemah
Model Semantik distribusi
  • BERT
  • Document-term matrix
  • Explicit semantic analysis
  • fastText
  • GloVe
  • Language model
  • Latent semantic analysis
  • Seq2seq
  • Word embedding
  • Word2vec
Sumber bahasa,
datasets and corpora
Jenis dan
standar
  • Linguistik korpus
  • Sumber daya leksikal
  • Data Terbuka Bertautan Linguistik
  • Kamus yang dapat dibaca mesin
  • Teks paralel
  • PropBank
  • Jaringan semantik
  • Sistem Organisasi Pengetahuan Sederhana
  • Korpus ucapan
  • Korpus teks
  • Thesaurus (information retrieval)
  • Treebank
  • Ketergantungan Universal
Data
  • BabelNet
  • Bank of English
  • DBpedia
  • FrameNet
  • Google Ngram Viewer
  • UBY
  • WordNet
Identifikasi otomatis
dan pengambilan data
Model topik
  • Document classification
  • Latent Dirichlet allocation
  • Pachinko allocation
Peninjauan
dengan bantuan komputer
  • Automated essay scoring
  • Concordancer
  • Grammar checker
  • Predictive text
  • Penilaian pengucapan
  • Pemeriksa ejaan
  • Sintaks menebak
Bahasa alami
antarmuka pengguna
Related
  • Hallucination
  • Perangkat Bahasa Alami
  • spaCy
Pengawasan otoritas: Perpustakaan nasional Sunting ini di Wikidata
  • Amerika Serikat
  • Jepang
  • Republik Ceko