PRACOWNIA DYGITALIZACJI TEKSTÓW
I LINGWISTYKI KWANTYTATYWNEJ

[aktualizacja – 1.10.2004]


Informacje
 Zmiana nazwy pracowni
Dotychczasowa Pracownia Lingwistyki Informatycznej stanie się Pracownią Dygitalizacji Tekstów i Lingwistyki Kwantytatywnej. Nowa nazwa lepiej odpowiada profilowi naszej działalności. Oficjalna zmiana nastąpi pod koniec 2004 r.
 Projekty realizowane
Bibliografia polskiej lingwistyki kwantytatywnej (Tutaj!)
Wrocławski Korpus Tekstów – chronologiczny korpus polszczyzny prasowej okresu PRL (w przygotowniu)
Elektroniczna wersja serii Język a Kultura (Tutaj!)
Strona odsyłająca do zasobów korpusowych i leksykalnych (Tutaj!)
Elektroniczna wersja Księgi wspomnień polonistyki wrocławskiej (Tutaj!)
  Projekty planowane
Dygitalizacja bibliografii tematycznych (w ramach seminarium z edytorstwa internetowego)
Dygitalizacja innych czasopism powiązanych z ośrodkiem wrocławskim (Pamiętnik Literacki, Literatura Ludowa)
Przygotowanie wstępu do lingwistyki empirycznej i kwantytatywnej
Badania ilościowej struktury pól leksykalnych
  Doktoraty
Istnieje możliwość prowadzenia prac doktorskich z lingwistyki statystycznej i kwantytatywnej. Ze względu na wymagane kompetencje największe szanse mają kandydaci kończący studia filologiczne i studiujący równolegle bądź w przeszłości dowolny kierunek o profilu matematycznym, informatycznym, technicznym czy ekonomicznym. Do tego potrzebna jest jeszcze silna motywacja i zainteresowanie tematyką interdyscyplinarną z pogranicza humanistyki (lingwistyki) i dyscyplin ścisłych. Tematy rozpraw mogłyby dotyczyć:
 ilościowych praw językowych (tu dobrą podstawą jest praca Statystyczne prawa językowe R. Hammerla i J. Sambor)
 lingwistyki korpusowej;
 ilościowego opisu polszczyzny (potrzebne wiadomości z opisówki, gramatyki, morfologii i fonologii);
 zastosowań metod ilościowych w ustalaniu spornego autorstwa tekstów w języku polskim (tzw. problem atrybucji, a więc naukowe poszukiwanie odpowiedzi na pytanie kto był prawdziwym autorem...)
 zastosowań metod analizy wielowymiarowej w językoznawstwie (wymagane solidne podstawy statystyczne).
dr hab. Adam Pawłowski
Instytut Filologii Polskiej
Uniwersytet Wrocławski
pl. Nankiera 15
50-140 Wrocław  

 

Przegląd wybranych zasobów lingwistycznych
[aktualizacja – 1.10.04]

Stowarzyszenia Czasopisma Korpusy, biblioteki wirtualne Różne
Zespoły badawcze, firmy Zasoby uniwersyteckie Portale lingwistyczne  


Stowarzyszenia:
   ACL - Association for Computational Linguistics
Doskonały początek poszukiwań z zakresu lingwistyki formalnej oraz inżynierii językowej;

   ACH - Association for Computers and the Humanities
"The Association for Computers and the Humanities is an international professional organization. Since its establishment, it has been the major professional society for people working in computer-aided research in literature and language studies, history, philosophy, and other humanities disciplines, and especially research involving the manipulation and analysis of textual materials." Strona zawiera listy publikacji, projektów, informacje o konferencjach (ALLC/ACH), materiały archiwalne etc.;

   ALLC - Association of Literary and Linguistic Computing
Zawiera m.in. odsyłacze do bibliotek wirtualnych, dane o TEI (Text Encoding Initiative) i projektach badawczych (głównie w Wielkiej Brytanii);

   ELRA - European Language Resources Association
Dotychczas ELRA zajmowała się dystrybucją zasobów tekstowych, leksykalnych i terminologicznych w językach europejskich (nie tylko komercyjnie);

   ELSNET - European Network of Excellence in Human Language Technologies
Bardzo bogate zasoby obejmujące m.in. oprogramowanie (także darmowe - patrz tools), listę projektów europejskich, adresy specjalistów z zakresu NLP i wiele informacji na temat lingwistyki formalnej i technologii informacyjnej w zastosowaniach (synteza/analiza mowy, przekład automatyczny, szkolenia, konferencje, projekty, granty);

   EAGLES - Expert Advisory Group on Language Engineering Standards
Grupa doradcza powołana z inicjatywy Komisji Europejskiej. Jej celem jest tworzenie standardów w technologii informacji i inżynierii językowej (np. przy tworzeniu wielkich korpusów);

   IQLA - International Quantitative Linguistics Association
Międzynarodowe Stowarzyszenie Lingwistyki Kwantytatywnej. "The purpose of the IQLA is to promote the development of all aspects of quantitative linguistics and to stimulate world-wide communication of scientists working in QL";

   LSA - Linguistic Society of America
Szeroka panorama działalności Amerykańskiego Towarzystwa Językoznawczego;



Zespoły badawcze, firmy:
   Human Language Technologies
Obszerna strona zawierająca informacje o projektach i grantach europejskich w zakresie inżynierii języka;

   STG - Scholarly Technology Group
Długa lista projektów z zakresu informatyki i humanistyki (dygitalizacje tekstów, biblioteki elektroniczne, wspomaganie nauczania itd.), realizowanych na uniwersytecie Browna ;

   ACULAB
Firma oferująca produkty z zakresu analizy mowy, interfejsy komunikacyjne;

   Scansoft (dawny Lernout & Hauspie)
Firma oferująca produkty językowe - translatory, inteligentne dyktafony i inne cuda techniki;

   LTG - Language Technology Group
Często zadawane pytania na temat technologii informacyjnej i lingwistyki formalnej;



Zasoby uniwersyteckie:
   Instytut Podstaw Informatyki PAN, Warszawa
Strona poświęcona lingwistyce komputerowej w Polsce. Zawiera informacje dotyczące lingwistyki informatycznej, przetwarzania języka naturalnego oraz inżynierii lingwistycznej.

   Uniwersytet w Zurychu - Instytutu Lingwistyki Komputerowej
Lista odnośników do narzędzi interaktywnych - taggerów, lematyzerów, przekładu automatycznego, detektorów języków (language guessers);

   Uniwersytet w Helsinkach, lingwistyka ogólna
Strona w wersjach fińskiej i angielskiej;

   Uniwersytet w Kolonii - automatyczna analiza języka
Serwis lingwistyczny dostępny jest w trzech językach - niemieckim, angielskim i hiszpańskim;

   Uniwersytet w Stuttgarcie
Lista odsyłaczy do różnych zasobów lingwistycznych;

   Uniwersytet w Bonn, Instytut Komunikacji i Fonetyki
Korpusy, teksty elektroniczne (m.in. dzieła Emanuela Kanta);

   Uniwersytet w Uppsali
Dziesiątki odsyłaczy do ciekawych zasobów lingwistycznych;

   Instytut Lingwistyki Komputerowej w Pizie
Jeden z najstarszych i najlepszych w Europie ośrodków lingwistyki komputerowej. Strona WWW godna Leonarda...;

   Anglistyka poznańska
Zakład Lingwistyki Komputerowej. Dostępny korpus on-line języka angielskiego;

   Parlevink - Virtual Worlds
Wszechstronny projekt z zakresu NLP i AI (m.in. systemy dialogu, indeksowania wielojęzycznego, analizy obrazu, rzeczywistości wirtualnej) realizowany na Uniwersytecie w Twente;



Portale lingwistyczne:
   Strony Instytutu Filologii Polskiej U.Wr.
Lista odsyłaczy do słowników, encyklopedii i korpusów (głównie polskojęzycznych);

   Lista Linguist
Portal, bogate archiwum i zapewne największa świecie lista lingwistyczna lista dyskusyjna;

   SIL - Summer Institute of Linguistics
Bardzo bogate zasoby lingwistyczne, szczególnie oprogramowanie (poprzez odsyłacz computing);

   TALANA-LATTICE - Traitement Automatique du Langage Naturel
Lingwistyka informatyczna i formalna we Francji;



Czasopisma (wybór):
   Linguistik Online

   Philologie im Netz

   Language of Learning and Technology

   Journal of Quantitative Linguistics

   Lexicometrica

   Literary and Linguistic Computing



Korpusy, biblioteki wirtualne (wybór):
   Strony Instytutu Filologii Polskiej U.Wr.
Lista odsyłaczy do słowników, encyklopedii i korpusów;

   ARTFL
Bogate zasoby języka francuskiego, m.in. Wielka Encyklopedia Francuska oraz Dictionnaire historique et critique. Niestety wymagana jest subskrypcja;

   British National Corpus
Korpus języka angielskiego (próba stumilionowa). Umożliwia ograniczone wyszukiwanie konkordancji. Pełny dostęp za opłatą;

   COBUILD
Korpus języka angielskiego. Warto zwrócić uwagę na program liczący współczynnik t-score, który mierzy siłę łączliwości leksemów;

   The Oxford Text Archive
Baza tekstów literackich, nie tylko w języku angielskim;
   Strona Instytutu Podstaw Informatyki PAN.
Zawiera anotowany morfologicznie i składniowo korpus polszczyzny;

   Korpus PICLE
Lingwistyka korpusowa (angielski) na stronie Przemka Kaszubskiego z UAM, wyszukiwanie konkordancji;



Różne:
   iLoveLanguages - The Human-Languages Page
Bardzo bogata lista odnośników do zasobów językowych o charakterze komercyjnym, naukowym i edukacyjnym. Odsyłacze do przekładu automatycznego on-line;

   Bibliography of Quantitative Linguistics
Witryna bibliografii lingwistyki kwantytatywnej opracowanej przez R.Koehlera i Ch.Hoffmann z Uniwersytetu w Trewirze. To nie jest ani korpus, ani bibliografia on-line. Można jedynie dodać nowe adresy bibliograficzne;

   WordNet (1)
Sieć leksykalna WordNet (angielski);

   WordNet (2)
Sieć leksykalna WordNet (angielski, hiszpański, włoski);

   CoreLex
Projekt sieci semantycznej CoreLex dla języka angielskiego;

   BABEL
Wielojęzyczny, wielokulturowy magazyn sztuki i myśli twórczej. Podkatalog Language Center zawiera odsyłacze do ok. 800 słowników różnych języków świata;

   Konferencje lingwistyczne

Materiały konferencyjne.

   Alfabet API

Program ułatwiający posugiwanie się alfabetem API.