
PRACOWNIA DYGITALIZACJI TEKSTÓW
I LINGWISTYKI
KWANTYTATYWNEJ

[aktualizacja – 1.10.2004]
Informacje

Zmiana nazwy pracowni
Dotychczasowa Pracownia Lingwistyki Informatycznej
stanie się Pracownią Dygitalizacji Tekstów i Lingwistyki Kwantytatywnej.
Nowa nazwa lepiej odpowiada profilowi naszej działalności. Oficjalna zmiana
nastąpi pod koniec 2004 r.

Projekty realizowane
Bibliografia polskiej lingwistyki kwantytatywnej
(
Tutaj!)
Wrocławski Korpus Tekstów – chronologiczny korpus
polszczyzny prasowej okresu PRL (w przygotowniu)
Elektroniczna wersja serii
Język a Kultura
(
Tutaj!)
Strona odsyłająca do zasobów korpusowych i leksykalnych
(
Tutaj!)
Elektroniczna wersja
Księgi wspomnień polonistyki
wrocławskiej (
Tutaj!)
Projekty planowane
Dygitalizacja bibliografii tematycznych (w ramach seminarium
z edytorstwa internetowego)
Dygitalizacja innych czasopism powiązanych z ośrodkiem
wrocławskim (Pamiętnik Literacki, Literatura Ludowa)
Przygotowanie wstępu do lingwistyki empirycznej
i kwantytatywnej
Badania ilościowej struktury pól leksykalnych
Doktoraty
Istnieje możliwość prowadzenia prac doktorskich
z lingwistyki statystycznej i kwantytatywnej. Ze względu na
wymagane kompetencje największe szanse mają kandydaci kończący studia filologiczne
i studiujący równolegle bądź w przeszłości dowolny kierunek o profilu matematycznym,
informatycznym, technicznym czy ekonomicznym. Do tego potrzebna jest jeszcze silna
motywacja i zainteresowanie tematyką interdyscyplinarną z pogranicza humanistyki
(lingwistyki) i dyscyplin ścisłych. Tematy rozpraw mogłyby dotyczyć:

ilościowych
praw językowych (tu dobrą podstawą jest praca
Statystyczne prawa językowe R. Hammerla i J. Sambor)

lingwistyki
korpusowej;

ilościowego
opisu polszczyzny (potrzebne wiadomości z opisówki, gramatyki, morfologii
i fonologii);

zastosowań
metod ilościowych w ustalaniu spornego autorstwa tekstów w języku polskim
(tzw.
problem atrybucji, a więc naukowe poszukiwanie odpowiedzi na pytanie
kto był prawdziwym autorem...)

zastosowań
metod analizy wielowymiarowej w językoznawstwie (wymagane solidne podstawy
statystyczne).

Przegląd wybranych zasobów lingwistycznych
[aktualizacja – 1.10.04]
ACL - Association for Computational Linguistics
- Doskonały początek poszukiwań z zakresu lingwistyki
formalnej oraz inżynierii językowej;
ACH - Association for Computers and
the Humanities
- "The Association for Computers and the Humanities is
an international professional organization. Since its establishment, it
has been the major professional society for people working in computer-aided
research in literature and language studies, history, philosophy, and other
humanities disciplines, and especially research involving the manipulation
and analysis of textual materials." Strona zawiera listy publikacji, projektów,
informacje o konferencjach (ALLC/ACH), materiały archiwalne etc.;
ALLC - Association of Literary and Linguistic
Computing
- Zawiera m.in. odsyłacze do bibliotek wirtualnych, dane o TEI
(Text Encoding Initiative) i projektach badawczych
(głównie w Wielkiej Brytanii);
ELRA - European Language Resources
Association
- Dotychczas ELRA zajmowała się dystrybucją zasobów tekstowych,
leksykalnych i terminologicznych w językach europejskich
(nie tylko komercyjnie);
ELSNET - European Network
of Excellence in Human Language Technologies
- Bardzo bogate zasoby obejmujące m.in. oprogramowanie
(także darmowe - patrz tools), listę projektów europejskich,
adresy specjalistów z zakresu NLP i wiele informacji na temat lingwistyki
formalnej i technologii informacyjnej w zastosowaniach (synteza/analiza mowy,
przekład automatyczny, szkolenia, konferencje, projekty, granty);
EAGLES - Expert
Advisory Group on Language Engineering Standards
- Grupa doradcza powołana z inicjatywy Komisji Europejskiej.
Jej celem jest tworzenie standardów w technologii informacji i inżynierii
językowej (np. przy tworzeniu wielkich korpusów);
IQLA - International
Quantitative Linguistics Association
- Międzynarodowe Stowarzyszenie Lingwistyki Kwantytatywnej.
"The purpose of the IQLA is to promote the development of all aspects of
quantitative linguistics and to stimulate world-wide communication of
scientists working in QL";
LSA - Linguistic Society
of America
- Szeroka panorama działalności Amerykańskiego Towarzystwa
Językoznawczego;
Human Language Technologies
- Obszerna strona zawierająca informacje o projektach i grantach
europejskich w zakresie inżynierii języka;
STG - Scholarly Technology Group
- Długa lista projektów z zakresu informatyki i humanistyki
(dygitalizacje tekstów, biblioteki elektroniczne, wspomaganie nauczania itd.),
realizowanych na uniwersytecie Browna ;
ACULAB
- Firma oferująca produkty z zakresu analizy mowy, interfejsy
komunikacyjne;
Scansoft (dawny Lernout & Hauspie)
- Firma oferująca produkty językowe - translatory, inteligentne
dyktafony i inne cuda techniki;
LTG - Language Technology Group
- Często zadawane pytania na temat technologii informacyjnej
i lingwistyki formalnej;
Instytut Podstaw Informatyki PAN, Warszawa
-
Strona poświęcona lingwistyce komputerowej w Polsce. Zawiera informacje
dotyczące lingwistyki informatycznej, przetwarzania języka naturalnego
oraz inżynierii lingwistycznej.
Uniwersytet
w Zurychu - Instytutu Lingwistyki Komputerowej
- Lista odnośników do narzędzi interaktywnych - taggerów,
lematyzerów, przekładu automatycznego, detektorów
języków (language guessers);
Uniwersytet
w Helsinkach, lingwistyka ogólna
- Strona w wersjach fińskiej i angielskiej;
Uniwersytet w Kolonii - automatyczna analiza języka
- Serwis lingwistyczny dostępny jest w trzech językach -
niemieckim, angielskim i hiszpańskim;
Uniwersytet w Stuttgarcie
- Lista odsyłaczy do różnych zasobów lingwistycznych;
Uniwersytet w Bonn, Instytut Komunikacji i Fonetyki
- Korpusy, teksty elektroniczne (m.in. dzieła Emanuela Kanta);
Uniwersytet w Uppsali
- Dziesiątki odsyłaczy do ciekawych zasobów lingwistycznych;
Instytut Lingwistyki Komputerowej w Pizie
- Jeden z najstarszych i najlepszych w Europie ośrodków
lingwistyki komputerowej. Strona WWW godna Leonarda...;
Anglistyka poznańska
- Zakład Lingwistyki Komputerowej. Dostępny korpus
on-line języka angielskiego;
Parlevink - Virtual Worlds
- Wszechstronny projekt z zakresu NLP i AI (m.in. systemy
dialogu, indeksowania wielojęzycznego, analizy obrazu, rzeczywistości
wirtualnej) realizowany na Uniwersytecie w Twente;
Strony Instytutu Filologii Polskiej U.Wr.
- Lista odsyłaczy do słowników, encyklopedii i korpusów
(głównie polskojęzycznych);
Lista Linguist
- Portal, bogate archiwum i zapewne największa świecie
lista lingwistyczna lista dyskusyjna;
SIL - Summer Institute of Linguistics
- Bardzo bogate zasoby lingwistyczne, szczególnie oprogramowanie
(poprzez odsyłacz computing);
TALANA-LATTICE - Traitement Automatique du Langage Naturel
- Lingwistyka informatyczna i formalna we Francji;
Linguistik Online
Philologie im Netz
Language of Learning and Technology
Journal of Quantitative Linguistics
Lexicometrica
Literary and Linguistic Computing
Korpusy, biblioteki wirtualne (wybór):
Strony Instytutu Filologii Polskiej U.Wr.
- Lista odsyłaczy do słowników, encyklopedii i korpusów;
ARTFL
- Bogate zasoby języka francuskiego, m.in. Wielka Encyklopedia
Francuska oraz Dictionnaire historique et critique. Niestety
wymagana jest subskrypcja;
British National Corpus
- Korpus języka angielskiego (próba stumilionowa). Umożliwia
ograniczone wyszukiwanie konkordancji. Pełny dostęp za opłatą;
COBUILD
- Korpus języka angielskiego. Warto zwrócić uwagę na program
liczący współczynnik t-score, który mierzy siłę
łączliwości leksemów;
The Oxford Text Archive
- Baza tekstów literackich, nie tylko w języku angielskim;
Strona Instytutu Podstaw Informatyki
PAN.
- Zawiera anotowany morfologicznie i
składniowo korpus polszczyzny;
Korpus PICLE
- Lingwistyka korpusowa (angielski) na stronie Przemka
Kaszubskiego z UAM, wyszukiwanie konkordancji;
iLoveLanguages - The Human-Languages Page
- Bardzo bogata lista odnośników do zasobów językowych o
charakterze komercyjnym, naukowym i edukacyjnym. Odsyłacze do
przekładu automatycznego on-line;
Bibliography of Quantitative Linguistics
- Witryna bibliografii lingwistyki kwantytatywnej opracowanej
przez R.Koehlera i Ch.Hoffmann z Uniwersytetu w Trewirze. To nie jest
ani korpus, ani bibliografia on-line. Można jedynie dodać nowe
adresy bibliograficzne;
WordNet (1)
- Sieć leksykalna WordNet (angielski);
WordNet (2)
- Sieć leksykalna WordNet (angielski, hiszpański, włoski);
CoreLex
- Projekt sieci semantycznej CoreLex dla języka angielskiego;
BABEL
- Wielojęzyczny, wielokulturowy magazyn sztuki i myśli twórczej.
Podkatalog Language Center zawiera odsyłacze do ok. 800 słowników różnych
języków świata;
Konferencje lingwistyczne
- Materiały konferencyjne.
Alfabet API
- Program ułatwiający posugiwanie się alfabetem API.
