STRESZCZENIE W wystapieniu porusze niektóre problemy językowe i techniczne, które utrudniały dokładną kwantyfikację frazeologii w porównywanych przeze mnie korpusach angielszczyzny nierodzimej i rodzimej. Zadania tego podjąłem sie w zwiazku z dysertacja doktorska ôSelected aspects of lexicon, phraseology and style in the writing of Polish advanced learners of English: A contrastive corpus-based approach (http://main.amu.edu.pl/~przemka/rsearch.html). W pracy tej szukałem potwierdzenia korelacji pomiędzy stopniem zaawansowania uzytkownika języka angielskiego a względną częstościa korzystania przez niego z frazeologii idiomatycznej (idiomów, kolokacji itp.), w oparciu o zawężoną grupę związków frazowych tworzonych przez sześć najczęstszych czasowników angielskich: BE, DO, HAVE, MAKE, TAKE oraz GIVE. Wyłoniły się dwie grupy problemów, które komplikowały, fałszowały lub wręcz uniemożliwiały uzyskiwanie wyników: a) problemy językowe - związane z jakością obrabianego tekstu (np. błędy językowe, bledne lub nieprzewidywalne warianty ortograficzne), jak i ze standardami kompilacji, czyli z zawsze aktualną kwestią reprezentatywności i porównywalności korpusów (np. niezrównoważenie tematyczne, błędne zaklasyfkowanie stopnia zaawansowania językowego reprezentowanego przez korpus) b) problem braku dostępnych narzędzi wspomagających oznaczanie tekstu (np. tagowanie semantyczne) c) centralny problem niewystarczalności narzędzi komputerowych stosowanych do oznaczania frazeologii: tagera (blędy w tagowaniu), konkordancera (niewystarczająca skladnia i mozliwosci edycji), statystycznych metod ekstrakcji związków łączliwych (zawodnosc testów MI, z-score, czy sposobów ekstrakcji najczestszych kombinacji wielowyrazowych) Powyzsze niedostatki przekladaja sie na wciaz niewielkie mozliwosci obrabiania statystycznie powaznej ilosci danych w jezykoznawstwie stosowanym. Ilościowe analizy konstrastywne korzystające z metod inżynieryjnej obróbki języka naturalnego (NLP) wymagają szczególnej dokładnosci badawczej: np. nie może byc mowy o zbyt liberalnej lub zbyt wąskiej kwantyfikacji (tzw. precision oraz recall). Zwlaszcza w przypadku badan nad jezykiem nierodzimym, mozliwosc korzystania z interaktywnej edycji oznaczania danych, i to na roznych poziomach, jest niezbedna dla osiagniecia wymaganego stopnia dokladnosci badania. O cechach tak zoptymalizowanego narzedzia - edytora/konkordancera - opowiem w ostatniej części wykładu.