Um ein analoges Audiosignal zu digitalisieren misst ein Analog-Digital-Wandler (Konverter) ADC die Signalamplitude in regelmäßigen Zeitabständen. Die Anzahl der Messungen pro Sekunde bezeichnet man mit Abtastrate oder Sampling Rate. Je höher die Abtastrate, desto höhere Frequenzen kann das abgetastete Signal haben. Das Nyquist Theorem sagt dazu aus, dass die Abtastfrequenz mindestens doppelt so hoch sein muss, wie die höchste Frequenz des abzutastenden Nutzsignals.
Die Anzahl der Stufen, mit der ein einzelnes abgetastetes Signalstück, Sample (Probe) genannt, aufgelöst wird, bestimmt ebenfalls die Qualität des digitalisierten Signals. Die Auflösung eines analogen Signals in diskrete, zu digitalisierende Werte wird Quantisierung gennant.
Die folgende Grafik zeigt das Prinzip des Samplings. Zwei kritische Punkte bei diesem Vorgang sind hervorhgehoben:

Die für Digital Audio benötigten Datenmengen sind beträchtlich. Eine Stereo-CD benötigt pro Sekunde Musik rund 176 kByte Speicherplatz. Diese Zahl errechnet sich aus der
Abtastfrequenz des Signals * Signalauflösung in Byte * 2 Kanäle
44.000/s * 2 Byte * 2 = 176.000 Byte/s
Im Gegensatz zum Auge, das kaum mehr als 170 Helligkeitsstufen sauber voneinander zu trennen vermag, ist das Ohr sehr empfindlich. Eine grobe Auflösung von 8 bit wird als deutlicher Klirrfaktor wahrgenommen (man hört sozusagen die 'Treppenstufen' im digitalen Signal als unangenehme Oberwellen) und entspricht in etwa der Klangqualität eines digitalen Anrufbeantworters oder einer Uhr mit Zeitansage. Als praktikables Minimum haben sich 16 bit Auflösung erwiesen.
In der Praxis führt das zum Beispiel zu einer Abtastfrequenz von 44100 Hz mit 16 Bit Auflösung pro Sample für Audio-CDs, weil man Frequenzen bis 20.000 Hz ohne großen Klirrfaktor aufnehmen möchte. Wie aus der folgenden Grafik ersichtlich wird, ist die exakte Kurvenform bei hohen Frequenzen nicht mehr exakt aufzuzeichnen. Ebenso sind sehr leise Passagen immer noch relativ schlecht aufgelöst.
In der professionelen Tontechnik wird heute meistens mit 48.000 Hz Abtastrate und 24 Bit Auflösung gearbeitet. Die Tendenz geht im Moment zu 96.000 Hz und 24 Bit, bei der Bearbeitung des digitalen Signals mit Filteralgorithmen, Hall und so weiter wird auch mit größeren Auflösungen von 32 Bit, sogar bis zu 64 Bit gearbeitet. Diese hohen Quantisierungsraten werden benötigt, damit es beim Mischen von digitalen Datenströmen, bei denen technisch eine Addition der Signale stattfindet, nicht zum gefürchteten Clipping kommt.
Digital gespeicherte Audiodaten bieten wie ein Tonband die Möglichkeit, beliebige Musikstücke oder Sprache zu speichern. Aufgenommen wird über einen Eingang der Soundkarte (oder, bei Apple, des Computers). Einfache PC-Soundkarten bieten nur Mono-Aufnahmen in bescheidener Qualität, bessere Stereo bis hin zu CD-Qualität. Bei der Wiedergabe bieten heute selbst einfache Karten Stereoton bei akzeptabler Klangqualität. Die Audiodaten werden unter Windows in WAV-Dateien
, bei Apple in AIFF-Dateien
gespeichert. Je nach System kann nur eine Audiodatei zu einem Zeitpunkt abgespielt werden oder mehrere gleichzeitig, was zu einer Klangüberlagerung führt.
Wenn für eine Produktion selbst Aufnahmen gemacht werden sollen, genügt es in einfachen Fällen, einen Kommentar direkt mit einem Mikrofon und der eingebauten Soundkarte aufzunehmen. Bei Musikproduktionen steigt der Aufwand für gute Klangqualität schnell an. Eine gute Quelle für Musik sind GEMA- (Gebühren-) freie CD's. Es gibt auch Musik, Geräusch- und Effekte-CD-ROM's mit fertigen WAV-Dateien. Im Internet lassen sich ebenfalls viele tantiemenfreie Musik- und Geräuschclips finden.
Zur Bearbeitung von Audiodaten gibt es eine ganze Reihe von Nachbearbeitungsprogrammen, mit denen die Lautstärke geregelt, Überblendungen zwischen verschiedenen Klängen erzeugt oder Effekte wie Hall und Echo hinzugefügt werden können. Bekannte Vertreter sind Sound Forge, CoolEdit und die Freeware Audacity.

Um Speicherplatz zu sparen kann bei Multimedia-Anwendungen zunächst auf Stereo-Aufnahmen verzichtet werden. Für Kommentare reicht auch ein eingeschränkter Frequenzgang bis etwa 10 kHz aus (in etwa die Qualität eines Cassettenrecorders), die Sampling Rate halbiert sich dann auf 22.000 Hz. Als letztes Mittel, wenn es gar nicht anders geht, kann die Auflösung des Signals auf 8 Bit reduziert werden. Damit steigen allerdings Rauschpegel und Klirrfaktor des Signals erheblich an.
Es gibt auch Kompressionsverfahren für Audio-Daten, die im einfachsten Fall zum Beispiel Pausen im Signal per RLE komprimieren. Bevor diese zum Einsatz kommen, muss geklärt werden, ob die Zielplattformen (Windows oder Apple Mac) diese komprimierten Audio-Dateien auch wiedergeben können. Weit verbreitet ist MP3, entstanden aus einem Unterformat vom MPEG, einem standardisierten Audio- und Video-Datenformat. MP3 und ähnliche Verfahren sind verlustbehaftet und machen sich für die Kompression vor allem physiologische Eigenschaften des Ohrs zunutze, bestimmte leise Töne nicht mehr wahrzunehmen, wenn laute Töne ähnlicher Frequenz im Signal vorhandern sind. Diese Signale werden dann einfach aus dem Nutzsignal entfernt, was zu höherer Kompression führt. Bei starker Kompression sind aber Klangverfälschungen oder Artefakte wahrnehmbar. Der Vorteil von MP3 ist, daß es plattformübergreifend ist, wenig Speicherplatz benötigt und viele Multimedia-Anwendungen diese Dateien heute abspielen können.